A Samsung está superando as limitações dos benchmarks existentes para avaliar melhor a produtividade do mundo real dos modelos de IA em configurações corporativas. O novo sistema, desenvolvido pela Samsung Research e nomeado Truebench, visa abordar a crescente disparidade entre o desempenho teórico da IA e sua utilidade real no local de trabalho.
À medida que as empresas em todo o mundo aceleram sua adoção de grandes modelos de idiomas (LLMs) para melhorar suas operações, surgiu um desafio: como avaliar com precisão sua eficácia. Muitos benchmarks existentes se concentram nos testes de conhecimento acadêmico ou geral, geralmente limitados aos formatos de perguntas e respostas em inglês e simples. Isso criou uma lacuna que deixa as empresas sem um método confiável para avaliar como um modelo de IA terá desempenho em tarefas de negócios complexas, multilíngues e ricas em contexto.
O Truebench da Samsung, abreviação de referência de avaliação de uso do mundo real, foi desenvolvido para preencher esse vazio. Ele fornece um conjunto abrangente de métricas que avalia LLMs com base em cenários e tarefas diretamente relevantes para os ambientes corporativos do mundo real. O benchmark baseia -se no extenso uso interno de modelos da IA da Samsung, garantindo que os critérios de avaliação sejam fundamentados em demandas genuínas do local de trabalho.
A estrutura avalia funções corporativas comuns, como a criação de conteúdo, a análise de dados, resumindo documentos longos e traduzindo materiais. Estes são divididos em 10 categorias distintas e 46 subcategorias, fornecendo uma visão granular dos recursos de produtividade de uma IA.
“A Samsung Research traz profunda experiência e uma vantagem competitiva através de sua experiência com IA do mundo real”, disse Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e chefe da Samsung Research. “Esperamos que a TrueBench estabeleça padrões de avaliação para produtividade”.
Para abordar as limitações dos benchmarks mais antigos, a TrueBench é construída sobre uma base de 2.485 conjuntos de testes diversos, abrangendo 12 idiomas diferentes e suportando cenários cruzados. Essa abordagem multilíngue é fundamental para as empresas globais, onde as informações fluem em diferentes regiões. Os próprios materiais de teste refletem a variedade de solicitações no local de trabalho, desde breves instruções de apenas oito caracteres até a análise complexa de documentos que superiores a 20.000 caracteres.
A Samsung reconheceu que, em um contexto comercial real, a intenção total de um usuário nem sempre é explicitamente declarada em seu prompt inicial. Portanto, a referência é projetada para avaliar a capacidade de um modelo de IA de entender e atender a essas necessidades implícitas da empresa, indo além da simples precisão para uma medida mais sutil de ajuda e relevância.
Para conseguir isso, a Samsung Research desenvolveu um processo colaborativo único entre especialistas humanos e IA para criar os critérios de pontuação da produtividade. Inicialmente, os anotadores humanos estabelecem os padrões de avaliação para uma determinada tarefa. Uma IA analisa esses padrões, verificando possíveis erros, contradições internas ou restrições desnecessárias que podem não refletir uma expectativa realista do usuário. Após o feedback da IA, os anotadores humanos refinam os critérios. Esse loop iterativo garante que os padrões finais de avaliação sejam precisos e refletem um resultado de alta qualidade.
Esse processo verificado entre a transferência fornece um sistema de avaliação automatizado que obtém o desempenho do LLMS. Ao usar a IA para aplicar esses critérios refinados, o sistema minimiza o viés subjetivo que pode ocorrer com a pontuação somente para o ser humano, garantindo consistência e confiabilidade em todos os testes. A TrueBench também emprega um modelo de pontuação estrita, onde um modelo de IA deve satisfazer todas as condições associadas a um teste para receber uma marca de aprovação. Essa abordagem de tudo ou nada para condições individuais permite uma avaliação mais detalhada e exata do desempenho dos modelos de IA em diferentes tarefas corporativas.
Para aumentar a transparência e incentivar a adoção mais ampla, a Samsung disponibilizou publicamente as amostras de dados do TrueBench e as tabelas de classificação na plataforma global de código aberto, abraçando o rosto. Isso permite que desenvolvedores, pesquisadores e empresas comparem diretamente o desempenho da produtividade de até cinco modelos diferentes de IA simultaneamente. A plataforma fornece uma visão clara e clara de como vários AIS se comparam em tarefas práticas.
Até o escrito, aqui estão os 20 principais modelos por classificação geral com base no benchmark da AI da Samsung:
Os dados publicados completos também incluem o comprimento médio das respostas geradas pela IA. Isso permite uma comparação simultânea não apenas do desempenho, mas também da eficiência, uma consideração importante para as empresas que pesam custos e velocidade operacionais.
Com o lançamento do TrueBench, a Samsung não está apenas lançando outra ferramenta, mas pretende mudar como o setor pensa sobre o desempenho da IA. Ao mover as metas do conhecimento abstrato para a produtividade tangível, a referência da Samsung pode desempenhar um papel em ajudar as organizações a tomar melhores decisões sobre quais modelos de IA corporativa se integrarem em seus fluxos de trabalho e a preencher a lacuna entre o potencial de uma IA e seu valor comprovado.
Veja também: Dentro do plano da Huawei de fazer milhares de chips de IA pensarem como um computador
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente faz parte do TechEx e é co-localizado com outros eventos de tecnologia líder, clique aqui para obter mais informações.
A IA News é alimentada pela Techforge Media. Explore outros próximos eventos e webinars de tecnologia corporativa aqui.
Fontesartificialintelligence