Source: Decrypt

Em resumo

  • Os pesquisadores de Oxford -Rola criaram o VCBench para testar se a IA pode prever o sucesso da startup.
  • GPT-4O, Deepseek-V3 e outros superaram o combinador Y e os principais VCs.
  • O estudo sugere que os LLMs podem se tornar poderosos ferramentas de investimento em estágio inicial.

O GPT-4 poderia ter visto o Airbnb em 2008-ou figma em 2012-antes que os profissionais tenham?

Um novo artigo de pesquisadores da Universidade de Oxford e Vela Research sugere que grandes modelos de idiomas já são melhores na escolha dos vencedores do que a maioria dos investidores em estágio inicial. Em um campo notório por correspondência de padrões e introduções quentes, a perspectiva de a IA surgirem os fundadores promissores mais cedo-sem conhecer seus nomes-poderia ser um divisor de águas.

Se modelos como o GPT-4O puderem melhorar modestamente as taxas de acertos, eles podem se tornar ferramentas essenciais na pilha de todas as empresas e até tornar a startup investir um pouco mais meritocrática.

O trabalho de pesquisa, “VCBench: Benchmarking LLMS em capital de risco”. Introduz o VCBench, o primeiro benchmark aberto projetado para testar se a IA pode prever o sucesso da inicialização antes que isso aconteça. A equipe construiu um conjunto de dados de 9.000 perfis de fundadores anonimizados, cada um emparelhado com dados da empresa em estágio inicial. Cerca de 810 perfis foram rotulados como “bem -sucedidos” – definidos como alcançando um grande marco de crescimento como uma saída ou IPO – dando os modelos um sinal escasso, mas significativo, para treinar.

Crucialmente, os pesquisadores limparam o conjunto de dados de nomes e identificadores diretos para que os modelos não pudessem memorizar trivialidades de Crunchbase. Eles até fizeram testes adversários para garantir que os LLMs não fossem trapaceiros, identificando os fundadores de dados públicos, reduzindo o risco de re-identificação em 92 %, preservando os recursos preditivos.

Quando posta à prova, os modelos se saíram melhor do que a maioria dos benchmarks humanos. O artigo observa que o “índice de mercado”-essencialmente o desempenho da linha de base de todas as apostas em VC em estágio inicial-atende apenas 1,9% de precisão ou um vencedor em 50 tentativas. Y Combinator faz melhor 3,2%, aproximadamente 1,7 vezes o mercado, e as empresas de VC de nível 1 atingiram cerca de 5,6%, dobrando aproximadamente isso novamente.

Os grandes modelos de linguagem, no entanto, explodiram por essa linha de base.

Por exemplo, Deepseek-V3 entregue mais de seis vezes a precisão do índice de mercado, enquanto GPT-4O Limpou a tabela de classificação com a maior pontuação F0.5, equilibrando precisão e recall. Claude 3,5 sonetos e Gêmeos 1.5 Pro Também venceu o mercado com facilidade, aterrissando no mesmo nível de desempenho que as empresas de Elite Venture.

Em outras palavras, quase todos os testados de Frontier LLM fizeram um trabalho melhor de identificar vencedores prováveis ​​do que o VC médio-e vários modelos correspondiam ou excederam o poder preditivo do combinador Y e fundos de primeira linha.

Os pesquisadores lançaram o VCBench como um recurso público em vcbench.comconvidando a comunidade a administrar seus próprios modelos e publicar resultados. Se a tabela de classificação se encher de LLMs superando o mercado, poderá remodelar o investimento em estágio inicial. Um mundo onde os fundadores são descobertos pelos agentes da IA ​​que arrasta o LinkedIn, em vez de parceiros emotores frios, pode não estar longe.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *