Quando a Synthesia foi lançada em 2017, seu principal objetivo era igualar as versões da IA de rostos humanos reais – por exemplo, o ex -jogador de futebol David Beckham – com vozes apelidadas falando em diferentes idiomas. Alguns anos depois, em 2020, começou a fornecer às empresas que se inscreveram em seus serviços a oportunidade de fazer vídeos de apresentação em nível profissional estrelados por versões de IA dos funcionários ou atores consentindo. Mas a tecnologia não era perfeita. Os movimentos corporais dos avatares podem ser espumosos e antinaturais, seus sotaques às vezes escorregavam e as emoções indicadas por suas vozes nem sempre combinam com suas expressões faciais.
Agora, os avatares da Synthesia foram atualizados com mais maneirismos e movimentos naturais, além de vozes expressivas que melhor preservam o sotaque do falante – tornando -os mais humanos do que nunca. Para os clientes corporativos da Synthesia, esses avatares proporcionarão apresentadores de resultados financeiros, comunicações internas ou vídeos de treinamento da equipe.
Achei o vídeo demonstrando meu avatar tão irritante quanto tecnicamente impressionante. É liso o suficiente para passar como uma gravação de alta definição de um discurso corporativo e se você não me conhecesse, provavelmente pensaria que é exatamente isso que era. Esta demonstração mostra o quanto é mais difícil distinguir o artificial do real. E em pouco tempo, esses avatares serão capazes de voltar conosco. Mas o quão melhor eles podem conseguir? E o que pode interagir com os clones de IA fazer conosco?
O processo de criação
Quando minha ex -colega Melissa visitou o estúdio de Londres da Synthesia para criar um avatar de si mesma no ano passado, ela teve que passar por um longo processo de calibrar o sistema, lendo um roteiro em diferentes estados emocionais e amadurecendo os sons necessários para ajudar seu avatar a formar vogais e consonantes. Enquanto estou na sala brilhante e iluminada 15 meses depois, fico aliviado ao saber que o processo de criação foi significativamente simplificado. Josh Baker-Mendoza, supervisor técnico da Synthesia, me incentiva a gesticular e mover minhas mãos como faria durante a conversa natural, enquanto simultaneamente me avisando para não me mover muito. Repito devidamente um script excessivamente brilhante, projetado para me incentivar a falar de maneira emocionante e com entusiasmo. O resultado é um pouco como se Steve Jobs tivesse sido ressuscitado como uma mulher britânica loira com uma voz baixa e monótona.
Ele também tem o efeito infeliz de me fazer parecer um funcionário da Synthesia. “Estou muito emocionado por estar com você hoje para mostrar o que estamos trabalhando. Estamos à beira da inovação, e as possibilidades são infinitas”, eu papoto ansiosamente, tentando parecer animado e não maníaco. “Então prepare -se para fazer parte de algo que fará você dizer ‘Uau!’ Esta oportunidade não é apenas grande – é monumental. ”
Apenas uma hora depois, a equipe tem todas as filmagens de que precisa. Algumas semanas depois, recebo dois avatares de mim mesmo: um alimentado pelo modelo Express-1 anterior e o outro feito com a mais recente tecnologia Express-2. As últimas afirmam que a Synthesia torna seus humanos sintéticos mais realistas e fiéis às pessoas em que estão modeladas, completas com gestos mais expressivos, movimentos faciais e fala. Você pode ver os resultados abaixo.
Cortesia Synthesia
No ano passado, Melissa descobriu que seu avatar expresso-1 não conseguiu combinar seu sotaque transatlântico. Sua gama de emoções também era limitada – quando ela pediu ao avatar que lesse um roteiro com raiva, parecia mais chorão do que furioso. Nos meses seguintes, a Synthesia melhorou o Express-1, mas a versão do meu avatar fez com a mesma tecnologia pisca furiosamente e ainda luta para sincronizar os movimentos do corpo com a fala.
Por outro lado, fico impressionado com o quanto meu novo avatar expresso-2 se parece comigo: suas características faciais refletem perfeitamente. Sua voz também é assustadora e, embora gesticule mais do que eu, seus movimentos das mãos geralmente se casam com o que estou dizendo.