O SoundHound AI, já um grande jogador de assistentes de voz, agora está dando à sua tecnologia um par de olhos.
Imagine passar por um marco e, sem retirar o telefone, perguntando ao seu carro: “O que é esse prédio por lá?” e obter uma resposta instantânea. É isso que o Soundhound AI está construindo.
Com o lançamento da Vision AI, o novo sistema da SoundHound combina visão com som para criar uma maneira muito mais inteligente e natural de interagir com a tecnologia. A idéia é imitar como nós, como humanos, operamos; Não apenas ouvimos alguém, também vemos seus gestos e o que eles estão olhando.
Ao trazer esse mesmo entendimento contextual à IA, a SoundHound espera suavizar sobre a experiência desajeitada e muitas vezes frustrante que temos com muitos dos dispositivos inteligentes de hoje. A empresa está visando aplicativos do mundo real, onde esse sentido combinado pode fazer uma enorme diferença, seja no seu próximo carro, no restaurante drive-thru ou em um piso de fábrica.
Keyvan Mohajer, CEO da Soundhound AI, disse: “Na Soundhound, acreditamos que o futuro da IA não é apenas multimodal-é profundamente integrado, responsivo e construído para o impacto do mundo real.
“Com a Vision AI, estamos estendendo nossa liderança em voz e IA conversacional para redefinir como os humanos interagem com produtos e serviços oferecidos e usados por empresas”.
Então, como funciona? A Vision Ai pega um feed ao vivo de uma câmera e a funde com a tecnologia de voz da empresa, que já se destaca em entender o discurso natural. Ao processar o que vê e o que ouve exatamente ao mesmo tempo, o sistema pode entender a verdadeira intenção do usuário de uma maneira que um simples assistente de voz nunca poderia.
Pense em um mecânico usando óculos inteligentes que podem simplesmente olhar para uma peça do motor e pedir instruções, recebendo orientação visual e de áudio instantânea sem nunca colocar suas ferramentas. Em uma loja, um membro da equipe pode digitalizar prateleiras apenas olhando para elas para obter uma contagem de inventário em tempo real. Para o resto de nós, pode significar um quiosque drive-thru que confirma visualmente nosso pedido na tela no momento em que dizemos.
Um dos maiores problemas técnicos na criação desse sistema é garantir que os elementos de áudio e visual sejam perfeitamente sincronizados. Qualquer atraso quebraria a ilusão de uma conversa natural.
Pranav Singh, vice -presidente de engenharia da Soundhound AI, comentou: “Com a Vision AI, estamos fundindo o reconhecimento visual e a inteligência de conversação em um único fluxo sincronizado. Todo quadro, todo enunciado, todas as intenções são interpretadas dentro do mesmo ecossistema – que se desviaram mais fas das usuários naturais que escalam as superfícies de Kiossks a Kiossks a Kiossys para o embutido de incorporação.
“Isso é inovação na interseção de inteligência e execução, entregando a IA que vê o que você vê, ouve o que diz e responde no momento”.
Para as empresas que adotam essa tecnologia, a promessa é fornecer um serviço mais rápido, menos erros e clientes mais felizes. Trata -se de remover o atrito e fazer com que a tecnologia pareça menos uma ferramenta que você precisa operar e mais como um parceiro que o ajuda a fazer as coisas.
Esse novo recurso visual não é o único som de atualização está sendo lançado. A empresa também melhorou recentemente o “cérebro” de seu sistema com uma nova atualização, Amelia 7.1. Esse aprimoramento torna seus agentes de IA mais rápidos, mais precisos e oferecem às empresas mais controle e transparência sobre como elas funcionam.
Ao combinar visão e som, o SoundHound pretende nos aproximar de um mundo onde interagir com a IA parece tão fácil e intuitivo quanto conversar com outra pessoa.
(Foto de Christian Lue)
Veja também: Alan Turing Institute: Humanities são a chave para o futuro da IA
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.
Fontesartificialintelligence