

O avanço da Inteligência Artificial vem borrando cada vez mais a fronteira entre o real e o fake, o registro de um fato e a perfeita simulação: o novo modulador de voz da Microsoft foi apresentado recentemente com a capacidade de imitar precisamente qualquer voz humana a partir de uma simples gravação de apenas 3 segundos. Intitulado VALL-E, o mecanismo mantém as características originais da voz apresentadas no áudio, e é capaz de simular a voz dizendo perfeitamente uma nova frase.Em resumo, a tecnologia parte, por exemplo, de uma amostra dizendo uma simples frase de 3 segundos de duração, para criar uma frase inteiramente inédita com aquela mesmíssima voz. De acordo com a Microsoft, o segredo da novidade é trabalhar com a Inteligência Artificial não nas ondas sonoras, mas utilizando códigos de codec de áudio a partir de comandos de texto e acústicos. O trabalho utilizou 60 mil horas de gravação de mais de 7 mil falantes do LibriLight, arquivo composto por audiobooks.“O VALL-E oferece recursos de aprendizado e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação registrada de 3 segundos de um falante invisível como um prompt acústico”, diz a apresentação da empresa. “Os resultados da experiência mostram que o VALL-E supera significativamente o sistema TTS zero-shot de última geração em termos de naturalidade da fala e similaridade do locutor”, complementa a comunicação da Microsoft, que liberou algumas amostras do funcionamento da IA.-Ele terá de pagar R$ 5 bilhões por espalhar fake news sobre tiroteios nos EUA O desenvolvimento do VALL-E tem como objetivo a melhoria de ferramentas “text-to-speech” (texto para fala), capazes de transformar textos em discurso falado, para tornar mais natural a comunicação de apps como o Google Tradutor. A preocupação com o possível uso da tecnologia para o desenvolvimento de manipulações, falsificações e fakes, porém, fez com que a Microsoft decidisse por não deixar o código da novidade em aberto. ” Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E”, afirmou a empresa.Fonte: Hypeness