O que é e como funciona o Voicebox da Meta?

Nova tecnologia permite criar falas do zero, bem como modificar amostras de áudio; seu uso público, porém, ainda não está disponível devido a preocupações com fraude

Por Isabella

A Meta anunciou, no mês passado, a criação do Voicebox, uma inteligência artificial voltada para a geração de fala. Segundo a empresa, essa tecnologia poderá ser utilizada no futuro para facilitar a edição de faixas de áudio, e até mesmo para capacitar pessoas a falarem qualquer idioma com sua própria voz.

Atualmente, o modelo e o código da Voicebox não estão disponíveis ao público devido a preocupações com possíveis riscos de mau uso. Mas se você quiser já começar a entender mais sobre essa tecnologia, continue lendo a seguir!

Uso e aplicação do Voicebox

Diferente de sistemas generativos de imagens e texto, o Voicebox cria clipes de áudio, podendo tanto gerar conteúdo do zero quanto modificar amostras de áudio. O modelo é capaz de sintetizar fala em seis idiomas diferentes, além de remover ruídos e editar conteúdo.

A lista completa de usos do Voicebox é:

Síntese de fala: usando uma amostra de voz de apenas dois segundos, o Voicebox pode imitar o estilo, timbre e tom dessa voz e fazê-la “ler” qualquer texto fornecido.

Edição de fala e redução de ruído: o Voicebox pode recriar a parte de uma fala que foi interrompida por ruídos ou substituir palavras mal pronunciadas, eliminando a necessidade de regravar todo o conteúdo.

Transferência de estilo entre idiomas: ao receber uma amostra de voz e um texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura desse texto em qualquer um desses idiomas, com a voz original fornecida.

Amostragem de fala diversificada: tendo aprendido com dados diversos, incluindo mais de 50 mil horas de audiobooks, o Voicebox tem a capacidade de gerar falas em diferentes tons e estilos, e gerar vozes altamente realistas nos seis idiomas citados anteriormente.

Inovações do Voicebox

Anteriormente, os modelos de IA generativa para fala exigiam treinamento específico para cada tarefa, utilizando conjuntos de dados de treinamento cuidadosamente preparados. No entanto, a Voicebox utiliza uma nova abordagem ao aprender apenas a partir de áudio bruto e sua transcrição correspondente.

Ela utiliza um método chamado Flow Matching, que proporciona melhorias significativas na conversão de texto para fala. Comparada aos modelos atuais, o Voicebox também é mais inteligível, com menor taxa de erro, e é até 20 vezes mais rápido.

É inclusive por conta desses avanços expressivos que a Meta decidiu limitar a disponibilidade do Voicebox por enquanto – afinal, essa tecnologia poderia ser utilizada para criar deepfakes com intenções maliciosas, por exemplo, e evitar isso demanda cautela e responsabilidade.

Conclusão

O Voicebox representa um avanço significativo na pesquisa de IA generativa para fala, trazendo uma série de capacidades inovadoras. Sua habilidade de aprender diretamente a partir de áudio bruto e generalizar tarefas além de seu treinamento inicial indica um horizonte vasto de possibilidades.

Embora o Voicebox não esteja disponível para uso público no momento, seu impacto na pesquisa em IA generativa para fala é considerável. Através dessa tecnologia pioneira, os limites do que é possível na geração de fala estão sendo constantemente desafiados e ultrapassados.

Este conteúdo faz parte da missão da Celeste de usar inteligência artificial para extrair dados e informações de arquivos de áudio e vídeo. Ainda não conhece a Celeste? Descubra agora nossas soluções: www.celeste-ai.com

Inscreva-se e receba as últimas novidades em IA diretamente no seu email!

Ao continuar você entende e aceita as condições de tratamento dos seus dados.