Nova IA da Meta permite tradução direto da fala, além da opção de texto. 100 idiomas para transcrever e traduzir

A Meta está surfando a onda da Inteligência Artificial a todo vapor, agora apostando na transcrição e tradução em impressionantes 100 idiomas. O modelo chamado SeamlessM4T, o mais novo projeto de Zuckerberg promete revolucionar a forma como vemos a linguagem. Não é mais preciso nem digitar o que você deseja traduzir, basta falar!

Em essência, o SeamlessM4T é um modelo de inteligência artificial desenvolvido pela Meta capaz de transcrever e traduzir quase 100 idiomas em texto e fala. É um salto significativo no campo da tradução alimentada por IA, de fala para fala e de fala para texto.

Quer testar essa nova tecnologia: É só clicar aqui!

E tem mais. O sistema está disponível como código aberto, o que significa que os aficionados por tecnologia de todo lugar podem experimentá-lo. O sistema vem acompanhado de um novo conjunto de dados de tradução chamado SeamlessAlign.

Embora o SeamlessM4T pareça revolucionário, a Meta já tem experiência nesse jogo. Eles tiveram modelos como ‘No Language Left Behind’ (um modelo de texto para texto) e ‘Universal Speech Translator’, que foi um dos raros modelos a suportar o idioma Hokkien. E eles também estão por trás do framework Massively Multilingual Speech, que já abrange mais de 1.100 idiomas.

Claro que essa corrida tem vários competidores. Gigantes como o Google estão na perseguição com seu Universal Speech Model. E temos outros players como Amazon, Microsoft e OpenAI moldando o futuro da tradução em IA. A Mozilla, por exemplo, liderou o Common Voice, uma das maiores coleções de vozes em vários idiomas para treinamento de algoritmos de reconhecimento automático de fala.

Para construir essa nova inteligência artificial, a Meta foi caçar dados por toda a web em busca de texto (estamos falando de dezenas de bilhões de frases) e conteúdo de áudio (cerca de 4 milhões de horas). Eles têm sido bem sigilosos sobre de onde exatamente obtiveram esses dados. E convenhamos, isso é algo bem comum quando o assunto é IA.

Porém, nem todos estão animados com a ideia de usar dados públicos para treinar modelos que podem ter implicações comerciais. Apesar dessas controvérsias, a Meta se manteve no propósito, alinhando 443.000 horas de fala com texto. Esse coquetel robusto de dados “ensinou” o SeamlessM4T a arte da transcrição, tradução e a até mesmo a geração de fala a partir do texto.

O que a Meta ainda não conseguiu superar

Embora o SeamlessM4T seja incrível, ele tem suas peculiaridades. Assim como seus predecessores, ele tem seus próprios vieses. Esse problema é algo que ainda não foi superado em tempos de inteligência artificial.

Uma grande questão tem sido sua tendência para traduções masculinas e em idiomas como o bengali e o quirguiz, o SeamlessM4T às vezes produz traduções que podem ser interpretadas como ofensivas ou inapropriadas, especialmente quando se referem ao status socioeconômico e cultura. Além disso, o modelo tende a apresentar um teor mais controverso em traduções relacionadas à orientação sexual e temas religiosos.

A Meta destacou que, na versão demonstrativa do SeamlessM4T para o público, foram incluídos filtros de toxicidade para identificar e corrigir possíveis conteúdos ofensivos tanto no input quanto no output. Porém, vale notar que na versão open-source do modelo, esse recurso não vem habilitado por padrão.

Olhando para o futuro, Juan Pino, cientista pesquisador da divisão de pesquisa de IA da Meta e colaborador do projeto, imagina um mundo onde as barreiras de comunicação são totalmente eliminadas, com uma visão de um modelo fundamental que desbloqueie novas capacidades de comunicação. “Esta abordagem de sistema único reduz erros e atrasos, aumentando a eficiência e a qualidade do processo de tradução, aproximando-nos de tornar a tradução perfeita possível”, disse Pino.

Fonte: TechCrunch