Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

Emoções identificadas por IA só pela voz, com desempenho similar ao do humano

A capacidade de reconhecer emoções na voz humana sempre foi considerada uma habilidade exclusivamente humana, uma marca de nossa complexa inteligência emocional e social. Mas, e se as máquinas pudessem nos igualar nessa capacidade?

Em um estudo recente publicado na revista Frontiers in Psychology, pesquisadores na Alemanha demonstraram que modelos de aprendizado de máquina (Machine Learning – ML), especificamente redes neurais profundas (Deep Neural Networks – DNNs) e um modelo híbrido (C-DNN), conseguem identificar emoções em clipes de áudio com precisão comparável à dos humanos, sugerindo um novo horizonte de possibilidades onde a tecnologia pode interpretar e responder a nuances emocionais em tempo real, revolucionando campos como a terapia e as tecnologias de comunicação.

O estudo focou em clipes de áudio de 1,5 segundo de duração, contendo frases sem sentido para evitar a influência do conteúdo verbal na percepção das emoções. Essa abordagem permitiu que os pesquisadores isolassem as características puramente vocais — como o tom, a intensidade e a cadência da fala — que transmitem emoção. As emoções analisadas incluíram alegria, raiva, tristeza, medo, nojo e neutralidade, abrangendo um amplo espectro de estados emocionais.

Machine learning para detectar emoções

A escolha de clipes tão curtos baseou-se na constatação de que esse é o tempo mínimo necessário para humanos e máquinas detectarem emoções na fala sem confusão entre elas, o que desafia a percepção comum de que a detecção de emoções exige uma análise contextual prolongada, demonstrando que, tanto para humanos quanto para máquinas, sutilezas vocais breves são suficientes para identificar como alguém está se sentindo.

A metodologia do estudo envolveu o uso de 1.510 amostras de áudio exclusivas de dois bancos de dados em alemão e inglês para treinar os três tipos de modelos de machine learning (ML) utilizados no experimento: DNNs (Deep Neural Networks ou, em português, Redes Neurais Profundas), que funcionam como filtros complexos analisando componentes do som, proporcionando uma análise geral; redes neurais convolucionais (CNNs, do inglês, Convolutional Neural Networks), que buscam padrões na representação visual, – o espectrograma – , das trilhas sonoras; e o modelo híbrido C-DNN, que combina as duas técnicas. Este último, em particular, mostrou-se especialmente eficaz, superando os outros modelos ao utilizar tanto o áudio quanto seu espectrograma visual para prever emoções

A precisão com que esses modelos identificaram as emoções foi comparada à de humanos não treinados, servindo como um ponto de referência para avaliar a eficácia da tecnologia. O resultado foi surpreendentemente equilibrado, indicando que as máquinas podem, de fato, captar padrões emocionais na voz tão bem quanto nós.

Com as máquinas se aproximando das nossas capacidades humanas… E se Turing, tão mencionado no cenário da IA, pudesse nos dar um conselho para não sermos superados? Clica aqui e vem ver essa ideia!

Analisando emoções no futuro

Os resultados desse estudo expandem nossa compreensão sobre a capacidade das máquinas de reconhecer emoções humanas, e isso pode acarretar em muitas aplicações práticas que poderiam transformar muitos aspectos da vida cotidiana. Imagine dispositivos capazes de fornecer feedback emocional imediato, ajudando terapeutas a entender melhor seus pacientes ou facilitando uma comunicação mais rica e empática através da tecnologia. O potencial para criar sistemas que podem interpretar sinais emocionais e reagir a eles de maneira intuitiva promete avanços significativos em várias áreas que dependem de uma compreensão sutil do contexto emocional.

Por outro lado, apesar do otimismo gerado por essas descobertas, os pesquisadores foram claros e responsáveis ao apontar algumas limitações do estudo. O uso de frases faladas por atores, por exemplo, pode não capturar toda a gama de emoções espontâneas que ocorrem na comunicação natural. Além disso, a pesquisa sugeriu a necessidade de explorar mais a fundo a duração dos clipes de áudio, para determinar o intervalo ótimo que permitiria a máxima precisão na detecção de emoções.

As implicações de sistemas sintéticos poderem reconhecer emoções de forma muito próxima à dos humanos, tendem a ser significativas para o desenvolvimento da inteligência artificial e da interação humano-máquina. Quem sabe até não nos façam entender melhor as manifestações das emoções do outro, de uma forma mais empática.


Fonte: Neuroscience News

Futuro Relativo

Futuro Relativo

Um espaço de divulgação, de diálogo, de pensar e porque não dizer, de construir o futuro 🪐
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

Categorias