Os sistemas de inteligência artificial baseados em redes neurais artificiais fazem com que a neurociência se aproxime cada vez mais dessa tecnologia para tentar investigar e comparar máquinas e seres humanos.
Um estudo recente feito pelo renomado MIT lança uma luz sobre as diferenças entre como as máquinas e os humanos “veem” e “ouvem” o mundo ao seu redor. A investigação se aprofundou no universo enigmático das redes neurais profundas, também conhecidas como deep neural networks.
Embora esses modelos computacionais sejam capazes de identificar objetos de forma semelhante aos sistemas sensoriais humanos, a maneira como eles reconhecem e interpretam estímulos é diferente da nossa.
Ou será que os seres humanos são mais parecidos com máquinas do que pensamos? Clica aqui pra ler mais sobre o assunto!
Vamos começar pelo básico. O sistema sensorial humano é excepcionalmente bom em reconhecer objetos e perceber o mundo à nossa volta, seja uma voz nunca ouvida anteriormente ou um objeto visto de um ângulo diferente, nosso cérebro tem uma capacidade incrível de identificação.
E ao longo dos anos, para replicar essa habilidade humana, pesquisadores treinaram modelos computacionais chamados redes neurais profundas (deep neural networks), que à primeira vista, fazem um trabalho surpreendentemente bom, identificando imagens ou palavras independentemente de variações específicas, como a tonalidade da voz ou a cor de um objeto.
Mas o estudo do MIT descobriu um detalhe peculiar: Quando essas redes neurais são instruídas a gerar uma imagem ou palavra que interpretam da mesma maneira que um input específico (como uma foto de um urso), a grande maioria delas gera imagens ou sons que são praticamente irreconhecíveis para nós, humanos.
Isso nos leva a crer que esses modelos computacionais criam suas próprias “invariâncias idiossincráticas”. Este termo pode também ser entendido como “invariâncias particulares”, indicando, portanto, características constantes que são únicas ou específicas de um determinado modelo ou sistema, ou seja, formas únicas de perceber e interpretar estímulos.
Em termos mais simples, aplicado aos modelos de redes neurais artificiais (ou sintéticas), quer dizer que esses sistemas percebem certas imagens ou sons de maneira muito diferente de como nós humanos o faríamos.
Redes neurais computacionais desvendadas
Um conceito interessante trazido pela pesquisa é o dos “model metamers” (metâmeros do modelo, em tradução livre). Essa é uma ideia oriunda da pesquisa clássica da percepção.
Metâmeros referem-se a estímulos que são distintos em sua essência, mas que parecem idênticos sob certas condições ou para determinados sistemas de percepção. O termo é comumente usado no estudo da percepção de cores, onde diferentes combinações de comprimentos de onda de luz podem parecer a mesma cor para o olho humano, mesmo que sejam feitas de diferentes comprimentos de onda de luz. Em outras palavras, metâmeros são diferentes estímulos que produzem a mesma resposta perceptual em um sistema ou observador.
Ao aplicar esse conceito em suas redes neurais artificiais, os pesquisadores do MIT ficaram surpresos ao descobrir que a maioria das imagens e sons produzidos pelas redes não tinha semelhança com os exemplos originais fornecidos. Era como se a máquina visse um conjunto totalmente diferente de pixels ou ouvisse uma cacofonia de ruídos quando comparado ao nosso entendimento humano.
Quando essas imagens geradas foram apresentadas a observadores humanos, em muitos casos, nós não categorizamos as imagens da mesma forma que o modelo o fez. Ou seja, as imagens e sons criados pelas redes neurais sintéticas simplesmente não “faziam sentido” para o cérebro humano. Era evidente que a máquina tinha desenvolvido sua própria forma de “ver” e “ouvir”, diferentemente de nós.
E o que a inteligência artificial vê sobre nós, afinal? Já pensou sobre isso?
Invariâncias idiossincráticas e o futuro da IA
O mais interessante é que essa diferença de percepção não foi uniforme entre diferentes modelos de redes neurais. Cada modelo parecia desenvolver suas próprias invariâncias. O que um modelo de redes neurais “via” ou “ouvia” era tão estranho para outro modelo quanto para os humanos.
No entanto, os pesquisadores também descobriram uma abordagem que poderia tornar os estímulos gerados pelas redes neurais sintéticas mais reconhecíveis para nós: o treinamento adversarial (ou adversário).
Essa é uma técnica utilizada no campo da inteligência artificial e aprendizado de máquina, onde dois modelos são treinados simultaneamente: um gerador, que tenta produzir dados, e um discriminador, que tenta distinguir entre dados reais e os gerados pelo gerador. Durante o processo, o gerador busca constantemente melhorar sua capacidade de criar dados que pareçam autênticos, enquanto o discriminador aprimora sua habilidade de identificar os falsos. Esse “duelo” contínuo leva ambos os modelos a se aperfeiçoarem, tornando o gerador capaz de produzir dados cada vez mais convincentes e o discriminador mais apto a identificar as nuances mais sutis.
Essa técnica ajudou a tornar os estímulos gerados um pouco mais “humanos”, embora ainda não fossem idênticos aos originais.
Esta pesquisa é uma janela fascinante para o mundo da inteligência artificial e a maneira como ela “percebe” nosso mundo através das redes neurais.
Embora possamos estar avançando a passos largos na replicação de habilidades humanas em máquinas, ainda há muito a aprender sobre as sutilezas e complexidades do cérebro humano.
À medida que continuamos a treinar e desenvolver esses modelos que simulam os processos das redes neurais humanas, é essencial entender suas limitações e diferenças, para que possamos criar máquinas verdadeiramente inteligentes e compatíveis com a percepção humana.
Essa pesquisa não apenas nos oferece insights sobre as redes neurais, mas também reforça a maravilha e complexidade do cérebro humano, e parece que em um mundo onde máquinas têm um grande destaque, ainda somos, de muitas maneiras, insubstituíveis.