6 minute read
Cientistas usam IA para decifrar palavras e frases de exames cerebrais
from Pará+ 254
Uma interface cérebro-computador que decodifica a linguagem contínua de gravações não invasivas teria muitas aplicações científicas e práticas. Atualmente, no entanto, decodificadores de linguagem não invasivos só podem identificar estímulos entre um pequeno conjunto de palavras ou frases. Cientistas, apresentaram um decodificador não invasivo que reconstrói a linguagem contínua a partir de representações semânticas corticais registradas por ressonância magnética funcional (fMRI). Dadas novas gravações cerebrais, este decodificador gera sequências de palavras inteligíveis que recuperam o significado da fala percebida, da fala imaginada e até mesmo de vídeos silenciosos, demonstrando que um único decodificador pode ser aplicado a uma variedade de tarefas.
O decodificador foi testado em todo o córtex e descoberto que a linguagem contínua pode ser decodificada separadamente de várias regiões. Como as interfaces cérebro-computador devem respeitar a privacidade mental, foi testado se a decodificação bem-sucedida requer cooperação do sujeito e descoberto que a cooperação do sujeito é necessária tanto para treinar quanto para aplicar o decodificador. As descobertas demonstram a viabilidade de interfaces cérebro-computador de linguagem não invasiva.
O decodificador baseado em IA que pode traduzir a atividade cerebral em um fluxo contínuo de texto foi desenvolvido, em uma inovação que permite que os pensamentos de uma pessoa sejam lidos de forma não invasiva pela primeira vez.
O decodificador pode reconstruir a fala com incrível precisão enquanto as pessoas ouvem uma história – ou até mesmo silenciosamente imaginam uma – usando apenas dados de ressonância magnética funcional.Os sistemas de decodificação de linguagem anteriores exigiam implantes cirúrgicos, e o avanço mais recente levanta a perspectiva de novas maneiras de restaurar a fala em pacientes que lutam para se comunicar devido a um derrame ou doença do neurônio motor. Alexander Huth, um neurocientista que liderou o trabalho na Universidade do Texas em Austin, disse: “Ficamos meio chocados com o fato de funcionar tão bem.
Eu tenho trabalhado nisso por 15 anos… então foi chocante e emocionante quando finalmente funcionou”. A conquista supera uma limitação fundamental do fMRI, que é que, embora a técnica possa mapear a atividade cerebral para um local específico com resolução incrivelmente alta, há um intervalo de tempo inerente, que impossibilita o rastreamento da atividade em tempo real.
O atraso existe porque as varreduras de fMRI medem a resposta do fluxo sanguíneo à atividade cerebral, que atinge o pico e retorna à linha de base em cerca de 10 segundos, o que significa que mesmo o scanner mais poderoso não pode melhorar isso. “É um substituto barulhento e lento para a atividade neural”, disse Huth. Esse limite rígido prejudicou a capacidade de interpretar a atividade cerebral em resposta à fala natural porque fornece uma “mistura de informações” espalhada por alguns segundos. No entanto, o advento de grandes modelos de linguagem - o tipo de IA que sustenta o ChatGPT da OpenAI - forneceu uma nova maneira de entrar.
Esses modelos são capazes de representar, em números, o significado semântico da fala, permitindo que os cientistas observem quais padrões de atividade neuronal correspondia a sequências de palavras com um significado particular, em vez de tentar ler a atividade palavra por palavra. O processo de aprendizagem foi intensivo: três voluntários foram obrigados a ficar em um scanner por 16 horas cada, ouvindo podcasts.
O decodificador foi treinado para combinar a atividade cerebral com o significado usando um grande modelo de linguagem, GPT-1, um precursor do ChatGPT.
Mais tarde, os mesmos participantes foram escaneados ouvindo uma nova história ou imaginando contar uma história e o decodificador foi usado para gerar texto apenas a partir da atividade cerebral. Cerca de metade do tempo, o texto se aproximava – e às vezes precisamente – correspondia aos significados pretendidos das palavras originais. “Nosso sistema funciona no nível de ideias, semântica, significado”, disse Huth. “Esta é a razão pela qual o que divulgamos não são as palavras exatas, é a essência”. Por exemplo, quando um participante ouviu as palavras “Ainda não tenho carteira de motorista”, o decodificador as traduziu como “Ela ainda nem começou a aprender a dirigir”. Em outro caso, as palavras “Não sabia se gritava, chorava ou fugia. Em vez disso, eu disse: ‘Deixe-me em paz!’” foram decodificadas como “Começou a gritar e chorar, e então ela apenas disse: ‘Eu disse para você me deixar em paz”. Os participantes também foram solicitados a assistir a quatro vídeos curtos e silenciosos enquanto estavam no scanner, e o decodificador foi capaz de usar sua atividade cerebral para descrever com precisão parte do conteúdo. “Para um método não invasivo, este é um verdadeiro avanço em comparação com o que
Às vezes, o decodificador entendia o lado errado do bastão e lutava com certos aspectos da linguagem, incluindo pronomes. “Ele não sabe se é primeira pessoa ou terceira pessoa, homem ou mulher”, disse Huth. “Por que é ruim nisso, não sabemos”. O decodificador era personalizado e quando o modelo era testado em outra pessoa a leitura era ininteligível. Também foi possível para os participantes nos quais o decodificador foi treinado frustrar o sistema, por exemplo, pensando em animais ou imaginando silenciosamente outra história.
Jerry Tang, estudante de doutorado na Universidade do Texas em Austin e coautor, disse: “Levamos muito a sério as preocupações de que ele possa ser usado para propósitos ruins e trabalhamos para evitar isso. Queremos garantir que as pessoas usem esse tipo de tecnologia apenas quando quiserem e que isso as ajude”. Esta é uma descoberta não trivial e pode ser uma base para o desenvolvimento de interfaces cérebro-computador. A equipe agora espera avaliar se a técnica pode ser aplicada a outros sistemas de imagem cerebral mais portáteis, como a espectroscopia funcional de infravermelho próximo (fNIRS).