Inteligência artificial usa raciocínio humano para resolver problemas

Uma criança é presenteada com uma foto de várias formas e é solicitada a encontrar o grande círculo vermelho. Para chegar à resposta, ela passa por alguns passos de raciocínio: primeiro, encontre todas as grandes coisas, em seguida, encontre as grandes coisas que são vermelhas e finalmente, escolha a grande coisa vermelha que é um círculo.

Nós aprendemos através da razão como interpretar o mundo. O mesmo acontece com as redes neurais. Agora, uma equipe de pesquisadores do Intelligence and Decision Technologies Group do MIT Lincoln Laboratory desenvolveu uma rede neural que executa etapas de raciocínio semelhantes às humanas para responder a perguntas sobre o conteúdo das imagens. Chamado de Transparency by Design Network (TbD-net), o modelo processa visualmente seu processo de pensamento à medida que resolve problemas, permitindo que os analistas humanos interpretem seu processo de tomada de decisão. O modelo funciona melhor do que as melhores redes neurais de raciocínio visual.

Compreender como uma rede neural chega às suas decisões tem sido um desafio de longa data para os pesquisadores de inteligência artificial (IA). Como a parte neural de seu nome sugere, as redes neurais são sistemas de IA inspirados no cérebro, que pretendem replicar a maneira como os humanos aprendem. Eles consistem em camadas de entrada e saída e camadas intermediárias que transformam a entrada na saída correta. Algumas redes neurais profundas se tornaram tão complexas que é praticamente impossível acompanhar esse processo de transformação. É por isso que eles são referidos como sistemas de “caixa preta”, com seus acontecimentos exatos são um mistério até mesmo para os engenheiros que os constroem.

Com a TbD-net, os desenvolvedores pretendem tornar esses trabalhos internos transparentes. A transparência é importante porque permite que os humanos interpretem os resultados de uma IA.

É importante saber, por exemplo, o que exatamente uma rede neural usada em carros autônomos acha que a diferença é entre um sinal de pedestre e um sinal de parada e em que ponto da cadeia de raciocínio ela vê essa diferença. Essas percepções permitem que os pesquisadores ensinem a rede neural a corrigir quaisquer suposições incorretas. Mas os desenvolvedores da TbD-net dizem que as melhores redes neurais hoje carecem de um mecanismo efetivo para permitir que os humanos entendam seu processo de raciocínio.

“O progresso na melhoria do desempenho no raciocínio visual veio à custa da interpretabilidade”, diz Ryan Soklaski, que construiu o TbD-net com os colegas pesquisadores Arjun Majumdar, David Mascharka e Philip Tran.

O grupo do Lincoln Laboratory foi capaz de fechar a lacuna entre desempenho e interpretabilidade com a TbD-net. Uma chave para o seu sistema é uma coleção de “módulos”, pequenas redes neurais especializadas para executar subtarefas específicas. Quando a TbD-net faz uma pergunta de raciocínio visual sobre uma imagem, ela divide a questão em subtarefas e designa o módulo apropriado para cumprir sua parte. Como os trabalhadores em uma linha de montagem, cada módulo constrói o que o módulo antes de ter descoberto para produzir a resposta final correta. Como um todo, a TbD-net utiliza uma técnica de IA que interpreta as questões da linguagem humana e divide essas sentenças em subtarefas, seguida por várias técnicas de IA de visão computacional que interpretam as imagens.

Majumdar diz: “Quebrar uma cadeia complexa de raciocínio em uma série de subproblemas menores, cada um dos quais pode ser resolvido de forma independente e composta, é um meio poderoso e intuitivo de raciocínio.”

A saída de cada módulo é representada visualmente no que o grupo chama de “máscara de atenção”. A máscara de atenção mostra manchas no mapa de calor sobre os objetos na imagem que o módulo está identificando como sua resposta. Essas visualizações permitem que o analista humano veja como um módulo está interpretando a imagem.

Veja, por exemplo, a seguinte pergunta feita à TbD-net: “Nesta imagem, que cor é o grande cubo de metal?” Para responder a pergunta, o primeiro módulo localiza apenas objetos grandes, produzindo uma máscara de atenção com esses objetos grandes destacados. O próximo módulo pega essa saída e descobre quais desses objetos identificados como grandes pelo módulo anterior também são de metal. A saída desse módulo é enviada para o próximo módulo, que identifica quais desses grandes objetos de metal também são um cubo. Por fim, esta saída é enviada para um módulo que pode determinar a cor dos objetos. A saída final da TbD-net é “vermelha”, a resposta correta para a pergunta.

Quando testada, a TbD-net alcançou resultados que superam os modelos de raciocínio visual de melhor desempenho. Os pesquisadores avaliaram o modelo usando um conjunto de dados de perguntas e respostas que consistia em 70.000 imagens de treinamento e 700.000 perguntas, juntamente com conjuntos de teste e validação de 15.000 imagens e 150.000 perguntas. O modelo inicial alcançou 98,7% de precisão no teste de dados, o que, segundo os pesquisadores, supera de longe outras abordagens baseadas em redes de módulos neurais.

É importante ressaltar que os pesquisadores conseguiram melhorar esses resultados devido à principal vantagem do modelo – a transparência. Ao olhar para as máscaras de atenção produzidas pelos módulos, eles puderam ver onde as coisas deram errado e refinar o modelo. O resultado final foi um desempenho de ponta com 99,1% de precisão.

“Nosso modelo fornece resultados diretos e interpretáveis ​​em todas as etapas do processo de raciocínio visual”, diz Mascharka.

A interpretação é especialmente valiosa para que algoritmos de deep learning sejam implantados junto com humanos para ajudar a lidar com tarefas complexas do mundo real. Para criar confiança nesses sistemas, os usuários precisarão da capacidade de inspecionar o processo de raciocínio para que possam entender por que e como um modelo poderia fazer previsões erradas.

Paul Metzger, líder do Intelligence and Decision Technologies Group, diz que a pesquisa “é parte do trabalho da Lincoln Laboratory em se tornar líder mundial em pesquisa de machine learning aplicada e inteligência artificial que promove a colaboração homem-máquina”.

Fonte: Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoningarxiv.org/abs/1803.05268

[Total: 0    Média: 0/5]

Deixe um comentário