Aprendizagem Profunda ou Deep Learning: saiba mais sobre essa tecnologia

Com enormes quantidades de poder computacional, as máquinas podem agora reconhecer objetos e traduzir a fala em tempo real. A inteligência artificial está finalmente ficando inteligente. Chegou a era da aprendizagem profunda ou também conhecida como deep learning.

Quando Ray Kurzweil se reuniu com o CEO do Google, Larry Page, em julho passado, ele não estava procurando emprego. Um respeitado inventor que se tornou um futurista de inteligência de máquina, Kurzweil queria discutir seu próximo livro: “Como criar uma mente”.

Ele disse a Page, que havia lido um rascunho inicial, que queria iniciar uma empresa para desenvolver suas ideias sobre como construir um computador realmente inteligente: um que pudesse entender a linguagem e depois fazer inferências e decisões por conta própria.

Tornou-se rapidamente óbvio que tal esforço exigiria nada menos que os dados em escala do Google e o poder de computação. “Eu poderia tentar dar-lhe algum acesso a ele”, disse Page ao Kurzweil. “Mas será muito difícil fazer isso para uma empresa independente.” Assim, Page sugeriu que Kurzweil, que nunca tinha tido um emprego em qualquer lugar a não ser suas próprias empresas, se juntasse ao Google. Não demorou muito para que Kurzweil decidisse: em janeiro, ele começou a trabalhar para o Google como diretor de engenharia. “Este é o culminar de literalmente 50 anos do meu foco na inteligência artificial”, diz ele.

O Kurzweil foi atraído não apenas pelos recursos computacionais do Google, mas também pelo progresso surpreendente que a empresa fez em um ramo da IA ​​chamado deep learning.

O software de aprendizagem profunda tenta imitar a atividade em camadas de neurônios no neocórtex. O software aprende, num sentido muito real, a reconhecer padrões nas representações digitais de sons, imagens e outros dados.
A ideia básica – de que o software pode simular a grande quantidade de neurônios do neocórtex em uma “rede neural” artificial – tem décadas e levou a tantas decepções quanto as descobertas. Mas por causa de melhorias nas fórmulas matemáticas e computadores cada vez mais poderosos, os cientistas da computação podem agora modelar muito mais camadas de neurônios virtuais do que nunca.

Com essa maior profundidade, eles estão produzindo avanços notáveis ​​em reconhecimento de fala e imagem. Em junho passado, um sistema de deep learning do Google que exibia 10 milhões de imagens de vídeos do YouTube mostrou quase o dobro do desempenho de reconhecimento de imagem anterior na identificação de objetos, como gatos. O Google também usou a tecnologia para reduzir a taxa de erro no reconhecimento de voz em seu mais recente software para dispositivos móveis Android. Em outubro, o diretor de pesquisa da Microsoft, Rick Rashid, impressionou os participantes em uma palestra na China com uma demonstração de software de fala que transcreveu suas palavras faladas em texto em inglês com uma taxa de erro de 7%, traduziu para texto em chinês e simulou própria voz proferindo-os em mandarim. No mesmo mês, uma equipe de três estudantes de pós-graduação e dois professores venceram um concurso da Merck para identificar moléculas que poderiam levar a novos medicamentos. O grupo usou a aprendizagem profunda para concentrar-se nas moléculas com maior probabilidade de se ligar aos seus alvos.

O Google, em particular, tornou-se um ímã para deep learning e talentos relacionados à IA. Em março, a empresa comprou uma startup co-fundada por Geoffrey Hinton, um professor de ciência da computação da Universidade de Toronto que fez parte da equipe que venceu o concurso da Merck. Hinton, que dividirá seu tempo entre a universidade e o Google, diz que planeja “tirar idéias desse campo e aplicá-las a problemas reais”, como reconhecimento de imagens, busca e compreensão de linguagem natural, diz ele.

Tudo isso normalmente tem cautelosos pesquisadores de inteligência artificial esperançosos de que máquinas inteligentes possam finalmente escapar das páginas da ficção científica. De fato, a inteligência de máquina está começando a transformar tudo, de comunicações e computação a medicina, fabricação e transporte. As possibilidades são evidentes no computador Jeopardy! -Winning Watson, da IBM, que usa algumas técnicas de aprendizagem profunda e agora está sendo treinado para ajudar os médicos a tomar melhores decisões. A Microsoft implantou um deep learning em sua pesquisa de voz do Windows Phone e do Bing.

Ampliar a aprendizagem profunda em aplicativos além do reconhecimento de fala e imagem exigirá mais avanços conceituais e de software, sem mencionar muitos mais avanços no poder de processamento. E provavelmente não veremos máquinas que todos concordamos que podem pensar por si mesmas durante anos, talvez décadas – se é que algum dia. Mas por enquanto, diz Peter Lee, diretor da Microsoft Research USA, “o deep learning reacendeu alguns dos grandes desafios da inteligência artificial”.

Construindo um Cérebro

Houve muitas abordagens concorrentes para esses desafios. Um tem sido alimentar os computadores com informações e regras sobre o mundo, o que exigia que os programadores escrevessem laboriosamente um software que estivesse familiarizado com os atributos de, digamos, uma borda ou um som. Isso levou muito tempo e ainda deixou os sistemas incapazes de lidar com dados ambíguos; eles estavam limitados a aplicativos estreitos e controlados, como sistemas de menu de telefone que pedem para você fazer perguntas dizendo palavras específicas.

As redes neurais, desenvolvidas na década de 1950, não muito depois do surgimento da pesquisa de IA, pareciam promissoras porque tentavam simular a maneira como o cérebro funcionava, embora de forma bastante simplificada. Um programa mapeia um conjunto de neurônios virtuais e, em seguida, atribui valores numéricos aleatórios, ou “pesos”, a conexões entre eles. Esses pesos determinam como cada neurônio simulado responde – com uma saída matemática entre 0 e 1 – a um recurso digitalizado, como uma borda ou tom de azul em uma imagem, ou um nível de energia específico em uma frequência em um fonema, a unidade individual de som em sílabas faladas.
Algumas das redes neurais artificiais de hoje podem treinar-se para reconhecer padrões complexos.

Os programadores treinavam uma rede neural para detectar um objeto ou fonema por meio da rede com versões digitalizadas de imagens contendo esses objetos ou ondas sonoras contendo esses fonemas. Se a rede não reconhecesse com precisão um padrão específico, um algoritmo ajustaria os pesos. O objetivo final desse treinamento era conseguir que a rede reconheça consistentemente os padrões da fala ou conjuntos de imagens que nós, humanos, conhecemos como, por exemplo, o fonema “d” ou a imagem de um cachorro. É da mesma maneira que uma criança aprende o que é um cachorro, observando os detalhes da forma da cabeça, comportamento e coisas semelhantes em animais peludos que latem e que outras pessoas chamam de cães.

Mas as redes neurais iniciais podiam simular apenas um número muito limitado de neurônios de uma só vez, de modo que não podiam reconhecer padrões de grande complexidade. Elas padeceram nos anos 70.

Em meados da década de 1980, Hinton e outros ajudaram a despertar um ressurgimento do interesse em redes neurais com os chamados modelos “profundos” que faziam melhor uso de muitas camadas de neurônios de software. Mas a técnica ainda exigia um envolvimento humano pesado: os programadores precisavam rotular os dados antes de alimentá-los na rede. E a fala complexa ou o reconhecimento de imagem exigiam mais energia do computador do que a então disponível.

Finalmente, no entanto, na última década, Hinton e outros pesquisadores fizeram alguns avanços conceituais fundamentais. Em 2006, Hinton desenvolveu uma maneira mais eficiente de ensinar camadas individuais de neurônios. A primeira camada aprende recursos primitivos, como uma borda em uma imagem ou a menor unidade de som da fala. Ele faz isso encontrando combinações de pixels digitalizados ou ondas sonoras que ocorrem com mais frequência do que deveriam por acaso. Uma vez que essa camada reconheça com precisão esses recursos, eles são direcionados para a próxima camada, que treina para reconhecer recursos mais complexos, como um canto ou uma combinação de sons da fala. O processo é repetido em camadas sucessivas até que o sistema reconheça fonêmicos ou objetos de maneira confiável.

Em junho passado, o Google demonstrou uma das maiores redes neurais do mundo, com mais de um bilhão de conexões. Uma equipe liderada por Andrew Ng, professor de ciência da computação de Stanford, e Jeff Dean, do Google, mostrou imagens do sistema de 10 milhões de vídeos do YouTube selecionados aleatoriamente. Um neurônio simulado no modelo de software fixado em imagens de gatos. Outros se concentravam em rostos humanos, flores amarelas e outros objetos. E graças ao poder da aprendizagem profunda, o sistema identificou esses objetos discretos, mesmo que nenhum humano os tenha definido ou rotulado.

O que surpreendeu alguns especialistas em IA, no entanto, foi a magnitude da melhoria no reconhecimento de imagem. O sistema categorizou corretamente objetos e temas nas imagens do YouTube 16% do tempo. Isso pode não parecer impressionante, mas foi 70% melhor que os métodos anteriores. E, observa Dean, havia 22.000 categorias para escolher; inserir corretamente objetos em alguns deles exigia, por exemplo, distinguir duas variedades semelhantes de peixe de skate. Isso seria desafiador mesmo para a maioria dos humanos. Quando o sistema foi solicitado a classificar as imagens em mais 1.000 categorias gerais, a taxa de precisão saltou acima de 50%.

Big Data e Deep Learning

O treinamento das muitas camadas de neurônios virtuais no experimento levou 16.000 processadores de computador – o tipo de infraestrutura de computação que o Google desenvolveu para seu mecanismo de pesquisa e outros serviços. Pelo menos 80% dos recentes avanços em IA podem ser atribuídos à disponibilidade de mais poder computacional, avalia Dileep George, co-fundador da startup Vicarious.

Há mais do que o tamanho dos data centers do Google, no entanto. A aprendizagem profunda também se beneficiou do método da empresa de dividir tarefas de computação entre muitas máquinas, para que elas possam ser feitas muito mais rapidamente. Essa é uma tecnologia que Dean ajudou a desenvolver em seus 14 anos de carreira no Google. Ele também acelera enormemente o treinamento de redes neurais dedeep learning, permitindo que o Google execute redes maiores e forneça muito mais dados a elas.

A aprendizagem profunda já melhorou a pesquisa por voz em smartphones. Até o ano passado, o software Android do Google usava um método que incompreendia muitas palavras. Mas, em preparação para uma nova versão do Android em julho passado, Dean e sua equipe ajudaram a substituir parte do sistema de fala por um baseado em deep learning. Como as múltiplas camadas de neurônios permitem um treinamento mais preciso sobre as muitas variantes de um som, o sistema pode reconhecer fragmentos de som de maneira mais confiável, especialmente em ambientes ruidosos, como plataformas de metrô. Como é mais provável entender o que foi realmente dito, o resultado que ele retorna é mais provável de ser preciso também. Quase da noite para o dia, o número de erros caiu em até 25% – resultados tão bons que muitos críticos agora consideram a pesquisa por voz do Android mais inteligente do que o mais famoso assistente de voz Siri da Apple.

Apesar de todos os avanços, nem todo mundo acha que a aprendizagem profunda pode mover a inteligência artificial em direção a algo que rivaliza com a inteligência humana. Alguns críticos dizem que a deep learning e a inteligência artificial em geral ignoram muito da biologia do cérebro em favor da computação de força bruta.

Um desses críticos é Jeff Hawkins, fundador da Palm Computing, cujo mais recente empreendimento, Numenta, está desenvolvendo um sistema de aprendizagem de máquina que é biologicamente inspirado, mas não usa deep learning. O sistema de Numenta pode ajudar a prever os padrões de consumo de energia e a probabilidade de que uma máquina como um moinho de vento esteja prestes a falhar. Hawkins, autor de On Intelligence, um livro de 2004 sobre como o cérebro funciona e como ele pode fornecer um guia para a construção de máquinas inteligentes, diz que a aprendizagem profunda não leva em conta o conceito de tempo. Cérebros processam fluxos de dados sensoriais, diz ele, e o aprendizado humano depende da nossa capacidade de lembrar sequências de padrões: quando você assiste a um vídeo de um gato fazendo algo engraçado, é o movimento que importa, não uma série de imagens estáticas como as do Google. usado em seu experimento. “A atitude do Google é: muitos dados compensam tudo”, diz Hawkins.

Mas, se não compensar tudo, os recursos de computação que uma empresa como o Google soluciona esses problemas não podem ser descartados. Eles são cruciais, dizem os defensores do deep learning, porque o próprio cérebro ainda é muito mais complexo do que qualquer uma das redes neurais de hoje. “Você precisa de muitos recursos computacionais para fazer as idéias funcionarem”, diz Hinton.

O que vem pela frente na aprendizagem profunda?

Embora o Google seja menos do que acessível em relação a futuras aplicações, as perspectivas são intrigantes. Claramente, uma melhor pesquisa de imagens ajudaria o YouTube, por exemplo. E Dean diz que os modelos de deep learning podem usar dados de fonemas do inglês para treinar sistemas mais rapidamente para reconhecer os sons falados em outros idiomas. Também é provável que um reconhecimento de imagem mais sofisticado torne os carros autônomos do Google muito melhores. Depois, há uma pesquisa e os anúncios que a subscrevem. Ambos podem ver grandes melhorias de qualquer tecnologia que seja melhor e mais rápida em reconhecer o que as pessoas realmente estão procurando – talvez até mesmo antes de perceberem isso.

Sergey Brin disse que quer construir uma versão benigna do HAL em “2001: Uma Odisséia no Espaço”.

É isso que intriga Kurzweil, 65, que há muito tempo tem uma visão de máquinas inteligentes. No ensino médio, ele escreveu softwares que permitiram que um computador criasse músicas originais em vários estilos clássicos, o que ele demonstrou em uma aparição em 1965 no programa de TV I’ve Got a Secret. Desde então, suas invenções incluíram vários primeiros – uma máquina de leitura de impressão em voz, software que podia digitalizar e digitalizar texto impresso em qualquer fonte, sintetizadores de música que pudessem recriar o som de instrumentos de orquestra e um sistema de reconhecimento de fala. um grande vocabulário.

Hoje, ele prevê um “amigo cibernético” que ouve suas conversas telefônicas, lê seu e-mail e acompanha todos os seus movimentos – se você permitir, é claro – para que ele possa lhe dizer coisas que você quer saber antes mesmo de você pergunte. Este não é seu objetivo imediato no Google, mas coincide com o do co-fundador do Google, Sergey Brin, que disse nos primeiros dias da empresa que ele queria construir o equivalente a HAL em 2001: Uma Odisséia no Espaço – exceto uma que mata pessoas.

Por enquanto, o Kurzweil visa ajudar os computadores a entender e até falar em linguagem natural. “Meu desejo é dar aos computadores uma compreensão suficiente da linguagem natural para fazer coisas úteis – fazer um trabalho melhor de busca, fazer um trabalho melhor respondendo a perguntas”, diz ele. Essencialmente, ele espera criar uma versão mais flexível do IBM Watson, que ele admira por sua capacidade de entender o Jeopardy! perguntas tão peculiares como “um discurso longo e enfadonho transmitido por uma cobertura de torta espumante”. (A resposta correta de Watson: “O que é um discurso de merengue?”)

Kurzweil não se concentra apenas na aprendizagem profunda, embora ele diga que sua abordagem ao reconhecimento de fala é baseada em teorias similares sobre como o cérebro funciona. Ele quer modelar o significado real de palavras, frases e sentenças, incluindo ambiguidades que costumam atrapalhar os computadores. “Eu tenho uma ideia em mente de uma maneira gráfica de representar o significado semântico da linguagem”, diz ele.

Isso, por sua vez, exigirá uma maneira mais abrangente de representar graficamente a sintaxe das sentenças. O Google já está usando esse tipo de análise para melhorar a gramática nas traduções. O entendimento da linguagem natural também exigirá que os computadores entendam o que nós, humanos, consideramos como significado de senso comum. Para isso, o Kurzweil vai explorar o Knowledge Graph, o catálogo do Google de cerca de 700 milhões de tópicos, locais, pessoas e muito mais, além de bilhões de relacionamentos entre eles. Foi introduzido no ano passado como uma maneira de fornecer respostas aos usuários, não apenas links.

Finalmente, Kurzweil planeja aplicar algoritmos de deep learning para ajudar os computadores a lidarem com os “limites suaves e ambiguidades na linguagem”. Se tudo isso soa assustador, é. “A compreensão da linguagem natural não é uma meta que é concluída em algum momento, mais do que a busca”, diz ele. “Isso não é um projeto que eu acho que terminarei.”

Embora a visão de Kurzweil ainda esteja anos longe da realidade, é provável que a aprendizagem profunda estimule outras aplicações além do reconhecimento de fala e imagem a curto prazo. Por um lado, há descoberta de drogas. A surpreendente vitória do grupo de Hinton no concurso Merck mostrou claramente a utilidade da deep learning em um campo em que poucos esperavam causar impacto.

Isso não é tudo. Peter Lee, da Microsoft, diz que há pesquisas iniciais promissoras sobre usos potenciais da aprendizagem profunda em visão mecânica – tecnologias que usam imagens para aplicações como inspeção industrial e orientação de robôs. Ele também prevê sensores pessoais que redes neurais profundas poderiam usar para prever problemas médicos. E sensores em toda a cidade podem alimentar sistemas de deep learning que poderiam, por exemplo, prever onde poderiam ocorrer engarrafamentos.

Em um campo que tenta algo tão profundo quanto modelar o cérebro humano, é inevitável que uma técnica não resolva todos os desafios. Mas por enquanto, este está liderando o caminho na inteligência artificial. “A aprendizagem profunda”, diz Dean, “é uma metáfora realmente poderosa para aprender sobre o mundo”.

[Total: 0    Média: 0/5]

Deixe um comentário