Um pouco mais sobre redes neurais e capsulares e a atual histeria sobre inteligência artificial

Nos últimos 10 anos, os sistemas de inteligência artificial de melhor desempenho — como os reconhecedores de fala dos smartphones ou o mais recente tradutor do Google — foram resultantes de uma técnica chamada “aprendizado profundo”.

O aprendizado profundo é, de fato, um novo nome para uma abordagem da inteligência artificial chamada redes neurais, que entram e saem de moda há mais de 70 anos. As redes neurais foram propostas pela primeira vez em 1944 por Warren McCullough e Walter Pitts, dois pesquisadores da Universidade de Chicago que se mudaram para o MIT em 1952 como membros fundadores do que pode ser chamado de primeiro departamento de ciências cognitivas.

Redes neurais foi uma importante área de pesquisa em neurociência e ciência da computação até 1969, quando foram aposentadas pelos matemáticos do MIT Marvin Minsky e Seymour Papert, que um ano depois se tornariam co-diretores do novo laboratório do MIT de Inteligência Artificial.

Em seguida a técnica teve um ressurgimento na década de 80, e novamente sumiu na primeira década do novo século, e assim retornou como uma estrela na segunda década, principalmente pelo aumento do poder de processamento dos chips gráficos.

Redes Neurais na prática

As redes neurais são um meio de fazer aprendizagem de máquina, em que um computador aprende a realizar alguma tarefa analisando exemplos chamados de base de treinamento. Normalmente, os exemplos são fornecidos com antecedência. Um sistema de reconhecimento de objetos, por exemplo, pode ser alimentado com milhares de imagens previamente identificadas como carros, casas, copos de café, etc., e assim ele encontrará padrões visuais nas imagens que se correlacionam consistentemente com a respectiva identidade.

Com sua modelagem baseada no cérebro humano, uma rede neural consiste em milhares ou mesmo milhões de nós de processamento simples interligados. A maioria das redes neurais de hoje estão organizadas em camadas de nós, e eles são “feed-forward”, o que significa que os dados se movem através deles em apenas uma direção. Um nó individual pode estar conectado a vários nós em uma camada abaixo dele, a partir da qual ele recebe dados e também a vários nós na camada de cima, ao qual ele envia os dados.

Para cada uma das suas conexões, um nó atribuirá um número conhecido como “peso”. Quando a rede estiver ativa, o nó recebe um número diferente em cada uma das suas conexões e o multiplica pelo peso associado. Em seguida, junta e adiciona os produtos resultantes, produzindo um único número. Se esse número estiver abaixo de um limite de valor, o nó não passa dados para a próxima camada. Se o número exceder o valor limite, a rede neural envia o número da soma das entradas ponderadas ao longo de todas as suas conexões de saída.

Quando uma rede neural é “treinada”, todos os seus pesos e limiares são inicialmente configurados para valores aleatórios. Os dados de treinamento são alimentados na camada inferior — a camada de entrada — e passam pelas camadas sucessivas, sendo multiplicados e adicionados aos nós, até chegarem finalmente e radicalmente transformados, na camada de saída. Durante o treinamento, os pesos e os limites são ajustados continuamente até que os dados de treinamento com os mesmos rótulos produzam consistentemente saídas similares.

As redes neurais descritas por McCullough e Pitts em 1944 tinham limites e pesos, mas não foram organizadas em camadas, e os pesquisadores não especificaram nenhum mecanismo de treinamento (ou alimentação) . O que McCullough e Pitts mostraram era que uma rede neural poderia, em princípio, calcular qualquer função que um computador digital pudesse. O resultado foi mais neurociência do que ciência da computação: o objetivo era sugerir que o cérebro humano poderia ser pensado como um dispositivo de computação.

As redes neurais continuaram a ser uma ferramenta valiosa para a pesquisa neurocientífica. Por exemplo, layouts de rede específicos ou regras para ajustar pesos e limites reproduziam características observadas na neuroanatomia e cognição humana, indicando que eles capturam algo sobre como o cérebro processa a informação.

A primeira rede neural treinável, o Perceptron, foi demonstrada pelo psicólogo da Universidade Cornell, Frank Rosenblatt, em 1957. O design do Perceptron era muito parecido com o da rede neural moderna, exceto que tinha apenas uma camada com pesos e limites ajustáveis, intercalados entre a entrada e a camada de saída.

“Perceptrons” foi uma área ativa de pesquisa em psicologia e a disciplina incipiente da ciência da computação até 1959, quando Minsky e Papert publicaram um livro intitulado “Perceptrons”, que demonstrou que a execução de certos cálculos bastante comuns nos Perceptrons não seriam possíveis.

Na década de 1980, no entanto, os pesquisadores desenvolveram algoritmos para modificar os pesos e os limites das redes neurais que eram suficientemente eficientes para redes com mais de uma camada, removendo muitas das limitações identificadas por Minsky e Papert. Assim o campo teve um renascimento, apesar de intelectualmente ainda haver algo insatisfatório nas redes neurais. Na prática, um treinamento eficaz podia sim rever as configurações da rede ao ponto de classificar os dados de forma útil, mas o que essas configurações significavam? Só olhar para o peso das conexões individuais não respondia a essa pergunta.

Nos últimos anos os cientistas da computação começaram a criar métodos engenhosos para deduzir as estratégias analíticas adotadas pelas redes neurais. Mas na década de 1980, as estratégias das redes eram indecifráveis. Então, em torno da virada do século, as redes neurais foram suplantadas por máquinas de vetor, uma abordagem alternativa à aprendizagem de máquinas baseada em uma matemática mais limpa e elegante.

O ressurgimento recente das redes neurais — a revolução da aprendizagem profunda — vem como cortesia da indústria de jogos de computador. As imagens complexas e o ritmo acelerado dos videogames de hoje em dia requerem um hardware que possa acompanhar essa velocidade e o resultado foi a unidade de processamento gráfico (GPU), que possui milhares de núcleos de processamento relativamente simples em um único chip. Não demorou muito para que os pesquisadores percebessem que a arquitetura de uma GPU é notavelmente semelhante à de uma rede neural.

As GPUs modernas permitiram que as redes de uma camada das décadas de 1960 e as redes de duas a três camadas da década de 1980 fluíssem para as redes de hoje de 10, 15 e até 50 camadas. É o que o “profundo” em “aprendizagem profunda” se refere — a profundidade das camadas da rede. E atualmente, o aprendizado profundo é responsável pelos sistemas de melhor desempenho em quase todas as áreas de pesquisa da inteligência artificial.

A opacidade das redes ainda é inquietante para os teóricos, mas também há avanços nessa frente. Além de dirigir o Centro CBMM, Poggio lidera o programa de pesquisa do centro em Estruturas Teóricas para Inteligência. Recentemente, Poggio e seus colegas da CBMM lançaram um estudo teórico em três partes sobre as novas redes neurais.

A primeira parte , publicada no mês passado no International Journal of Automation and Computing , aborda a gama de cálculos que as redes de aprendizado profundo podem executar e quando as redes profundas oferecem vantagens sobre as mais rasas. As partes dois e três , que foram lançadas como relatórios técnicos da CBMM e abordam os problemas de otimização global que garantem que uma rede tenha encontrado as configurações que melhor correspondem aos seus dados de treinamento e a superposição, ou casos em que a rede se torna tão sintonizada para os detalhes de seus dados de treinamento que ela não consegue generalizar para outras instâncias das mesmas categorias.

O problema das redes neurais

Até agora, as redes neurais foram uma abordagem de última geração para classificar imagens pois funcionam acumulando conjuntos de informações em cada uma de suas camadas. Começa encontrando as bordas, identificando as formas, então entendendo como objetos reais. No entanto, as informações espaciais de todas essas características são perdidas.

Esta é uma simplificação excessiva, mas você pode pensar no resultado de uma rede neural como:

se (2 olhos & & 1 nariz e & 1 boca) { 
É um rosto!
}

Você pode estar pensando que isso parece muito bom, faz sentido e isso acontece. Embora, possamos encontrar alguns problemas, pegue essa foto da Kardashian, por exemplo:

Definitivamente há dois olhos, um nariz e uma boca, mas algo está errado rs Podemos facilmente dizer que um olho e sua boca estão no lugar errado e que não é assim que uma pessoa deveria parecer. No entanto, mesmo uma rede neural bem treinada tem esse tipo de dificuldade.

Com a introdução das redes capsulares começamos a ter a capacidade de aproveitar ao máximo o relacionamento espacial das coisas, para que possamos começar a vê-las assim:

se (2 olhos adjacentes && nariz sob os olhos e & boca no nariz) { 
É um rosto!
}

Assim nossa rede neural não deve ser tão facilmente enganada pela nossa Kardashian deformada.

Esta nova arquitetura também alcança uma precisão significativamente melhor também no agrupamento de conjuntos de dados. As redes capsulares inicialmente parecem incríveis, mas mesmo elas ainda são muito bebês.

Ao mesmo tempo enquanto falamos de redes neurais e capsulares estamos rodeados de histeria sobre o futuro da inteligência artificial e da robótica — histeria sobre o quão poderosos serão, com que rapidez e o que eles farão com nossos empregos.

Recentemente, li uma reportagem na MarketWatch, que disse que os robôs terão metade dos empregos de hoje entre 10 e 20 anos. Quantos robôs estão atualmente operacionais nesses empregos? Zero. Quantas manifestações realistas existem de robôs que trabalham nesta arena? Zero. Sem contar quantos robôs ainda são enganados pela nossa Kardashian deformada, 99,9%? Histórias semelhantes aplicam-se a todas as outras categorias, onde é sugerido que veremos o fim de mais de 90% dos empregos que atualmente exigem presença física.

As previsões equivocadas levam ao medo, como a própria afirmação da destruição em grande escala dos nossos empregos.

Apesar de Roy Amara ser co-fundador do Institute for the Future, em Palo Alto, o coração intelectual do Vale do Silício, ele é mais conhecido por seu ditado agora chamado de Lei de Amara que diz:

“Tendemos a superestimar o efeito de uma tecnologia no curto prazo e subestimamos o efeito no longo prazo.”

Há muitas coisas envolvidas nestas 18 palavras. Um otimista pode lê-las de uma maneira, e um pessimista pode lê-las de outra. Eu particularmente acredito que quase todas as inovações em robótica e inteligência artificial levam muito mais tempo do que o imaginado por reportagens da MarketWatch para serem amplamente implantadas. O pensamento industrial diante de uma economia que cresce organicamente ainda é “Se não está quebrado, não conserte isso”, em contrapartida felizmente enquanto isso acontece podemos estar eventualmente construindo esses dispositivos inteligentes enquanto o mundo estará mudando significativamente até então. De repente, não nos surpreenderemos com a existência de tais super-inteligências. Elas evoluirão tecnologicamente ao longo do tempo, e nosso mundo virá a ser povoado por muitas outras inteligências. Muito antes de haver super inteligências doentias que desejam se livrar de nós, haverá máquinas um pouco menos inteligentes e menos beligerantes. Vamos mudar o nosso mundo ao longo do caminho, ajustando o ambiente para as novas tecnologias. Não estou dizendo que não pode haver desafios. Estou dizendo que não serão súbitos e inesperados, como muitas pessoas pensam vide a nossa própria história até então.

Source: Deep Learning on Medium