Hiperredes: a inteligência artificial constrói-se a si própria

A inteligência artificial pode treinar sua própria rede neural? Um novo trabalho de pesquisa mostra como esse futuro pode ser.

Para usar uma inteligência artificial para uma determinada tarefa, os pesquisadores selecionam

  • uma arquitetura de rede,
  • um método de aprendizagem
  • e treinar a rede neural.

Nos últimos anos, diferentes variantes de uma busca automatizada de arquitetura encontraram seu caminho neste processo. Nesse processo, algoritmos, sistemas de aprendizado profundo ou redes de grafos buscam arquiteturas de rede adequadas para uma tarefa específica.

Em 2018, por exemplo, os pesquisadores introduziram uma hiperrede de grafos (GHN) que encontra a melhor arquitetura para uma tarefa como a análise de imagens, a partir de um conjunto de redes candidatas. As redes gráficas usam gráficos em vez de camadas organizadas sequencialmente. Os grafos consistem em vários nós conectados entre si.

Na hiperrede da equipe de Mengye Ren, um nó normalmente representa uma camada inteira de uma rede neural, e as conexões representam como essas unidades estão interconectadas. A hiperrede é treinada em várias execuções, nas quais ela experimenta sempre novas arquiteturas de rede para uma saída. Seu desempenho serve como feedback de treinamento para a rede.

As hiperredes podem prever parâmetros?

Em um novo artigo, pesquisadores da Universidade de Guelph, Vector Institute for AI, Canda CIFAR AI, McGill University e Facebook AI Research estão agora desenvolvendo o trabalho de Ren. Os pesquisadores estão expandindo os recursos da hiperrede: em vez de prever arquiteturas exclusivamente, o chamado GHN-2 também preverá os parâmetros das redes neurais.

As redes neurais geralmente são inicializadas aleatoriamente no início de seu treinamento e, portanto, os pesos na rede recebem valores aleatórios. Durante o treinamento de IA, esses parâmetros são ajustados até que o sistema execute sua tarefa de forma satisfatória. O GHN-2 foi projetado para prever esses parâmetros diretamente, eliminando ou encurtando bastante o processo de aprendizado. Para isso, o GHN-2 foi treinado com um conjunto de dados (DeepNets-1M) de um milhão de arquiteturas de rede diferentes.

Para treinamento, o GHN-2 inicializa os parâmetros para algumas possíveis arquiteturas de rede para análise de imagens. Os sistemas de análise de imagem são então testados com imagens.

Mas, em vez de usar o feedback do teste para atualizar os parâmetros do sistema de análise de imagens, os pesquisadores atualizam diretamente os parâmetros da hiperrede, que então reinicializa os parâmetros do sistema de análise de imagens. Dessa forma, o GHN-2 aprende a inicializar cada vez melhor à medida que o treinamento avança, e o faz para inúmeras variantes arquitetônicas.

GHN-2 encurta o processo de treinamento

Os pesquisadores testaram o GHN-2 para análise de imagem CIFAR-10 e ImageNet com 500 arquiteturas de rede, incluindo aquelas não incluídas no conjunto de dados de treinamento. Para o CIFAR-10, as arquiteturas que o GHN-2 já conhece alcançaram 66,9% de precisão após a inicialização e sem treinamento adicional.

As redes que foram totalmente treinadas sem GHN-2 alcançaram 69,2% de precisão após 2.500 iterações. Para arquiteturas anteriormente desconhecidas, como ResNet-50, o GHN-2 alcançou uma média de pouco menos de 60% de precisão.

No benchmark ImageNet, o GHN-2 teve um desempenho significativamente pior: em média, a precisão foi de 27,2%. Em casos individuais, atingiu quase 50%. No entanto, mesmo sistemas recém-treinados precisam de cerca de 5.000 iterações para uma precisão de 25,6%. Ambos os sistemas podem ser aumentados para as precisões usuais acima de 90% com treinamento adicional.

Embora a hiperrede ainda não possa substituir o treinamento clássico, os resultados mostram que a abordagem funciona e já economiza tempo e energia: o GHN-2 prevê a correspondência de parâmetros em menos de um segundo, mesmo em uma CPU. Resultados comparáveis ​​no ImageNet, por exemplo, podem levar várias horas em uma GPU.

Os pesquisadores agora querem expandir a abordagem e treinar uma hiperrede com ainda mais tarefas, como processamento de linguagem e outras arquiteturas. A longo prazo, o projeto pode possibilitar o aprendizado profundo até mesmo para pesquisadores sem acesso a um enorme poder de computação, diz a equipe.

Os modelos GHN-2 pré-treinados e o conjunto de dados DeepNets-1M estão disponíveis em GithubGenericName .

Leia mais sobre Inteligência Artificial:

  • Meta demonstra algoritmo de aprendizado para IA multitarefa
  • OpenAI: investimento milionário e um novo modelo de IA
  • IA: seis características para bons algoritmos em medicina