O “Robotics Transformer 1” do Google inaugura a era dos grandes modelos de robôs

O Google mostra um novo modelo de IA com um grande conjunto de dados para controle de robôs em tempo real.

Sucessos recentes no desenvolvimento de sistemas de IA que processam imagens ou linguagem natural são baseados em uma abordagem comum: grandes e diversos conjuntos de dados processados ​​por modelos poderosos e eficientes.

Modelos de IA generativos para texto ou imagem, como GPT-3 e DALL-E, obtêm seus dados da Internet e contam apenas com conjuntos de dados específicos para ajuste fino. OpenAI, por exemplo, usa conjuntos de dados de feedback humano para melhor adaptar um grande modelo de IA às necessidades humanas.

A robótica carece de conjuntos de dados gigantescos como os que existem para textos e imagens. Massas de dados de robôs teriam que ser coletadas de operação autônoma ou com teleoperação humana – tornando-os caros e difíceis de criar. Além disso, ainda não existe um modelo de IA que possa aprender com esses dados e generalizar em tempo real.

Alguns pesquisadores estão confiando no treinamento de robôs de IA em simulações. Outros estão tentando fazer com que a IA aprenda com vídeos da Internet .

Robotics Transformer 1 do Google aprende com diferentes modalidades

O Google agora apresenta o Robotics Transformer 1 (RT-1), um modelo de IA para controle de robôs. O modelo é acompanhado por um grande conjunto de dados do mundo real para treinamento de robôs.

O modelo usa instruções de texto e imagens como entrada, que são transformadas em tokens por um modelo FiLM EfficientNet e compactadas com um método adicional (TokenLearner). As entradas são então encaminhadas para o Transformer, que envia os comandos para o robô. Segundo o Google, isso torna o modelo rápido o suficiente para controlar robôs em tempo real.

O RT-1 do Google aprende com mais de 100.000 exemplos

Para treinar RT-1, O Google usou um grande conjunto de dados de 130.000 exemplos de mais de 700 tarefas robóticas como pegar, depositar, abrir e outros que a empresa arrecadou ao longo de 17 meses com 13 robôs da Everyday Robots, empresa de robótica da Alphabet. Incluídos nos dados estão os movimentos das articulações dos robôs, bases do robô, imagens de câmeras e descrições de texto das tarefas.

Após o treinamento, a equipe do Google comparou o RT-1 com outros métodos em várias tarefas visíveis e invisíveis, bem como a robustez com que os modelos comparados lidaram com diferentes ambientes.

RT-1 claramente superou os outros métodos, incluindo gato da mente profunda , em todos os cenários. O Google também experimentou outras fontes de dados de outro modelo de robô. Os resultados desses experimentos sugerem que o RT-1 pode aprender novas habilidades com dados de treinamento de outros robôs, escreve o Google.

O RT-1 do Google melhora o SayCan

A equipe também verificou se o desempenho dos SayCan do Google poderia ser melhorado com RT-1. De fato, o sistema combinado teve um desempenho quase 20% melhor e foi capaz de manter essa taxa de sucesso mesmo em um ambiente de cozinha mais complicado.

O RT-1 Robotics Transformer é um modelo de geração de ação simples e escalável para tarefas de robótica do mundo real. Ele tokeniza todas as entradas e saídas e usa um modelo EfficientNet pré-treinado com fusão de linguagem inicial e um aprendiz de token para compactação. O RT-1 mostra forte desempenho em centenas de tarefas e ampla capacidade de generalização e robustez em configurações do mundo real.

Google

A equipe espera aumentar o número de habilidades robóticas aprendidas mais rapidamente no futuro. Para fazer isso, planeja trazer pessoas sem experiência em teleoperação robótica para contribuir com o conjunto de dados de treinamento. Também visa melhorar ainda mais o tempo de reação e a capacidade de reter o contexto ao longo do tempo.

O código para RT-1 está disponível em GitHub .