VIMA: Modelos multimodais chegam à robótica

O VIMA pode lidar com prompts multimodais para robôs e atinge um desempenho mais alto do que modelos comparáveis, mesmo com 10 vezes menos dados.

O aprendizado baseado em prompt emergiu como um recurso-chave de grandes modelos de linguagem, como o OpenAI. GPT-3 : um modelo treinado com grandes conjuntos de dados apenas para prever tokens pode ser instruído a executar diferentes tarefas especificadas por prompts. Métodos como prompts de cadeia de pensamento ou prompts algorítmicos mostram o impacto que os prompts podem ter no desempenho de modelos em várias tarefas.

Pesquisadores de IA também aplicaram esses modelos à robótica no ano passado. O Google, por exemplo, usou o gigante Palma para controlar diretamente um robô usando PaLM-SayCan . O projeto foi uma evolução monólogos interiores para robôs. Em outro projeto, o Google demonstrou controle em tempo real de robôs usando um modelo de linguagem e, mais recentemente, o Transformador de Robótica 1 (RT-1) um modelo de robótica treinado multimodalmente.

VIMA permite solicitação multimodal

Pesquisadores da Nvidia, Stanford, Macalester College, Caltech, Tsinghua e UT Austin também estão demonstrando um modelo multimodal com VisuoMotor Attention (VIMA). Ao contrário do RT-1 do Google, no entanto, o VIMA pode lidar com prompts multimodais.

Na robótica, existem diversas tarefas que geralmente são executadas por modelos especializados. Isso inclui imitar uma ação após uma demonstração única, seguir instruções de linguagem ou atingir objetivos visuais. Em vez de depender de modelos diferentes, o VIMA combina esses recursos com prompts multimodais que vinculam texto e imagens.

Por exemplo, o VIMA pode processar diretamente uma instrução como “Reorganizar objetos para corresponder a esta cena” mais uma imagem correspondente do arranjo desejado. O modelo então controla um braço robótico em uma simulação para executar as instruções.

O modelo Transformer foi treinado usando o VIMA-Bench, um benchmark de simulação criado pelos pesquisadores com milhares de tarefas de mesa geradas processualmente em 17 categorias com prompts multimodais correspondentes e mais de 600.000 trajetórias especializadas para aprendizado de imitação.

O VIMA supera significativamente outros modelos – e com 10 vezes menos dados

Segundo a equipe, o VIMA supera modelos como gato , Flamingo , e o Decision Transformer em até 2,9 vezes – em todos os tamanhos de modelo e níveis de generalização. O maior modelo VIMA atinge 200 milhões de parâmetros. O VIMA também é altamente eficiente em treinamento de imitação e atinge desempenho comparável a outros métodos com 10 vezes menos dados.

Semelhante ao GPT-3, um agente robô generalista deve ter uma interface intuitiva e expressiva para que os usuários humanos transmitam sua intenção. Neste trabalho, apresentamos um romance multimodal formulação de solicitação que converte diversas tarefas de manipulação de robôs em um problema de modelagem de sequência uniforme. Propomos o VIMA, um agente baseado em transformador conceitualmente simples capaz de resolver tarefas como objetivo visual, imitação de vídeo one-shot e fundamento de conceito inovador com um único modelo.

Do papel.

O VIMA fornece uma base importante para trabalhos futuros, de acordo com os pesquisadores. O Google também vê dessa forma: em seu artigo, a empresa chamou o VIMA de multimodal, sugerindo uma direção futura promissora para o RT-1, o que significa que o uso de modelos multimodais em robótica continuará a crescer no futuro.

Vídeo: Jiang, Gupta, Zhang, Wang et al.

Mais exemplos, o código e modelos pré-treinados estão disponíveis no página do projeto VIMA .