Google e Meta mostram como a Stable Diffusion pode revolucionar a robótica

Três novos métodos mostram como Stable Diffusion ou Imagen podem ser usados ​​para treinamento de robótica.

Grandes modelos de linguagem ganharam força na robótica no ano passado, com o Google mostrando vários exemplos, incluindo SayCan e Inner Monologue. Esses modelos trazem amplo conhecimento do mundo, recursos lógicos rudimentares ou traduções da linguagem natural para o código para a robótica, permitindo um melhor planejamento com feedback ou controle por meio de comandos de voz.

Com os modelos de difusão, os pesquisadores agora estão aplicando a próxima classe de grandes modelos de IA à robótica. Com esses modelos de imagens generativas, eles estão tentando resolver um dos problemas centrais do treinamento de robôs: a falta de dados de treinamento.

Multiplicação de dados com modelos de imagens generativas

A coleta de dados em robótica é extremamente demorada. Um conjunto de dados do Google de 130.000 demonstrações de robôs, por exemplo, foi coletado de 13 robôs durante um período de 17 meses. Assim, os pesquisadores estão procurando maneiras de acelerar o processo. Uma delas é o Sim2Real, que significa treinamento em simulação. No entanto, os dados de treinamento do mundo real ainda são considerados o padrão-ouro.

Dados de treinamento infinitos graças aos modelos de difusão? O Google mostra como isso pode ser possível. | Vídeo: Google

Esses dados podem ser aumentados com modelos generativos de IA? Essa é a pergunta que vários grupos de pesquisa estão fazendo e, em vários artigos, eles mostram que aumentar os dados de treinamento com modelos de difusão realmente leva a robôs melhores.

Para fazer isso, as equipes usam imagens existentes e geram inúmeras variações com detalhes diferentes: trocam a pia, uma mesa vira prateleira de cozinha, um objeto nunca visto fica ao lado de uma lata ou o objeto que um braço de robô está segurando nas mudanças de cena.

ROSIE, GenAug, CACTI e DALL-E-Bot mostram resultados promissores

Um dos primeiros artigos a usar modelos de difusão para robótica é chamado DALL-E-Bot e foi apresentado em novembro de 2022. Pesquisadores do Imperial College London modificaram imagens simples de cozinha usando OpenAI DALL-E 2 para treinar um braço robótico.

Eles usaram o DALL-E 2 para gerar um novo arranjo desejado de objetos de uma cena existente, como um prato e talheres, por meio de descrição de texto, que serviu de modelo para o robô realizar sua tarefa.

Agora, outros três grupos apresentaram métodos diferentes. Dois deles – “Robot Learning with Semantically Imagined Experience” (ROSIE) do Google e CACTI de pesquisadores da Columbia University, Carnegie Mellon University e Meta AI – usam modelos de difusão para aumentar os dados de treinamento com alterações fotorrealistas.

O terceiro projeto – GenAug da Universidade de Washington e também da Meta – é baseado em uma ideia semelhante, mas usa informações de profundidade para modificar ou gerar objetos novos e existentes em cenas com um modelo de difusão guiada por profundidade. A equipe espera que isso forneça uma representação mais precisa da cena original.

Vídeo: meta

Todos os métodos mostram que aumentar os dados leva a robôs mais robustos que podem lidar melhor com objetos nunca antes vistos. O CACTI depende Difusão estável para aumento. O Google, por outro lado, usa seu próprio Imagen modelo e um enorme conjunto de dados de 130.000 demonstrações para treinar um modelo de robô RT-1. O Google também demonstra em testes do mundo real que os robôs podem realizar tarefas que só viram através das lentes da síntese de imagens, como pegar objetos que só viram em imagens manipuladas pelo Imagen.

A “Amarga Lição 2.0” e os Modelos Fundamentais em robótica

Embora os modelos de difusão produzam bons resultados, eles exigem mais poder computacional do que outras arquiteturas. De acordo com o Google, isso limita o uso econômico desses modelos para aumentos de dados muito grandes. Além disso, os métodos apresentados alteram a aparência de objetos ou cenas inteiras, mas não geram novos movimentos – estes ainda precisam ser coletados por meio de demonstrações humanas.

O Google vê potencial nos dados de simulação como uma fonte para grandes conjuntos de dados de movimento de robôs e acredita que modelos sofisticados de difusão podem ser substituídos por modelos como o Muse, que são cerca de dez vezes mais eficientes.

O pesquisador de robótica do Google e professor de Stanford, Karol Hausman, vê os três métodos apresentados como um exemplo do que ele chama de “Bitter Lesson 2.0”, segundo o qual a robótica deve procurar tendências fora da robótica para novos métodos de construção de robôs de uso geral. A “Lição amarga” vem de um ensaio do pioneiro da IA, Richard Sutton.

De acordo com Hausman, essa tendência são os modelos de fundação, ou seja, grandes modelos de IA pré-treinados, como GPT-3 , PaLM ou Stable Diffusion. Ele resume sua visão da seguinte forma: “Para resumir, acredito que a próxima lição amarga (em 70 anos) será: ‘A maior lição que pode ser lida em 70 anos de pesquisa em IA é que os métodos gerais que alavancam os modelos de fundação são, em última análise, o mais eficaz’”.

Experimentos até agora com modelos de linguagem e imagem parecem provar que ele está certo. No futuro, podem surgir mais modelos de fundação que forneçam novas modalidades de dados para treinamento de robôs.