Com PaLM-E, Google Robotics, TU Berlin e Google Research apresentam um novo modelo de IA que pode entender e gerar linguagem, entender imagens e usar ambos juntos para comandos complexos de robôs.
O maior modelo do PaLM-E tem 562 bilhões de parâmetros e combina O massivo modelo de linguagem PaLM do Google com ViT-22B, o maior transformador de visão até hoje.
A principal ideia arquitetônica do PaLM-E é injetar observações incorporadas contínuas, como imagens, estimativas de estado ou outras modalidades de sensor no espaço de incorporação de linguagem de um modelo de linguagem pré-treinado.
do papel
O maior modelo PaLM-E é capaz de processar linguagem natural de nível PaLM, ao mesmo tempo em que compreende e descreve o conteúdo da imagem e guia os robôs por meio de etapas sequenciais precisas, combinando linguagem e visão computacional.
Com PaLM-SayCan, o Google demonstrou anteriormente que modelos de linguagem podem ajudar a guiar robôs. Diz-se que a abordagem de treinamento combinado do PaLM-E em todos os domínios leva a um “desempenho significativamente superior” em comparação com modelos otimizados apenas para robótica.
Talvez o mais emocionante sobre o PaLM-E seja a **transferência positiva**: o treinamento simultâneo do PaLM-E em vários domínios, incluindo tarefas de linguagem de visão geral em escala de internet, leva a um desempenho significativamente maior em comparação com modelos de robôs de tarefa única. pic.twitter.com/sUqrX6U7BU
– Danny Driess (@DannyDriess) 7 de março de 2023
É importante ressaltar que demonstramos que esse treinamento diversificado leva a vários caminhos de transferência dos domínios da linguagem de visão para a tomada de decisão incorporada, permitindo que as tarefas de planejamento do robô sejam realizadas de forma eficiente.
do papel
O PaLM-E lida com uma variedade de tarefas robóticas e visuais
O Google mostra outra demonstração na qual o PaLM-E controla um braço robótico que organiza blocos. A diferença aqui é que o robô processa entradas visuais e de linguagem em paralelo e as usa para resolver a tarefa. Por exemplo, ele pode mover blocos classificados por cor para cantos diferentes. O PaLM-E gera as instruções da solução passo a passo a partir da entrada visual.
Segundo a equipe de pesquisa, o modelo também demonstra capacidade de generalização. No vídeo a seguir, ele guia o braço do robô para mover os blocos vermelhos em direção à xícara de café com precisão e conforme as instruções. Havia apenas três exemplos de xícaras de café nos dados de treinamento, nenhum dos quais com blocos vermelhos na imagem, de acordo com a equipe.
O PaLM-E também é um “modelo de linguagem de visão competente”, escrevem os pesquisadores. Por exemplo, ele reconhece o astro do basquete Kobe Bryant em uma imagem e pode gerar informações textuais sobre ele, como quantos campeonatos ele ganhou. Em outro exemplo, o PaLM-E vê um sinal de trânsito e explica quais regras estão associadas a ele.
Os recursos de linguagem do PaLM-E perdem desempenho significativo devido ao treinamento multimodal e robótico nos modelos PaLM-E menores. Esse fenômeno é conhecido como “esquecimento catastrófico” e geralmente é evitado congelando modelos de linguagem durante o treinamento. Em contraste, a queda no desempenho em comparação com o modelo PaLM maior é mínima, o que, segundo os pesquisadores, mostra que o dimensionamento pode ajudar a combater o esquecimento catastrófico.
Observamos uma tendência notável com a escala do modelo: quanto maior o modelo de linguagem, mais ele mantém suas capacidades de linguagem ao treinar em linguagem visual e tarefas robóticas – quantitativamente, o modelo 562B PaLM-E quase retém todas as suas capacidades de linguagem. pic.twitter.com/sWrPOfGxhp
– Danny Driess (@DannyDriess) 7 de março de 2023
Além disso, o maior modelo PaLM-E, com 562 bilhões de parâmetros, mostra capacidades emergentes como cadeias de raciocínio multimodais e a capacidade de raciocinar em várias imagens, mesmo que o modelo tenha sido treinado usando apenas prompts de imagem única.