Sumário
O novo sistema de robô do Google conta com um modelo de fala para controle. Graças aos monólogos internos, o sistema pode interagir de forma mais flexível com seu ambiente.
Os robôs flexíveis um dia realizarão múltiplas tarefas no mundo real. Eles devem primeiro possuir um grande repertório de habilidades básicas e ser capazes de planejar seu uso. Isso inclui reconhecer quando eles precisam mudar seu curso de ação porque uma ação específica ou um plano inteiro não foi bem-sucedido.
Tal planejamento, feedback perceptivo constante e controle do sistema em todos os níveis são algumas das subtarefas que tal agente corporificado deve combinar perfeitamente para agir de forma inteligente em seu ambiente. Os pesquisadores de IA enfrentam esses desafios com uma variedade de abordagens. Muitos deles dependem do aprendizado por reforço para ensinar os robôs a se mover. Tarefas como planejamento e flexibilidade exigem mais trabalho.
O chefe de IA da Meta, Yann LeCun, por exemplo, revelou seu planos para uma IA autônoma em março. Embora não esteja localizado em um robô (por enquanto), ele possui todos os blocos de construção para um agente flexível com a capacidade de planejar.
Grandes modelos de linguagem para agentes incorporados
Central para o modelo de LeCun é um modelo de mundo no qual uma compreensão básica do mundo deve ser localizada dentro do sistema de IA. Esses modelos de mundo ainda não existem.
Uma razão para supor que eles são possíveis foi fornecida nos últimos anos por grandes modelos de linguagem. Esses modelos podem gerar e processar texto, mas também possuem uma riqueza de conhecimento sobre o mundo devido ao treinamento com quantidades gigantescas de texto. Em alguns exemplos, eles também mostram uma capacidade rudimentar – embora não estável – de raciocinar, como em Experimentos de PaLM do Google .
Pesquisadores de IA da divisão de robótica do Google, entre outros, estão, portanto, perguntando: os modelos de linguagem podem servir como modelos de raciocínio que combinam várias fontes de feedback e se tornam solucionadores de problemas interativos para tarefas incorporadas, como a manipulação de robôs?
Outros trabalhos já mostraram que modelos de linguagem podem ser usados para planejar ações em robôs. A equipe do Google agora pergunta se os recursos dos modelos de linguagem também podem ser usados para reprogramar quando as coisas dão errado.
Google mostra monólogos internos de robôs
O modelo utilizado é o que se chama “pensar na linguagem”. Como exemplo, a equipe cita um monólogo interno que pode ocorrer quando uma pessoa está tentando destrancar uma porta: “Preciso destrancar a porta; Estou tentando pegar essa chave e colocar na fechadura… não, espera, não dá, vou tentar outra… essa deu certo, agora posso virar a chave.”
Esse processo de pensamento envolvia decisões sobre ações imediatas para resolver a tarefa de nível superior (pegar a chave, destrancar a porta). A seguir, observações sobre os resultados das ações tentadas (chave não cabe). Finalmente, ações corretivas em resposta a essas observações (tentando uma chave diferente).
Tal processo de pensamento é, portanto, uma estrutura natural para integrar feedback para grandes modelos de linguagem, dizem os pesquisadores. Eles chamam a abordagem de “monólogo interior”.
Vídeo: Google
Enquanto as abordagens mais antigas permitem que um modelo de fala gere diretamente um plano complexo para uma meta, sem deixar oportunidade para correções, a equipe do Google alimenta continuamente o modelo de fala com informações adicionais à medida que o robô interage com o ambiente.
Isso pode incluir uma descrição dos objetos visíveis em uma cena ou feedback sobre se uma ação foi bem-sucedida ou não. Com base nessas informações, o modelo de fala também pode fazer perguntas de acompanhamento ao humano se uma instrução não estiver clara ou não for mais executável.
Google Inner Monologue controla robôs em simulação e realidade
A equipe do Google está testando o Inner Monologue em simulação e realidade, com o modelo de linguagem também gerando comandos que controlam o robô. O modelo foi preparado para isso apenas com alguns exemplos (poucos disparos). Na simulação, um braço de robô virtual classifica os objetos virtuais. Na realidade, um braço de robô real classifica bananas de plástico e garrafas de ketchup. Se uma ação não for bem-sucedida, o modelo de linguagem emitirá o mesmo comando novamente.
Vídeo: Google
O uso do robô do Google em um ambiente de teste real é impressionante, com um braço robótico em movimento pegando, guardando ou descartando latas de bebidas ou lanches enquanto lida com a intervenção humana. Ele repete ações com falha, descreve cenas e faz perguntas de acompanhamento apropriadas.
Vídeo: Google
Graças às suas capacidades de linguagem, o sistema pode adaptar-se continuamente a novas instruções e estabelecer novos objetivos quando os antigos não são alcançáveis. Ele também entende vários idiomas, pode usar ações anteriores e feedback ambiental para entender melhor uma cena e pode lidar com erros de digitação. Exemplos de vídeo disso podem ser encontrados em página do projeto Inner Monologue .
No futuro, a equipe espera reduzir a dependência do modelo de feedback humano, como o uso de legendas avançadas de imagens/vídeos e respostas a perguntas visuais.