Pesquisadores do Google mostram controle de robôs em tempo real por meio de linguagem interativa

Uma equipe de pesquisa do Google demonstra que até quatro braços robóticos visuomotores podem ser controlados com precisão em tempo real usando linguagem natural.

Avanços em modelos de linguagem grandes (LLMs) levaram a poderosos geradores de texto recentemente. Mas esses são apenas um dos muitos casos de uso do processamento de linguagem natural: combinado com outros dados em arquiteturas multimodais, a compreensão da linguagem ajuda as máquinas a entender melhor os humanos sem código. Atual geradores de texto para x ilustram isso, e agora o Google está fazendo o mesmo com o complexo controle de voz de um braço robótico equipado com uma câmera de vídeo.

Linguagem interativa para comandos em tempo real para robôs do mundo real

No trabalho de pesquisa, “Interactive Language: Talking to Robots in Real Time”, a equipe de pesquisa do Google apresenta uma estrutura para a construção de robôs interativos que podem ser instruídos em tempo real e em linguagem natural. O robô atua apenas com base na entrada de fala combinada com uma imagem RGB da câmera embutida no braço (640 x 360 Pixels).

A equipe usa uma arquitetura baseada no Transformer para controle visuomotor condicionado à linguagem, que treinou com aprendizado de imitação em um conjunto de dados de centenas de milhares de sequências de movimento anotadas.

Segundo os pesquisadores, o sistema pode traduzir mais de 87.000 strings de linguagem natural em ações robóticas em tempo real com um taxa de sucesso de cerca de 93,5 por cento. Isso inclui comandos complexos, como “fazer um rosto sorridente com blocos” ou classificar cores e formas. O vídeo a seguir mostra o modelo com o braço do robô controlado por fala em ação.

A orientação humana interativa permite que o braço atinja “objetivos complexos com horizontes longos”, escreve a equipe. O operador humano dá comandos sequenciais até que o braço robótico atinja o alvo. Os comandos podem ser dados em diferentes ordens e com vocabulário extenso.

Em experimentos, a equipe de pesquisa também conseguiu controlar quatro braços robóticos simultaneamente pela fala. Isso mostra que a suposição anterior de atenção total do operador para a correção do comportamento do robô online pode ser relaxada, escreve a equipe.

Um passo em direção a robôs cotidianos mais úteis

Em particular, a equipe de pesquisa vê o conjunto de dados de tabela de idiomas de código aberto com uma referência para a aprendizagem de imitação multitarefa simulada como uma contribuição para a pesquisa de interação humano-robô. De acordo com os pesquisadores, o conjunto de dados inclui quase 600.000 sequências de movimentos de robôs simulados e do mundo real, descritos com linguagem natural. É significativamente maior do que os conjuntos de dados disponíveis anteriormente.

No entanto, os pesquisadores escrevem que ainda existem inúmeras limitações para a colaboração humano-robô, como reconhecimento de intenção, comunicação não-verbal e execução física conjunta de tarefas por humanos e robôs. Pesquisas futuras podem estender a abordagem de linguagem interativa para robôs assistivos úteis em tempo real, por exemplo.

“Esperamos que nosso trabalho possa ser útil como base para pesquisas futuras em robôs capazes e úteis com controle visuo-linguo-motor”, escreve a equipe.

Autor Pete Florence levantou a possibilidade no Twitter que a divisão de robótica do Google em breve compartilhará os dados, modelos e ambientes de simulação usados ​​com a comunidade de pesquisa.