Sumário
Para controlar o comportamento de personagens baseados em física por meio da linguagem, o PADL da Nvidia combina um modelo de linguagem com aprendizado por reforço.
Uma coisa que vem à mente ao lembrar o início dessa onda de IA são certamente as figuras 3D estranhamente em movimento da Deepmind e de outras instituições de pesquisa. Essas aranhas de três pernas ou fantoches humanóides 3D aprenderam seus movimentos por meio do aprendizado por reforço.
Existem agora inúmeras abordagens para fazer animais digitais ou figuras semelhantes a humanos aprenderem os movimentos por conta própria. O objetivo desses métodos é desenvolver sistemas de IA que possam gerar movimentos de aparência natural para uma variedade de figuras simuladas e, assim, complementar ou substituir os processos manuais de animação e captura de movimento a longo prazo.
PADL da Nvidia torna a animação de IA controlável por linguagem
Para que a animação de IA seja usada em fluxos de trabalho industriais, ela deve ser controlável. A Nvidia agora apresenta “Animação baseada em física dirigida com linguagem” (PADL), uma estrutura que combina avanços no processamento de linguagem natural com métodos de aprendizado por reforço para criar um sistema orientado por linguagem.
O PADL é treinado em três estágios: Na fase de incorporação de habilidades, a Nvidia usa um codificador de linguagem e um codificador de movimento para treinar um espaço de incorporação compartilhado com vídeos curtos com movimentos e descrições de texto associadas.
O espaço de incorporação combina linguagem e habilidades vistas no vídeo e é usado na segunda fase para aprender várias políticas para resolver tarefas simples, como mover-se em direção a um objeto específico. Na terceira fase, a Nvidia mescla as diferentes políticas aprendidas (agregação multitarefa).
O modelo resultante pode então ser controlado pela linguagem: Os usuários podem usar a entrada de texto para atribuir a um personagem uma tarefa específica e uma habilidade correspondente como “correr para o bloco vermelho” ou “enfrentar o alvo e acertá-lo com o escudo”.
Os personagens aprendem automaticamente os movimentos relacionados
Ao treinar com diferentes movimentos e descrições de texto correspondentes, o modelo pode interpolar entre movimentos relacionados, como caminhada lenta e corrida.
No vídeo, você pode ver o personagem aumentando gradualmente sua velocidade ou agachando-se lentamente a partir da posição em pé sem ter visto as etapas intermediárias do treinamento. No entanto, o modelo está sobrecarregado com habilidades completamente novas, como piruetas e tarefas invisíveis.
A Nvidia quer treinar PADL com um conjunto de dados muito maior de gravações anotadas de captura de movimento para obter mais habilidades e abandonar as poucas tarefas fixas em favor de uma abordagem mais geral para o treinamento de políticas.
Mais informações podem ser encontradas no página do projeto PADL . O código será lançado lá em breve.