Meta publica conjunto de dados em primeira pessoa para IA do dia a dia

Inteligência Artificial treinada com vídeos em primeira pessoa poderia entender melhor nosso mundo. Na Meta, o desenvolvimento de AR e AI se cruzam neste espaço.

Na preparação para a conferência de visão computacional CVPR 2022, a Meta está lançando o “Project Aria Pilot Dataset”, com mais de sete horas de vídeos em primeira pessoa espalhados por 159 sequências em cinco locais diferentes nos Estados Unidos. Eles mostram cenas do cotidiano – lavando a louça, abrindo uma porta, cozinhando ou usando um smartphone na sala.

Treinamento de IA para a vida cotidiana

Os pesquisadores de IA devem usar esses dados para treinar uma inteligência artificial que entenda melhor a vida cotidiana. Na prática, esse sistema de IA pode melhorar os sistemas de assistência visual em headsets AR em particular. A IA reconhece mais elementos no ambiente e pode, por exemplo, dar dicas durante o cozimento.

Cenas do conjunto de dados. | Vídeo: meta

A Meta anunciou o projeto de coleção de vídeos em primeira pessoa em outubro de 2021, e na época já havia lançado o Conjunto de dados Ego4D com mais de 2200 horas de filmagem em primeira pessoa.

Mike Schroepfer, CTO da Meta na época, disse no lançamento do conjunto de dados Ego4D que ele poderia ser usado, por exemplo, para treinar um assistente de IA para ajudá-lo a lembrar onde deixou suas chaves ou ensiná-lo a tocar violão.

O Projeto Aria fornece dados particularmente ricos

O conjunto de dados atual foi coletado com o protótipo de óculos AR “Project Aria”, como o nome sugere. O dispositivo é um protótipo de sensor para futuros headsets AR de última geração, mas não possui um display integrado.

Com o Aria, a Meta quer principalmente coletar dados para desenvolvimento de software para aplicativos AR futuros de alta qualidade e, em geral, aprender como os sensores nos óculos se comportam na vida cotidiana. Meta apresentou Aria pela primeira vez há cerca de dois anos.

A Aria coleta uma variedade de dados sobre os dados de vídeo para aumentar o novo conjunto de dados: além de uma câmera colorida e duas câmeras em preto e branco, o fone de ouvido possui rastreamento ocular integrado, um barômetro, um magnetômetro, microfones de som espacial e GPS .

Complementando esses dados, o Meta fornece mais informações sobre o ambiente, por exemplo, como vários usuários de óculos na mesma casa interagem uns com os outros. A captura de fala para texto também permite a avaliação de conversas e comentários no contexto de impressões visuais das câmeras.

1675118639 89 Meta publica conjunto de dados em primeira pessoa para IA

“Acreditamos que este conjunto de dados fornecerá uma linha de base para pesquisadores externos criarem e promoverem pesquisas reproduzíveis em visão computacional egocêntrica e algoritmos AI/ML para percepção, reconstrução e compreensão de cenas”, escreve Meta.

Além dessas “atividades diárias”, a Meta está expandindo o conjunto de dados para incluir “atividades de desktop”. Aqui, a empresa instalou um sistema de captura de movimento em um desktop para capturar atividades cotidianas, como cozinhar, com ainda mais precisão e de diferentes perspectivas.

Para maiores informações, visite o site oficial do conjunto de dados Aria onde você também pode solicitar acesso.