Sumário
O Google mostra o Spotlight, um modelo de IA multimodal que pode entender interfaces móveis. O objetivo é melhorar a acessibilidade e automação.
O Google já introduziu modelos especializados que podem resumir o conteúdo da tela, reconhecer elementos acionáveis ou executar comandos simples. Segundo o Google, esses modelos usavam principalmente metadados de sites móveis, além de dados visuais, que nem sempre estão disponíveis e muitas vezes incompletos.
Com o Spotlight, a equipe do Google está treinando um modelo de IA multimodal que trabalha exclusivamente com informações visuais.
O Spotlight do Google usa o Vision Transformer e o modelo de linguagem T5
Spotlight é baseado em um pré-treinado Transformador de visão e um modelo de linguagem T5 pré-treinado. Ele é treinado pelo Google em dois conjuntos de dados, totalizando 2,5 milhões de telas de interface do usuário móvel e 80 milhões de páginas da web. Isso permite que o modelo de IA se beneficie dos recursos gerais de modelos grandes.
Além disso, o Google usa uma malha MLP para representar regiões individuais em uma captura de tela e extraí-las para processamento, por exemplo, para detectar botões clicáveis.
A equipe treina dois tamanhos de modelos diferentes (619 milhões e 843 milhões de parâmetros) para cada tarefa testada individualmente e uma vez para todas as tarefas. As tarefas incluem a descrição de elementos individuais, toda a página visível ou a detecção de controles.
Os modelos especializados do Spotlight superam significativamente todos os modelos de IU especializados mais antigos do Google. O modelo treinado em todas as quatro tarefas cai no desempenho, mas ainda é competitivo, disse a equipe.
Google quer escalar o Spotlight
Nas visualizações, o Google mostra que o Spotlight presta atenção tanto nos botões quanto no texto, como no comando “Selecionar o time do Chelsea” na captura de tela. A abordagem multimodal funciona.
Comparado a outros modelos multimodais, como o Flamingo, o Spotlight é relativamente pequeno. O maior dos dois modelos Spotlight já tem desempenho melhor que o menor. O modelo poderia, portanto, ser dimensionado ainda mais e tornar-se ainda melhor.
“O Spotlight pode ser facilmente aplicado a mais tarefas de interface do usuário e potencialmente avançar nas frentes de muitas tarefas de interação e experiência do usuário”, escreve a equipe.
No futuro, o modelo de interface do usuário do Google poderá formar a base para controle de voz confiável de aplicativos e sites móveis em Android smartphones ou assumir outras tarefas de automação. A startup Adept mostrou como isso poderia parecer no navegador da web no ano passado com o Action Transformer. Leia mais em Postagem no blog Spotlight do Google.