IA multimodal: MUM é o futuro da pesquisa do Google

O modelo de IA multimodal do Google permitirá consultas de pesquisa complexas. Espera-se que os primeiros recursos de pesquisa sejam lançados nas próximas semanas.

Em maio de 2021, o Google revelou a inteligência artificial multimodal MUM (Multitask Unified Model). O modelo AI segue a tendência de modelos transformacionais treinados multimodais, como DALL-E ou CLIP da OpenAI. Ele é treinado em dados de texto, imagem e vídeo em 75 idiomas.

Segundo o Google, o MUM representa o futuro do mecanismo de busca. Diz-se que a inteligência artificial é significativamente mais poderosa do que o atual modelo BERT e tem uma compreensão mais profunda do mundo.

Em sua própria conferência “Search On”, o Google anunciou novos detalhes sobre o MUM e anunciou recursos baseados em MUM para a Pesquisa do Google.

O modelo multimodal de IA do Google encontra as meias certas

Para ilustrar a vantagem dos modelos multimodais, o Google usa um exemplo simples: a pesquisa atual do Google sabe como é um leão, como soa e como soletrar seu nome. MUM, por outro lado, sabe que o leão – mesmo que seja um gato – não é um bom animal de estimação.

Essa capacidade dos modelos multimodais de representar conexões implícitas entre diferentes conceitos também foi demonstrada por Estudo da OpenAI dos neurônios do CLIP.

Na prática, o Google quer usar essa capacidade para obter melhores resultados de pesquisa e também dar aos usuários a possibilidade de fazer consultas multimodais, como uma imagem com uma pergunta sobre ela. Na conferência, o Google mostrou dois exemplos disso: encontrar meias coloridas e reunir dicas para consertar bicicletas.

Vídeo: Google

Na primeira demonstração, o usuário digitaliza uma camisa estampada com o Google Lens e, em seguida, usa a entrada de texto para solicitar ao Google que encontre meias com o mesmo padrão.

Em uma segunda demonstração, o usuário fotografa uma peça de bicicleta e pede dicas de conserto. O MUM AI reconhece a peça e sugere tutoriais apropriados do YouTube. De acordo com o Google, isso é especialmente útil se você nem sabe o nome da peça quebrada.

Pesquisa multimodal: o Google Lens se torna parte da Pesquisa do Google

Para permitir que os usuários pesquisem imagens e textos, o Google integrará seu software de análise de imagem, Lens, ao aplicativo do Google para iOS e ao Chrome navegador da web. Daqui para frente, o Lens estará sempre disponível no universo do Google. Segundo o Google, isso significa, por exemplo, que ao navegar pelas imagens em um blog de decoração, será possível buscar produtos em uma imagem.

A busca multimodal será lançada e amplamente testada nos próximos meses. Presumivelmente, o Google quer garantir que os vieses inerentes aos modelos gigantes de IA não cheguem ao usuário final.

Por causa do MUM: a Pesquisa do Google ganha novo design

O Google também anunciou uma reformulação da Pesquisa Google. Uma nova caixa “Coisas a saber” exibirá informações úteis, como instruções ou dicas adicionais. Além disso, serão sugeridos refinamentos de pesquisa e mais sugestões de tópicos contribuídas pelo MUM serão exibidas.

O MUM também exibirá sugestões de tópicos para vídeos na pesquisa, incluindo tópicos não mencionados diretamente no vídeo, o que o Google diz que só é possível por meio do modelo multimodal. Alguns desses recursos devem aparecer nas próximas semanas.

Além do MUM, o Google exibiu outras melhorias no Google Maps, melhores recursos de compras e uma ferramenta que mostra aos planejadores da cidade:onde o verde contra as ondas de calor vale particularmente a pena.