CTRL+F para o mundo – o Google funciona na pesquisa em qualquer lugar

O Google demonstra o papel central que os grandes modelos de IA desempenharão no futuro da empresa. A visão é que a busca estará disponível em todos os lugares – até mesmo na vida real.

Mesmo antes de o Google revelar novos hardwares como o Pixel 7, Pixel 6a ou Google Buds Pro, o CEO Sundar Pichai falou longamente sobre as últimas conquistas da IA ​​da empresa: modelos de tradução monolíngüe permitem 24 novos idiomas para o Google Tradutor e edifícios reconhecidos pela inteligência artificial agora representam 20 por cento de todos os edifícios listados no Google Maps.

Desde julho de 2020, a IA quintuplicou o número de estruturas detectadas no continente africano de 50 milhões para 300 milhões, disse ele. Segundo Pichai, o modelo de IA desenvolvido pelo Google também está disponível gratuitamente e é usado pelas Nações Unidas e pelo Banco Mundial.

Visualmente deslumbrante: com o Immersive View, as cópias 3D das principais cidades podem ser transmitidas ao vivo do Google Cloud para qualquer dispositivo, graças à fusão automática de imagens aéreas e de satélite, bem como fotos. O Google também usa as chamadas técnicas de renderização neural para uma visita virtual a um restaurante. Isto faz Google Maps é uma espinha dorsal potencial da nuvem de realidade aumentada .

A tecnologia Deepmind melhora o YouTube

No ano passado, no I/O, o Google apresentou capítulos gerados automaticamente para vídeos do YouTube. Este ano, Pichai está anunciando mais aprimoramentos de vídeo graças aos modelos multimodais de IA da Deepmind. A tecnologia analisa texto, áudio e imagens de vídeos para gerar sugestões de capítulos ainda melhores, de acordo com Pichai.

Reconhecimento de fala para transcrições automáticas de vídeos do YouTube agora está disponível para todos Android e usuários de iOS. Traduções geradas automaticamente também estão disponíveis para o YouTube em plataformas móveis, e uma atualização para o idioma ucraniano será lançada em breve.

Para os produtos Workspace do Google, Pichai exibiu o recurso de resumo lançado recentemente para o Google Docs: um modelo de linguagem gera resumos para documentos mais longos com o apertar de um botão. Espera-se que esse recurso apareça em breve para produtos como o Google Chat e o Google Meet. Pichai também anunciou modelos de IA para o Google Meet que melhoram a qualidade de vídeo e iluminação.

Pesquisa multimodal: CTRL+F para a vida real

O vice-presidente sênior Prabhakar Raghavan, responsável pela Pesquisa do Google, entre outras coisas, revela as próximas atualizações do mecanismo de pesquisa lançadas recentemente Recurso de pesquisa múltipla. Com Multisearch, os usuários podem combinar pesquisas de imagem e texto, como tirar uma foto de uma garrafa de água e procurar uma variante com um motivo de flor.

No final do ano, o Multisearch também pode realizar pesquisas locais: qualquer pessoa que pesquisar a foto de uma pizza usando a função “perto de mim” verá as pizzarias próximas. O mesmo deve funcionar para vários objetos – de alimentos a commodities.

A próxima evolução do Multisearch será Exploração de cena : Em vez de uma única imagem, os usuários irão mover a câmera sobre uma cena e receber respostas para perguntas que correspondem ao contexto da imagem.

Raghavan mostra um exemplo em que o chocolate amargo de alta qualidade sem nozes é filtrado de toda uma gama de produtos em um supermercado. Ele diz que a tecnologia tem inúmeras aplicações, como na conservação para identificar rapidamente plantas raras ou em farmácias para encontrar um creme específico.

Vídeo: Google

Raghavan descreve a Exploração de cena como “CTRL+F para o mundo”, ou seja, como uma função de pesquisa universal para o mundo real. Esta ideia provavelmente desenvolverá seu pleno efeito com Óculos AR em particular, com os quais o Google também se comprometeu claramente no I/O .

LaMDA 2: teste beta para o futuro da IA ​​do Google

No ano passado, o Google já deu uma olhada no desenvolvimento dos grandes modelos de IA LaMDA e MUM. Embora o MUM sirva como base para a pesquisa multimodal, LaMDA é um dos grandes modelos de linguagem com os quais o Google deseja trabalhar diretamente. Já houve uma atualização sobre os recursos e problemas do LaMDA no início de 2022. Segundo Pichai, milhares de funcionários do Google testaram o modelo de linguagem desde o início de seu desenvolvimento.

Na conferência de desenvolvedores deste ano, o Google apresentou o LaMDA 2, uma versão aprimorada do modelo de linguagem grande. Conforme anunciado no ano passado, o Google está adiando o lançamento por enquanto.

Em vez disso, o LaMDA 2 será disponibilizado para mais e mais pessoas selecionadas ao longo do ano por meio do Aplicativo “AI Test Kitchen” . O aplicativo será lançado nos EUA nos próximos meses e estará disponível por meio de convites por enquanto.

três aplicativos LaMDA-2 disponíveis no aplicativo por enquanto, que são aplicativos diferentes e às vezes particularmente sofisticados. Em “Imagine it”, LaMDA gera descrições interessantes e é provavelmente o menos restrito.

Vídeo: Google

Em “Talk About It”, LaMDA deve falar exclusivamente sobre um tema específico, como cachorros na “Dogs Edition”. Para perguntas que fogem do assunto, o LaMDA deve levar a conversa de volta aos cães.

Vídeo: Google

Em “List It”, o modelo de linguagem gera uma lista de ideias úteis ou tarefas de nível inferior. Em uma demonstração, por exemplo, o LaMDA cria instruções para plantar uma horta.

Vídeo: Google

O aplicativo permite que os usuários forneçam feedback que melhorará o modelo a longo prazo. O Google quer colaborar com pesquisadores de diferentes disciplinas, ativistas de direitos humanos e formuladores de políticas para coletar feedback.

No futuro, outros modelos de IA poderão ser testados no aplicativo. O Google pode, assim, usar a infraestrutura móvel existente para testar e desenvolver seus próprios produtos de IA em um ambiente controlável.

No final da apresentação do LaMDA, Pichai fala sobre as impressionantes capacidades do modelo de linguagem grande PaLM e mostra um exemplo em que o modelo responde corretamente a uma pergunta em bengali e a traduz para o inglês. Ele enfatiza que o PaLM nunca aprendeu explicitamente a responder ou traduzir perguntas.

Grandes modelos de linguagem provavelmente desempenharão um papel ainda mais central nos produtos do Google no futuro: “Estamos muito otimistas sobre o potencial dos modelos de linguagem. Esperamos um dia poder responder perguntas sobre mais tópicos em qualquer idioma que você fale, tornando o conhecimento ainda mais acessível na Pesquisa e em todo o Google”, conclui Pichai.