A empresa europeia de IA Aleph Alpha apresenta uma inovação para modelos de imagem generativa: prompts multimodais. Graças à nova técnica, os modelos de IA podem ser guiados com mais precisão.
Modelos de IA generativa como OpenAIs DALL-E 2, Midjourney ou Stable Diffusion processam texto para gerar imagens originais. Em contraste, o Modelo de difusão M-VADER desenvolvido pela Aleph Alpha em conjunto com a TU Darmstadt pode fundir entradas multimodais, como uma foto ou um esboço, e uma descrição textual em uma nova ideia de imagem.
No coração da arquitetura M-Vader está o decodificador multimodal S-MAGMA com 13 bilhões de parâmetros. Ele combina o modelo de linguagem de imagem MAGMA com um modelo Luminous 13B ajustado para pesquisa semântica. Ambos os modelos pré-treinados são originários do Aleph Alpha. A saída do S-MAGMA orienta o processo de geração de imagem com uma versão de Stable Diffusion ajustada para entrada multimodal.
Segundo a equipe, o M-Vader pode gerar imagens com base no contexto multimodal, criar uma nova imagem a partir de duas imagens ou criar variações de uma imagem. O gráfico a seguir mostra alguns exemplos de mesclagem de várias imagens com instruções de texto para criar uma nova imagem.
Até agora, os modelos de imagem AI processavam principalmente texto para gerar imagens originais. Em contraste, o modelo de difusão M-VADER desenvolvido pela Aleph Alpha em conjunto com a TU Darmstadt pode fundir entradas multimodais, como uma foto, um esboço e uma descrição textual em uma nova ideia de imagem.
do papel
Prompts multimodais passam a fazer parte dos modelos Luminous da Aleph Alpha
Os pesquisadores veem seu trabalho em prompts multimodais como uma contribuição para o desenvolvimento de modelos de IA que podem capturar melhor as intenções do usuário. Existem mais exemplos de imagens No papel .
Com Luminoso e Magma, Aleph Alpha já oferece dois modelos básicos de IA em diferentes escalas para geração de legendas de texto e imagens. De acordo com Jonas Andrulis, CEO da Aleph Alpha, a tecnologia de geração de imagem multimodal agora revelada é uma novidade mundial. Em breve se tornará parte da oferta Luminous.
“Nosso conhecimento não é apenas texto, mas multimodal e a IA precisa ser capaz de entender a linguagem e as imagens juntas”, escreve Andrulis.