Sumário
O X-Decoder pode executar uma variedade de tarefas de visão e linguagem de visão. A tecnologia pode substituir modelos especializados de IA.
Quando se trata de compreensão visual, existem vários modelos de IA especializados. Eles analisam imagens em diferentes níveis de granularidade e executam tarefas muito diferentes, como classificação de imagens, rotulagem de imagens ou reconhecimento de objetos.
Ultimamente, impulsionado pelo sucesso da arquitetura Transformer revelada em 2017, a tendência tem sido desenvolver modelos de uso geral que possam ser aplicados a inúmeras tarefas de visão e linguagem de visão.
De acordo com pesquisadores da Universidade de Wisconsin-Madison, UCLA e Microsoft, no entanto, muitos desses modelos se concentram no processamento no nível da imagem e no nível da região, em vez da compreensão no nível do Pixel. As abordagens que se concentram no nível de Pixel, por outro lado, são adaptadas para tarefas específicas e ainda não foram generalizadas.
O X-Decoder pode prever perfeitamente a segmentação em nível de Pixel e os tokens de idioma
A equipe está apresentando o X-Decoder, um modelo de decodificação generalizada que pode processar imagens em todos os níveis de granularidade e executar várias tarefas de visão e linguagem de visão, incluindo segmentação de imagem em nível de Pixel e legenda de imagem, por exemplo. O X-Decoder também pode ser combinado com modelos de IA generativos, como Difusão estável . Essa abordagem permite o processamento de imagens com Pixels perfeitos.
O X-Decoder é construído sobre um backbone de visão e um codificador de transformador. O modelo é treinado com um conjunto de dados de vários milhões de pares imagem-texto e uma quantidade limitada de dados de segmentação. Ele processa entradas de um codificador de imagem ou um codificador de texto. Existem dois tipos de saída: máscaras em nível de Pixel e semântica em nível de token, como descrições de texto.
Diferentes capacidades de entrada e saída permitem que o X-Decoder execute diferentes tarefas. A equipe observou que o uso de um único codificador de texto também facilita a sinergia entre as tarefas.
O X-Decoder mostra um desempenho impressionante
De acordo com os pesquisadores, o X-Decoder mostra forte capacidade de transferência para uma variedade de tarefas downstream em configurações de ajuste zero e ajuste fino. O sistema alcança resultados de ponta em tarefas de segmentação difíceis, como segmentação de referência.
Além disso, o modelo ofereceu desempenho melhor ou competitivo para outros modelos generalistas e especialistas em tarefas de segmentação e visão-linguagem. O X-Decoder é flexível o suficiente para executar novas tarefas, como legendas de referência, combinando segmentação de referência e legendas.
Apresentamos o X-Decoder, um modelo que suporta perfeitamente a compreensão da linguagem de visão em nível de Pixel e em nível de imagem. Com um design simples e generalizado, o X-Decoder pode unir e suportar segmentação genérica, segmentação de referência e tarefas VL sem esforço, alcançando forte generalização e desempenho competitivo ou mesmo SoTA. Esperamos que este trabalho possa lançar uma luz sobre o projeto do sistema de visão de propósito geral da próxima geração.
do papel
Você pode encontrar mais informações sobre X-Decoder em seu GitHub página. Em GitHub você também pode encontrar o código.