OPT-IML: Meta lança modelo de linguagem open source otimizado para tarefas

Sumário

Ajuste fino com tarefas de idioma para tarefas de idioma
Sem uso comercial

Com OPT-IML Meta fornece um modelo de linguagem de código aberto no tamanho de GPT-3, que é otimizado para tarefas de linguagem. Está disponível apenas para fins de pesquisa.

O “Open-Pre-trained-Transformer – Instruction Meta-Learning” (OPT-IML) é baseado em Modelo de linguagem OPT da Meta , que foi anunciado no início de maio de 2022 e lançado no final de maio. O maior modelo tem 175 bilhões de parâmetros como o GPT-3 da OpenAI, mas é considerado significativamente mais eficiente no treinamento, incorrendo em apenas um sétimo da pegada de CO₂ do GPT-3.

Ajuste fino com tarefas de idioma para tarefas de idioma

De acordo com a Meta, a versão IML lançada agora é ajustada para ter um desempenho melhor em tarefas de linguagem natural do que o OPT nativo. Tarefas típicas de linguagem incluem responder a perguntas, resumir texto e traduzir. Para o ajuste fino, os pesquisadores usaram cerca de 2.000 tarefas de linguagem natural. As tarefas são agrupadas em oito benchmarks de NLP (OPT-IML Bench), que os pesquisadores também fornecem.

Meta oferece OPT-IML em duas versões: OPT-IML em si foi treinado com 1500 tarefas, e outras 500 tarefas foram retidas para avaliação. OPT-IML-Max foi treinado com todas as 2000 tarefas disponíveis.

Em média, o OPT-IML melhora em relação ao OPT com aproximadamente 6-7% na precisão de tiro 0 nas escalas de modelo 30B e 175B. Para precisão de 32 tiros, vemos melhorias significativas no modelo 30B e melhorias mais suaves no 175B. Embora as melhorias sejam significativas para determinadas tarefas, como RTE, WSC, BoolQ, ARC, CB e WiC, nosso ajuste de instrução não melhora o desempenho de outras tarefas, como StoryCloze, PIQA, Winograd e Winogrande.

do papel

Em seus papel , os pesquisadores também apresentam divisões de avaliação estratégica para seu benchmark para avaliar três tipos diferentes de habilidades de generalização de modelo: 1) desempenho totalmente supervisionado, 2) desempenho em tarefas não vistas de categorias de tarefas vistas e 3) desempenho em tarefas de categorias completamente mantidas . Usando este conjunto de avaliação, eles apresentam compensações e práticas recomendadas para muitos aspectos do ajuste de instrução.

Sem uso comercial

A Meta está lançando o modelo de 30 bilhões de parâmetros em ambas as versões diretamente no Github como um download . O modelo OPT-IML-175B está planejado para estar disponível mediante solicitação em breve. O formulário de solicitação também será publicado no Github.

Ao contrário, por exemplo, GPT-3 via API, OPT-IML não pode ser usado para fins comerciais. o licença OPT fornecida destina-se apenas a fins de pesquisa não comercial. A licença é vinculada ao destinatário e não pode ser redistribuída.

Sumário

Ajuste fino com tarefas de idioma para tarefas de idioma

Sem uso comercial

Artigos Relacionados