A Meta apresenta os modelos de linguagem LLaMA, que com relativamente poucos parâmetros podem superar modelos de linguagem muito maiores, como GPT-3.
O departamento de pesquisa de IA da Meta lança quatro modelos fundamentais que variam de 7 a 65 bilhões de parâmetros. Diz-se que o LLaMA (Large Language Model Meta AI) de 13 bilhões de parâmetros supera Modelo OPT de código aberto da Meta e GPT-3 GPT-3 de 175 bilhões de parâmetros na “maioria” das tarefas de linguagem.
Mais dados para melhores resultados
Diz-se que o maior modelo LLaMA, com 65 bilhões de parâmetros, é capaz de competir com G o enorme modelo Palm da oogle com 540 bilhões de parâmetros e está a par Chinchila da Mente Profunda segundo os pesquisadores.
O modelo LLaMA requer uma quantidade semelhante de horas de treinamento e, portanto, consome uma quantidade semelhante de CO₂, como os modelos 175 Billion OPT e Florescer . No entanto, seu custo operacional é menor (veja abaixo).
A comparação com Chinchilla é interessante porque Deepmind então, como Meta agora, adotou uma nova abordagem de treinamento com LLaMA, baseada em um número maior de dados de treinamento (tokens) do que o normal. LLaMA é a Chinchila de Meta, por assim dizer, e os pesquisadores citam explicitamente o modelo como inspiração.
Todos os nossos modelos foram treinados em pelo menos 1T tokens, muito mais do que normalmente é usado nessa escala.
Curiosamente, mesmo após os tokens 1T, o modelo 7B ainda estava melhorando.
3/n pic.twitter.com/qiXieIAKC6– Guillaume Lample (@GuillaumeLample) 24 de fevereiro de 2023
O LLaMA mostra que treinar com mais dados se reflete no desempenho. O treinamento é mais caro e demorado, mas o modelo é mais eficiente posteriormente.
O objetivo das leis de escala de Hoffmann et al. (2022) é determinar a melhor forma de dimensionar o conjunto de dados e os tamanhos do modelo para um orçamento de computação de treinamento específico. No entanto, esse objetivo desconsidera o orçamento de inferência, que se torna crítico ao servir um modelo de linguagem em escala. Nesse contexto, dado um nível alvo de desempenho, o modelo preferido não é o mais rápido para treinar, mas o mais rápido na inferência e, embora possa ser mais barato treinar um modelo grande para atingir um determinado nível de desempenho, um menor treinado por mais tempo acabará por ser mais barato na inferência.
do papel
O modelo de 13 bilhões da LLaMA, que opera no nível GPT-3, roda em uma única placa de vídeo Nvidia Tesla V100, de acordo com a equipe de pesquisa da Meta. Isso poderia ajudar a democratizar o acesso e a pesquisa sobre modelos de linguagem em larga escala.
Os modelos de linguagem LLaMA também mostram que modelos maiores ainda podem ter reservas de desempenho significativas se uma empresa pagar as contas e combinar modelos grandes com ainda mais dados. A equipe de pesquisa da Meta planeja fazer isso no futuro, assim como afinar os modelos com instruções .
Planejamos lançar modelos maiores treinados em corpos de pré-treinamento maiores no futuro, pois vimos uma melhoria constante no desempenho à medida que escalonávamos.
do papel
Dados públicos para treinamento de IA
O LLaMA difere do Chinchilla do Deepmind e de outros grandes modelos de linguagem em seus dados de treinamento, de acordo com a equipe Meta Research. O LLaMA usa apenas dados disponíveis publicamente, enquanto outros modelos usam conjuntos de dados não documentados ou não públicos para treinamento.
Grande parte (67%) dos dados do LLaMA vem de uma versão limpa do conjunto de dados English Common Crawl amplamente utilizado. Outras fontes de dados incluem o GitHub público e a Wikipedia. Os modelos LLaMA são, portanto, “compatíveis com código aberto”, escreve a equipe.
Isso é questionável, pelo menos na medida em que as licenças comuns de código aberto ainda não fornecem seu uso no treinamento de IA e os modelos normalmente não citam fontes em sua produção . Mesmo que grandes empresas estejam fazendo isso atualmente, é improvável que o consentimento efetivo para usar dados para treinamento em IA possa ser inferido apenas pela disponibilidade pública de dados na Internet. No futuro, os tribunais podem ajudar a esclarecer isso.
A Meta libera os modelos de linguagem sob a licença não comercial GPL v3 para parceiros selecionados na academia, governo e indústria. Os interessados podem candidatar-se aqui . O acesso ao modelo de cartão e as instruções de uso estão disponíveis em GithubGenericName .