Sumário
Atualização em 23 de maio de 2022:
A Meta agora está lançando o modelo de linguagem OPT-66B maior, seguindo os modelos OPT de 125 milhões a 30 bilhões de parâmetros (veja as notícias abaixo). De acordo com a Meta, é o maior modelo de linguagem AI de código aberto acessível sem restrições até o momento.
Você pode baixar o modelo de 66 bilhões de parâmetros e todas as variantes menores do Página OPT do Github . Como antes, o maior modelo com 175 bilhões de parâmetros só é acessível mediante solicitação.
Artigo original de 4 de maio de 2022:
O departamento de IA da Meta publica um modelo de linguagem amplamente treinado para conduzir pesquisas, particularmente sobre as vulnerabilidades da linguagem AI.
A IA de linguagem GPT-3 da OpenAI foi um marco no desenvolvimento de sistemas de IA de linguagem natural. Pela primeira vez, um modelo de IA foi capaz de formular textos curtos de maneira tão crível e coerente que não poderiam mais ser reconhecidos por humanos como gerados por IA. Posteriormente, o modelo provou ser flexível para muitas outras aplicações, como geração de código com apenas pequenos ajustes finos.
A OpenAI, portanto, viu um modelo de negócios no GPT-3 pela primeira vez e oferece a linguagem AI por meio de uma API. O modelo real não está disponível para pesquisadores – mas isso beneficiaria o progresso científico.
A Meta agora está se posicionando nessa lacuna, oferecendo aos pesquisadores e parceiros selecionados um grande modelo de linguagem de IA para estudar gratuitamente.
Meta OPT: modelo de linguagem AI em grande escala para pesquisa
O “transformador pré-treinado aberto” (OPT) é comparável em desempenho e tamanho ao GPT-3 da OpenAI, de acordo com os pesquisadores da Meta. A maior versão do OPT tem 175 bilhões de parâmetros – como o GPT-3. No entanto, de acordo com a Meta, o treinamento de IA foi muito mais eficiente: diz-se que causou apenas um sétimo da pegada de CO₂ do GPT-3.
Meta planeja fazer o maior modelo OPT com 175 bilhões de parâmetros disponível para parceiros selecionados de pesquisa, indústria, governos e organizações da sociedade civil, mediante solicitação. Isso permitirá que eles analisem, por exemplo, as ponderações e inter-relações da rede neural durante o processamento da linguagem.
A Meta disponibiliza modelos OPT menores com 125 milhões a 30 bilhões de parâmetros disponíveis gratuitamente. Juntamente com os modelos, a Meta também publica o código para treinamento e a documentação do processo de treinamento. Os modelos não podem ser usados comercialmente ( contrato de licença ).
Fazendo a ponte entre a indústria e a pesquisa
Meta espera que o comunidade científica encontrará “diretrizes claras” para lidar em particular com os problemas de grandes modelos de linguagem de IA como viés e toxicidade na linguagem gerada por IA. Pesquisas anteriores mostraram, entre outras coisas, que o GPT-3 não apenas reforça os vieses existentes nos dados de treinamento, mas também gera novos.
“Sem acesso direto a esses modelos, os pesquisadores também ficam limitados em sua capacidade de projetar estratégias de detecção e mitigação para possíveis danos, o que deixa a detecção e mitigação nas mãos apenas daqueles com capital suficiente para acessar modelos dessa escala”, Equipe de IA da Meta escreve.
Os problemas descritos anteriormente atrasam ou dificultam o uso generalizado de modelos de linguagem de IA na prática. A Meta, por outro lado, deseja implantar modelos adequados o mais rápido e seguro possível em suas plataformas, por exemplo, para moderação de mídia social ou assistência de voz em VR, AR e com seus dispositivos domésticos inteligentes.
Nesse sentido, a publicação da OPT faz sentido para a Meta acelerar o progresso científico. Além disso, a publicação posiciona a empresa positivamente com a escassa próxima geração de cientistas de IA.
“Acreditamos que toda a comunidade de IA – pesquisadores acadêmicos, sociedade civil, formuladores de políticas e indústria – deve trabalhar em conjunto para desenvolver diretrizes claras sobre IA responsável em geral e LLMs responsáveis em particular, dada sua centralidade em muitos aplicativos de linguagem downstream”, escrevem os pesquisadores da Meta. .
Um segmento muito mais amplo da comunidade de IA precisa de acesso a grandes modelos de linguagem de IA, dizem eles, para “conduzir pesquisas reproduzíveis e impulsionar coletivamente o campo”.
O menor Os modelos OPT estão disponíveis no Github e um pedido de acesso ao modelo 175B pode ser feito aqui .