GPT-JT é uma alternativa GPT-3 de código aberto com uma abordagem descentralizada

O grande modelo de linguagem GPT-JT foi ajustado de maneira descentralizada. Está disponível como código aberto e pode competir com o GPT-3 em algumas disciplinas.

Difusão estável com sua abordagem de código aberto, é uma alternativa séria ao DALL-E 2 e meio da jornada quando se trata de IA generativa para imagens. A nova variante descentralizada, GPT-JT, poderia fazer o mesmo para grandes modelos de linguagem, aproximando-se do desempenho do GPT-3.

O GPT-JT foi desenvolvido por pesquisadores da comunidade Together, incluindo pesquisadores da ETH Zurich e da Universidade de Stanford.

Uma bifurcação de GPT-J-6B

O modelo de linguagem baseia-se Parâmetro GPT-J-6B de seis bilhões da EleutherAI e foi ajustado com 3,5 bilhões de tokens. Em vez de colocar todos os computadores em rede por meio de data centers de alta velocidade, o Together só tinha conexões relativamente lentas com até um gigabit/s disponível.

Com algoritmos de aprendizado clássicos, cada máquina geraria 633 TB de dados para comunicação, de acordo com os pesquisadores. Graças a um otimizador e uma estratégia baseada em treinamento local que ignora aleatoriamente as comunicações globais, a equipe GPT-JT conseguiu reduzir essa demanda para 12,7 TB.

Notavelmente, e um pouco mais importante do que o próprio modelo, que representa um primeiro passo, queremos destacar a força da IA ​​de código aberto, onde os projetos comunitários podem ser aprimorados de forma incremental e contribuídos de volta ao código aberto, resultando em bens públicos e uma cadeia de valor da qual todos podem se beneficiar.

Juntos.xyz

O GPT-JT pode alcançar o GPT-3 na classificação

O GPT-JT pode acompanhar outros modelos de linguagem, apesar de suas limitações de treinamento. Quando se trata de classificar o texto, o modelo de código aberto ocupa o segundo lugar no RAFT Score, um método para avaliação holística de modelos de linguagem.

Este resultado coloca o GPT-JT logo atrás do OpenAI InstructGPT “davinci V2” , que tem quase 30 vezes mais parâmetros com 175 bilhões. Grande semelhante modelos de código aberto como o BLOOM só aparecem na segunda metade do ranking.

“Ataque à economia política da IA”

Jack Clark, autor do Importar newsletter de IA , chama o GPT-JT de “ataque à economia política da IA”. Até agora, grande parte do desenvolvimento da IA ​​foi conduzido por alguns grupos com acesso a grandes redes de computadores centralizadas.

“O GPT-JT sugere um futuro radicalmente diferente – coletivos distribuídos podem agrupar computadores em links de internet ruins e treinar modelos juntos”, conclui Clark.

Modelo de código aberto agora disponível

Você pode experimentar uma demonstração GPT-JT gratuitamente em rosto abraçado com exemplos de cenários, como análise de sentimento, classificação de tópicos, resumo ou resposta a perguntas. o código está disponível lá .