Sumário
O grande modelo de linguagem GPT-JT foi ajustado de maneira descentralizada. Está disponível como código aberto e pode competir com o GPT-3 em algumas disciplinas.
Difusão estável com sua abordagem de código aberto, é uma alternativa séria ao DALL-E 2 e meio da jornada quando se trata de IA generativa para imagens. A nova variante descentralizada, GPT-JT, poderia fazer o mesmo para grandes modelos de linguagem, aproximando-se do desempenho do GPT-3.
O GPT-JT foi desenvolvido por pesquisadores da comunidade Together, incluindo pesquisadores da ETH Zurich e da Universidade de Stanford.
Uma bifurcação de GPT-J-6B
O modelo de linguagem baseia-se Parâmetro GPT-J-6B de seis bilhões da EleutherAI e foi ajustado com 3,5 bilhões de tokens. Em vez de colocar todos os computadores em rede por meio de data centers de alta velocidade, o Together só tinha conexões relativamente lentas com até um gigabit/s disponível.
Com algoritmos de aprendizado clássicos, cada máquina geraria 633 TB de dados para comunicação, de acordo com os pesquisadores. Graças a um otimizador e uma estratégia baseada em treinamento local que ignora aleatoriamente as comunicações globais, a equipe GPT-JT conseguiu reduzir essa demanda para 12,7 TB.
Notavelmente, e um pouco mais importante do que o próprio modelo, que representa um primeiro passo, queremos destacar a força da IA de código aberto, onde os projetos comunitários podem ser aprimorados de forma incremental e contribuídos de volta ao código aberto, resultando em bens públicos e uma cadeia de valor da qual todos podem se beneficiar.
Juntos.xyz
O GPT-JT pode alcançar o GPT-3 na classificação
O GPT-JT pode acompanhar outros modelos de linguagem, apesar de suas limitações de treinamento. Quando se trata de classificar o texto, o modelo de código aberto ocupa o segundo lugar no RAFT Score, um método para avaliação holística de modelos de linguagem.
Este resultado coloca o GPT-JT logo atrás do OpenAI InstructGPT “davinci V2” , que tem quase 30 vezes mais parâmetros com 175 bilhões. Grande semelhante modelos de código aberto como o BLOOM só aparecem na segunda metade do ranking.
“Ataque à economia política da IA”
Jack Clark, autor do Importar newsletter de IA , chama o GPT-JT de “ataque à economia política da IA”. Até agora, grande parte do desenvolvimento da IA foi conduzido por alguns grupos com acesso a grandes redes de computadores centralizadas.
“O GPT-JT sugere um futuro radicalmente diferente – coletivos distribuídos podem agrupar computadores em links de internet ruins e treinar modelos juntos”, conclui Clark.
Modelo de código aberto agora disponível
Você pode experimentar uma demonstração GPT-JT gratuitamente em rosto abraçado com exemplos de cenários, como análise de sentimento, classificação de tópicos, resumo ou resposta a perguntas. o código está disponível lá .