Sumário
BigScience Bloom lança um novo concorrente GPT-3 que é muito mais do que apenas outro grande modelo de linguagem.
Modelos de linguagem em grande escala estão entre as tecnologias de IA de maior sucesso nos últimos anos: grandes empresas dos EUA, como OpenAI, Google, Nvidia ou Meta, os utilizam para seus produtos ou vendem acesso aos recursos de texto de IAs.
Existem também vários modelos de linguagem em grande escala na China de várias empresas. Em março, por exemplo, pesquisadores do Alibaba Group revelaram um modelo com 1,93 trilhão de parâmetros. o framework BaGuaLu usado para treinamento teoricamente permite modelos de IA com até 174 trilhões de parâmetros.
Empresas em Israel e na Europa também estão oferecendo modelos de idiomas. A startup de inteligência artificial israelense AI21 Labs recebeu recentemente 64 milhões para desenvolver mais modelos de IA como Jurassic-1 Jumbo. empresa alemã Aleph Alpha lançou Luminous e recentemente anunciou uma colaboração com a fabricante de chips britânica Graphcore para mais projetos.
Esses modelos gigantes de linguagem geralmente servem como base para os próprios aplicativos de IA dos clientes, para os quais eles ajustam o modelo grande com pouco treinamento adicional. As tecnologias subjacentes também são usadas em sistemas multimodais, como DALL-E 2 , Imagen e partido .
EleutherAI, Hugging Face e Meta lançam modelos de código aberto
Mas modelos como GPT-3 da OpenAI ou LaMDA do Google são segredos bem guardados, seu código não está disponível gratuitamente. Pesquisadores independentes, portanto, vêm trabalhando há vários anos em alternativas de código aberto para abrir o uso e o acesso à pesquisa de modelos de linguagem em larga escala.
Os pioneiros incluem o coletivo de pesquisa EleutherAI, que lançou o GPT-NeoX-20B de 20 bilhões de parâmetros no início deste ano, e a startup de IA Hugging Face, que permite o desenvolvimento, treinamento e implantação de modelos de IA de código aberto.
Indiscutivelmente alimentado por esses sucessos, A Meta lançou o modelo OPT-175B de 175 bilhões de parâmetros em maio – mas apenas para pesquisadores e somente sob demanda. É o maior modelo de linguagem aberta até hoje, embora com acesso limitado.
BigScience Bloom é ciência aberta e código aberto
Agora há um verdadeira alternativa de código aberto para GPT-3, BigScience Bloom, que está disponível gratuitamente para pesquisa e fins empresariais. Bloom foi treinado durante 117 dias no centro de supercomputação do Centro Nacional Francês de Pesquisa Científica e tem 176 bilhões de parâmetros de tamanho.
O desenvolvimento envolveu mais de 1000 investigadores voluntários, organizados no projeto BigScience, coordenado pela Hugging Face, e cofinanciado pelo governo francês.
Bloom pode ser baixado gratuitamente no Hugging Face e é dito estar no mesmo nível do GPT-3 em termos de precisão – e também toxicidade. Uma diferença fundamental do GPT-3 é um foco mais forte em idiomas distantes do idioma inglês dominante.
Bloom pode processar 46 idiomas diferentes, incluindo francês, vietnamita, mandarim, indonésio, catalão, 13 idiomas indianos (como o hindi) e 20 idiomas africanos. A BigScience coletou vários novos conjuntos de dados para isso e está publicando detalhes completos sobre conjuntos de dados, desenvolvimento e treinamento de Bloom.
O lançamento se enquadra no Licença de IA responsável desenvolvida pela BigScience , que proíbe o uso de Bloom em áreas como aplicação da lei, saúde ou fraude. No entanto, ao contrário do OpenAI, por exemplo, o BigScience não tem como prevenir efetivamente o uso indevido porque o modelo está disponível diretamente e não por meio de uma interface.
Agora, espera-se que Bloom sirva de base para vários aplicativos e, mais importante, projetos de pesquisa que criem aplicativos alternativos de IA longe das grandes empresas de tecnologia.