GLM-130B: O modelo de linguagem AI mais capaz atualmente disponível vem da China

Um modelo de idioma chinês tem um desempenho melhor do que o GPT-3 da OpenAI e o PaLM do Google. A Huawei mostra uma alternativa ao Codex.

Grandes modelos de IA para linguagem, código e imagens desempenham um papel central na atual proliferação da inteligência artificial. Pesquisadores da Universidade de Stanford, portanto, querem chamar esses modelos de “modelos de fundação”. A pioneira no desenvolvimento de modelos de IA muito grandes é a empresa americana de IA OpenAI, cujo modelo de linguagem GPT-3 demonstrou pela primeira vez a utilidade de tais sistemas de IA.

Além de muitas tarefas de texto, o GPT-3 também demonstrou recursos rudimentares de código. A OpenAI aproveitou sua estreita colaboração com a Microsoft para usar os dados do Github para treinar o grande modelo de código Codex. O Codex também serve como base para o CoPilot do Github.

Empresas de IA da China desenvolvem alternativas poderosas aos modelos ocidentais

Enquanto isso, a lista de grandes modelos de linguagem de empresas e instituições ocidentais é longa.

Além de GPT-3 há PaLM do Google AI21 Labs’ Jurassic-1, Modelos OPT da Meta BigScience BLOOM e Luminoso de Aleph Alpha , por exemplo. Os modelos de código também estão disponíveis no Google, Amazon , mente profunda e Salesforce. No entanto, esses modelos são treinados principalmente com dados ocidentais e, portanto, não são adequados para uso na China – se o acesso for possível ou permitido.

Empresas e instituições de pesquisa chinesas, portanto, começaram a produzir suas próprias alternativas o mais tardar com a apresentação do GPT-3. Em 2021, por exemplo, Huawei mostrou PanGu-Alpha , um modelo de idioma de 200 bilhões de parâmetros treinado com 1,1 terabytes de dados do idioma chinês. A Academia de Inteligência Artificial de Pequim (BAAI) revelou o Wu Dao 2.0, um modelo multimodal de 1,75 trilhão de parâmetros, no mesmo ano.

O modelo de idioma GLM-130B supera o GPT-3

Agora, pesquisadores da A Universidade Tsinghua da China revelou o GLM-130B , um modelo de linguagem bilíngue que supera Metas OPT, BLOOM e GPT-3 da OpenAI, de acordo com os benchmarks da equipe. O desempenho Few-Shot do modelo em chinês e inglês ultrapassou o nível do modelo anterior GPT-3 no benchmark Massive Multi-Task Language Understanding (MMLU).

A equipe também testou o GLM-130B contra o LAMBADA, um benchmark zero-shot para prever a última palavra em uma sequência de palavras. O benchmark é usado para avaliar os recursos de modelagem de linguagem de grandes modelos de linguagem.

Aqui, o modelo chinês superou até mesmo o líder anterior PaLM – apesar de 410 bilhões de parâmetros a menos. Para o treinamento, a equipe contou com um método desenvolvido na Universidade de Tsinghua (GLM ), bem como 400 GPUs Nvidia A100.

Esta é a primeira vez que um grande modelo de linguagem da China supera os modelos ocidentais. GLM-130B está disponível em GithubGenericName e Rosto Abraços .

O codificador PanGu do modelo de código atinge o desempenho do Codex

Como uma evolução consistente do PanGu, Laboratório Arca de Noé da Huawei e Nuvem Huawei também mostrou recentemente uma alternativa chinesa ao Copilot, Codex e outros modelos de código. O PanGu-Coder completa o código como os modelos ocidentais e se baseia no trabalho feito com o PanGu. Como o Codex, o PanGu segue um método de treinamento semelhante aos modelos de linguagem – a principal diferença são os dados de treinamento: código em vez de texto.

O PanGu-Coder vem em vários modelos, variando de 317 milhões a 2,6 bilhões de parâmetros. Segundo a Huawei, os modelos chineses estão no mesmo nível do Codex, AlphaCode e alternativas em avaliações humanas – e em alguns casos os superam. A empresa também mostra uma variante treinada com um conjunto de dados curado (PanGu-Coder-FT) que tem um desempenho ainda um pouco melhor.

O PanGu-Coder vem pouco menos de um ano após o lançamento do Codex da OpenAI. A Huawei segue assim o padrão do PanGu-Alpha, que também foi lançado pouco menos de um ano após o GPT-3.