Google explora habilidades emergentes em grandes modelos de IA

Quando os modelos de linguagem são dimensionados, esporadicamente aparecem novas habilidades que não são encontradas em modelos menores. Um trabalho de pesquisa examina esse efeito.

Em várias disciplinas, como filosofia, ciências clássicas, ciência cognitiva, teoria de sistemas e até mesmo na arte, a emergência refere-se à situação em que um objeto de estudo exibe propriedades que seus elementos individuais não possuem por si mesmos. Estes são, por exemplo, comportamentos ou habilidades que só emergem através da interação das partes individuais.

O termo vem do latim emergir, uma palavra que traduz Como “aparecer”, “chegar” ou “levantar-se”. Algumas teorias consideram a consciência, por exemplo, uma propriedade emergente dos cérebros biológicos. Um exemplo de emergência em sistemas físicos é a emergência de padrões simétricos e fractais complexos em flocos de neve.

Grandes modelos de linguagem exibem habilidades emergentes

Grandes modelos de linguagem, como o GPT-3 da OpenAI, definiram recentemente o processamento de linguagem natural (NLP) e permitiram grandes saltos no desempenho. Esses modelos mostraram que escalar modelos de linguagem usando mais dados e parâmetros de treinamento leva a um melhor desempenho em tarefas de NLP. Ao estudar as “leis de dimensionamento”, os pesquisadores foram capazes de prever sistematicamente os efeitos do dimensionamento no desempenho em vários casos.

Com o dimensionamento, no entanto, veio a percepção de que o desempenho do modelo em determinadas tarefas não aumenta continuamente com o dimensionamento. Os saltos observados no desempenho em tais tarefas, portanto, nem sempre podem ser previstos com antecedência. Pelo contrário, habilidades são encontradas em grandes modelos de linguagem que não são encontradas em modelos menores.

Um novo artigo de pesquisadores do Google Research, Stanford University, UNC Chapel Hill e Deepmind está explorando essas habilidades emergentes em modelos de linguagem em larga escala.

Pesquisadores estudam o fenômeno imprevisível das habilidades emergentes

De acordo com a equipe, essas habilidades emergentes incluem, por exemplo, a capacidade de controlar as saídas do modelo de linguagem com prompts de poucos cliques ou realizar cálculos matemáticos básicos, como adição e subtração com três ou multiplicação com dois dígitos.

Nesses e em outros casos, pode-se mostrar que, quando visualizado usando uma curva de escala, o desempenho é quase aleatório no início e, em um determinado limite crítico da escala do modelo, o desempenho salta bem acima do aleatório.

Essa mudança qualitativa também é conhecida como transição de fase : Uma mudança dramática no comportamento geral que não poderia ter sido prevista quando o sistema foi estudado em uma escala menor.

Além do prompting de poucos disparos, existem outras estratégias de prompting e ajuste fino que melhoram os recursos de modelos de linguagem grandes. Um exemplo é sugestão de cadeia de pensamento que executa a inferência de forma mais confiável.

Para alguns desses métodos, os pesquisadores também observam efeitos emergentes: em modelos menores, o desempenho permanece o mesmo ou até piora, apesar do uso de um método. Somente em modelos maiores os métodos levam a saltos de desempenho.

Habilidades emergentes permanecem inexplicadas por enquanto

Em seu artigo, os pesquisadores também se referem a vários explicações para o fenômeno de habilidades emergentes em grandes modelos de linguagem. No entanto, eles concluem que ainda não pode ser explicado conclusivamente.

Além de dimensionar o tamanho do modelo e os conjuntos de dados, em alguns casos, modelos menores com arquiteturas mais modernas, dados de maior qualidade ou procedimentos de treinamento aprimorados podem desenvolver recursos semelhantes. Portanto, o dimensionamento não é o único fator que permite uma nova habilidade.

No entanto, muitas vezes é a escala que mostra que essas habilidades emergentes são possíveis em primeiro lugar. O modelo GPT-3 de 175 bilhões, por exemplo, não apresentou desempenho acima do esperado em prompts únicos. Alguns pesquisadores suspeitaram que a causa fosse a arquitetura do modelo usado pelo GPT-3 e o objetivo do treinamento. Mais tarde, porém, o Modelo de 540 bilhões de parâmetros PaLM mostrou que o dimensionamento por si só pode ser suficiente para alcançar um desempenho acima da média nesta tarefa sem alterar fundamentalmente a arquitetura.

O surgimento de novas habilidades, portanto, questiona se uma maior escala permitirá modelos de linguagem maiores com novas habilidades. De acordo com os pesquisadores, existem dezenas de tarefas no benchmark BIG-Bench para PNL que nenhum grande modelo de linguagem ainda decifrou – muitas das quais envolvem raciocínio abstrato, como xadrez ou matemática avançada.

A equipe vê os seguintes pontos como relevantes para pesquisas futuras:

  • dimensionamento adicional do modelo
  • arquiteturas de modelo aprimoradas e treinamento
  • escala de dados
  • melhores técnicas e compreensão do prompting
  • tarefas de fronteira no limite da capacidade dos modelos de linguagem atuais
  • compreensão da emergência

Discutimos habilidades emergentes de modelos de linguagem, para os quais o desempenho significativo só foi observado até agora em uma certa escala computacional. Habilidades emergentes podem abranger uma variedade de modelos de linguagem, tipos de tarefas e cenários experimentais. Tais habilidades são um resultado recentemente descoberto da ampliação de modelos de linguagem, e as questões de como elas surgem e se mais escalabilidade permitirá novas habilidades emergentes parecem ser direções de pesquisa futuras importantes para o campo da PNL.

do papel