ChatGPT é um chatbot GPT-3 da OpenAI que você pode testar agora

A OpenAI está lançando um chatbot pela primeira vez em fase de teste. Chama-se ChatGPT e destina-se a ajudar a OpenAI a desenvolver melhores sistemas de IA por meio do feedback do usuário.

O ChatGPT é um novo modelo de IA otimizado para diálogo da OpenAI. Como o modelo de idioma mais recente para GPT-3 ChatGPT foi treinado com feedback humano.

O chamado aprendizado por reforço com feedback humano (RLHF) provou resultar em textos que são melhor avaliados por humanos. Especialmente o discurso de ódio e a desinformação devem ser reduzidos pelo feedback humano.

Treinamento com diálogos

OpenAI usou os mesmos métodos de InstructGPT , mas também coletou dados de diálogo de humanos que escreveram os dois lados durante um diálogo, o próprio e o do assistente de IA. Esses treinadores de IA, como a OpenAI os chama, tiveram acesso a sugestões modeladas que os ajudaram a escrever respostas.

Para o modelo de recompensa de aprendizado por reforço, o OpenAI gravou conversas entre o treinador de IA e o chatbot. Em seguida, a equipe selecionou aleatoriamente uma resposta gerada por IA com diferentes preenchimentos automáticos e fez com que o treinador avaliasse. Para o ajuste fino, o OpenAI usou a otimização de política proximal. O processo foi executado várias vezes.

O modelo base do ChatGPT é um modelo do Série GPT-3.5 que concluiu o treinamento no início de 2022. Todos os modelos foram treinados na plataforma Azure AI da Microsoft. A Microsoft é um dos principais investidores na OpenAI .

ChatGPT ainda tem muitas limitações

Limitações comuns de modelos de linguagem grandes também se aplicam ao ChatGPT. Às vezes, o modelo pode gerar respostas plausíveis, mas incorretas e sem sentido. A mesma questão levou protestos de pesquisadores quando Meta lançou seu modelo científico Galactica .

De acordo com a OpenAI, isso representa um grande desafio porque não há uma única fonte de verdade, um modelo treinado excessivamente cauteloso rejeita perguntas e, no treinamento supervisionado, a resposta ideal depende do conhecimento do modelo e não do demonstrador humano.

O ChatGPT também reage fortemente a pequenas mudanças nos prompts. Dependendo da entrada, pode não responder a uma pergunta, respondê-la incorretamente ou respondê-la corretamente – de acordo com o OpenAI, uma pequena reformulação pode ser suficiente. Além disso, o ChatGPT é muito prolixo, usa frases e se repete. Os motivos são a otimização excessiva e o viés dos instrutores humanos, que preferiram respostas mais detalhadas no processo de feedback humano.

Em vez de responder a declarações pouco claras com consultas, o ChatGPT tentaria adivinhar a intenção do usuário. O modelo às vezes respondia a solicitações inadequadas em vez de rejeitá-las. A OpenAI tenta usar sua API de moderação para rejeitar solicitações que não estejam em conformidade com suas próprias políticas de conteúdo.

Sabemos que muitas limitações permanecem conforme discutido acima e planejamos fazer atualizações regulares do modelo para melhorar nessas áreas. Mas também esperamos que, ao fornecer uma interface acessível para o ChatGPT, possamos obter feedback valioso do usuário sobre problemas dos quais ainda não estamos cientes.

OpenAI

Se você perguntar ao modelo sua opinião ou crença, ele se recusa a responder (veja a imagem da capa). Aqui, OpenAI pode ter aprendido com O dilema de Blake Lemoine : O ex-pesquisador do Google considerou LaMDA do Google ser senciente porque reconheceu suas perguntas sugestivas no bate-papo. O ChatGPT também rejeita consultas sobre pessoas ou tópicos atuais, alegando falta de acesso à Internet.

ChatGPT está disponível gratuitamente com uma conta OpenAI . De acordo com Sam Altman, cofundador da OpenAI, é uma “demonstração inicial do que é possível”. Ele espera que modelos como o ChatGPT um dia se tornem um grande negócio para a interação diária com computadores.

Deepmind introduziu recentemente Sparrow , um chatbot que também foi treinado com feedback humano e adicionalmente tem acesso à Internet para pesquisar e verificar informações (atuais). Assim como a OpenAI, a Deepmind vê o chatbot como base para futuros assistentes de IA mais avançados, mas decidiu não lançá-lo por motivos de segurança. O Google LaMDA está sendo implementado em um ambiente de teste.