IA de código-fonte aberto da BigCode visa resolver problemas de direitos autorais

  • O programador e advogado Matthew Butterick entrou com uma ação contra a Microsoft, Github e OpenAI, alegando que o GitHub Copilot reproduz trechos de código de desenvolvedores sem atribuição, violando as licenças de código aberto. O modelo AI Codex da OpenAI é a base para o Copilot.
  • O processo equivale a nove bilhões de dólares americanos em danos. Um valor bastante simbólico que resulta de violações de licença extrapoladas, porque Butterick diz que está preocupado principalmente em proteger a cena do código aberto. Em sua opinião, está sendo sequestrado por ferramentas de programação como o Copilot e monetizado sem permissão.
  • Butterick entrou com a ação no tribunal distrital federal do norte da Califórnia. o escritório de advocacia está procurando mais pessoas que acham que o Copilot está errado .

Os sistemas de IA geradores de código visam acelerar a programação. Um novo conjunto de dados forma a base para uma IA de código aberto.

A startup de IA Hugging Face e a ServiceNow Research anunciaram recentemente o “BigCode”, um novo projeto para uma IA de código aberto. As duas empresas enfatizam o desenvolvimento “aberto e responsável”.

Maior que OpenAI Codex, menor que Deepmind AlphaCode

Como primeiro passo, o BigCode visa fornecer um conjunto de dados para treinar um IA de código aberto com 15 bilhões de parâmetros.

O modelo Codex da OpenAI, a base do Copiloto do Github da Microsoft tem cerca de 12 bilhões de parâmetros. AlphaCode do Deepmind que ainda não foi publicado, possui 41,4 bilhões de parâmetros e é considerado capaz de programação em nível humano.

A ServiceNow quer usar seu cluster de GPU para treinamento de IA. Uma versão adaptada do grande modelo de linguagem Transformer da Nvidia, Megatron, serve como base. o projeto está procurando apoio de pesquisadores de IA nos seguintes tópicos:

  • Um conjunto de avaliação representativo para LLMs de código, abrangendo um conjunto diversificado de tarefas e linguagens de programação
  • Governança de dados responsável e desenvolvimento para LLMs de código
  • Métodos de treinamento e inferência mais rápidos para LLMs

BigCode quer resolver o problema de direitos autorais de AIs de código

O BigCode visa evitar uma das principais críticas ao Codex e ao AlphaCode: os modelos OpenAI e Deepmind são treinados usando exemplos de código da Internet, alguns dos quais são protegidos por direitos autorais ou pelo menos não explicitamente licenciados para o treinamento de uma IA.

Semelhante a AIs de arte e texto, isso pode levar a protestos daqueles grupos que se sentem ignorados ou ameaçados profissionalmente por geração de IA. Por exemplo, o Codex uma vez replicou com precisão seções inteiras de código de um videogame antigo do desenvolvedor da Star, John Carmack.

O desenvolvedor e advogado Matthew Butterick está atualmente investigando com uma equipe se e em que medida Copilot viola os termos de licenciamento e está buscando litígio. Ele vê o Copilot como uma maneira mais conveniente de acessar o código-fonte aberto, mas que ignora os termos comuns de licenciamento de código-fonte aberto e, portanto, prejudica a cena.

A BigCode quer garantir a clareza dos direitos autorais desde o início : Todos os exemplos usados ​​para treinamento de IA devem estar sob a licença Apache 2.0. O código gerado também está sob a licença Apache 2.0. Em casos individuais, também é possível fornecer código sob licenças alternativas.

O actual conjunto de dados de treinamento, “The Stack”, contém mais de três terabytes de arquivos de código-fonte licenciados para 30 linguagens de programação rastreadas do GitHub, de acordo com o projeto. Os desenvolvedores que descobrem código não autorizado ou indesejado no conjunto de dados Stack podem enviar uma solicitação de remoção.

O CEO do Github, Thomas Dohmke, espera até 80% do código a ser escrito por sistemas de IA nos próximos cinco anos. Os desenvolvedores que usam o Copilot podem concluir tarefas cerca de 55% mais rápido.