ProT-VAE e transformador de nucleotídeos: novos modelos permitem a engenharia de proteínas

Nvidia, Evozyne, InstaDeep e pesquisadores da TU Munich mostram novos avanços no uso de IA em biologia na JP Morgan Healthcare Conference.

Avanços em modelos generativos de IA para linguagem e imagens estão transformando o mercado de processamento de linguagem natural (NLP), arte e design. Mas tecnologias subjacentes, como transformadores, modelos de difusão ou autoencoders variacionais (VAE), e métodos como aprendizado não supervisionado com quantidades gigantescas de dados, também estão se mostrando fora desses domínios.

Uma área de aplicação promissora é a bioinformática, onde modelos como o da Deepmind AlphaFold 2 ou Meta’s ESMFold predizem a estrutura das proteínas, ou espera-se que os modelos de difusão iniciem uma nova era no design de proteínas. Somente em 2022, quase 1.000 artigos científicos foram publicados no Arxiv sobre o uso de IA na biologia. Até 2025, mais de 30% dos novos medicamentos e materiais poderão ser descobertos sistematicamente usando técnicas de IA generativa, de acordo com o relatório do Gartner “Innovation Insight for Generative AI”, por exemplo.

Nvidia faz parceria com startups e pesquisadores para avanços em bioinformática

Na conferência JP Morgan Healthcare deste ano, a Nvidia está apresentando os resultados de duas colaborações com startups e pesquisadores: o modelo de linguagem genômica Nucleotide Transformer e o modelo de proteína generativa ProT-VAE.

O Nucleotide Transformer foi criado em uma colaboração entre InstaDeep, recentemente adquirido pela Biontech , a Universidade Técnica de Munique e Nvidia. A equipe treinou diferentes tamanhos de modelos com dados de até 174 bilhões de nucleotídeos de diferentes espécies no supercomputador Cambridge-1 da Nvidia, seguindo a receita para o sucesso de grandes modelos de linguagem, como GPT-3 : modelos grandes, um conjunto de dados gigantesco e muito poder de computação.

Como esperado, o desempenho do Nucleotide Transformer aumentou com o tamanho do modelo e o volume de dados. A equipe testou o modelo em 19 benchmarks e em 15 obteve desempenho equivalente ou melhor do que outros modelos treinados especificamente para essas tarefas. No futuro, espera-se que o transformador ajude a traduzir sequências de DNA em RNA e proteínas, por exemplo.

“Acreditamos que esses são os primeiros resultados que demonstram claramente a viabilidade de desenvolver modelos básicos em genômica que realmente generalizam entre as tarefas”, disse Karim Beguir, CEO da InstaDeep. “De muitas maneiras, esses resultados refletem o que vimos no desenvolvimento de modelos de base adaptáveis ​​no processamento de linguagem natural nos últimos anos, e é incrivelmente emocionante ver isso agora aplicado a problemas tão desafiadores na descoberta de medicamentos e na saúde humana”.

Modelo AI ProT-VAE gera novas proteínas

Os pesquisadores da startup Evozyne deram um passo além: usando BioNeMo da Nvidia plataforma, eles criaram o modelo generativo ProT-VAE para gerar novas proteínas. Enquanto modelos como AlphaFold ou ESMFold preveem a estrutura de sequências de proteínas, o ProT-VAE foi projetado para derivar funções diretamente das sequências e, assim, gerar novas proteínas que executam uma função específica.

A capacidade de projetar proteínas com funções predeterminadas é um objetivo central da biologia sintética e tem o potencial de revolucionar áreas como a medicina, a engenharia bioquímica ou o setor de energia. O problema: apenas com os aminoácidos naturais, há significativamente mais proteínas possíveis do que prótons no universo visível.

Evozyne vê a solução na “engenharia de proteínas guiada por aprendizado de máquina” com o ProT-VAE. O modelo coloca uma rede VAE entre um codificador e um decodificador de transformador de proteína pré-treinado da Nvidia. A rede VAE é então treinada para uma família de proteínas específica na qual novas proteínas devem ser geradas. No processo generativo, no entanto, o modelo pode se beneficiar ainda mais das representações abrangentes do transformador ProtT5, que processou sequências de aminoácidos em milhões de proteínas durante o treinamento da Nvidia.

Para testar seu modelo, a equipe projetou, entre outras coisas, uma variante da proteína PAH humana. As mutações do gene PAH podem limitar sua atividade e levar a distúrbios metabólicos, como perturbar o desenvolvimento mental e levar à epilepsia. De acordo com os pesquisadores, o ProT-VAE projetou uma variante com 51 mutações, 85% de similaridade de sequência e função 2,5 vezes melhorada.

Prevemos que o modelo pode oferecer uma plataforma extensível e genérica para campanhas de evolução direcionada guiadas por aprendizado de máquina para o design orientado a dados de novas proteínas sintéticas com função “sobrenatural”.

Do papel.

Até recentemente, esse processo levava meses a anos. Com o ProT-VAE, esse tempo foi reduzido para algumas semanas.