Sumário
Nvidia, Evozyne, InstaDeep e pesquisadores da TU Munich mostram novos avanços no uso de IA em biologia na JP Morgan Healthcare Conference.
Avanços em modelos generativos de IA para linguagem e imagens estão transformando o mercado de processamento de linguagem natural (NLP), arte e design. Mas tecnologias subjacentes, como transformadores, modelos de difusão ou autoencoders variacionais (VAE), e métodos como aprendizado não supervisionado com quantidades gigantescas de dados, também estão se mostrando fora desses domínios.
Uma área de aplicação promissora é a bioinformática, onde modelos como o da Deepmind AlphaFold 2 ou Meta’s ESMFold predizem a estrutura das proteínas, ou espera-se que os modelos de difusão iniciem uma nova era no design de proteínas. Somente em 2022, quase 1.000 artigos científicos foram publicados no Arxiv sobre o uso de IA na biologia. Até 2025, mais de 30% dos novos medicamentos e materiais poderão ser descobertos sistematicamente usando técnicas de IA generativa, de acordo com o relatório do Gartner “Innovation Insight for Generative AI”, por exemplo.
Nvidia faz parceria com startups e pesquisadores para avanços em bioinformática
Na conferência JP Morgan Healthcare deste ano, a Nvidia está apresentando os resultados de duas colaborações com startups e pesquisadores: o modelo de linguagem genômica Nucleotide Transformer e o modelo de proteína generativa ProT-VAE.
O Nucleotide Transformer foi criado em uma colaboração entre InstaDeep, recentemente adquirido pela Biontech , a Universidade Técnica de Munique e Nvidia. A equipe treinou diferentes tamanhos de modelos com dados de até 174 bilhões de nucleotídeos de diferentes espécies no supercomputador Cambridge-1 da Nvidia, seguindo a receita para o sucesso de grandes modelos de linguagem, como GPT-3 : modelos grandes, um conjunto de dados gigantesco e muito poder de computação.
Como esperado, o desempenho do Nucleotide Transformer aumentou com o tamanho do modelo e o volume de dados. A equipe testou o modelo em 19 benchmarks e em 15 obteve desempenho equivalente ou melhor do que outros modelos treinados especificamente para essas tarefas. No futuro, espera-se que o transformador ajude a traduzir sequências de DNA em RNA e proteínas, por exemplo.
“Acreditamos que esses são os primeiros resultados que demonstram claramente a viabilidade de desenvolver modelos básicos em genômica que realmente generalizam entre as tarefas”, disse Karim Beguir, CEO da InstaDeep. “De muitas maneiras, esses resultados refletem o que vimos no desenvolvimento de modelos de base adaptáveis no processamento de linguagem natural nos últimos anos, e é incrivelmente emocionante ver isso agora aplicado a problemas tão desafiadores na descoberta de medicamentos e na saúde humana”.
Modelo AI ProT-VAE gera novas proteínas
Os pesquisadores da startup Evozyne deram um passo além: usando BioNeMo da Nvidia plataforma, eles criaram o modelo generativo ProT-VAE para gerar novas proteínas. Enquanto modelos como AlphaFold ou ESMFold preveem a estrutura de sequências de proteínas, o ProT-VAE foi projetado para derivar funções diretamente das sequências e, assim, gerar novas proteínas que executam uma função específica.
A capacidade de projetar proteínas com funções predeterminadas é um objetivo central da biologia sintética e tem o potencial de revolucionar áreas como a medicina, a engenharia bioquímica ou o setor de energia. O problema: apenas com os aminoácidos naturais, há significativamente mais proteínas possíveis do que prótons no universo visível.
Evozyne vê a solução na “engenharia de proteínas guiada por aprendizado de máquina” com o ProT-VAE. O modelo coloca uma rede VAE entre um codificador e um decodificador de transformador de proteína pré-treinado da Nvidia. A rede VAE é então treinada para uma família de proteínas específica na qual novas proteínas devem ser geradas. No processo generativo, no entanto, o modelo pode se beneficiar ainda mais das representações abrangentes do transformador ProtT5, que processou sequências de aminoácidos em milhões de proteínas durante o treinamento da Nvidia.
Para testar seu modelo, a equipe projetou, entre outras coisas, uma variante da proteína PAH humana. As mutações do gene PAH podem limitar sua atividade e levar a distúrbios metabólicos, como perturbar o desenvolvimento mental e levar à epilepsia. De acordo com os pesquisadores, o ProT-VAE projetou uma variante com 51 mutações, 85% de similaridade de sequência e função 2,5 vezes melhorada.
Prevemos que o modelo pode oferecer uma plataforma extensível e genérica para campanhas de evolução direcionada guiadas por aprendizado de máquina para o design orientado a dados de novas proteínas sintéticas com função “sobrenatural”.
Do papel.
Até recentemente, esse processo levava meses a anos. Com o ProT-VAE, esse tempo foi reduzido para algumas semanas.