Benchmark de IA: Nvidia domina, mas Graphcore se estabelece

A Nvidia domina a sexta rodada do estabelecido benchmark de IA MLPerf com sua GPU A100 de dois anos. No entanto, a concorrência não dorme.

O benchmark de inteligência artificial MLPerf é conduzido pela MLCommons desde 2018. O teste deve permitir uma comparação transparente de diferentes arquiteturas de chip e variantes de sistema nos cálculos de IA.

As empresas participantes incluem fabricantes de chips como Nvidia, Google, Graphcore ou Habana Labs da Intel, bem como fabricantes de servidores como Inspur, Fujitsu ou Lenovo. Um total de 24 empresas participaram com seus produtos do MLPerf Training Benchmark 2.0 deste ano.

No ano passado, um Graphcore IPU-POD16 com 16 chips MK2000 superou um sistema Nvidia DGX A100 640 no treinamento de um modelo ResNet 50 pela primeira vez – por 60 segundos. No entanto, a Nvidia considerou a comparação inadequada, já que seu sistema possui apenas oito chips instalados. Assim, a Nvidia apresentou o melhor desempenho por chip no MLPerf Training 1.1.

MLPerf Training 2.0: Nvidia possui 90 por cento

Os sistemas da Nvidia também dominam o benchmark deste ano: de todas as submissões no benchmark, 90 por cento são construídos no hardware AI da Nvidia. Os três participantes restantes são o TPUv4 do Google, o novo IPU BOW da Graphcore e o chip Gaudi 2 da Intel Habana Labs.

Todos os sistemas Nvidia contam com a GPU Nvidia A100 Tensor Core de dois anos na variante de 80 gigabytes e participam de todos os oito benchmarks de treinamento na competição fechada. O Google participa apenas nos benchmarks RetinaNet e Mask R-CNN, Graphcore e Habana Labs apenas nos benchmarks BERT e RestNet-50.

De acordo com a Nvidia, o A100 também mantém sua posição de liderança na comparação de desempenho por chip e é o mais rápido em seis dos oito testes.

1675143512 284 Benchmark de IA Nvidia domina mas Graphcore se estabelece

Desde o início dos primeiros testes em 2018, a plataforma de IA da Nvidia aumentou o desempenho do treinamento em um fator de 23, graças ao salto do V100 para o A100, além de inúmeras melhorias de software, diz a empresa.

A Nvidia vê uma das maiores vantagens de sua plataforma em sua versatilidade: mesmo aplicativos de IA relativamente simples, como fazer perguntas sobre uma imagem por entrada de voz, exigem vários modelos de IA.

Os desenvolvedores precisam ser capazes de projetar, treinar, usar e otimizar esses modelos com rapidez e flexibilidade. Portanto, a diversidade de hardware de IA – a capacidade de executar qualquer modelo no MLPerf e além – e o alto desempenho são essenciais para o desenvolvimento de produtos de IA no mundo real.

A Nvidia também destaca ser a única empresa capaz de mostrar desempenho do mundo real em configurações de supercomputadores. Isso, diz, é importante para treinar grandes modelos de IA, como GPT-3 ou Megatron Turing NLG.

Graphcore mostra salto de desempenho e disposição para cooperar

A fabricante de chips britânica Graphcore está entrando na corrida pela primeira vez com o novo BOW IPU. Com as melhores melhorias de hardware e software, o Graphcore atinge um tempo de treinamento 26 a 31 por cento mais rápido no benchmark ResNet-50, e no benchmark BERT é de 36 a 37 por cento em média – dependendo do sistema.

1675143513 994 Benchmark de IA Nvidia domina mas Graphcore se estabelece

Pela primeira vez, uma empresa externa com um sistema Graphcore também participa do benchmark. O Baidu envia valores BERT para um Bow-Pod16 e um Bow-Pod64 e usa a estrutura AI PaddlePaddle, que é amplamente usada na China.

Os valores alcançados na formação estão a par das submissões da Graphcore no quadro interno do PopART. Para a Graphcore, isso é um sinal de que seus chips também podem obter bons resultados em outros frameworks.

1675143514 749 Benchmark de IA Nvidia domina mas Graphcore se estabelece

De acordo com a Graphcore, o novo Bow-Pod16 está claramente à frente do servidor DGX-A100 da Nvidia no benchmark ResNet-50 e oferece preços competitivos.

1675143514 336 Benchmark de IA Nvidia domina mas Graphcore se estabelece

Graphcore não quer competir diretamente com a Nvidia

Em uma coletiva de imprensa sobre os resultados do MLPerf, a Graphcore destaca a arquitetura diferente de seus produtos: Nvidia, Google e Intel produzem processadores vetoriais semelhantes, enquanto a IPU da Graphcore é um processador gráfico.

A participação no benchmark MLPerf deve, portanto, mostrar principalmente que a IPU da Graphcore pode oferecer desempenho comparável. No entanto, o hardware oferece mais.

“Para nós, se tudo o que fazemos é apenas copiar a Nvidia e construir produtos Nvidia, isso é muito difícil porque a Nvidia já constrói as melhores GPUs. Qualquer pessoa que construa algo semelhante terá muita dificuldade em diferenciá-lo. Então, estamos fazendo algo diferente”, disse Graphcore.

A empresa trabalha com uma variedade de clientes usando uma variedade de arquiteturas e modelos – incluindo aqueles que outros participantes do MLPerf ainda chamariam de experimentais, como o Vision Transformers. Esses não aparecem no benchmark.

1675143515 988 Benchmark de IA Nvidia domina mas Graphcore se estabelece

Da mesma forma, no benchmark MLPerf aberto, a Graphcore apresentou resultados de um modelo RNN-T modificado que foi desenvolvido em cooperação com uma empresa. No entanto, isso difere do modelo RNN-T na competição fechada, de acordo com a Graphcore. O benchmark de IA, projetado como um padrão do setor, provavelmente ainda não é flexível o suficiente, pelo menos para a empresa do Reino Unido.

Outro diferencial importante para o Graphcore em comparação com a Nvidia é seu atual desempenho significativamente melhor em redes neurais de gráfico que usam tamanhos de lote pequenos e requerem uso dinâmico de memória. O modelo EfficientNet também se beneficia das IPUs da Graphcore. Em ambos os casos, a empresa vê vantagem sobre as GPUs na diferente arquitetura de chip de seus produtos.

A Graphcore também anunciou recentemente um cooperação com a startup alemã de IA Aleph Alpha . Todos os resultados e mais informações estão disponíveis no Benchmark MLCommons MLPerf local na rede Internet.