Sumário
A visão computacional dá às máquinas olhos que lhes permitem ver o mundo de forma semelhante aos humanos. Isso permite muitas aplicações. O software de código aberto YOLOv8 mostra o estado atual da arte.
YOLO (“You only look once”) é um sistema de IA de análise de imagem de código aberto desenvolvido pela comunidade de visão computacional desde 2015. Embora seja muito preciso, é pequeno e funciona em hardware de computador comum, até mesmo um Raspberry Pi . O YOLO possui suporte integrado para detecção de objetos, segmentação de instâncias e classificação de imagens.
O YOLOv8 é mais rápido e preciso que os modelos anteriores
Comparado aos modelos YOLO anteriores, o YOLOv8 oferece avanços significativos na segmentação de imagens e detecção de objetos, especialmente nas versões mais compactas executadas em hardware mais fraco. Por exemplo, o menor modelo YOLOv8 reconhece cerca de 30% mais objetos em benchmarks do que a menor versão YOLOv5.
Esses objetos incluem pessoas, carros ou carrinhos de bebê, mas também detalhes como vasos de flores, bolsas, mochilas ou uma faca na barraca de legumes do mercado.
Quanto mais rápido, poderoso e confiável um sistema CV puder detectar e rastrear objetos no ambiente, mais cenários de aplicação serão possíveis, por exemplo, para robôs comuns ou headsets de realidade aumentada que precisam navegar e entender seu ambiente.
O YOLOv8 vem em cinco versões no momento do lançamento (10 de janeiro de 2023). O menor modelo, Nano, tem um valor médio de precisão de reconhecimento de objeto (mAP) de 37,3, e o maior, YOLOv8 Xtra Large, é de 53,9.
O valor mAP é uma métrica comum em visão computacional para avaliar o desempenho de algoritmos de reconhecimento de objetos. Ele indica o quão bem um algoritmo detecta objetos corretamente e os distingue de alarmes falsos. Um valor mAP mais alto geralmente significa melhor desempenho.
Os avanços na visão computacional podem impactar nossas vidas diárias tanto quanto os sistemas de IA de imagem e linguagem
Desde o lançamento do OpenAI DALL-E 2 e GPT-3 as discussões sobre os avanços da IA têm se concentrado nos modelos de imagem e linguagem.
Mas o YOLOv8 também mostra que a visão de máquina está em constante evolução e se tornando mais poderosa. Isso potencialmente tem tanto ou mais impacto em nossas vidas diárias do que os sistemas de linguagem e imagem: utópicos (como carros autônomos) ou distópicos (vigilância onipresente, guerras automatizadas ).
Mas confira você mesmo: O vídeo a seguir documenta a velocidade e a precisão do YOLOv8 na detecção e rastreamento de objetos.
O que torna o YOLO especial, além de seu desempenho, é a história conturbada do modelo: desenvolvedor original do YOLO Joe Redmon parou de trabalhar no software em 2020 . O potencial uso indevido do YOLO para aplicações militares ou de vigilância era, em sua opinião, “impossível de ignorar”, disse Redmon na época.
Redmon parou de trabalhar no YOLO com a versão 3 – mas a comunidade CV continuou. A versão mais recente, v8, vem de Ultralíticos empresa que trabalha com a Comunidade de Inteligência dos EUA (IC) e o Departamento de Defesa dos EUA (DoD), entre outros.
YOLOv8 é disponível gratuitamente no Github para projetos de código aberto e aplicações acadêmicas. Para projetos comerciais, é necessária uma licença corporativa paga via Ultralytics. O preço está disponível mediante solicitação.