Dicas de ferramentas de IA: Prompt Engineering e primeiro software Whisper

Sumário

OpenAI Whisper chega nas primeiras ferramentas

O Phraser deve ajudar na geração imediata para DALL-E 2 e co., enquanto o Whisper da OpenAI permite transcrições de áudio gratuitas.

As AIs de imagem permitem que até pessoas que mal conseguem segurar uma caneta gerem arte criativa. Desde que dominem os chamados “engenharia imediata” – a arte de dar à IA o comando de imagem correto.

Isso não é tão trivial quanto parece. Por um lado, é claro, você tem que ser fundamentalmente capaz de traduzir uma ideia de imagem para a linguagem mais pictórica possível. Por outro lado, AIs de imagem generativa, como DALL-E 2, meio da jornada ou Difusão estável possuem inúmeros parâmetros e estilos que influenciam fortemente a geração da imagem.

o Phraser websoftware é projetado para facilitar a engenharia imediata. Como sempre, você mesmo deve desenvolver a ideia da imagem, mas quando se trata de encontrar o estilo, o Phraser fornece suporte ao longo dos vários parâmetros dos sistemas individuais.

Através de um menu passo a passo, você pode decidir

na mídia (por exemplo, foto, modelo, pôster de filme),
crie uma descrição de texto com os componentes mais importantes,
escolha cor, textura e resolução
e decida as configurações da câmera, o clima e a época.

Após o login, você obtém o prompt apropriado para a imagem AI selecionada inicialmente. Além disso, o software o inspira com imagens semelhantes que já foram geradas e correspondem um pouco ao seu prompt.

OpenAI Whisper chega nas primeiras ferramentas

Com Whisper, a OpenAI lançou recentemente um modelo de código aberto para reconhecimento e transcrição de fala em vários idiomas. OpenAI torna o modelo livremente acessível e disponível gratuitamente – os primeiros desenvolvedores estão baixando-o e integrando-o em ferramentas.

Com Sussurrador do YouTube a plataforma de nuvem Hugging Face já possui uma implementação do modelo em uma interface de usuário simples que pode ser usada para transcrever vídeos do YouTube.

Whisper da OpenAI, também no Hugging Face, pode transformar palavras faladas em um microfone em texto em poucos segundos. No entanto, o software está disponível apenas como demonstração, que para após 30 segundos. Mas você pode gravar vários textos seguidos.

Provavelmente o projeto mais interessante atualmente é Palco Sussurro : aqui, uma equipe de voluntários está trabalhando em conjunto para desenvolver um aplicativo de transcrição simples e gratuito baseado no Whisper, que pode ser usado por pessoas menos familiarizadas com a tecnologia. Espera-se que uma primeira versão seja lançada em apenas algumas semanas. Quem quiser participar pode se inscrever Canal do Discord do Stage Whisper .

Outro projeto no Github, “Whispering”, quer usar Sussurro para transcrição em tempo real .

Sumário

OpenAI Whisper chega nas primeiras ferramentas

Artigos Relacionados