OpenAI Revoluciona: modelo gera vídeos realistas de textos

Sora tem a capacidade de gerar vídeos com duração de até 60 segundos a partir de breves descrições, conforme divulgado pela empresa. Até o momento, apenas artistas visuais tiveram acesso à ferramenta, visando explorar suas potencialidades em suas próprias criações.

A empresa revelou nesta quinta-feira (15) o lançamento de um novo modelo de inteligência artificial, denominado Sora, capaz de transformar texto conciso em vídeos realistas. O acesso à ferramenta está limitado a especialistas para avaliação e ainda não está disponível ao público em geral.

“A capacidade do Sora de produzir vídeos de até 60 segundos com detalhes minuciosos, movimentos de câmera sofisticados e múltiplos personagens com emoções vívidas é notável”, afirma a OpenAI.

“O modelo não apenas interpreta o comando fornecido pelo usuário, mas também compreende como esses elementos se manifestam no mundo físico.”

Foto: Divulgação/OpenAI

As demonstrações dos vídeos gerados pelo Sora abrangem tanto animações quanto imagens com qualidade realista (ver exemplos). Todos os vídeos foram criados exclusivamente pela inteligência artificial com base em textos curtos, enfatiza a OpenAI.

Por exemplo, um vídeo que exibe um grupo de mamutes vagando por uma paisagem gelada foi gerado a partir da seguinte descrição:

“Várias criaturas peludas e gigantes avançam caminhando por uma planície coberta de neve, seus densos pelos oscilam suavemente ao vento enquanto se movem. Ao longe, é possível avistar árvores e montanhas cobertas de neve, enquanto a luz do sol do meio da tarde, filtrada por nuvens tênues, cria um brilho suave. A câmera, posicionada em baixa altitude, captura a majestade dos mamutes com uma fotografia esplêndida e profundidade de campo impressionante.”

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products.

We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who are adversarially testing the model.
— OpenAI (@OpenAI) February 15, 2024

Para mitigar possíveis abusos, a OpenAI se compromete a implementar medidas de segurança antes de disponibilizar o Sora para uso comercial. Isso inclui colaborações com especialistas em áreas como desinformação e conteúdo prejudicial.

Além disso, um grupo de artistas visuais, composto por profissionais como designers e cineastas, recebeu acesso à ferramenta para contribuir com sugestões sobre como torná-la mais adequada às suas necessidades criativas.

“O Sora representa uma etapa fundamental no desenvolvimento de modelos capazes de compreender e simular o mundo real, uma capacidade que consideramos essencial para alcançar a Inteligência Artificial Geral (AGI)”, destaca a OpenAI.

Funcionamento do Sora

Foto: Divulgação/OpenAI

O Sora utiliza uma técnica conhecida como “difusão”, que gera imagens a partir de pontos aleatórios. No início do processo, o vídeo pode parecer um ruído estático, semelhante à imagem de uma televisão antiga sem sinal. Gradualmente, essa imagem evolui para algo reconhecível por seres humanos.

Essa técnica guarda semelhanças com a utilizada por robôs capazes de criar imagens a partir de descrições fornecidas pelos usuários, como o DALL-E, também desenvolvido pela OpenAI e que serviu de inspiração para o Sora.

“O Sora adapta a técnica de geração de imagens do DALL-E 3, que envolve a criação de legendas altamente descritivas para conjuntos de dados visuais de treinamento. Como resultado, o modelo Sora consegue seguir com mais precisão as instruções textuais fornecidas pelo usuário na geração do vídeo”, explica a OpenAI.

Desafios e Limitações

A empresa ressalta que, apesar de sua capacidade de criar vídeos a partir do zero, o novo modelo de inteligência artificial também pode gerar continuidades para vídeos existentes e converter imagens estáticas em vídeos. Entretanto, reconhece que ele possui algumas “limitações”.

De acordo com a OpenAI, o Sora pode encontrar dificuldades em reproduzir com precisão a física de cenas complexas e pode não compreender completamente as relações de causa e efeito. “Por exemplo, uma pessoa pode morder um biscoito, mas o biscoito pode não exibir marcas da mordida posteriormente”, ilustra.

“O modelo também pode confundir detalhes espaciais do prompt, como trocar direções (direita e esquerda), e pode ter dificuldades com descrições temporais precisas de eventos, como seguir uma trajetória específica da câmera.”

Medidas de Segurança

Antes de disponibilizar o Sora para uso comercial, a OpenAI se compromete a implementar diversas medidas de segurança. Durante a fase de testes, a ferramenta de geração de vídeos está sendo avaliada por especialistas em áreas como desinformação, conteúdo prejudicial e tendências tendenciosas.

“Estamos desenvolvendo recursos para identificar conteúdos enganosos”, afirma a empresa, que promete um mecanismo de detecção para vídeos gerados pelo Sora.

Segundo a OpenAI, o texto utilizado para solicitar um vídeo será examinado para identificar comandos que possam violar as políticas de uso da empresa, como solicitações que envolvam violência extrema, conteúdo sexual explícito, ou violação de direitos autorais.

“Não podemos antecipar todos os usos benéficos que as pessoas farão de nossa tecnologia, nem todas as formas pelas quais ela poderá ser abusada”, ressalta a OpenAI. “Portanto, acreditamos que a aprendizagem contínua com a utilização real é um componente crucial para criar e lançar sistemas de inteligência artificial cada vez mais seguros ao longo do tempo.”

OpenAI Revoluciona: modelo gera vídeos realistas de textos

2 comentários em “OpenAI Revoluciona: modelo gera vídeos realistas de textos”