Centro Educativo Madre Teresa de Calcuta
Informática Educativa
OpenIA presenta
SORA
Modelo de Inteligencia Artificial (IA)
Sora puede generar videos de
hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de
las indicaciones del usuario.
Sora es un modelo de difusión
que genera un vídeo comenzando con uno que parece ruido estático y lo
transforma gradualmente eliminando el ruido en muchos pasos.
Sora es capaz de generar vídeos completos de una sola vez o ampliar los vídeos generados para hacerlos más largos. Al darle al modelo previsión de muchos fotogramas a la vez, hemos resuelto el difícil problema de garantizar que un sujeto permanezca igual incluso cuando se pierde de vista temporalmente.
Estamos enseñando a la IA a
comprender y simular el mundo físico en movimiento, con el objetivo de entrenar
modelos que ayuden a las personas a resolver problemas que requieren
interacción con el mundo real.
Presentamos Sora, nuestro
modelo de texto a video. Sora puede generar videos de hasta un minuto de
duración manteniendo la calidad visual y el cumplimiento de las indicaciones
del usuario.
Hoy en día, Sora está disponible para los miembros del equipo rojo para evaluar áreas críticas en busca de daños o riesgos. También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.
Estamos compartiendo el
progreso de nuestra investigación desde el principio para comenzar a trabajar y
recibir comentarios de personas ajenas a OpenAI y para brindarle al público una
idea de las capacidades de IA que hay en el horizonte.
Sora es capaz de generar
escenas complejas con múltiples personajes, tipos específicos de movimiento y
detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo
que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en
el mundo físico.
El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.
El modelo actual tiene
debilidades. Puede tener dificultades para simular con precisión la física
de una escena compleja y es posible que no comprenda casos específicos de causa
y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta,
pero después, es posible que la galleta no tenga la marca del mordisco.
El modelo también puede
confundir los detalles espaciales de un mensaje, por ejemplo, mezclando
izquierda y derecha, y puede tener dificultades con descripciones precisas de
eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de
cámara específica.
Seguridad
Tomaremos varias medidas de
seguridad importantes antes de que Sora esté disponible en los productos de
OpenAI. Estamos trabajando con los miembros del equipo rojo (expertos en
áreas como desinformación, contenido que incita al odio y prejuicios) que
probarán el modelo de manera adversa.
También estamos creando
herramientas para ayudar a detectar contenido engañoso, como un clasificador de
detección que puede indicar cuándo Sora generó un video. Planeamos
incluir metadatos
de C2PA en el futuro si implementamos el modelo en un producto OpenAI.
Además de desarrollar nuevas
técnicas para prepararnos para el despliegue, estamos aprovechando los métodos
de seguridad existentes que creamos para nuestros productos que
utilizan DALL·E 3, que también son aplicables a Sora.
Por ejemplo, una vez en un
producto OpenAI, nuestro clasificador de texto verificará y rechazará las
solicitudes de ingreso de texto que infrinjan nuestras políticas de uso, como
aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio,
imágenes de celebridades o la IP de otros. También hemos desarrollado
clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas
de cada video generado para ayudar a garantizar que cumpla con nuestras
políticas de uso, antes de mostrarlo al usuario.
Involucraremos a formuladores
de políticas, educadores y artistas de todo el mundo para comprender sus
preocupaciones e identificar casos de uso positivos para esta nueva
tecnología. A pesar de investigaciones y pruebas exhaustivas, no podemos
predecir todas las formas beneficiosas en que las personas utilizarán nuestra
tecnología, ni todas las formas en que abusarán de ella. Es por eso que
creemos que aprender del uso en el mundo real es un componente crítico para
crear y lanzar sistemas de IA cada vez más seguros con el tiempo.
Técnicas de investigación
Sora es un modelo de difusión
que genera un vídeo comenzando con uno que parece ruido estático y lo
transforma gradualmente eliminando el ruido en muchos pasos.
Sora es capaz de generar
vídeos completos de una sola vez o ampliar los vídeos generados para hacerlos
más largos. Al darle al modelo previsión de muchos fotogramas a la vez,
hemos resuelto el difícil problema de garantizar que un sujeto permanezca igual
incluso cuando se pierde de vista temporalmente.
Al igual que los modelos GPT,
Sora utiliza una arquitectura de transformador, lo que desbloquea un
rendimiento de escalado superior.
Representamos videos e
imágenes como colecciones de unidades de datos más pequeñas llamadas parches,
cada una de las cuales es similar a un token en GPT. Al unificar la forma
en que representamos los datos, podemos entrenar transformadores de difusión en
una gama más amplia de datos visuales de lo que era posible antes, abarcando
diferentes duraciones, resoluciones y relaciones de aspecto.
Sora se basa en
investigaciones anteriores sobre los modelos DALL·E y GPT. Utiliza la
técnica de recaptioning de DALL·E 3, que implica generar subtítulos altamente
descriptivos para los datos de entrenamiento visual. Como resultado, el
modelo puede seguir más fielmente las instrucciones de texto del usuario en el
vídeo generado.
Además de poder generar un
vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una
imagen fija existente y generar un vídeo a partir de ella, animando el
contenido de la imagen con precisión y atención al pequeño detalle. El modelo
también puede tomar un vídeo existente y ampliarlo o completar los fotogramas
faltantes. Obtenga
más información en nuestro informe técnico .
Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI.
Fuente Bibliográfica:
https://cdn.openai.com/sora/videos/tokyo-walk.mp4
https://cdn.openai.com/sora/videos/closeup-man-in-glasses.mp4
https://cdn.openai.com/sora/videos/wooly-mammoth.mp4
https://cdn.openai.com/sora/videos/vlogger-corgi.mp4