OpenAI ha sido lanzado oficialmente soraen el día 3 de su serie “12 días de OpenAI”. Después de meses de suspenso desde su primer anuncio en abril de 2024, Sora ha demostrado ser un gran salto en el espacio del contenido de vídeo generado por IA. OpenAI lanzó el modelo Sora Turbo, la versión acelerada de alta gama del modelo Sora original. ¡Veamos las funciones recién agregadas y probémoslas!
<blockquote class="twitter-tweet”>
Nuestro regalo navideño para ti: Sora está aquí. https://t.co/UhdmYuGHtT pic.twitter.com/ljoruQsfO0
—OpenAI (@OpenAI) <a target="_blank" href="https://twitter.com/OpenAI/status/1866194857636868283?ref_src=twsrc%5Etfw”>9 de diciembre de 2024
¿Qué es Sora?
sora es un generador de texto a video que utiliza avanzada modelos de difusión y arquitecturas transformadoras para crear vídeos basados en descripciones escritas. Estos videos se generan comenzando con ruido y refinándolo progresivamente en varios pasos. Este proceso de difusión permite que el modelo produzca secuencias de vídeo realistas y coherentes a partir de una amplia gama de entradas textuales.
Aprovechando los éxitos anteriores de OpenAI con GPT, DALL·Ey ACORTARSora presenta un gran avance al permitir a los usuarios crear videos desde cero o ampliar los existentes basándose en indicaciones de texto. Ya sea generando un vídeo completamente nuevo o animando una imagen, la capacidad de Sora para crear narrativas visualmente convincentes directamente a partir del lenguaje natural no tiene precedentes.
Capacidades de OpenAI Sora
- Generar videos a partir de texto: Cree vídeos a partir de indicaciones de texto simples.
- Ampliar vídeos existentes: Continuar o modificar vídeos existentes.
- Imágenes animadas: Da vida a las imágenes fijas con animación.
- Manejar escenas complejas: Mantenga la continuidad en múltiples marcos.
- Escalar y adaptar: Genera videos en varios formatos y duraciones.
- Transformar vídeos: Modifique videos existentes según indicaciones de texto.
Mejoras clave
- Física realista: Movimiento de objetos más natural.
- Vídeos más largos: Crea vídeos de hasta 20 segundos.
- Iluminación mejorada: Vídeos más atractivos visualmente con efectos de iluminación dinámicos.
Poniendo a prueba OpenAI Sora
Inmediato: Crea un vídeo sobre un perro blanco jugando con un gatito
Inmediato: Crea un vídeo de un perro bailando en una playa.
Mensaje del guión gráfico
Inmediato:
- Una vívida animación muestra la ingestión de una molécula psicotrópica, representada como una pequeña partícula brillante que ingresa a la boca. El fondo es una representación estilizada del sistema digestivo humano, con colores arremolinados que sugieren el comienzo de un viaje complejo.
- La molécula viaja por el torrente sanguíneo, rodeada de glóbulos rojos y blancos. Se representa como una partícula brillante y luminiscente que se mueve rápidamente a través de una red de vasos sanguíneos.
- La molécula alcanza la barrera hematoencefálica, representada como una pared brillante, la atraviesa y llega al cerebro. La escena se vuelve más compleja, con neuronas y sinapsis que se iluminan cuando la molécula interactúa con ellas.
Inmediato:
- En una habitación infantil cálidamente iluminada, un niño y una niña se sientan dentro de una acogedora yurta improvisada construida con mantas y almohadas a cuadros. Están vestidos con divertidos sombreros y botas de fieltro, rodeados por el suave resplandor de las lámparas. Los niños se ríen mientras juegan con un reno de juguete y sus ojos brillan de imaginación.
- Los niños cierran los ojos con fuerza y una sensación de anticipación flota en el aire.
- Al abrir los ojos, se transforman en adultos y se encuentran frente a un paisaje hotelero moderno en Yakutia, rodeados de yurtas reales y un vasto escenario invernal nevado.
Observación: Si bien crear los videos usando la cuenta ChatGPT Plus me llevó mucho tiempo, veo que hay mucho margen de mejora.
¿Cómo acceder a Sora?
Se puede acceder a Sora a través del nuevo sitio web: sora.com. Puede utilizar sus planes ChatGPT para obtener acceso al modelo:
- Cuenta ChatGPT Plus: Este plan te ofrece 50 generaciones por mes. Estos podrían estar relacionados con la cantidad de creaciones de texto a video u otras tareas específicas por mes.
- Cuenta OpenAI Pro: Esto ofrece generaciones ilimitadas en modo de cola lenta, además 500 generaciones más rápidas por mes. Este nivel parece centrarse en ofrecer más flexibilidad, con la opción de procesar tareas más rápido durante un cierto número de generaciones, mientras que otras tareas pueden ponerse en cola y procesarse más lentamente.
- Disponibilidad: El servicio no estará disponible para el Reino Unido y UE en el lanzamiento, lo que podría deberse a consideraciones legales, regulatorias o de privacidad de datos (como el RGPD). Esta limitación podría eliminarse en el futuro a medida que se expandan a más regiones.
Características de OpenAI Sora
Producto separado
- Sora es un producto independiente, no integrado en ChatGPT ni en otras plataformas OpenAI.
- Accesible a través de Sora.comdonde se muestran videos seleccionados y generados recientemente.
Creación y edición de vídeos
- Generar videos a partir de indicaciones: Los usuarios pueden crear videos basados en indicaciones de texto.
- Subir imágenes: Los usuarios también pueden cargar imágenes, que Sora puede usar para generar videos.
- Función de remezcla: permite a los usuarios realizar cambios en videos existentes describiendo las modificaciones deseadas.
- Ajuste de fuerza: controla cuán drásticamente se alterará el video; configuraciones más altas generarán más cambios artísticos.
- Edición de vídeo: Sora también puede editar videos generados originalmente por la herramienta.
Carga y mejora de imágenes
- Subir imágenes: Puedes comenzar subiendo una imagen para crear un vídeo. Esta imagen puede servir como base y puedes ampliarla con más elementos, texto o animación.
- Descripción del texto: También puedes describir la imagen con texto. Cuanto más detallada sea tu descripción, más específica será la creación del vídeo que seguirá tus instrucciones. Para descripciones menos detalladas, la herramienta llenará los vacíos con creatividad y detalle general.
Temas (preestablecidos)
- SORA proporciona varios ajustes preestablecidos que se pueden utilizar para definir el tema general del vídeo. Algunos ejemplos incluyen:
- Mundo de globos: Este ajuste preestablecido puede crear una atmósfera caprichosa o de ensueño.
- Detener movimiento: Un ajuste preestablecido diseñado para emular el estilo de animación stop-motion, dándole a su video un aspecto hecho a mano, cuadro por cuadro.
Selección de relación de aspecto
- Puedes elegir la relación de aspecto de tu vídeo. Algunas opciones comunes incluyen:
Duración del vídeo
- Puedes configurar la duración de tu vídeo para que sea de hasta 20 segundoslo que le brinda flexibilidad en la cantidad de contenido que se incluye.
Integración de texto e imagen
- La plataforma permite la combinación de texto e imágenes para la expresión creativa:
- Crear cargando imágenes: Subes una imagen para que sirva como base de tu vídeo y luego la amplías o la animas con contenido adicional.
- Creación basada en texto: Puede describir escenas o imágenes utilizando texto. Cuanto más específico sea el texto, más seguirá el vídeo tu dirección. Por ejemplo, una descripción detallada guiará el vídeo para replicar los elementos exactos que mencionas.
Guión gráfico (creación avanzada)
- Para proyectos de vídeo más complejos, Guión gráfico El modo le permite dirigir la creación del video a lo largo de una línea de tiempo. Esto proporciona:
- Control sobre la secuencia: Puedes definir el orden de los elementos (texto, imágenes y vídeos).
- Edición avanzada: Permite ajustes y secuenciación de escenas más precisos.
- Integración multimedia: Puede combinar imágenes, texto y videoclips para crear una narrativa o una historia visual compleja.
Calidad y resolución de vídeo
- Opciones de resolución: Genera vídeos de hasta 1080p resolución.
- El metraje de 1080p toma 8 veces más largo para generar en comparación con 480p, que es la opción más rápida.
- tomas de 720p 4 veces más que 480p.
- 480p es el más rápido.
- Tiempo promedio de generación: A un par de minutos para un vídeo de 1080p (sujeto a la demanda y el tráfico de los usuarios).
En una palabra,
SORA es una plataforma de creación de vídeos flexible y fácil de usar con potentes opciones de personalización. Puede:
- Sube imágenes o describe escenas con texto.
- Elija entre varios temas preestablecidos como Balloon World o Stop Motion.
- Controla la relación de aspecto y la duración del vídeo.
- Utilice el modo Storyboard para editar y secuenciar videos avanzados.
Esta combinación de funciones facilita a los usuarios la creación de vídeos atractivos y de aspecto profesional, incluso con conocimientos técnicos mínimos.
Estas características describen a Sora como una herramienta poderosa pero aún imperfecta para generar contenido de video creativo, particularmente para proyectos estilizados y no fotorrealistas.
Los fundamentos técnicos de Sora
Sora se basa fundamentalmente en el modelo de difusiónuna técnica que comienza con ruido aleatorio y lo refina iterativamente hasta convertirlo en un vídeo coherente. Este proceso refleja lo tradicional imagen a imagen Los modelos de difusión funcionan, pero con la complejidad añadida de las secuencias de vídeo.
La clave de la innovación de Sora es el uso de representación basada en parches tanto para imágenes como para vídeos. De manera similar a los tokens en GPT, los videos y las imágenes en Sora se dividen en “parches” de datos más pequeños. Esto permite que el modelo procese datos visuales grandes y complejos de manera más eficiente, lo que lo hace capaz de generar videos de varias duraciones y resoluciones.
Además, Sora se basa en la técnica de recaptación utilizado en DESDE Y 3lo que le permite generar títulos altamente descriptivos para sus datos de entrenamiento. Esta capacidad permite que el modelo siga de cerca las indicaciones textuales, lo que da como resultado videos que son fieles a las instrucciones del usuario y más alineados con la descripción ingresada.
Lea también: ¿Qué es el transformador de difusión Sora (DiT) de OpenAI?
Consideraciones éticas de OpenAI Sora
Esto es lo que Sora espera que hagas:
- Consentir: Cargue medios en los que aparezcan personas únicamente con su permiso explícito y asegúrese de que los menores de 18 años tengan el consentimiento adecuado.
- Violencia y temas explícitos: No cargue contenido que represente violencia, temas explícitos o material para adultos.
- Derechos a los medios: asegúrese de tener la propiedad o los derechos necesarios para cargar los medios que comparte.
- Consecuencias: El mal uso de la plataforma al violar estas reglas puede resultar en la suspensión o prohibición de la cuenta sin reembolso.
<h2 class="wp-block-heading" id="h-looking-ahead-the-future-of-ai-generated-video”>Mirando hacia el futuro: el futuro del vídeo generado por IA
El lanzamiento final de Sora es un hito notable en la evolución de la inteligencia artificial, ya que combina los últimos avances en Procesamiento del lenguaje natural (PNL), visión por computadoray aprendizaje profundo para generar videos cortos de alta calidad directamente a partir de indicaciones de texto. Las posibles implicaciones de esta tecnología son de gran alcance, desde las industrias creativas hasta la educación, el marketing y más.
La visión de OpenAI para el modelo es de gran alcance, con el objetivo final de crear sistemas que puedan simular el mundo real, acercándonos un paso más a la realización de Inteligencia General Artificial (AGI). A medida que Sora evolucione, es probable que sus capacidades se expandan, incorporando funciones más avanzadas como generación de video en tiempo real, narración interactiva e incluso integración con realidad virtual y aumentada.
¿Lo intentaste? ¡Déjame saber tu opinión en la sección de comentarios a continuación!
<script async src="//platform.twitter.com/widgets.js” charset=”utf-8″>