Como parte de sus «12 days of shipmas«, un período de hiperactividad en el que la compañía pretende intensificar su lanzamiento de productos, OpenAI acaba de presentar finalmente Sora, su generador de vídeo a partir de prompts, tras un largo y accidentado período en beta.
El mejor análisis detallado de las prestaciones de Sora que he visto por el momento ha sido el de Marquis Brownlee, que ahonda en lo que el modelo hace bien, hace mal y no hace: muy bien para comics y animación en general, muy lleno de limitaciones para el tratamiento de imágenes reales y su física, y muy lleno de protecciones para intentar evitar que sea utilizado para crear deepfakes de personas reales (algo que únicamente pueden hacer algunos usuarios) o, en general, para usos que puedan ser considerados peligrosos o cuestionables.
El modelo no está disponible en todos los países, pero puede accederse – si tienes suerte y no está saturado – mediante VPN. Su interfaz permite subir vídeos e imágenes, modificar prompts para introducir modificaciones en una serie de vídeos creados por otros usuarios o que aparecen como demostración, y guardártelos como favoritos para su uso posterior, con la posibilidad de hacer carpetas para organizar tus archivos. Revisar los prompts completos de otros vídeos me ha parecido una forma muy buena de aprender y tomar familiaridad con el modelo, y me ha dado la impresión que la longitud media del prompt para definir un vídeo y obtener resultados razonablemente buenos es algo más largo y detallado que lo que utilizamos generalmente en los generadores de imágenes habituales. La herramienta está incluida en los planes de suscripción para los usuarios de pago, ChatGPT Plus y ChatGPT Pro, y permite generar vídeos de hasta treinta segundos con una resolución de hasta 1080p en formato 16:9, vertical o cuadrado, con unos tiempos de creación más que razonables, como medio minuto escaso. Un usuario de ChatGPT Plus puede generar hasta cincuenta vídeos a 480p al mes, o menos si los genera a mayor resolución.
El lanzamiento vuelve a poner de actualidad todas las discusiones que surgieron cuando se presentaron algunas creaciones realizadas con Sora: la responsabilidad de las empresas tecnológicas sobre lo que sus usuarios puedan hacer con sus herramientas. Si bien muchos de los vídeos creados con Sora, particularmente los centrados en escenas hiper-realistas, pueden tener fallos que hacen que sea razonablemente fácil detectarlos como sintéticos, otros generan resultados realmente creíbles, y pueden ser utilizados para la generación de todo tipo de noticias falsas, en un entorno en el que, tradicionalmente, el vídeo solía considerarse una prueba de realidad.
Con Sora, a pesar de las precauciones que pueda tomar la compañía impidiendo la generación de vídeos con personajes reales o posiblemente sujetos a derechos de autor, esa era ha terminado. En cualquier momento es perfectamente posible que alguien, utilizando Sora, sea capaz de generar un vídeo perfectamente creíble que lleve a engaño a mucha gente y desencadene situaciones inesperadas. La herramienta coloca una marca de agua en la esquina inferior derecha de la imagen para identificar sus creaciones, pero esta puede ser fácilmente recortada con cualquier editor de vídeo sencillo.
Todo ello, además, sabiendo como sabemos que los resultados que ofrece Sora, en los que hay muchas veces errores evidentes o problemas derivados del tratamiento de la física de los objetos, van a ir mejorando a una gran velocidad. La herramienta que probamos ahora mismo no tiene nada que ver con la que podremos utilizar en unos meses o un año en cuanto a calidad de resultados, una progresión que ya hemos visto con los chatbots, y que responde a las leyes de escalado de los algoritmos. Para la siguiente generación, lo normal será, cuando quieras describir algo o contar una historia, hacerlo con un vídeo generado específicamente para ello. Y eso, a todos los efectos, puede tener muchísimas consecuencias.
Con Sora – y pronto, seguro, con herramientas competidoras similares – en el mercado, resulta esencial que actualicemos nuestros criterios y nuestros filtros ante el contenido que recibimos. Mientras muchos les sigue funcionando distorsionar la realidad simplemente cambiando de fecha o de escenario un vídeo y pasándolo como algo que acaba de suceder en un lugar determinado, ahora vamos a encontrarnos con que esos vídeos pueden sintetizarse, crearse desde cero a partir de una descripción, suministrando imágenes o describiendo una escena, un contexto y un estilo. Como juguete de expresión creativa, es sin duda un juguete caro, y no tanto por el precio de la suscripción para acceder a ello, sino por el coste energético que debe suponer la generación de vídeo a gran escala. Pero como herramienta, puede ser brutal, tanto por sus consecuencias de cara a la divulgación de posibles noticias falsas como por sus efectos sobre la industria de la creación de contenidos.
This article is also available in English on my Medium page, «Exploring Sora: OpenAI’s Game-Changing Text-to-Video Tool«
Solo dudas me genera a mi esta herramienta. Actualmente es muy mala creando continuidad, que es una parte esencial del contenido visual. Practicamente todos los planos son travellings lentos, los personajes se mueven de manera muy perturbante y no van más allá de mostrar una acción concreta, que a menudo no desarrolla bien ni en un plano corto.
Van a cambiar muchas cosas empezando claro está por las redes sociales, por reducir la calidad del contenido audiovisual (como ya se vio con el anuncio de Cocacola), y por crear aún más confusión, si cabe, en este periodo tan loco en que estamos metidos.
Igual si que mejore con el tiempo, ¿pero no es una posibilidad que, igual no?. Los avances mostrados desde lo que se mostró la primera vez sigue cargando con las mismas fallas.
Ya veremos si en el futuro los cambios que aporta Sora son para mejor y/o son útiles, pero a día de hoy, siento que esta herramienta tendría muy poco recorrido si no le ayudara el hype que da la moda de usar algo nuevo, o sea, territorio tiktok, contenido viral y fake, twitch, etc.
De momento me quedo con los modelos tipo asistentes que puedan ayudarte con cualquier cosa que quieras aprender. Por ejemplo, usar Brave con Leo para aprender a manejarte por Linux está resultando ser tremendamente útil.
De acuerdo.
En general cuando profundizas en su utilización, surgen como dicen mis alumnos, «muchas pegas», errores impensables, baja calidad, etc. Por otra parte, tomo tu sugerencia de Brave con Leo, pues inicie un proyecto similar usando Brave con DuckDuckGo AI Chat y la verdad el resultado deja mucho que desear, desde errores en la info, hasta organización de semanas de 14 días. Cuando se le sugiere corregir, por supuesto se disculpa y organiza una nueva semana de 15 dias, en la cual el día 1 = 1-2 , el día 2: 2-3 etc. Y si bien propone temarios interesantes, luego mezcla todo de una manera horrorosa. Termino desempolvando viejos manuales y tratando de cazar algún plan de estudios de alguna parte.
Llegó, pero según tengo entendido, se quedó fuera de Europa…….así que a esperar ;)
El la primera generación de un generador. La cosa es que el coste (tremendo) para OpenAI de mantener Sora andando es casi más caro que contratar a una plataforma de animación 3D o estudio para crear lo mismo, y con más calidad.
Y aquí lo crítico son las fuentes. Para ChatGPT usó millones y millones de datos, tantos que casi no le quedan libros por leer al sistema. Por otro lado para las imágenes usó las millones de fotos que hay en internet. Pero ahora para videos el pool es más reducido (Youtube es la única gran fuente de videos) porque se editan 10.000 libros por película.
Al tener acceso a menos parámetros, también me la imagino menos realista.
«usos que puedan ser considerados peligrosos o cuestionables.»(EDans).
En mi barrio, cuando se despertaba un rumor, siempre era bueno preguntar de dónde venía, antes de tragárselo… sobre todo de qué tipo de «vieja» (no todas tenían buenos oídos) o «amigo» (los falsos amigos son extremadamente peligrosos) salía el comentario… pues no todas las bocas gozaban de igual credibilidad…
Es curioso que aún no sepamos filtrar, medianamente bien, lo que se dice en internet… bueno, más que «curioso» fatalmente «mediocre». Algún día llegaremos.
Sora aun es una mierda, pero imaginar como será cuando pasen unos años. Bastará que tu escribas el guión de una película para que Sora ponga la imagen. Cualquiera podrá hacer películas. como por ejemplo «El verdugo», pero claro sólo unos pocos privilegiados van a tener la imaginación de Luis García Berlanga.
Mas o menos lo que pasa ahora en la pintura, cualquiera puede pintar hoy cualquier cosa,. pero «EL fusilamiento del 2 de Mayo» sólo lo puede imaginar un genio.
La de «versiones», re-versiones, precuelas, secuelas e interpretaciones de Sharknado que vamos a empezar a ver… ríete tú…
Suelo ver exposiciones de pintores, Por ahora no he descubierto ningún genio entre ellos.
Igual pasara con los videos, veremos cientos de ellos, pero para llegar a uno de la altura de «Torrente» y lo pongo relativamente fácil, habrá que tragarse miles de bodrios. Algo parecido a lo que pasa con los Tik Tok, en teoría puede hacerse algo maravilloso, pero lo que sueles ver es basura.
Solo con el ejemplo de este videoclip,
https://vimeo.com/956280829
me queda claro que va a ser una herramienta alucinante en la creación de contenido artístico visual, que es justamente el ideal para videoclips o similares. o `para creaciones abstractas, de texturas, efectos especiales, etc.
Lo de crear peliculas enteras queda un poco mas lejos , dado los fallos que todavia se advierten y no se si esto se podrá eliminar pasándolo por un software correctivo pero entiendo que será solucionable a corto plazo.
Lo que está claro es que será el paraiso de los artistas autodidactas con talento dado que los medios ya están disponibles para que una sola persona , con esas cualidades, haga maravillas.
Exacto !
En la línea de lo que comentas, esta chica nos explica como creó su video con IA, con herramientas de hace 1 año…
https://www.youtube.com/watch?v=OXCmGUnLSMY
La creatividad la tiene que poner la persona que tiene un guión en la cabeza, …
sin cabeza, estas herramientas no hacen nada por si solas.
Lo que si hacen es bajar el listón de entrada… va a ver multitud de cortos caseros subidos a las RRSS que nos van a gustar !!
Y con el tiempo mediometrajes, y luego largos !
La creatividad la tiene que poner la persona que tiene un guión en la cabeza, … sin cabeza, estas herramientas no hacen nada por si solas.
Por supuesto, esto son solo herramientas en manos de un autor, y el resultado dependerá de la creatividad del autor
¿competencia? La que quieras… 5 minutillos buscanos en YT
MiniMax Hailuo AI
https://www.youtube.com/watch?v=prBw0ZOD50A
Kling AI
https://www.youtube.com/watch?v=xnkLv-PJVMo
https://www.youtube.com/watch?v=chZyD54d4fQ
Xavier Mitjana
https://www.youtube.com/watch?v=PuWufs7-k7s
etc etc
https://www.youtube.com/watch?v=pr6VC0uwFMA
https://www.youtube.com/watch?v=z2bCyuvXL3g
OJO-> Alguna de las reseñas de YT son de hace 5 meses… Nos comen los chinos !!
PS: Me da que cuando vemos un video de IA, lo que están haciendo es cherry picking y coger solamente los buenos…
¡Como van a disfrutar los hacedores de bulos! Y sí, seguro que la humanidad, más credula y manipulable que nunca, va a encontrar la luz y dejar de tragarse los bulos y fake news que se traga actualmente cuando vengan acompañados de un video que lo «demuestre» en vez de estar solo en un tuit o en los gritos de un youtuber. Seguro que sí =)
La funcionalidad de Canvas integrada en ChatGPT presentada ayer y ya disponible para todos es también impresionante.