Cuenta Engadget que Google ha registrado una patente para reconocer y etiquetar objetos en vídeos comparándolos con una base de datos de atributos vectoriales como color, forma, textura y movimiento.
La idea, aparentemente, es ayudar al usuario a completar de manera automática el etiquetado de los vídeos en el momento de su subida al sitio. Pero unida a otros registros anteriores para acciones sobre vídeo, como el reconocimiento facial, el de melodías o la identificación de contenidos mediante ContentID, y combinadas con el material de trabajo que suponen las más de setenta y dos horas de vídeo que se suben cada minuto a YouTube, la tecnología puede convertirse en la mayor y más actualizada base de datos del mundo para alimentar los resultados de un motor de búsqueda. Si añadimos la transcripción automática de sonido a texto, que lleva tiempo funcionando con un nivel razonable en función de la calidad de la grabación y la dicción, estaríamos hablando de una gigantesca imagen del mundo en movimiento y en tiempo prácticamente real construida por usuarios de todo tipo, e indexada de manera automática para poder buscar cualquier cosa con los modificadores y filtros oportunos. Se me ocurren así como infinitas posibilidades para algo así, y algunas con importantes consecuencias.
Esto es mucho más de lo que algunos imaginaban cuando Google adquirió YouTube en octubre de 2006…
Enrique,
es una tendencia necesaria que ‘los grandes’ todavía no habían atacado. Una empresa española que se acaba de establecer en San Francisco, The Mad Video Inc., ya se dedica a este tema desde hace algún tiempo. Están apunto de lanzar su aplicación échale un vistazo.
Un abrazo,
J.
Hay varias empresas trabajando en cosas parecidas, como http://www.wirewax.com/ que permite un etiquetado semiautomático de vídeos extraídos de Youtube.
El único problema es el trabajo que conlleva. Conociendo las cosas que hace Google, seguro que ese paso lo tienen más avanzado.
Cosas como el difuminado de caras están lejos de ser perfectas http://hombrelobo.com/video/difuminado-de-caras-en-los-videos-de-youtube-automatico/ pero desde luego es admirable el mero hecho de que lo intenten a tal escala …
Excelente, y cómo no, Google patenta algo más en lo que llevan trabajando muchos años numerosos grupos de investigación por todo el mundo.
Sigamos con las patentes, como aquel australiano que en el año 2001 intentó patentar «un dispositivo circular para facilitar el transporte», es decir, la rueda (http://news.bbc.co.uk/hi/spanish/misc/newsid_1419000/1419021.stm).
El sistema de patentes actual es una mentira sustentada por los que tienen dinero para patentar, porque lograr una patente no es barato.
#003 100% de acuerdo contigo.
Es impresionante la capacidad y motivación de Google por desarrollar e innovar en nuevas aplicaciones.
Considero un avance el poder catalogar de forma automática tanto imágenes estáticas como en movimiento. Sobre todo con los vídeos, a mi me ha pasado es ver un vídeo y pocos días despues desear volver a verlo y resultarme absolutamente imposible encontrarlo, si no recuerdas el título que le pusieron. Si pudiéramos buscar videos por conceptos, como «Charlot», «Jaen» o «venados», facilitaría mucho el que encontrar lo que en un momento dado nos interesa.
Como todo, esto tiene el precio de más pérdida de privacidad, pero a esta cultura es a donde vamos, nos guste o no nos guste.
mira enrique a ver si mueves gente para una idea creativa, si luego quieren al de la idea pues mejor. Hay algún software que al estilo del bot de google haga indexación de imágenes en las que aparezca algún texto, el que sea, mediante ocr es decir mediante soft que busque palabras y letras en fotos, hacerlo al estilo google sería difícil pero en un entorno con menos fotos no es moco de pavo.
Gracias por la información Enrique!
Un paso importante para quienes nos dedicamos al video online. Y, especialmente importante para quienes estamos convencidos del poder del video interactivo.
No solamente por la capacidad de indexación de los vídeos (podremos hacer búsquedas del tipo «silla de cuero para oficina» y nos saldrán los vídeos en los que aparece), sino por hacer un movimiento decisivo para introducir masivamente en el mercado el hypervideo (vídeo con enlaces y contenido adicional).
No encuentro ahora el enlace, pero en la universidad de Seattle, allá por el 1996, presentaban una aplicación para hacer seguimiento de objetos en video. Adobe incorporó rápidamente este tipo d tecnología en su suite de edición de video (After-Effects y Premiere) mediante el software Mocha de Imageneer Systems.
En Vidactio nos hemos especializado en el video interactivo volcándonos en la experiencia de usuario y en el retorno final que espera el cliente (vender más en su tienda online, conseguir más audiencia para sus vídeos, enriquecer vídeos de formación, monitorizar los puntos que más interesan al público que ve un vídeo de una empresa….)
Así que utilizamos tanto software propio y programación a medida como aplicaciones de código abierto y de terceros. ¡Bienvenidas sean este tipo de iniciativas!
Personalmente no estoy muy de acuerdo con ese punto en el que se dice que la transcripción a texto funciona «con un nivel razonable». Siempre me decepciono mucho con la calidad de las transcripciones. A menudo el resultado es claramente inservible. Casi siempre que lo intento usar, lo quito sin más pasados unos segundos. Me parece que estos sistemas tienen que mejorar muchísimo si realmente quieren ser útiles. Igual que las traducciones inglés-español: Un desastre. Me parece sorprendente que con la de años que llevamos usando traductores informáticos aún tengamos que sufrir traducciones que en ocasiones ni siquiera dan como resultado no ya frases bien traducidas, sino tan siquiera frases bien construidas. Sé que el artículo de Dans va sobre otra cosa pero no he podido resistir la tentación de «quejarme» ;-) por este asunto que me quema desde hace tiempo.
Me quedo con la filosofía de Google de seguir innovando y sorprendiendo a propios y extraños ofreciendo siempre nuevas aplicaciones y funcionalidades. Esa es la línea.
«Se me ocurren así como infinitas posibilidades para algo así, y algunas con importantes consecuencias.»
¿y las dejas para la segunda parte del artículo?
Está claro que la red se está preparando para un contenido cada vez más audiovisual y que las técnicas de procesado de imagen se están desarrollando con gran rapidez. Ya son incluso capaces de reconocer las expresiones faciales y relacionarlas con determinados estados emocionales en tiempo real.
Interesante la idea de «tecnologías emocionalmente inteligentes», basadas en el procesado digital de imágenes. He escrito un post reciente en el blog sobre ello:
http://ilarraya.com/2012/09/01/tecnologia-emocionalmente-inteligente/
Uuufff… como Santo Tomás, lo creeré cuando lo vea… funcionando.
Este tipo de tecnologías de reconocimiento inteligente ha tenido más fallos y errores que aciertos. Lo del reconocimiento de voz es un buen ejemplo. En un entorno silencioso, hablar pausado, voz clara y buena dicción puede hacer milagros, pero para el mundo real no vale. errores a patadas, haciendo de la herramienta algo inservible en la práctica.
Creo que con el vídeo va a pasar algo parecido. No solo son 25 imagenes por segundo, sino que la multitud de casos en los que habrá movimiento de cámara, desenfoques, cosas pasando por delante, ruito, variabilidad de resoluciones del vídeo, artefactos del codec, etc… provocará que, en la práctica, la herramienta de reconocimiento de objetos en los vídeos sea inservible. Apenas funciona en fotos, como para hacerlo en vídeo!
Dicho lo cual, también creo que no es imposible que la tecnología evolucione mucho en unos pocos años como para que esto sea posible (aunque me sorprendería, la verdad…)