A estas alturas, contamos o deberíamos contar ya con una experiencia considerable en el uso de interfaces de voz. Sin embargo, ¿conoces a alguna persona que realmente las utilice de manera habitual o les extraiga un valor más allá de la mera anécdota, salvando usos especializados importantes como la accesibilidad (que obviamente ya de por sí podrían justificar el esfuerzo empleado en su desarrollo)? ¿O hablamos de accesorios que, en un uso cotidiano, acaban por resultar inútiles o incluso molestos para el usuario medio?
La voz parece, a priori, una posibilidad muy interesante para interactuar con un dispositivo en numerosas circunstancias. Sin embargo, más allá de la teoría, no parece que el desarrollo de este tipo de interfaces de voz esté consiguiendo acumular evidencias en el sentido de una adopción realmente útil o generalizada, más allá de las colecciones de anécdotas y chistes.
Siri, el asistente inteligente basado en voz de Apple, fue lanzado hace ya suficiente tiempo como para acumular ya una cierta experiencia. Y aunque no soy usuario de iPhone, no veo a ninguno de mis amigos que sí lo son utilizando Siri de una manera habitual. Sí me evoca, en cambio, el molesto «What can I help you with?» resultante de agarrar el iPhone de manera incorrecta oprimiendo el botón, del mismo modo que me había ocurrido antes en infinidad de ocasiones con el botón lateral que generaba aquel «Diga un comando…» en las BlackBerry. En Android, he utilizado el asistente de voz en algunas ocasiones para buscar una dirección mientras conduzco, y seguramente no debería hacerlo, porque generalmente terminaba por distraerme casi tanto como intentar teclearlo. ¿Se han convertido los interfaces de voz, como especula este artículo de TechCrunch, en una función tan molesta como aqel insufrible Clippy del Office, que terminó por eliminarse en el año 2001? ¿Hablamos de un problema de falta de adopción condicionada por un desarrollo todavía muy incipiente, o simplemente no hay ventajas reales en el uso de la voz como método de interacción con dispositivos?
¿Opiniones? ¿Experiencias?
El único interface vocal realmente útil fue el que estaba integrado en el manos libres bluetooth que venía de serie con un Ford Focus que tuve hace unos años. Reconocía 10 nombres que previamente hubieras metido en la memoria del coche, perfectamente y sin errores. También podías llamar a cualquier número diciendo cada dígito de forma indvidual. Como digo, en este caso el resultado era muy bueno, lo usaba continuamente.
Los demás, como bien dices, de poco o nada sirven, hasta la fecha.
Saludos
Yo he usado Siri de manera anecdótica para poner la alarma y poco más, vamos, más bien para enredar y no desaprovecharlo. Pero no soy capaz de sacarle una función en donde sea más rápido que hacerlo directamente con los dedos.
Siri-like como interface de voz para apps bancarias
Siri is your new customer service rep
No me imagino a alguien en publico diciendo en voz baja .. .»transferencia de mil euros a …»
Yo sigo sin verlo claro, me parece mas una incomodidad que una ventaja.
Perdone, pero no le he entendido… :-)
En mi opinión, estoy de acuerdo contigo, es algo bastante inútil. Y algo que me molesta mucho, el contestador automático «hablado», el que te redacta un mensaje de voz a texto ¿quien inventó eso? no acierta ni una, yo la pondría como aplicación para divertirse, por que no sirve para otra cosa.
Bueno, he de decir qué soy usuario de iPhone y que SIRI aún no ha salido en castellano, aunque yo si lo tengo (truquitos míos….)
Mi experiencia me dice que cuándo salga en castellano las cosas van a cambiar drásticamente ya que es increíble.
Por ejemplo:
– «despiertame a las 7 am» y en cuestión de 4 segundos la alarma está configurada, no tardas tan poco tiempo a mano.
– «llévame a Madrid» salta automáticamente el programa de navegación, calcula la ruta y la comienza, es más rápido que hacerlo a mano también…
– «qué hora es en …» Y te la dice al momento
– «mensaje a mi madre diciendo: llegare tarde a comer» también lo hace en cuestión de segundos…
Y un sinfín de ejemplos, yo lo uso, ahora espero que se haga extensivo a ordenadores y vehículos ya que «me hace la vida más fácil»
Un saludo!!!
Pues mi pareja no usa otro teclado en Android mas que la tecla de reconocer voz que hay en el propio teclado.
Lo usan muchos conocidos, que empiezan a no tener tan buena vista y se aturullan con el teclado.
Yo si uso con bastante frecuencia la búsqueda por voz en mi iPad+Chrome y me resulta muy practico, sobretodo al realizar búsquedas con varias cadenas de texto largas, hablar es más cómodo que usar el indice o los pulgares para escribir.
Por otra parte hemos desarrollado una app iOS para controlar la casa por voz, una casa con Domótica claro, (puede probarse aquí ) y al ser una empresa pequeña he podido recoger directamente el feedback de varios de nuestros clientes y la verdad es que ha sido positivo, aunque con matices.
El uso de la aplicación no ha supuesto ninguna revolución en la relación usuario-domótica ni se hace un uso muy intensivo de ella, pero si resulta extremadamente práctica en determinadas ocasiones (por ejemplo desde dentro de la cama antes de dormir, o en el interior del coche al salir de casa entre otras) en las que es mucho más práctico «hablar» que buscar por menús la opción deseada.De la misma forma hay veces en las que ni se plantean usarlo, como por ejemplo, mientras se ve una película , o al despertarse.
Creo que es un cúmulo de factores. Yo ciertamente utilizo Siri para establecer las alarmas de mi iPhone, porque he comprobado que ahorro tiempo respecto a la alternativa táctil, y he aprendido a pronunciar correctamente ese comando concreto para que Siri siempre me entienda. Creo que se trata de una cuestión de ‘qué beneficio me ofrece la alternativa’ más allá de la gracieta de pensar que nuestro móvil es realmente inteligente, cosa que aún dista muchos años de suceder. Creo que algunas razones son:
– Pudor. El móvil se utiliza generalmente en movilidad, y no queremos que la gente que está alrededor sepa si estamos agregando un evento al calendario o haciendo una búsqueda en internet. A esto se suma el pudor de hablar en voz alta delante de la gente. Cuando hablamos por teléfono en público nuestra mente está centrada en la conversación, pero al hacerlo frente al móvil nos sentimos más ‘expuestos’. Por este motivo yo sólo hablo con Siri en casa, en la intimidad ;)
– Falta de costumbre. Las primeras experiencias con este tipo de sistemas suelen ser descorazonadora. Esto hace que dé pereza seguir intentándolo. No se obtiene una utilidad suficiente como para que se establezca un hábito de uso.
– No infalibilidad. Todos odiamos repetir las cosas. Además no cualquier petición está contemplada en el sistema. Esto provoca frustración.
– Idioma. Siri no está en Español; habrá que esperar a iOS 6. Qué más decir sobre lo que eso supone en un país como España. Otros mercados como el italiano, alemán y japonés han tenido más suerte, y no sé si por allá se usa más el invento.
– Inercia. Estamos acostumbrados a interactuar con los móviles de una determinada manera, y las pantallas táctiles tiran mucho. Además métodos de interacción tradicionales ofrecen muchas ventajas interesantes (texto predictivo, autocompletado, navegaciones intuitivas…)
Opino que las interfaces de voz tienen un lugar y un futuro cierto, cuando fallen menos que una escopeta de feria. En situaciones como las de un conductor, o cuando supone una molestia o una pérdida de tiempo desplazarse a la interfaz física (por ejemplo dentro del hogar, sin tener que interrumpir nuestra tarea) les auguro un futuro brillante. En cualquier caso estos sistemas tienen que madurar. Cualquier sistema de reconocimiento (de voz, visual, de patrones) precisa de un entrenamiento, especialmente para adaptarse a las particularidades de su usuario. Desconozco si los sistemas actuales están en ese punto. Todo se andará.
Comunicarse por voz con las máquinas es de esas cosas que dan muy bien en las películas de ciencia ficción, pero en la práctica hablar es algo que resulta más molesto y cansado que usar otros medios.
Lo que por medio de teclados, yo sobre todo de gestos, se trata de movimientos mecánicos que son una extensión de tu pensamiento, pero para comunicarte verbalmente tienes que elaborar un mensaje que debe estar correctamente construido, y eso no ocurre automáticamente. Si no, pensemos en cuántas veces pedimos algo a alguien diciendo: «oye, alcánzame eso que esta ahí».
Puede que es ciertos contextos, cuando no puedes usar gestos o los dedos, suponga una ventaja (¿en medio de una operación quirúrgica?¿cuando está en la ducha y suena el teléfono?) pero preferiré usar el mando de la tele para cambiar de canal antes que tener que pedírselo oralmente.
Definitivamente y muy a mi pesar todavia no.
He probado todos los que han salido hasta ahora y partiendo de la premisa de que deben ahorrarte el trabajo de usar las manos. No son funcionales. Bien sea porque el reconocimeiento es insufciente o bien por errores en el entendimiento de los mensajes, siempre termino usando las teclas, pantalla etc..
Espero ansiosamenten un dispositivo que finalmente pueda ser «mi secretaria personal» y aliviarme de las cargas como la de escribir con el ipad estas lineas que suscribo. Muy buen articulo, le felicito.
yo uso Siri para poner alarma «set alarm xx:xx»
y cuando tengo el iphone en el bolsillo lo uso con el micro de los auriculares para seleccionar o cambiar una playlist «play muse»
algo es algo :)
Estoy 100% de acuerdo con #009.
Yo utilizo el reconocimiento de voz de Android para escribir mensajes en Whatsapp, pero:
a) Evito hacerlo en el Metro o en lugares concurridos por vergüenza.
b) Tuve que acostumbrarme a pronunciar muy claro y despacio para que funcione.
c) De vez en cuando, tengo que teclear alguna palabra que preveo que no va a reconocer, otras tengo que borrar algo y repetirlo.
d)
e) Al principio me resultaba muy raro hablar en lugar de teclear pero cuando me acostumbré descubrí que era bastante más rápido.
Sencilla respuesta: No funcionan, luego No se usan.
Imaginemos un despacho donde todos los empleados dictaran en voz alta los comandos de los dispositivos que utilizan, madre mia que follón.
Menudo coñazo todas los adictos al watsapp dictando sus mensajitos de viva voz en el metro, si aveces ya molestan los que hablan a gritos por el movil…
Decididamente no resulta práctico lo de los comandos de voz mas allá de las peliculas de Star trek o el coche fantastico, «Kit llevame a casa».:)
Este verano en Estados Unidos mis amigos lo utilizaban a diario y era sorprendente su efectividad. Nada a ver con el Siri que tenemos aquí en España en nuestros Iphones. Espeeeemos a que salga en Español y luego opinaremos. Lo que si es lamentable es que Apple aun no lo haya presentado en Español en una de sus actualizaciones.
No tengo experiencia con el Siri y por lo tanto mi opinión será sesgada. No tengo iPhone. Pero posiblemente, el problema sea una falta de costumbre de emplearlo.
Ultimamente me he acostumbrado a trabajar con Google Drive y pienso, como podía antes trabajar sin el. Pero recuerdo que hace tres o cuatro años que lo intente emplear y no me fue cómodo. Posiblemente falta de experiencia.
Por naturaleza somos cómodos y nos da pereza probar cosas nuevas.
Mi intuición es que tiene que ser muy útil.
Totalmente de acuerdo con Luis (009). No soy usuario de productos apple, pero sí de android y el primer escollo es la vergüenza/incomodidad de hablarle a una maquina, por muy bien que responda. Otro tema es que aún soy lo suficientemente ducho como para hacer las tareas eficientemente con el teclado. Ya veremos el día de mañana.
Al conducir puede ser práctico pero, en mi caso, si programo el destino y la música antes de iniciar la marcha no necesito interactuar con el móvil durante el trayecto.
Para dispositivos móviles no lo veo útil o práctico, en cambio si me lo parece para por ejemplo la televisión. La rumoreada televisión de Apple, si tuviera órdenes por voz sería bastante interesante.
Sería un buen paso hacia la domótica de forma extendida, que parece que nunca llega a arrancar.
Quizás me salgo del tema, pero en la Gestión de Almacenes la preparación de pedidos por voz es una realidad desde hace años y funciona muy bien.
Ventajas: cómodo para los usuarios, sencillo de aprender a usar , minimas averías de equipos, mayor productividad.
Hay otros «mundos» fuera de los smartphones, :-)
Uso Android como S/O en el celular y el tablet, el reconocimiento de voz en el teclado y es una de las funciones que más uso. Me perimite «escribir» confiablemente al punto que no uso teclado, solo sale relucir en ocasiones puntuales.
Para mi lo de la verguenza viene asociado mas a hacer el riculo repitiendo varias veces la frase hasta logar el reconocimento correcto, en mi experiencia funciona con un 95% de precisión. Por primera vez siento que un sistema asi funciona como debe a pesar que hacerlo de oración en oración. Aunque no es necesario contar con una secretaria virtual para el uso cotidiano.
Me parece raro que no lo hayan fomentado mas en la plataforma para PCs. O que Chrome no venga esta con esta utilidad por defecto, por mas que exista una extensión.
Los sistemas informáticos no han superado la fase de la estupidez artificial aunque sean muy rápidos y eso les permita hacer cosas sorprendentes. Habría que entender como funciona el proceso de determinados aprendizajes humanos para poderlos simular en lugar de obcecarnos en usar algoritmos que usan principalmente la fuerza bruta.
Las nuevas interfaces y lasdistintas formas de interacción, suelen causar rechazo y desconfianza (ocurrió con los sistemas táctiles…). Por supuesto que favorece la accesibilidad, pero todos somos susceptibles de tener que utilizarlo, dependerá fundamentalmente del contexto. Quizás es prematuro formarse una opinión sobre algo que empieza a resultar verdaderamente práctico.
En el siguiente enlace puede escucharse un ejemplo de Siri junto con VoiceOver, y creo que es ilustrativo de sus posibles ventajas para todos: http://www.jmortiz.es/2012/08/22/demostracion-de-siri-con-voiceover-en-iphone-4s/
Un cordial saludo!
Lo empece a usar pero pronto me canse, no funciona muy bien. Ahora lo he desconectado. Mucho mejor
Yo lo veo solo como algo anecdotico y solamente llegará a ser útil cuando exista una verdadera interacción, de forma completa con el dispositivo. Y que además por supuesto comprenda absolutamente todas y cada una de las palabras que le diga. Una especie de IA a mi servicio.
Estoy hablando de bastantes años en el futuro, cuando no haga falta recargar la batería cada 8 horas. Hasta entonces lo veo como una absoluta torpeza, no solo innecesario en algunos casos, sino además perdida de tiempo en otros, al pelear con el aparato para entienda lo que le estoy diciendo de forma tan clara y pausada.
Algo que detesto es tener que tocar el móvil para que comience a «escuchar», esto no tiene mucho sentido (aunque la tecnología actual supongo que no permite otra cosa, sobretodo porque tendría que estar siempre en segundo plano, liquidando la batería). Es algo de ciencia ficción, pero absolutamente posible que algún día los móviles respondan a su marca y hagan lo que uno les dice sin mucho esfuerzo, IA bastante desarrollada.
Por ejemplo:
—»¿Galaxy 18 cuanto tiempo falta para llegar a mi casa?»
—»14 minutos»
—»¿No es posible llegar antes? ¿No podes encontrar otro camino?»
—»Lo siento Dave, me temo que no puedo hacer eso.»
El Clippy del Office fue sustituido por chucho cibernético que no estaba en el Office sino por doquier. Venía por defecto y había que eliminarlo en el menú de opciones (¡¡MS y sus chiquillerías insoportables!!).
Todos los sistemas de voz que he utilizado por obligación (citas en hospitales, en la administración para renovar el DNI, etc.). No han sido otra cosa que una auténtica tomadura de pelo. Se podrían mejorar si se basaran en el reconocimiento de la voz. Es decir si se adaptaran su percepción a la manera de hablar del que lo va a utilizar. Bastaría con que el usuario registrara una lectura de un texto que tuviera la mayor parte de las posibilidades fonéticas (algo que en castellano y en finés sería increíblemente simple, ya que el sistema fonético es muy sencillo), y a partir de ahí se configuraría el sistema de reconocimiento de voz. Parece complicado pero no lo es. Además se adaptaría al dialecto y la forma de hablar de cada uno. Un sistema así contemplaría que por ejemplo, después de grabar una lectura del texto de un andaluz que éste no pronunciara la s final de los plurales, o que ceceara o seseara y registrarlo como una posibilidad. Estos sistemas tienen por fuerza que empezar a adaptarse a los hablantes, y no los hablantes a ellos, si quieren ser realmente un sustituto de funciones táctiles, y no un mero juguete con el que hacer el chorras.
Algo que sucede también con los sistemas táctiles, cuya única ventaja es crear terminales más delgados, con pantallas más grandes y menos pesados, pero cuya facilidad de uso deja mucho que desear frente a un teclado de plástico qwerty convencional.
Yo tampoco uso los comandos de voz para interactuar con mi móvil ni con mi tablet, y cuando lo he hecho es poque no tengo prisas y estoy probando o curioseando. Donde sí le veo salidas, y llevo años preguntándome porqué no se ha implementado ya de forma interna, es en el campo de los programas de diseño. Yo soy usuario a nivel profesional de programas de CAD y SIG. Concretamente y por poner un ejemplo, Autocad. Aunque cuenta con una interface muy depurada, con muchísimos años de desarrollo y mejora detrás, el número de herramientas, comandos, combinación de operaciones y ordenes e introducció de datos y parámetros es tan importante que cualquiera que vea trabajar a un usuario avanzado comprobará la rapidez y complejidad de uso que conlleva, y como esta tiene lugar tirando de teclado y ratón alternándose y/o combinándose para completar la sucesión de tareas. Para mi, y llevo muchísimos años en esto del CAD, poder desviar parte de esas combinaciones a una tercera vía como es la voz, que sin suplantar a las otras dos se combinara con ellas, sería una descarga de trabajo de las manos y dedos pudiendo aumentar la velocidad de ciertas operaciones y, por tanto, la productividad.
Buscando esto, cuando empezaron a salir aplicaciones para windows de comandos por voz de terceros, hice algunos intentos… pero nada digno de destacar y por su puesto inútiles bajo premisas de producción. Estoy convencido de que si los de Autodesk, por seguir con el ejemplo, apovecharan toda la experiencia acumulada en los productos de comando por voz de la corriente móvil y la implementaran de forma nativa en sus productos, acertarían.
Estoy convencido de que la voz tendría un gran recorrido como interface de ayuda en las operaciones de trabajo que por volumen o dificultad sean muy intensas, y sólo lo dudo porque en la práctica aúnno veo ningún desarrollo serio en este sentido. Si los desarrolladores pensaran más en los autónomos y menos en las grandes oficinas de trabajadores, podrían despreciar el factor negativo. que se produce en un espacio de trabajo donde se habla y donde más de un operador puede estar utilizando la voz para interactuar con su equipo.
Las interfaces de voz funcionan perfectamente incluso en situaciones extremas. ¿Verdad, Kitt?
Fuentes de toda confianza me informan de que se utilizaron sistemas de reconocimiento de voz para restaurar el Ecce Homo.
Saludos.
OFF TOPIC: Tremenda victoria de Apple sobre Samsung con daños colaterales a Google y la plataforma Android en California -allá va otro billón de dólares para provisionar-, donde un jurado básicamente le da póstumamente la razón a Steve Jobs cuando reclamaba que Android era un producto robado.
¿Qué opinará Edans del conflicto final entre sus dos grandes amores, lady Apple y lady Google?¿Se congratulará por el reconocimiento y defensa legal exitosa de las creaciones de la talentosa Lady Apple, o se sumará al inminente bulling que le espera a la dama de la manzana, en manos de la pícara y vocinglera Lady Google?¿Se diagnosticará por enésima vez el fin de la internet libre y del mundo tal como lo conocemos?¿Es el comienzo del fin del pequeño Android ahora que los fabricantes de smartphones conocen su condición de hijo bastardo? No se pierda el desenlace de esta apasionante historia de amor y traiciones en este mismo blog en los próximos días… o quizás horas, auspiciada por Iphone4 y GalaxySIII.
A mí, lo que me ha sorprendido es que la forma habitual de introducir mandatos y textos en un iPad no sea por defecto la voz. No teniendo teclado, parece más lógico utilizar la voz que inventarse un teclado virtual, que no es nada práctico. Pero una cosa es lo que uno piensa y otra lo que las empresas sacan a la calle. y el ipad sale con un teclado tactil poco útil, para eso sería mas cómodo ponerle un teclado optativo emchufado al aparato, claro está que sin llegar a esto http://www.youtube.com/watch?v=jWqqtybjzXE&feature=youtube_gdata_player
Soy desarrollador y tengo IOS 6 con Siri en castellano desde hace un par de meses. Lo uso de vez en cuando aunque aún está algo verde. Pero lo que si he cambiado es mi forma de escribir correos electrónicos. Ahora se los dicto al iPhone en lugar de escribirlos y la tasa de reconocimiento es muy alta. Hablando despacio y con claridad se aproxima al 100%. Creo que estamos aún al principio del cambio, pero en pocos años la interacción con los móviles, ordenadores, etc. será por voz, y de ahí a la traducción simultánea y a la posibilidad de comunicarse con cualquier persona al margen del idioma será un hecho. Entonces la globalización será total.
Cuando en ingeniería informática nos enseñaron procesadores de lenguaje, lo primero que nos dijeron es que el lenguaje natural tiene un problema sin solución asociado: el lenguaje natural es ambiguo.
¿Esto qué quiere decir? que no es procesable 100% por ninguna máquina. Pueden hacerse todos los arreglos que se quiera, pero al final siempre habrá alguna frase que en lenguaje natural sea correcta y el ordenador la interprete de una forma que nosotros no queremos.
Es por eso que los procesadores de voz no sirven para todo y en mi opinión nunca lo harán.
I think that it could be used more for blind people. At this point, beside them and some friends who are tryng to amuse themselves using siri and other products like it, I have never seen anyone actually using the application.
Dado que tengo un buen nivel de inglés, voy en la moto, pulso el botón de mi bluetooth en el casco y tiro de Siri:
Yo – Llama a Carlos Martínez (nombres supuestos, claro)
Siri -…Llamando a Cira Mirtano (la única persona del mundo a la que jamás llamaría pese a tenerla en mi agenda)
Yo: CANCEL, STOP, CANCEL! (mientras me juego la vida para parar la moto antes y darle al botón de colgar en el teléfono antes de que la llamada se ponga en marcha…).
Esa es mi experiencia (sí, los nombres los ‘inglesizo’, pero la mayor parte de las veces no los coge. Con los mapas, el problema es que no funciona fuera de EEUU; y con las pelis de cine, lo mismo; así que, como algunos que comentáis arriba, el único uso que hago hoy es el de poner la alarma más fácilmente. En fin…ya vendrán versiones mejores en español ;).
Sr. Dancs: Yo creo que este tipo de aplicaciones deben no solo existir sino que perfeccionarse porque sigo sin entender que en esta impresionante era de las tecnologias «portables» no se esten llevando acabo mas ayudas hacia los colectivos de discapacitados. Los recpnocedores de voz, serian de una gran ayuda para las personas sordas postlocutivas, que por enfermedad o accidente, se ha quedado completamente sordas y eso conlleva aislamiento. Siempre me he imaginado «leyendo» lo que se dice en una reunion o congreso mientras leo un subtitulado lo mas fiable posible de lo que se dice.
Gracias.
Mi hermano lo usa muchísimo en su android, todos los mensajes, whatsapp, comentarios en el facebook.. Yo me dí cuenta que algo pasaba porque él siempre ponía un montón de faltas de ortografía y de pronto dejó de ponerlas, no me ha dicho que lo use por eso, pero creo que sí – y apenas le noto errores de ningún tipo…
La verdad es que en mi caso nunca le saqué provecho a las interfaces de voz. Desde el viejo «Dragon Speak» (que debías pasar horas y horas entrenándolo, o mas bién entrenándote en castellano neutro, jaja) hasta los que hoy conocemos como Siri o el propio de Android. No hace mucho tiempo quice utilizar el comando por voz para buscar una dirección en el GPS de mi teléfono, tuve que detenerme porque:
1) No reconocía bien los comandos
2) Me presentó un listado de posibles direcciones
A pesar que el desarrollo de esas interfaces es un desafío mas que importante, mas que por cuestiones de ‘accesibilidad’, hoy día no le veo un mejor uso