El Departamento de Comunicación de IE Business School me pidió un pequeño vídeo sobre la importancia creciente de las interfaces de voz y el ecosistema que Amazon está consiguiendo desarrollar – y liderar – en torno a ese tipo de dispositivos, un tema sobre el que escribí recientemente a raíz del Consumer Electronics Show de Las Vegas y de las impresiones que dejó.
Para muchos usuarios, la idea de tener un dispositivo en el salón de su casa al que piden cosas tan variadas como que les ponga música, les encienda o apague las luces, les encargue una pizza o un Uber, les cuente las noticias o la previsión del tiempo, o un número creciente de habilidades que alcanza ya las diez mil sigue sonando a relativa extravagancia. Pero cuando vemos una tasa de adopción que supera ya los once millones de hogares y un desarrollo de ecosistema tan potente y comparable en muchos sentidos al que experimentaron las tiendas de aplicaciones hace algunos años, parece evidente que, como mínimo, «algo tiene el agua cuando la bendicen», y que quien sea capaz de dominar ese entorno, habrá obtenido una clave muy importante sobre la que construir muchas cosas. De hecho, Google está intentando a toda velocidad construir una alternativa para competir en ese espacio con su Google Home, al tiempo que Microsoft o Apple lo hacen con sus esperados desarrollos. Amazon, mientras, con un dominio aplastante de ese entorno, se esfuerza por evitar que sus usuarios lo vean como una especie de espía agazapado en el salón de sus casas.
A continuación, el vídeo de dos minutos y medio, que ha aparecido ya en algunas publicaciones como Gestión (Perú) o El Economista (Centroamérica):
¡Tenía que llegar!
La forma habitual y la que preferimos para comunicarnos los humanos es la voz, Lo lógico es que te entiendas con tu pareja hablando y no mandando SMS. Por tanto es la voz, la forma lógica de dar y recibir mensajes a una máquina.
Si no se ha hecho antes es pura y simplemente por que la voz y sobre todo el habla, no es fácil de digitalizar. Es muy facil digitalizar el sonido, pero se muy dificil extraer de ese sonido el mensaje que transporta y mas aun el proceso de transformar ese mensaje, en una serie de mandatos consecutivos, comprensibles para un aparato digital.
A mi me sigue sorprendiendo en cambio, que el 90% de los WhatsApp que enviamos no sean mínimos mensajes de voz, sino largo y difíciles textos escritos, con un dedo sobre un teclado. claramente más pequeño que el dedo que le utiliza. Mas aun me extraña que los telefonos le hables y eso que le dices lo transforme, (mas o menos), en un texto, cuando pienso que lo más sencillo seria mandar el mensaje de voz directamente al destinatario y que él le oyera y entendiera.
No me sorprende Siri y Alexa con todos sus errores, sino la necesidad de de escribir «llego a las 5, en el tran de Burgos» cuando podrías decirlo en un mensaje perfectamente claro.
Tiene su sentido lo que dices, pero tengo que reconocer que yo soy de los que ya no llama nunca por teléfono, y cuando alguna vez he visto que alguien me ha mandado un mensaje de voz por whatsapp he pensado que era alguien que no se maneja mucho con la tecnología. Quizás es porque asociamos lo escrito a un medio asíncrono, y preferimos solo interrumpirnos para algo verdaderamente importante. Y lo que hacemos es pasarnos notas, que en una pantalla es más fácil de reproducir y de indexar de forma silenciosa simplemente echándole un vistazo, y no teniendo que usar unos auriculares si estamos en público buscando entre mensajes dónde está la información que buscamos. De todas formas te recomiendo activar la opción de escribir en el móvil solamente deslizando el dedo sobre las teclas. No necesitas tanta precisión, y el diccionario te corrige automáticamente las palabras. Yo que suelo mandar mensajes en tres idiomas distintos te puedo decir que es bastante útil :)
Yo sinceramente no entiendo, salvo igual para libros cómo alguien va a querer comprar algo en Amazon a ciegas sin comparar antes precios, modelos, marcas, prestaciones, leer opiniones, etc. ¿De verdad alguien querría comprar una casa de muñecas, la que sea, independientemente de su precio o de su tamaño, o apariencia?
Pero lo que me parece la consecuencia más importante del «éxito» del Amazon Echo es cómo nos parece una tontería usar la voz en el móvil pero nos parece cool hacerlo a un asistente en el hogar. Quizás porque el móvil ya tiene una interfaz que funciona, y hasta ahora los sistemas de domótica y similares no habían encontrado un estándar.
Pero el mayor problema que le veo para una adopción masiva es que puedan estar oyendo todo el tiempo. ¿Querría la mayoría de la gente, que ya se quejan de que un sistema automático lea los e-mails para ofrecer publicidad contextual tener un dispositivo que pueda en cualquier momento y de forma transparente pasar a escuchar y grabar las conversaciones domésticas, y que además como todo, pueda ser hackeable y usado en tu contra? Estamos hablando de una sociedad que, incluso a través de supuestos gurús de seguridad aconsejan tapar la cámara de los portátiles y desconectar los micrófonos…
No es cuestión de que nos parezca una tontería, es que para hacer esto mismo con el móvil en el hogar primero tienes que ir a donde tienes el móvil, y desbloquear la pantalla. A partir de ahí ya puedes hacer lo que quieras, incluso por voz, pero si ya tienes el móvil en la mano entonces la voz pierde su utilidad.
Puedes tener varios Echo Dot repartidos por la casa, y el sistema es ubicuo y sin manos. Ese es su punto fuerte.
Bueno, normalmente lo tienes en el bolsillo o cargando. Pero lo que quiero decir es que preferimos decir en voz alta en nuestro salón enciende la luz, que decirlo al móvil aunque lo tengamos en el bolsillo, y de ahí que el éxito lo haya encontrado Amazon, y no Google o Apple.
Ojo, que igual es solo porque ha conseguido crear una plataforma abierta a terceros atractiva, pero me da la sensación que en el móvil no hubiese funcionado igual. Enlazando con lo que dice Gorki, por alguna razón ya no queremos hablar a nuestro «teléfono» sino usar su interfaz táctil. Fíjate que en este dispositivo que si ha triunfado la voz no tiene pantalla.
Mi duda es, ¿queremos usar una interfaz distinta para cosas diferentes o preferimos la voz solo cuando no hay pantalla?
La voz como interficie en los móviles tiene el problema de los «vecinos». A mi me molestan los mensajes de voz por whatsapp pq para escucharlos debo ponerme auriculares, pocas veces estoy solo … en cambio echo o home se sobreentiende que estas en casa.
Yo ahora para ver una serie tengo que encender, mediante el mando seleccionar canal o pillar el móvil para mediante chromecast pasarle via netflix/hbo/media center el contenido…. con voz sería mas fácil.
En mi caso el problema tambien es el idioma, al ser en casa catalanohablantes, la interficie diria que ni existe, ni se la espera.
Ten en cuenta que mucha gente no lleva el móvil en el bolsillo cuando están en casa. Las mujeres suelen tener el móvil en el bolso, pero no llevan el bolso encima cuando están en casa.
Mucha gente (hombres y mujeres) se cambian además de ropa al llegar a casa, para estar más cómodos. Se ponen pijama, chandal, o alguna clase de bata o similar, y estas prendas en muchas ocasiones no tienen los bolsillos adecuados para llevar un móvil, y menos si es un phablet, cosa frecuente hoy día.
Incluso en tu caso, que sí llevas el móvil encima cuando estás en casa, un Echo te supondría la ventaja de ser un interfaz «manos libres», sin tener que desbloquear la pantalla. Un Android se puede configurar para que responda al «OK Google» incluso con la pantalla bloqueada, pero no creo que la gente lo quiera tener así, dado que el móvil es algo que llevas siempre encima cuando estás fuera de casa, y no vas a querer que cualquiera que pase a tu lado pueda desbloquear la pantalla si se le ocurre decir «OK Google».
Hablando más en general, sobre qué tipo de interfaz es el más adecuado, lo cierto es que depende de mil factores. El Echo es muy adecuado en casa… salvo que sean horas avanzadas de la noche, que entonces nadie va a querer usar un interfaz de voz, ni para dar las órdenes o hacer preguntas ni para recibir las respuestas.
Ahora bien, a falta de probarlo (porque todavía no está disponible en España), en horas diurnas u horas nocturnas en las que se pueda hablar sin molestar a nadie, en casa, de forma ubicua y sin manos, no se me ocurre mejor interfaz que el Echo (o el Echo Dot).
Respondiendo a tu pregunta, si en un determinado momento estamos manejando una pantalla táctil, porque estamos (por ejemplo) leyendo un libro en un tablet con la app Kindle, igual no nos molestamos en usar la voz para encender la luz o decirle a la smartTV que empiece a reproducir una serie de Netflix.
Total, es elegir entre usar la voz o hacer un puñado de pulsaciones con el dedo. Ahora bien, como ese mismo tablet lo tengamos a 2 metros de distancia, vamos a usar la voz, es lo más rápido y cómodo.
Estoy de acuerdo contigo. Muchos llaman algo tontería, pero son avances que mejorarán nuestra vida. Así como otras tonterías lo han hecho. Cuando los móviles empezaron a tener cámaras a gente pensó que es una tontería, pero en verdad a dado calidad de vida y comunicación – no cuentan los selfies de jóvenes tontos en el baño de centros comerciales-.
Desde luego, parece que Amazon acertó de pleno con el Echo, y con 10.000 skills y subiendo tiene ya todo un ecosistema funcionando, mientras que Google va muy por detrás, y Apple y MS todavía ni están.
MS además parece que va a cometer el error de que su sistema sea una especie de funcionalidad de Windows, pero nadie va a tener todo el día el PC encendido tan solo para recibir ocasionales órdenes por voz, y no digamos ya el tener varios PCs repartidos por la casa. Esto es algo que requiere un aparato especializado, barato, sin pantalla, ratón, ni teclado, algo que ni se parece a un PC, y donde Windows y sus trillones de aplicaciones para PC no aportan ni la más mínima ventaja competitiva.
Estamos hablando del aparato que va a ser el centro de control de la Internet de las Cosas en el hogar, y parte de esas cosas van a ser otros aparatos preexistentes como el equipo de música o la smartTV, una categoría que de momento no tiene más nombre que «estilo Echo».
La relativa extravagancia es que los teclados de los ordenadores sigan teniendo las teclas Control, Alt, Shift, AltGr, Command, F1…F12, y que los programas proporcionen comandos que se activan con combinaciones de esas teclas si no quieres usar el ratón. «Combinaciones pulpo», las denomina mi mujer. Teclados dinámicos como los de los dispositivos táctiles o el Touch Bar de Apple o, mejor aún, interfaces de voz, son una forma mucho más natural de comunicarse con el software.
Yo, todavía estoy reflexionando acerca de como se puede arengar sobre la posverdad, utilizando argumentos falaces y señalando con el dedo, al Big data por un lado y a las redes sociales por otro.
Vamos a tener que hacerle unos responsos al rigor periodístico y la opinión como juicio sumarísimo de la realidad.
La probatio diabolica es, que ahora los infundios se atribuyen al mensajero y no residen en el mensaje.
Tal como hace Trump con el NY Times o La CNN. Una cruel contradicción, sin duda.
Viendo Farenhait 451 siempre me asustó más el poder establecido (seres humanos) que mandaba quemar libros, que los avances tecnológicos que allí aparecían ( hoy en día superada la ficción).
Sigo pensando que Alexa no me asusta, me asustan los seres humanos que manipulan a las alexas. Y me asustaría que desapareciera el material narrativo que podamos grabar en nuestros evolucionados cerebros en un posible futuro apocalíptico…
El triunfo (inminente) de las interfaces de voz es el paradójico retorno a una comunicación LINEAL con las máquinas. La llegada de las interfaces gráficas con ventanas en los 90 en los PC supuso una revolución, pero también supouso el paso de una comunicación lineal por comandos escritos (MSDOS, Unix, etc) a una comunicación a menudo CAÓTICA de menus, submenus, emergentes o contextuales y ejércitos de botones e iconos y formularios y cuadros de diálogo, mensajes del sistema por doquier, etc.
Las interfaces de voz nos regresan de manera cómoda a la comunicación lineal por comandos. Bien implementado (es decir, cuando esté madura la tecnología ) será todo más fluido y más rápido. Y como alguien ya ha dicho más arriba, más natural al ser humano.
Una idea interesante. Son comandos, pero sin tener que escribirlos, y sin las rigideces de sintaxis de los comandos DOS y Unix.
De hecho, Krigan, en mi escritorio de PC (uso Ubuntu, que es una distribución de GNU/Linux), hace años que disfruto de esta «comunicación lineal» con mi máquina, de este modo: con «lanzadores» («launchers» les llaman en inglés) que al pulsar una tecla (habitualmente la «tecla windows» o «tecla súper») emerge una ventana con una «barra de texto inteligente», en la que uno escribe apenas 4 letras de una aplicación y/o archivo y la barra te adivina qué quieres abrir… es prácticamente mágico!!!!
Jejeje, me desespero cuando veo a la gente de mi alrededor hacer 20 clics en su escritorio para abrir cualquier cosa!! ;)
En windows también funciona de forma casi exacta: pulsas la tecla windows y simplemente escribes «word» y en cuanto aparezca en lo alto de la lista pulsas «intro» y voilà! La lástima es que muy pocos usuarios lo usan y saben qué práctico es esta comunicación lineal con la máquina!
Hace años que llevo esperando que este «lanzador inteligente» funcione con voz… pero en Linux este tema está un poco detenido. En windows creo que Cortana ha dado pasos hacia adelante, pero por lo que he visto en la mayoría de los PCs de mis conocidos que lo usan es LENTO al reaccionar y suele ser incluso más rápido seguir trabajando con el ratón. Aquí el hardware está siendo un poco el freno de este asunto (la velocidad de procesamiento que exige el «speech to text»).
En este sentido, déjame hacer de gurú de nuevo: estoy casi seguro que del mismo modo que los PCs y laptops tienen una CPU para «casi todo» y una segunda CPU (o GPU) para el tema gráfico, en un futuro inminente tendrán un tercer chip destinado EXCLUSIVAMENTE a la interfaz de voz, de modo que el procesamiento de la voz no interfiera para nada en el funcionamiento de la máquina (una VPU? :)
También se me ocurre que podrían fabricar dispositivos externos USB que hicieran esa función: un micrófono USB con un chip y memoria con suficiente capacidad para procesar la voz que le habla, pasando por el cable USB a la máquina solamente TEXTO TRANSCRITO!!! Uauuuu… eso iría de maravilla para multitud de máquinas! podríamos tener uno único y llevarlo encima como los «comunicadores del pecho de los personajes de Star Trek» y simplemente por Bluetooth se comunicarían con el teléfono o con el PC o laptop para enviar los comandos (de hecho basta con el texto transcrito), tal cual como funcionan de hecho hoy en día los ratones o los teclados bluetooth.
Vaya… qué buena idea me ha salido! ¿Alguien me la compra ya? ;)
Por cierto, dadme mi minuto de gurú: creo que os equivocáis la mayoría de vosotros en el tema hardware. Igual que ahora cualquier dispositivo «smart» (practicamente) tiene una cámara (pc, laptop, teléfono, tablet, consolas de videojuego, televisores, relojes inteligentes..) en el futuro TODOS ellas (además de lavadoras, neveras, autos, etc) tendrán SU PROPIA INTERFAZ DE VOZ, muy posiblemente sin necesidad de una base tipo «echo». Recordad que estamos caminando hacia el «internet de las cosas» o dicho de otra forma a la comunicación entre dispositivos y obviamente de los humanos con ellos.
En este sentido seguiremos usando Siri o similar en nuestros teléfonos pero también su homólogo en los PCs. En este sentido se equivocaba el que criticaba a Microsoft portrabajar en interfaces de voz para Windows. El dispositivo que en el futuro no hable con nosotros simplemente nos parecerá arcaico, lento e incómodo de usar.
Yo fui el que dijo eso, solo que no dije exactamente eso :-)
Naturalmente, si la idea es simplemente que un PC también se pueda usar por voz, me parece bien. Es una opción más.
Pero (según dicen, no hay anuncio oficial de MS) el planteamiento de MS no sería ese, sino que el PC compita con aparatos como el Amazon Echo y el Google Home. Eso es lo que no veo que pueda cuajar, por las razones que ya dije.
Respecto a si todo aparato va a tener su propio interfaz de voz, eso implicaría que (por ejemplo) una bombilla inteligente también debería tener un micrófono y un altavoz. No es imposible, pero ¿es conveniente? A fin de cuentas, la bombilla inteligente ya va a tener de todas formas una conexión de red (wifi). ¿Qué ventaja aporta que tenga su propio micrófono y altavoz?
Yo lo veo como un caso similar al de los routers o los NAS, que no tienen su propio teclado, ni ratón, ni pantalla, pero se pueden manejar igualmente por comandos o gráficamente (ssh o interfaz web), a través de móvil, tablet, o PC.
Que conste que encuentro muy interesantes estas ideas. Obligan a pensar si una base estilo Echo es realmente necesaria, o si es solo un aparato de transición. O bien si en el salón no tendremos un Echo, porque la tele ya hará esa función, pero sí tendremos un Echo Dot o similar en el cuarto de baño, o en cualquier dormitorio donde no tengamos tele.