¿La reinvención de la interfaz?

Que el personaje más conocido del desarrollo de la algoritmia generativa se reúna con el diseñador más famoso que generó el cambio más significativo en nuestra forma de interactuar con la información, y con un banquero obsesionado por la financiación de proyectos tecnológicos de impacto es algo que, sin duda, puede tener su trascendencia.

Que además afirmen que están trabajando en un proyecto para crear un dispositivo, algo así como «el iPhone de la IA», da al tema unas posibilidades ilimitadas para la especulación. Sobre todo, si tenemos en cuenta que un dispositivo así podría ser ese «asistente» permanentemente conectado que nos acompaña en todo momento, al que preguntar cualquier cosa cuando lo necesitemos mediante una interfaz cómoda, y con unas características que lo conviertan en algo potencialmente ubicuo.

¿Quieres más interés? Introduce en la ecuación el hecho de que Jony Ive está aparentemente obsesionado con la idea de abandonar la pantalla, que lo ve como una auténtica «obligación moral» para mitigar las consecuencias indeseadas del iPhone tales como la adicción a las apps, y que de hecho, él mismo impone tiempos de pantalla a sus hijos. Que Masayoshi Son controla un 90% de Arm Holdings, una de las compañías más destacadas en el desarrollo de arquitecturas de microprocesadores de bajo consumo aplicadas a numerosos dispositivos móviles. Y que Sam Altman acaba de presentar recientemente su nueva versión de ChatGPT con capacidad para interactuar mediante voz y de aceptar imágenes como input, algo que puede tener una amplia variedad de consecuencias.

¿De qué podemos estar hablando? Descartar las pantallas parece razonablemente seguro: la pantalla requiere un nivel de atención grande que no permite su combinación con muchas otras actividades, algo que vemos simplemente asomándonos a la calle y viendo a infinidad de personas con sus ojos pegados a sus dispositivos mientras intentan caminar o moverse sin que los mate un coche, sin chocar con una farola y sin caerse en un agujero. Con ese elemento en la cabeza, y dado que las gafas parecen un camino sumamente complejo y ya relativamente explorado con escaso éxito por el momento, lo normal, al menos según mi intuición, sería centrarse en el oído, en la transmisión de información mediante sonido.

Si efectivamente fuese así, me parece también interesante la posibilidad de descartar los auriculares, dado que sus efectos son similares a los de las pantallas: tienden a aislarnos de nuestro contexto. Pero he aquí una interesante tecnología que llevo ya mucho tiempo siguiendo y que no posee ese pernicioso efecto de práctica monopolización de nuestro sentido del oído: la conducción ósea. Dispositivos que permiten captar y recibir información sin bloquear nuestros canales auditivos, que pueden ser razonablemente discretos, y que no han tenido aún «su momento» de popularidad, a pesar de llevar ya relativamente bastante tiempo en el mercado y de contar con múltiples compañías dedicadas a su comercialización, generalmente asociada con la práctica de deportes.

Unos auriculares de conducción ósea que permitiesen interactuar con un asistente de IA generativa, que no fuesen especialmente intrusivos pero que fuesen capaces también de portar una cámara para aceptar imágenes como potenciales inputs podrían tener su interés, y también, sin duda, su polémica. La cámara es siempre percibida como algo intrusivo no para el que la lleva sino para aquel que es enfocado por ella, aunque ya tenemos ejemplos de gafas que las incorporan, como las creadas por Snap o por Meta, por no remontarnos a aquellas Google Glass que llevaron a acuñar el calificativo de glasshole para quien las llevaba. Pero el oído, en principio, es razonablemente discreto, e hipotéticamente, con los micrófonos adecuados, se podría casi «susurrar» a tu asistente y recibir una respuesta discreta a través de conducción ósea sin que interrumpiese lo que estás escuchando, y sin prácticamente molestar a nadie.

Por otro lado, un dispositivo así podría plantear una auténtica revolución: ¿cuántas funciones hoy confiadas al smartphone podrían ser portadas de manera razonablemente usable a una interfaz sonora? ¿Leernos mensajes, considerando que el asistente es suficientemente «espabilado» como para saber qué leer y qué no? ¿Mensajería instantánea? ¿Darnos indicaciones sobre una ruta? ¿Leernos noticias en función de nuestro criterio e intereses? ¿Hacer fotos? ¿Generar un ecosistema o plataforma para apps conceptualizadas para ese dispositivo? ¿Cuántas funcionalidades podríamos empaquetar en un dispositivo así que nos permitiesen paliar, en cierta medida, la dependencia del smartphone, sin imponer demasiadas restricciones a la autonomía? ¿Un dispositivo planteado así tiene que ser necesariamente algo conectado a un smartphone, o podríamos especular con que fuese completamente autónomo?

Por supuesto, todo esto son simples especulaciones mías, puramente «atar cabos», sin más: podría ser perfectamente que este proyecto no tuviese nada que ver con eso, o que apuntase por otros derroteros completamente distintos. Pero aquí y ahora, y en el nivel de madurez de la tecnología en el que estamos, la posibilidad de llevar un asistente generativo en la oreja en todo momento, de poder preguntarle cosas y de que te devuelva información de manera discreta me parece interesante – con todas las evidentes reservas sobre los posibles efectos indeseables, sobre la posibilidad de añadir funcionalidades como la identificación facial o sobre la posibilidad de que muchos se fíen más de eso que de su propio sentido crítico – y creo que esa conjunción de personas trabajando en un proyecto aparentemente ambicioso podría, posiblemente, apuntar en esa dirección.

Podemos estar ante la auténtica reinvención de la que ha sido la interfaz más fuertemente dominante de las últimas décadas. Y en cualquier caso, y sean o no correctas mis especulaciones, un proyecto interesante y algo que puede valer la pena seguir.

This article is also available in English on my Medium page, «Is the smartphone about to be consigned to history?»

#001
Miguel Durán - 30 septiembre 2023 - 14:14
Creo que un dispositivo como el que dices lo he visto esta mañana en AliExpress. Una «banda deportiva» que proporciona música y se puede usar de antifan para dormir con música sin que se entere tu cónyuge.
Parecía tener unos sobresalientes que podrían valer para el contacto con la piel que cubre el cráneo.
Pero no lo acabo de ver como un sustituto del smartphone. Ahora mismo acabo de utilizar Maps para decidir la mejor combinación de transporte público.y ha cambiado dos veces de opinión en el intercambiador de Aluche. Con la pantalla he podido dilucidar cual era el mejor.
No quiero pensar en eso con interfaz hablada…
- Ángel "el bueno" - 30 septiembre 2023 - 18:30
  No somos conscientes del daño que nos está haciendo Aliexpress. A priori todos pensamos que nos está haciendo un gran favor vendiendo los productos de una calidad ligeramente inferior pero a un precio infinitamente mucho más bajo.
  Nos está destrozando!!!!
  Trataré de mantenerme al margen para ver cómo destruya la humanidad y yo me quedé aquí sobreviviendo con una piedra de encender fuego que también compré en aliexpress…
#003
Juan T. - 30 septiembre 2023 - 18:38
Y ahora conectemos ese smartphone IA , con todas las caracteristicas que has dicho, a las Ray-Ban de Meta.
Y en 3 años añadamos al conjunto el implante de Neuralink.
#004
Dino - 30 septiembre 2023 - 21:19
El lunes devuelvo mi tercer par de pinganillos Bluetooth. Resulta que en llamadas Whatsapp múltiples (en realidad en todas las llamadas Whatsapp ó Meet) me escuchan atrozmente mal.
Estos dispositivos de conducción ósea tipo neckband parecen MUY prometedores. Y además son muy «convenient». Por un lado no se van saliendo de la oreja poco a poco, y por la otra, cuando te asomas a una terraza no tienes la sensación de caída inminente de pinganillo junto con su pérdida irreparable.
¿Algún modelo óseo que funcione decentemente con mi Xiaomi POCO F2 Pro?
Si además sirven para preguntar cosas vía voz y más… miel sobre hojuelas.
Gorki: ¿anones tás?
#005
Xaquín - 1 octubre 2023 - 12:45
Si la cara es el espejo del alma (que no existe como fue ideada por los antiguos, por lo que ya tenemos el primer «engaño»), yo quiero verle la cara a quien me «vende la lavadora»… y por eso soy más amigo de la pantalla que del teléfono. Por otro lado soy adicto a los ordenadores de mesa, única forma de combinar el teclado con la escritura manual, aparte otras ventajas…
Y sí, ya sé que lo de la pantalla, con la capacidad de disimulo que se nos echa encima, ya es tan «real» como la sábana santa, pero sigue siendo más filtrable (en sus metadatos, como gustan de decir los informáticos, referidos a ese mejunje de datos intrauterinos del ordenador). Una imagen visual vale por mil palabras, lo que quiere decir que rebosa de información.
#006
José Manuel Fernández - 1 octubre 2023 - 22:08
Lo que describes es justo lo que aparece en «La voz de los muertos» de Scott Card. https://es.wikipedia.org/wiki/La_voz_de_los_muertos
Ahí el «input discreto» lo gestionaban mediante la subvocalización. Seguro que puede hacerse!
#007
Michel Henric-Coll - 6 octubre 2023 - 17:21
Bueno, todos a convertirnos en Neil Harbisson. Si él pudo hacerlo, ¿quien no?
https://es.wikipedia.org/wiki/Neil_Harbisson