Anthropic, en sus planes para competir con OpenAI, acaba de anunciar el lanzamiento de una versión mejorada de su modelo Claude 3.5 Sonnet que puede interactuar con cualquier aplicación del ordenador de un usuario.
A través de una nueva API de «uso de ordenador», ahora disponible en versión beta abierta, el modelo es capaz de emular pulsaciones de teclas, clics de botones y gestos del ratón o del trackpad, emulando esencialmente a un usuario sentado frente a un ordenador.
El entrenamiento del algoritmo incluye que pueda ver los procesos que tienen lugar en una pantalla, y que posteriormente pueda utilizar las herramientas disponibles para llevar a cabo tareas, de manera que cuando un desarrollador pide a Claude que utilice un programa determinado y le otorga el acceso necesario, Claude puede recurrir a capturas de pantalla de lo que es visible para el usuario, contar cuántos píxeles necesita mover vertical u horizontalmente el cursor, y hacer clic en el lugar adecuado.
El algoritmo pasa a ser así un agente para el usuario capaz de emular prácticamente cualquier tarea, aunque se lleve a cabo utilizando distintas herramientas. Una idea que algunos académicos llevan ya algún tiempo avanzando y comentando, y que Cory Doctorow describe como «agentes del usuario» leales al mismo, capaces, por ejemplo, de gestionar las preferencias de un navegador para que la carga de las páginas se lleve a cabo como a él le interesan (si quieres bloquear los anuncios, usar determinadas combinaciones de colores que te resulten más fáciles de ver, eliminar las cookies tras la visita, logarte de una manera determinada, etc.), siempre dando preferencia al usuario frente a lo que las páginas proponen.
Anthropic denomina a su interpretación del concepto de agente de inteligencia artificial como una «capa de ejecución de acciones» que permite al algoritmo ejecutar comandos a nivel de escritorio, y que además, gracias a su capacidad para acceder a recursos a través de la web, que es la primera versión de Claude que tiene, puede utilizar cualquier sitio o aplicación web e introducir datos en ellas. La idea de automatización, pero llevada a un nivel «sensible» y siempre con el control del usuario.
Por el momento, en acciones como cambiar una reserva de un vuelo, el algoritmo se ha mostrado todavía relativamente torpe y con algunos errores en su ejecución, pero hablamos de lo de siempre en inteligencia artificial: procesos que van mejorando a medida que el algoritmo va recibiendo más retroalimentación del usuario que incide en su proceso de entrenamiento.
Algunos potenciales problemas de un proceso de ese tipo estriban, por ejemplo, en lo que ocurre con la información capturada de la pantalla del usuario, y si esa información podría llegar a un tercero como la policía si es demandada mediante un proceso legal válido, algo que Anthropic no puede afirmar que no llegue a ocurrir en algunos casos. Para evitar ese tipo de problemas potenciales, la compañía propone una evaluación y mejora continua de nuestras medidas de seguridad, y el aislamiento de Claude de datos especialmente sensibles del ordenador.
Estamos, obviamente, en los primeros estadios de desarrollo de este tipo de tecnologías, pero sin duda, nos dirigimos a un futuro en el que un usuario tendrá y manejará de manera habitual agentes de todo tipo para distintas tareas que quiera llevar a cabo. Y resulta como mínimo interesante echarle imaginación y empezar a plantearse las circunstancias y el contexto en las que esas interacciones con nuestros agentes particulares irán teniendo lugar.
This article is also available in English on my Medium page, «Need a hand getting the most out of your computer? Help is at hand«
De nuevo, todo conduce a la habilidad y el criterio para ordenar algo a la IA, provisto que la IA hará todo lo demás.
El quid de la cuestión sería para quién trabaja el algoritmo:
– para el usuario, manteniendo su privacidad, sin mostrar anuncios ni hacer nada que el usuario no desee
– O para la empresa que lo ofrece mostrando anuncios, vendiendo datos, ocultando información, haciendo «enshittificaciones» varias, facilitando información al empleador, etc.
Lo importante son los detalles.
Y los detalles son lo importante, y como siempre… los de siempre.
Dejamos en manos de terceros toda nuestra información, datos, estilo de vida, etc.
Ahora, además, nuestro trabajo. Revisión de todo lo que acontece en nuestras pantallas.
Que puede fallar…???
Todo lo que haga algo por mí, bienvenido sea.
Normalmente no lo hago, pero offtopic: ¿No os parece que este sería el coche para el español de a pie, y eléctrico? BYD Seal 06 GT
Por fuera, es bonito (o mejor, no es feo).
Por dentro, la dichosa Tablet ahí en medio.
El precio muy comedido.
Peca la publicidad de lo mismo que todos los eléctricos: 415 caballos de potencia y aceleración de cero a 100 km/h en menos de cinco segundos… (Ni hace falta tanta potencia, ni tanta aceleración, que no vamos a un circuito)
En Electrek nos dicen CLTC Range 505 km. Que serán 400 WLTP y 350 reales.
Yo no lo compraría. Para ciudad (segundo vehiculo) lo veo bien, pero para mi uso, no.
No, ni de broma, nada con BYD:
https://youtu.be/eENx7rscQ80
Estamos hablando de problemas serios y graves. Y lo mismo va a pasar con todas las chinas, sin contar con el soporte, que va a ser nulo
Tienes alternativas europeas, que son mejores y más baratas:
– Citroën ë-C3: 24.000€ / 320km
– VW ID3: 34.000€ / 390km
– Renault 5: 28.000€ (carga rápida) / 300km
– Renault Megane E-TECH: 33.000 / 315km
Y si le pones la parte II del video, un simple update soluciona el problema…
After our test: BYD updates Seal AWD [Part 2]
Gracias por el feedback Lua.
La verdad es que siempre intento encontrar uno para responder a Gorki y su Ibiza.
Es broma. Ando buscando uno para mí pero me parece que hay que esperar a las baterías de Sodio (mucho más baratas) y que el rango sea de 800km, para al menos igualarse a mi coche actual
Mi Ibiza tuve que deshacerme de él, porque no tiene etiqueta y no puede circular por Madrid. Consulté a la SEAT y me dijeron que con ese motor imposible.
Se lo cambié a mi hijo por un Smart Diesel, también con la pila de años, pero con etiqueta, En Valencia van mas lentos con esas chorradas de las Zonas de Bajas Emisiones.
Un minuto de silencio por ese Ibiza… hemos perdido un mito… XDD
Pues nada os digo sobre lo que vais a tener que leer sobre el Smart.
Si va a ser nuestro nuevo Zeus, precisamos datos:
Año, Kms, color, letras de matricula, tapiceria… XDD
+1000 XDDDDDD
Ese Ibiza fue parte de este blog tanto como su usuario.
RIP
Ni se ha muerto el Ibiza ni me he muerto yo. Solo que el ibiza se ha ido a Valencia a esperar que le jubilen los Robotaxis del desaparecido Krigan
Como siempre digo… cada cual sabe sus necesidades, y el coche que para unos, es perfecto, para otros no… Y eso solo lo puede saber bien el futuro conductor (en este caso, tu).
Yo lo tendria como segundo, para desplazamiento urbano que es donde mas gasta un coche.
El precio es atractivo.
Lo que yo necesito para proteger mi privacidad, que cundo yo de je el ordenador, un bot abta aleatoriamente webs en mi ordenador dando likes y abriendo enlaces como si yo estuviera interesado en ello.
Habrá que estudiar sus posibilidades.
Cuando vi el anuncio de Claude, inicialmente no entendía su objetivo. ¿Es muy guay, sí, pero para qué invertir en un sistema que permite interactuar con la pantalla simulando acciones humanas, si existen APIs que permiten que distintos programas se comuniquen entre sí? Entiendo que será práctico en este impasse en el que aún existen muchas aplicaciones que no disponen de APIs ni de sistemas que les permitan interactuar y comunicarse con otros programas, pero a largo plazo será totalmente innecesario. Las APIs son más eficientes, robustas y permiten una comunicación directa sin la necesidad de replicar acciones humanas.
Es como si, en lugar de inventar la motosierra, hubieran inventado un brazo mecánico que blandiera un hacha.
Lo que te permito esto es extender la robotización (RPA) a practicamente cualquier usuario sin necesidad de tener conocimientos para manipular una API o integrar los resultados de una en el siguiente paso. A nivel empresarial y llevado al máximo supondría que casi cualquiera dentro de una organización podría automatizar las acciones recurrentes de su día a día utilizando el prompt adecuado. Las herramientas actuales de RPA todavía tienen una barrera de dificultad que impiden que «cualquiera» pueda plantearse robotizar su trabajo diario. Si eres un proveedor de RPA tu siguiente paso debería ser como integrar este tipo de herramientas en tu SW.
Entiendo que la cosa consiste en que tu autorizas el manejo en remoto de tu ordenador, igual que hacíamos durante la pandemia, pero en vez de ser tu el que esta en remoto es un Bot el que maneja tu PC. Puede hacer cosas que tu hagas periódicamente, como saber el tiempo o las últimas noticias, pero la mayor ´utilidad que se me ocurre es simular para los «observadores» de tu actividad en tu ordenador, actividades que no realizas en persona, Se me ocurre para simular actividad en teletrabajos o como yo apunto engañar a los «vigilantes» que venden mis datos a terceros.
No le dejo el ordenador a mi mujer, se lo voy a dejar a un bot… XDD
Creo que debo llevar como 50 scripts, que podemos catalogar de muy muy sencillos a sencillos. Como no soy programador profesional, los utilizo para recordar la literalidad del lenguaje, se puede resumir en: «sé lo que quiero y me ahorro tiempo en teclear»…
Tasa de acierto a la primera, no creo que lleguen al 20%. Y en cuanto lo complicas un poquito, ya la has liado…
Lo ultimo que probé fue autogen…
¿Voy a confiar en que esos scripts hagan algo en el ordenador por su cuenta? NI JARTO DON SIMON (*) !!!
(*) Mira que es malo el jodio…
Estas en tu perfecto derecho de desconfiar en lo que te parezca. Nadie te va a pedir que utilices una determinada herramienta, siempre que el no utilizarla, no te haga menos productivo.
Si no utilizas la AI y rindes tanto como los que la utilizan, a nade ie la le va a parecer mal.
Mira como funciona este invento
https://www.youtube.com/watch?v=47l8TcUx74Q
Carlos Santana lo define muy bien: «no,no,no,no,no,no»
PS: Luego tu ya que te creas todo lo que anuncian las marcas, es tu problema
Yo simplemente la uso y …. ¡ ME FUNCIONA.!
Verso que me ha hecho para ilustrar la muerte bpolítica de Errejón «haz un verso con las palabras errojon con tradicion y colchon
Errejón rebelde, contra la tradición,
buscó la paz en el duro colchón,
soñó con un mundo sin restricción,
que el error sea su mejor lección.
Tu mismo te defines con este tipo de comentarios.
Robin Li, CEO de Baidu:
«lo que estamos viviendo con la IA ya se vio con otras «olas tecnológicas».
Pone como claro ejemplo la burbuja de las puntocom de finales de 1999 afirmando que el fenómeno de la burbuja «es prácticamente inevitable».
Only 1% of Companies Will Thrive After ‘Inevitable’ AI Bubble | Robin Li at HBR’s Future of Business
———
Según Linus Torvalds (creador de Linux), actualmente la IA está impulsada «en un 90% por el marketing y sólo en un 10% por la realidad». Y este desequilibrio entre el potencial genuino y la exageración que la rodea es algo que le molesta profundamente.
Linus Torvalds on the kernel, GenAI, EVs, programming languages and more…
———
Los Hobbits creian que los fuegos artificiales de Gandalf eran pura magia arcana…
Lua,
No te pierdas a los monos estocásticos y porque le conviene a OpenAI que ha conseguido la AGI,…
pista: el acuerdo con Microsoft… y la terminación de su contrato
Lo de dejar el PC a un BOT, ¿es del género?
Menos mal que APPLE, si APPLE, SI !!! viene a poner un poco de LUZ!!! en este HYPE de la IA. Y lo hace como hay que hacer las cosas con un PAPER y de forma seria.
https://arxiv.org/html/2410.05229v1
Dejo el abstract en castellano:
Los recientes avances en los modelos de lenguaje grande (LLM) han despertado interés en sus capacidades de razonamiento formal, particularmente en matemáticas. El punto de referencia GSM8K se usa ampliamente para evaluar el razonamiento matemático de los modelos en preguntas de nivel de escuela primaria. Si bien el desempeño de los LLM en GSM8K ha mejorado significativamente en los últimos años, sigue sin estar claro si sus capacidades de razonamiento matemático han avanzado genuinamente, lo que plantea preguntas sobre la confiabilidad de las métricas informadas. Para abordar estas preocupaciones, realizamos un estudio a gran escala en varios modelos SOTA abiertos y cerrados. Para superar las limitaciones de las evaluaciones existentes, presentamos GSM-Symbolic, un punto de referencia mejorado creado a partir de plantillas simbólicas que permiten la generación de un conjunto diverso de preguntas. GSM-Symbolic permite evaluaciones más controlables, brindando información clave y métricas más confiables para medir las capacidades de razonamiento de esta URL http. Los hallazgos revelan que los LLM exhiben una variación notable al responder a diferentes instancias de la misma pregunta. En concreto, el rendimiento de todos los modelos disminuye cuando solo se modifican los valores numéricos de la pregunta en el benchmark GSM-Symbolic. Además, investigamos la fragilidad del razonamiento matemático en estos modelos y demostramos que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas de una pregunta. Nuestra hipótesis es que esta disminución se debe a que los modelos LLM actuales no pueden realizar un razonamiento lógico genuino; replican los pasos de razonamiento de sus datos de entrenamiento. Añadir una sola cláusula que parezca relevante para la pregunta provoca caídas significativas del rendimiento (hasta un 65 %) en todos los modelos de última generación, aunque la cláusula no contribuya a la cadena de razonamiento necesaria para la respuesta final. En general, nuestro trabajo ofrece una comprensión más matizada de las capacidades y limitaciones de los modelos LLM en el razonamiento matemático.
traducción de google.
PS: AGI ? Más bien higo !!
Dot CSV Lab [min 07:35, donde empieza la acción] lo pone a prueba y, lo cierto es que ocurre lo esperable: falla bastante.
Por ejemplo:
Prompt: Ve a Twitter
Resultado: [abre Photoshop]
Me hace acordar a mis alumnos cuando aprendían a dar sus primeros pasos con la web: cagada tras cagada.
Pero no es una crítica, es solo lo que tiene que pasar: está aprendiendo.
Pero me quito el sombrero, lo de los agentes lo venía esperando, pero me asombra la rapidez con la que todo viene pasando.
Espero que esto sí sirva para despejar un poco el riesgo de que explote la burbuja de la IA.
Carlos se centra en el uso del nuevo Claude Sonet en modo agente para interactuar con el ordenador y para ello utiliza una herramienta externa a Claude. Más info aquí:
https://github.com/corbt/agent.exe
Esto es lo que falla más que una escopeta de feria.
Pero lo realmente útil, es ver como ha mejorado Sonet en sus tareas internas, y no solo en el uso de un ordenador, como ejemplo las prueba Xavier son muy prácticas, más allá del hype de «usar un ordenador»:
Análisis de Xavier Mitjana
Desde lo de robotizar la casa para pedirle que te encienda la luz o te baje la persiana no veía una genialidad semejante: ¿Que iba a ser de mi vida sin poder pedirle a la ia que me abra el navegador o me ponga un video en Youtube?
Realmente debía pasar del texto de hoy, pero no puedo evitar a la tentación de hablar de la típica mujer española, prisionera mental de su párroco… y así podía llegar al político militante, que está abducido por su líder supremo y, para colmo, osa despotricar contra las sectas religiosas…
En fin, más de lo mismo, tener miedo al lado oscuro de la Fuerza, cuando todos tenemos un millón de boletos para ser más bien Dart Vader que Anakin Skywalker…
O , si no se quiere ser friki, recordamos al Dr. Jekyll y su Mr. Hyde, tan bien representados últimamente por el inefable Elon Musk.
Pero pongamos los ajos (también virtuales) en el ordenador, para que huya la IA que sibilinamente se le quiere acercar!!!