Rankeando los asistentes generativos

IMAGE: Perplexity, ChatGPT, Gemini, Claude and Copilot logos

Un muy buen artículo en The Wall Street Journal, «The Great AI Challenge: We test five top bots on useful, everyday skills« elabora un ranking muy completo de los asistentes generativos más populares del momento: Perplexity.ai, ChatGPT de OpenAI, Gemini de Google, Claude de Anthropic, y Copilot de Microsoft, y los ordena por puntuación general en ese mismo orden, con clasificaciones específicas para información sobre salud, finanzas, cocina, escritura de trabajo, escritura creativa, resúmenes, actualidad y código, así como una puntuación adicional referida a la velocidad de obtención de las respuestas.

En el momento actual, dada la enorme popularidad de los asistentes generativos en formato chatbot, un artículo de este tipo tiene un gran valor. Hablamos de un panorama competitivo brutal, rápidamente cambiante a medida que las compañías lanzan nuevas versiones y van perfeccionando sus productos, y en el que muchos usuarios se mueven simplemente por las referencias que tienen y lo que conocen.

Obviamente, ChatGPT cuenta con la ventaja de haber puesto en marcha la locura cuando, el 30 de noviembre de 2022, lanzó ChatGPT en abierto y con su versión 3 gratuita. A partir de ahí, vimos cómo Microsoft aprovechaba el hecho de haber sido quien hospedó a OpenAI en su Azure difiriendo los pagos durante mucho tiempo, vimos a Google tratar de reaccionar desesperadamente – primero con Bard, después con Gemini – y fuimos metiendo también en la escena a otros competidores más pequeños pero enormemente interesantes como Perplexity o Claude.

Ahora, la escena es clara: si nos fiamos de las tendencias que marca Google Trends, que se elaboran a partir de la frecuencia de búsqueda, ChatGPT domina muy claramente, seguido de los dos gigantes Google y Microsoft, y muy por detrás, Claude y Perplexity. Sin embargo, esa popularidad no está marcada por la calidad de las respuestas de los asistentes generativos, sino simplemente por otros factores más relacionados con la intensidad informativa que han sido capaces de generar, por el efecto pionero, etc.

De ahí que el valor que tiene un ranking de este tipo, que ha comparado las versiones de pago de cada uno de los asistentes, a pesar de su posible inestabilidad en el tiempo, sea muy elevado, como lo tiene el hecho de que Perplexity, una compañía mucho más pequeña que el resto de sus competidores, que ha levantado unos 165 millones de dólares sobre una valoración de mil millones, y que tan solo cuenta con 55 empleados – OpenAI tiene más de 1,200, por no hablar de los que tienen Microsoft o Google – sea capaz de liderarlo.

A la hora de escoger qué asistente generativo utilizar, conviene por tanto plantearse la posibilidad de elegir en función de la temática que estemos explorando: si hablamos de temáticas del momento, la propuesta de Perplexity, con su información permanentemente actualizada y su enumeración de fuentes utilizadas para la respuesta, parece razonablemente imbatible. Por otro lado, y sin tener en cuenta la temática, es preciso entender que Perplexity busca intencionadamente la concisión, lo que puede hacer que aquellos que simplemente buscan una respuesta que copiar y pegar en un trabajo lo encuentren menos útil.

Perplexity sigue un modelo freemium en el que el producto gratuito utiliza su propio modelo basado en el modelo GPT 3.5 de OpenAI combinado con un modelo masivo de lenguaje propio de la compañía que incorpora capacidades de procesamiento del lenguaje natural. La versión de pago tiene acceso a GPT 4, Claude 3 , Mistral Large, Llama 3 y a un modelo experimental de desarrollo propio. Esa aproximación de consolidación cruzada conlleva una menor vulnerabilidad a las mal llamadas «alucinaciones», que a pesar de todo, suceden como en todos los modelos de este tipo, pero también tiene posibles implicaciones de cara a la futura viabilidad de la compañía, que podría encontrarse con cambios en los términos de servicio de las APIs que utiliza si su popularidad escalase hasta el punto de poner en peligro a aquellas compañías que utiliza como fuentes.

En cualquier caso, y dado que cada vez más personas utilizan este tipo de asistentes generativos para una gama cada vez más amplia de tareas, un ranking elaborado con cierta seriedad supone un aporte muy interesante. Ya veremos si, además, llega hasta el punto de mover la aguja de las estadísticas de popularidad.

This article is also available in English on my Medium page, «It’s about time somebody ranked generative assistants«

#001
Xaquín - 27 mayo 2024 - 19:56
No me voy a poner exhaustivo… pero en un ranking de IH con uso en cabeza de gobernante político en primera línea (desde hace varios años)… pondría a un Sánchez de primero, claramente destacado, aunque no sea precisamente su fan…luego podría estar Zapatero (en ex, porque como presidente dejó mucho que desear)… y ya, a mucha distancia tenemos un pelotón de IH. con desactualización clara y un problema de solidificación siliconada, por falta de aceites esenciales… porque , a diferencia de la IA, la IH necesita cierta lubricación constante… que pueden ser un tal Feijoo, un tal Puigdemont (variante alucinatoria en modo «vivir su vida»,… y no sigo, porque mi IH ya no se entretiene buscando nombres de políticos españoles, que no saben de política una mierda.
- Xaquín - 27 mayo 2024 - 19:59
  Como se puede notar, mi IH (uno de sus yos más peregrinos) se pasa los consejos de la RAE por su arco del triunfo… y no está alucinando!!!
#003
Rodrigo - 27 mayo 2024 - 20:28
En mi caso he utilizado varias veces tanto chatgpt como gemini para que me obtengan algunos algoritmos de software en varios lenguajes y por ahora va en cabeza gemini que suele acertar bastante bien. Chatgpt me la ha intentado colar alguna vez con respuestas que no tenían que ver con lo pedido.
- Enrique Dans - 27 mayo 2024 - 22:44
  «Study finds that 52% of ChatGPT answers to programming questions are wrong»
  FYI
  - Benji - 28 mayo 2024 - 09:57
    «more verbose» en una gran definición de ChatGPT. No importa cuantas veces le diga/ordene/sugiera que me dé la respuesta sin explicaciones adicionales, sin «añadidos» y sin ejemplos, y es como hablar con una pared.
    Me recuerda a algunos profesores del instituto de secundaria cuando les pedías solo una parte y te repetían el todo
#006
Lua - 27 mayo 2024 - 20:59
Todo eso esta muy bonito eDans… pero ya que TWSJ es de pago, al menos pon el ranking con las puntuaciones en los diferentes apartados, aunque solo sea para poder comparar, si encaja con otros resultados que se publican por ahi…
- Javier - 27 mayo 2024 - 22:28
  https://archive.is/
  https://archive.ph/
  - Lua - 28 mayo 2024 - 08:26
    Gracias Javier. Yo no tengo (casi) problemas con los muros de pago. Era por el resto. Lo que pretendía era introducir en el artículo, el cuadro que ha puesto ICH mas abajo.
    En fin. Ya hace un tiempo que juego con LMSYS Chatbot Arena, donde se baten los diferentes modelos. Me parece mas fiable. Tu metes un prompt y te contestan dos chatbots y puntúas la mejor respuesta.
#009
Enrique Castro - 27 mayo 2024 - 21:29
A mi gusto Claude de Anthropic es con diferencia el mejor de todos.
#010
Gorki - 27 mayo 2024 - 22:11
Utilizo ChatGPT gratuito, y para el uso que yo busco tengo suficiente, No digo que sea ni mucho menos el mejor, solo digo que para el uso que le doy tengo suficiente, y muy pocas veces me he encontrado respuestas «alucinantes» lo mas el error en una fecha. Claro que tampoco le busco las cosquillas.
#011
Enrique Dans - 27 mayo 2024 - 22:32
¿Qué queréis que os diga? Yo sí puedo leerlo porque la Biblioteca del IE lo paga, mis estudiantes también pueden leerlo, y lógicamente, no voy a dejar de reseñar un artículo o a no leerlo si lo considero interesante solo porque está detrás de un muro de pago, que por otro lado son (lógicamente) cada vez más ubicuos…
Pero vamos, que siempre hay trucos para leer estas cosas…
- Gorki - 27 mayo 2024 - 23:27
  Mi religión me impide entrar por la ventana en los sitios donde no desean que entrar por la puerta.
  Lo que se te pide LUA es que hagas copy/paste del ranking, si es que tu religión, te permite hacer tal cosa de algo oculto detrás de un muro de pago
  - Enrique Dans - 27 mayo 2024 - 23:32
    Es más sencillo lo que ha recomendado Javier…
  - Benji - 28 mayo 2024 - 10:35
    Como pasarlo
    PDF
#015
Eduardo - 27 mayo 2024 - 22:55
Además de los que citas, hay varias opciones mas, algunas usando modelo propio y otras, una mezcla de modelo propio y uso de los demás. Ahí están, por ejemplo, you.com, phind.com (esta es la que más uso yo particularmente) y corcel (esta, totalmente descentralizada. La matriz es Bittensor).
#016
ich - 28 mayo 2024 - 03:41
https://i0.wp.com/mishtalk.com/wp-content/uploads/2024/05/Congrats-to-Perplexity-1.png
#017
Juan Manuel Correa Hernández - 28 mayo 2024 - 04:56
Resumen de la utilidad de Arena: https://chat.lmsys.org/?leaderboard
LMSYS Chatbot Arena es una plataforma abierta y colaborativa para la evaluación de LLM (Modelos de Lenguaje Grande). Permite a los usuarios:
Comparar dos LLM uno contra uno: Los usuarios pueden enfrentar dos LLM en una batalla y votar por el que consideren mejor.
Ver una clasificación Elo: Los votos se utilizan para calcular una clasificación Elo para cada LLM, que se muestra en una tabla de clasificación.
Explorar desgloses por categoría: La tabla de clasificación incluye desgloses por categoría, como preguntas generales y código.
Visualizar gráficos de victorias: Los usuarios pueden ver gráficos que muestran la distribución de las victorias de los modelos.
Utilidad de Arena:
Comparar y evaluar diferentes LLM: Arena ayuda a los usuarios a elegir el mejor LLM para sus necesidades.
Seguir el rendimiento de los LLM a lo largo del tiempo: La tabla de clasificación permite observar la evolución del rendimiento de los LLM.
Limitaciones de Arena:
Resultados no definitivos: Los votos se basan en opiniones de usuarios y no siempre reflejan el rendimiento real de un LLM.
Clasificación incompleta: La tabla de clasificación solo incluye LLM con suficientes votos.
En general, LMSYS Chatbot Arena es una herramienta valiosa para comparar y evaluar LLM, pero es importante tener en cuenta sus limitaciones al utilizarla.
#018
Luis Hernandez - 28 mayo 2024 - 10:00
Hay un servicio muy interesante, llamado OpenRouter, que te permite utilizar cerca de 100 modelos diferentes de IA desde un solo punto de acceso y desde una API única para todos ellos. Además incluye un ranking diario, semanal, anual y «los que más rápido crecen». Ese ranking se elabora a partir del uso que los programadores hacemos de su API (que generalmente va en función de la relación calidad de la respuesta / precio)
El servicio que ofrecen interesante por varias razones:
1) Permite acceso a la API de LLMs de IA que no están aun accesibles desde determinadas localizaciones geográficas.
2) La API está estandarizada de modo que puedes utilizar exáctamente la misma independientemente de con qué modelo de IA te comuniques.
3) Puedes utilizar varias IAs desde una misma aplicación con lo que puedes crear aplicaciones que utilicen una IA u otra según la tarea y el precio.
#019
Lua - 28 mayo 2024 - 17:35
OT:
Habeis notado el temblor de tierra…???
Ha sido un zasca de Yann LeCun… XDDD