Un interesante artículo sobre la economía de los datos escrito por Martin Casado y Peter Lauten en la página de Andreessen Horowitz, titulado «The empty promise of data moats«, plantea algunos postulados interesantes sobre la supuesta ventaja competitiva que los datos pueden significar, y bajo qué tipo de condiciones realmente pueden llegar a hacerlo.
Según los autores, los datos como tal no son una ventaja que permita a una compañía plantear una especie de foso que sus competidores no podrán cruzar. Poseer datos de calidad sobre los clientes y sobre las operaciones, y haber sido capaz de establecer una cultura analítica sólida puede ayudar a una compañía a establecer un conocimiento del negocio, de las variables importantes en el mismo o de sus clientes que puede permitirle establecer propuestas de valor diferenciales, pero en la práctica, los datos no responden a unas economías de escala o efectos de red como tales: el hecho de acumular más datos, a lo largo del tiempo, no permite disfrutar de mejores costes o de mejores sistemas analíticos, sino que incluso suele redundar en lo contrario: en mayores costes de almacenamiento, procesamiento y análisis.
Disponer de más datos puede ayudar a la hora de permitirte utilizar metodologías analíticas más potentes para extraer conclusiones y reglas de negocio. Sin embargo, ese efecto de la cantidad de datos desaparece en cuanto esas conclusiones son obtenidas con una calidad razonable y son evaluadas positivamente. A partir de ahí, el crecimiento en volumen de datos aporta realmente poco o nada, y menos aún configura algún tipo de barrera de entrada para posibles competidores que intenten plantear un modelo de negocio similar. Pasar de unos pocos clientes en un servicio a un millón de clientes es indudable que permite aprender mucho más del negocio y derivar reglas, sistemas de recomendación, etc. que posibles competidores pueden no tener, y por tanto, permite competir con ventajas frente a ellos. Sin embargo, cuando el número de datos ya posibilita obtener esas reglas, seguir acumulando datos es algo que, en muchos casos, no mejora las conclusiones obtenidas, y solo genera más costes, más ruido y más complejidad.
Con el tiempo, tus competidores no tienen que plantearse cómo obtener más datos que tú, sino simplemente cómo obtener en conjunto mínimo necesario de datos que les permita extraer conclusiones y análisis significativos y útiles. En ese sentido, nos alejaríamos, por tanto, de una concepción lineal de las economías de los datos, y pasaríamos a valorar una serie de conceptos más prácticos, como el ser capaces de evaluar qué dimensión tiene ese conjunto mínimo eficiente de datos, de entender los costes de adquisición de datos, su valor incremental o su nivel de frescura. Generar y almacenar nuevos datos puede ayudar a mantener unas reglas de negocio actualizadas, unos procesos de automatización avanzados que efectivamente tengan sentido o incluso a descubrir nuevos efectos, pero eso no debe llevarnos a convertirnos en data hoarders, no debe generar una obsesión por el almacenamiento de datos como si tuviéramos síndrome de Diógenes, porque eso, en realidad, contribuye muy poco a la generación de una ventaja competitiva sostenible.
Entender las reglas de la economía de los datos resulta cada vez más importante para todo tipo de compañías. En todo proyecto de analítica, de machine learning o de automatización avanzada, los costes verdaderamente significativos son aquellos en los que tenemos que incurrir para definir los objetivos que buscamos, para recoger y transformar los datos, y para plantear el análisis, limpieza y estructuración de los campos de datos que separa el ruido de la señal. Todos esos factores precisan, por supuesto, de una gran cantidad de datos, pero el efecto de esos datos no es lineal ni acumulativo, y plantear políticas adecuadas en ese sentido puede permitir el desarrollo de modelos no solo con más sentido económico, sino también más ágiles y dinámicos. A partir de unos datos adecuadamente estructurados y sin una obsesión por lo masivo, la aplicación de modelos es cada vez más sencilla. Y con el tiempo, lo será más aún.
This post is also available in English in my Medium page, «Understanding the economics of data«
Nunca me voy a felicitar lo suficiente, por leer este blog todos los días desde hace muchos años. GRACIAS
Con los datos pasa como con las diligencias, a medida que pones mas caballos tirando de la diligencia, la diligencia corre más deprisa. Pero alcanzado un número de caballos, es inútil poner mas caballos, porque por más que pongas nunca la diligencia correrá mas que los caballos, y encima tendrás que alimentar a mas animales.
No solo pasa eso con los datos sino en todo, objetos materiales o inmateriales, pues suelen cumplir la ley de rendimientos marginales decrecientes. El incremento de beneficios que deja cada unidad de un bien, disminuye a medida que aumentamos alguno de los factores que se precisan en la producción del bien.
Aumentar el número de vendedores, aumentan las unidades vendidas, pero el beneficio que nos deja cada venta va disminuyendo.
Ese es el problema que se produce en cada «mejora» que hagas en el negocio, ¿Compensa abrir un nuevo almacén? ¿Aumento la temperatura para conseguri mas velocidad en la reacción? ¿Poner mas platos en la carta me traerán más clientes al restaurante?…
Todo tiene un límite y sobrepasarlo es un error. El problema es saber situar ese límite en cada caso.
Excelente analogía. Me la anoto, con permiso.
Saludos!
Concedido, La primera vez que se ocurrió esta analogía, fue cuando mis jefes insistían en meter mas programadores en el equipo para acelerar el acabar una aplicación.
Ya sabes que ese efecto tiene nombre:
https://en.wikipedia.org/wiki/The_Mythical_Man-Month
Muy interesante, pero ni yo, ni mis jefes, habíamos leído el libro.
Lo que tenía claro es que era yo el «cuello de botella». Yo era quien generaba el trabajo de programación, pero tenía un límite y lo que no tenía claro, era como podía alguien descargarme de una parte del trabajo de análisis.
.
He leído por encima el artículo t de Wikipedia, y coinciden en lineas generales con mi experiencia personal-
Si estuviera en activo me empollaría t el libro. Pena de no haberlo descubierto antes.
Totalmente de acuerdo con Gorki. Yo iba a poner el ejemplo de la acumulación de objetos en una mesa de trabajo. O la acumulación de información (en libros, revistas, folios, diapositivas…) para preparar trabajos. Llega un momento que se hacen inservibles.
En cierto modo se puede comparara con la entropía. La acumulación de energía informativa que no se puede utilizar, es una forma de aumentar la entropía informativa del sistema.
Buenas! Aquí Jaír, de EfectiVida.
Tal y como dijo Javier en el primer comentario, es un lujo leer este blog.
Una vez más, una reflexión fundamentada en el sentido común.
Desde hace tiempo se sabe que lo importante no es tener más datos, sino tener los datos importantes, aquellos que nos sirvan para algo. Es más, al contrario, cuantos más datos, más hay que recopilar, procesar, analizar, etc. Todo esto tiene el riesgo inherente de caer en una ineficiencia total. La experiencia hasta ahora también parece demostrar que el big data sirve de muy poco en comparación con lo “big” que es. Pero bueno… al menos nos leemos aquí y nos alegramos de que, entre tanto dato, la lógica no ha desaparecido.
Un saludo desde Las Canarias!
Buenas noches.-
Mas que cantidad de datos, calidad. Hay que saber interpretarlos y sacar conclusiones que mejoren nuestra relaccion con clientes o futuros.
Recabar por recabar como bien comenta Enrique, no concluye a nada. Muchas veces con una serie de estos bien utilizados, analizados es sufiente.
De acuerdo con el compañero Gorki y otros en muchos de sus comentarios. «» No mas es mejor «»
Saludos
Hoy tenemos millones de datos sin explotar. Los acumulamos y guardamos como tesoro, pero no los hemos puesto aún a producir. Desde mi punto de vista debemos pasar YA del Big Data a la Data Intelligence
Hace poco, una persona me pedía ideas de proyectos de big data para realizar los fines de semana y le contesté lo siguiente:
Primero busca los datos que puedas recolectar legalmete, Por ejemplo datos de tráfico, o datos de compra venta de acciones, o de trasporte de viajeros, o cualquier otro tipo de datos de este tipo que puedas recolectar de forma legal y vete formando una colección tanto de los datos que puedes recolectar como de los programas que los recolectan de diversas fuente y los guardan normalizados en un a base de datos
Ya tienes la primera cosa que puedes explotar, la Big Data.
Una vez obtenido esto puedes optar por buscar empresas interesadas en tener esa fuente de datos normalizada y constantemente actualizada y ofrecerte a suministrarles los datos.
* Primer posible negocio, Recolección de datos para su uso por un tercero
También puedes pensar que servicio puedes llegar a ofrecer a partir de esos datos que tu sabe recolectar. Por ejemplo, de los datos de circulación por carreteras puedes dar dos servicios diferentes, saber, (o preveer), los tramos de carretera que tendrán embotellamientos, y aconsejar recorridos alternativos, y dar esa información en un app por la que pidas una suscripción o consigas publicidad para ella.
Pero también puedes seleccionar y valorar una serie de puntos geográficos con buena visibilidad y tráfico abundante, adecuados para colocar carteles publicitarios y vender esa información a las empresas que se dedican a la publicidad en vallas
* Segundo posible negocio, explotar tu mismo esos datos para crear un producto/servicio que vender personalmente
A estas alturas ya debes ser un magnífico experto en Big Data y puedes montar una empresa de Big Data que realice consultorías y trabajos a las empresas que se lo pidan o una academia que enseñe Big Data.
* Tercer posible negocio explotar tus conocimientos en Big Data
Querido Gorki,
Aprovecho este comentario para criticar que apliques tu analogía de la diligencia a la estadística, que es de lo que va el Big Data.
Todo este tema apesta a una curiosa observación de la economía del comportamiento: tomamos mejores decisiones con menos información. Somos como niños, a quienes recomiendan fomentar su toma de decisiones dando dos opciones: ¿qué quieres merendar? vs ¿bocata de chorizo o de chocolate?
Tomar decisiones es jodidamente complicado, o citando el artículo «extraer conclusiones y reglas «.
P.D. Me encanta ver a Enrique enlazar con el sindrome de diogenes. De tener 16TB, hoy mis datos personales son unos cuantos GB’s en la nube de google. Me ha costado 10 años dejar de ser un «hoarder», y el trabajo continua.
Lamento decirte que no te has enterado de nada, ¿Quien ha dicho que elijas entre dos opciones?
Si vuelves a leerlo veras que concluyo diciendo
Todo tiene un límite y sobrepasarlo es un error. El problema es saber situar ese límite en cada caso.
Querido Gorki,
Ese límite no lo pone la estadística ni el big data, sino los propios seres humanos y nuestras capacidad analítica para extraer conclusiones.
Tu analogia de la diligencia ya está inventada: Too many cooks spoil the broth.
Es un clásico de la estadística.
En eso están basadas las encuestas y precisamente los resultados son tan imprecisos, manipulaciones aparte, no porque el número de encuestados sea insuficiente, sino porque la información que facilitan es difícil de «cocinar».
En unas elecciones, ni siquiera se pueden dar resultados precisos, encuestando al 100% de la población.
Por contra, con los datos de menos del 10% de las votaciones si es posible anticipar el resultado final con gran precisión.
Muchos datos contra buenos datos.
No se trata tanto de cocinas ni de adivinatoria. A la vista de los datos tienes que prever un cierto escenario (o varios). Hay situaciones que se pueden considerar lógicas y que facilitan mucho la analítica de los datos y la interpretación correcta de los mismos aunque su número sea menor que en otras recopilaciones mucho más voluminosas.
Pasa que el escenario resulta incorrecto la interpretación va a ser incorrecta aunque recopiles todos los datos del mundo.
La estadística funciona como manera de validar hipótesis, no como bola de cristal
Muy buen artículo sobre la economía de los datos y los comentarios enriquecen el tema de discusión.
La calidad de los datos por un lado y la suficiente cantidad que permita apuntalar los análisis estadísticos, creo que es la apuesta para lograr potenciar los datos.
Los límites nunca están claros pero a veces hay que trabajar con lo que se tiene.
Como dijo una vez una persona que admiro, en el mundo hay verdades, mentiras y estadísticas.
Saludos.