Llevaba un cierto tiempo siguiendo BigML, la última creación de Francisco Martín, con quien ya tuve bastante contacto durante su época en Strands. Además de Francisco, os encontraréis en el equipo de la empresa unos cuantos nombres míticos del hacking y el machine learning. El pasado martes estuvimos hablando en una pequeña presentación de la empresa, y ahora me han invitado a unirme a su Strategic Advisory Committee. La empresa está radicada en Corvallis, Oregón, de ahí que la mayoría de las reuniones las hagamos a través de hangouts de Google+.
BigML es una herramienta en la nube, todavía en beta cerrada por invitación, para un tema que me encanta: la modelización de datos y el desarrollo de modelos de inteligencia artificial (machine learning) a partir de los mismos. Muy al hilo de herramientas que están surgiendo propuestas por empresas como Google, pero con una política de datos completamente transparente y simple: tus datos son tuyos, solo tuyos, y nada más que tuyos. La idea es que los usuarios puedan subir series de datos a un entorno seguro y trabajar en su análisis para el desarrollo de modelos predictivos sobre los mismos. Un tema que entronca con mi interés por la tendencia que se ha dado en denominar big data, sobre la que ya he escrito en varias ocasiones, y con muchas de las herramientas que he utilizado de manera habitual en mi investigación, particularmente los modelos de ecuaciones estructurales que tuve el lujo de poder estudiar en UCLA con Peter Bentler, padre de EQS, a quien terminé pidiendo que formase parte de mi comité de tesis doctoral.
El próximo 17 de julio, en el the IIIA-CSIC en Barcelona, habrá un taller sobre BigML para aquellos interesados en el tema big data, modelización y machine learning. A mí me pilla en el otro lado del mundo en una conferencia en Perú, pero por lo que he estado viendo acerca de las posibilidades de BigML, la cosa puede estar verdaderamente bien.
Hay un vídeo «hecho en casa» que ilustra de manera sumamente sencilla la idea del producto:
También puedes ver algunos modelos analíticos predictivos basados en archivos de datos libres de uso habitual en el mundo académico, como supervivencia en el Titanic, estimación de riesgos en créditos, prevención de diabetes, churn en telecomunicaciones, etc. Las posibilidades, a partir de un conjunto de datos con una cierta calidad como los que cada día más son generados por la operativa empresarial, son prácticamente ilimitadas.
Es un tema que yo siempre comento en mis clases, me sorprende ver lo avanzado que están las empresas en muchísimas cosas y sin embargo lo pobre que son lo modelos de forecast que se utilizan que ya sabemos todos que se utiliza un excel con una proyección mala basada ademas en la miserable «media».
Me gusta definir el forecast como «the best wrong answer» y que el output de cualquier modelo tiene que ser interpretado, pero que si se hace bien y si se dispone de datos suficientes, se puede acercar mucho a la realidad y dar unos escenarios bastante acertados.
Enrique,
Cuánto me alegra esta entrada, y cúanto me alegra que se tenga en cuenta a gente de tanta valía como todos los que han estado y/o están en el IIA/CSIC en Barcelona; muchos de ellos elaborando proyectos interesantísimos. Mucho talento en este país…
Díganme Vds una cosa, ¿qué diferencia hay entre bigML y Weka? ¿La Web y el precio? por favor..
#003: No sé si has tenido la oportunidad de mirar BigML. Para usar Weka hay que ser ingeniero. Y de cohetes, además. Mira los diagramas, las visualizaciones, la expresión de las relaciones entre variables… poco más que decir. Pídele al directivo medio que use Weka…
#004: Enrique ya has empezado la respuesta equivocándote en el número de comentario. Después has seguido equivocándote en tu afirmación de que no he mirado BigML. Y después simplemente me has dado la razón, en que la diferencia está en la Web.
Hay una parte en la que tienes razón, usar weka no es fácil. También es cierto que es opensource y no ha llegado nadie con dinero para llevarlo a nivel industrial. Supongo que esa será la baza que jugará BigML, a ver si ellos son capaces de hacer que los directivos medios jueguen con su juguete ;)
Suerte y mucho ánimo.