Un estudio desarrollado en España y Portugal con datos sobre la incidencia de distintos tipos de cáncer muestra una vez más las posibilidades de la investigación en salud cuando se cuenta con acceso a repositorios amplios de datos etiquetados y se aplican los algoritmos adecuados. Recientemente, otro estudio en los Estados Unidos llevado a cabo con datos de muestras de sangre de personal militar ha permitido establecer un vínculo entre la esclerosis múltiple y la incidencia de mononucleosis.
Otros estudios, llevados a cabo por compañías tecnológicas como Apple (sobre salud cardiovascular o sobre sintomatología menstrual) o Google (estudio longitudinal amplio), trabajan sobre datos obtenidos de los usuarios de sus dispositivos o aplicaciones, y obtienen datos interesantísimos que posibilitan avances significativos en el cuidado de la salud. De hecho, el éxito del lanzamiento por parte de Apple de HealthKit y ResearchKit demuestra que los pacientes, cuando entienden que sus datos están adecuadamente protegidos, tienden a preferir claramente que sean utilizados para mejorar la investigación destinada a progresar en el tratamiento de sus dolencias.
La aplicación de machine learning a los registros médicos de millones de pacientes ofrece un potencial tan elevado a la investigación médica, que retrasar sus posibilidades se convierte en una auténtica irresponsabilidad. ¿Qué necesitan los algoritmos de machine learning para trabajar? La respuesta es obvia: datos correctamente etiquetados, precisamente los que generan los médicos en su actividad diaria. Sin embargo, una legislación que considera los datos médicos como material sujeto al nivel más elevado de protección y que dificulta incluso que los resultados de un diagnóstico puedan ser compartidos entre hospitales o entre facultativos, convierte la posibilidad de llevar a cabo este tipo de investigaciones en un auténtico calvario para los investigadores.
La consecuencias son bien conocidas: en lugar de almacenar nuestros registros radiológicos etiquetados con su diagnóstico en la nube y poder procesarlos de manera eficiente, nos dedicamos a entregar al paciente un absurdo CD, un formato completamente en desuso, para que lo acarree de un médico a otro, un CD que suele terminar simplemente tirado en el fondo de un cajón. ¿Qué podríamos hacer en términos de investigación con millones de imágenes radiológicas convenientemente etiquetadas?
Los Estados Unidos lanzaron a mediados del año pasado un comité de expertos gubernamental destinado a estudiar la posible apertura de datos gubernamentales sobre demografía, salud, conducción, etc. para la investigación médica mediante el uso de algoritmos. En el ámbito privado, hay también compañías dedicadas al procesamiento de registros de salud en múltiples formatos para extraer sus datos, etiquetarlos y procesarlos que están siendo capaces de atraer importantes niveles de financiación. Sin embargo, el último informe de la Organización Mundial de la Salud sobre el uso de inteligencia artificial en la salud pinta un panorama complicado en el que sigue centrándose en la protección de los pacientes, en lugar de entender la sencillez de la anonimización de los datos y, sobre todo, las enormes posibilidades de la investigación que puede llegar a generarse. A medida que más y más dispositivos de electrónica de consumo permiten obtener información sobre diversos parámetros de salud de manera sencilla y con un error estándar controlado, el potencial de este tipo de investigación con datos masivos crece más aún, y se configura como una de las grandes avenidas de investigación del futuro. Si lo unimos con la información proveniente de tests genéticos sencillos y accesibles, el potencial es directamente ilimitado.
Necesitamos desarrollar legislación que facilite a los investigadores el desarrollo de este tipo de estudios, el acceso a datos de salud etiquetados, con las adecuadas protecciones a la privacidad pero sin tener que plantearlo como si esos datos fuesen inequívocamente a ser utilizados siempre como una forma de violar la privacidad de los pacientes. Cuando se diseñaron las actuales protecciones aplicadas a los datos de salud, el potencial de la investigación mediante machine learning era aún incipiente, y toda la obsesión del legislador era tratar de proteger a los pacientes de posibles abusos, no tratar de maximizar el cómo poner sus datos a disposición de los investigadores. Es importantísimo replantear ese tipo de protecciones para que la investigación médica pueda explorar el enorme potencial que tienen esos datos, y nos permita entender mucho mejor las ciencias de la salud.
Sin dejar de lado, obviamente, las cuestiones relacionadas con la privacidad… ¿podríamos dejar de plantear la legislación desde la más absoluta paranoia y reasignar adecuadamente las prioridades para facilitar así la investigación médica?
This article is also available in English on my Medium page, «It’s time to garner the potential of digital health transformation«
Sobre el resto del articulo, poco tengo que decir…
Siempre que esa «cesion de datos», sea algo voluntario (y no porque tu «dispositivo» decide por ti) me parece bien. Mas datos = mas casos de estudio = mejores resultados….
Pero cuando dices:
nos dedicamos a entregar al paciente un absurdo CD, un formato completamente en desuso, para que lo acarree de un médico a otro
Tu hace mucho que no pisas un medico, no??? XDDD
No se en tu mutua medica, pero en la mia, los datos los tienen todos los medicos (y ya hace años)… es mas… mi padre, que esta en tratamiento de su segundo cancer de pulmon en la Seguridad Social, el mismo TAC, le sirve tanto a la oncologa, como al que le trata el aneurisma de la aorta…
Generalizar es malo…
Lo del CD tiene su ámbito lógico de aplicación, te haces una prueba en la SS, y tienes derecho a tener tu prueba disponible para enseñarla a otro profesional que no tenga acceso al sistema público de salud.
Por ejemplo una segunda opinión de un médico o un fisioterapeuta privado, para que sepa con exactitud tu dolencia.
En este caso no le culpo a Enrique del lapsus, porque seguro que no es conocedor de todas las casuísticas. Ya que no es un profesional de la medicina.
Otro lapsus, es pensar que la nube es algo mágico que existe sin más. Yo como paciente duermo más tranquilo sabiendo que las pruebas de mi historial médico duermen en los servidores propios de las distintos servicios de Sanidad, y que por ley cumplen con la LOPD de mi país. Con accesos muy restringidos. Y que no hay terceros descontrolados accediendo por su interes a nuestros datos confidenciales. Si el propósito de que esas pruebas estén en la nube es que cualquiera pueda acceder con un password genérico, desde cualquier lado del mundo, estariamos haciendo algo mal.
Otra cosa es esa «interoperatibilidad» entre diferentes… ahi si que no le veo el color.
Sigo con el ejemplo de mi padre. A pesar de tener todas las pruebas radiologicas, analisis, biopsias, etc. en SS quisieron tener sus «propios datos», es decir, repetirlo todo. (Mi padre entonces aun estaba en la mutua). En cierto modo, creo que me gusto esa opcion, asi iban mas a lo seguro, aunque llevaramos todos los informes bajo el brazo. Fue una jodienda, tener que rpetir lo mismo, pero al fin y al cabo, es un «sacrificio razonable».
Perooo… por ejemplo mi mujer, que tiene ya superado el cancer de vejiga… Aunque en la Fundacion (publico/privada) donde la llevan tienen todos los datos, su doctora de cabecera, por ejemplo, solo tiene acceso a los informes finales, no a todas las pruebas, asi que cuando le toca el analisis (cada tres meses) se los hace por partida doble (a cambio, la fundacion si tiene los informes de SS)
Bueno seria, que los datos, eso si, siempre de forma voluntaria, estuvieran disponibles para todos los servicios, fueran publicos o privados.
Precisamente esa interoperatividad es lo que pueden aportar apis cómo HomeKit de Apple.
Desde un punto de vista de investigación, el primer paso siempre es anonimizar los datos.
Tus resultados pasan a tener una ID que casa diagnóstico con resultados de pruebas y pasan a engrosar tablas de datos con metadatos, nunca con la identidad del paciente.
Los investigadores no ponemos (o al menos ninguno debería poner) en dominio público, la correspondencia entre ID y paciente. Bajo ningún pretexto.
El avance de la medicina con ayudad de la tecnología es impresionante y todo lo que se haga en este campo es buena.
Hay otro tipo de avances digitales mucho mas impresionantes, o al menos eso me parece a mi. Hace poco, se hablaba de ratones de ordenador movidos con el pensamiento, como una ayuda a los parapléjicos . Hoy se da un paso mas,
Un avance científico permite a los parapléjicos andar y hacer deporte tras un implante
Tres personas que habían sufrido una lesión completa de la espina dorsal y se encontraban parapléjicas pueden ahora caminar gracias a un implante que estimula la zona de la médula espinal que controla los músculos del tronco y las piernas, que funciona a partir de una aplicación que incorpora la inteligencia artificial.
https://www.elconfidencial.com/tecnologia/ciencia/2022-02-07/avance-ciencia-permite-paraplejicos-andar_3371360/
A eso me dedico yo…
Y sí, es un auténtico palo conseguir para cada estudio biomedicina la consiguiente aprobación por parte del comité ético del hospital de turno, que debe estar listo antes de entregar la memoria de la petición del proyecto de investigación. Se suelen reunir una vez al mes y normalmente sólo te dan 20 días para pedir el proyecto, por lo que tienes que tener claro que quieres proponer con antelación y pedir dicha aprobación a tiempo.
Y, cómo bien dices, eso sólo es para una autorización de un estudio aislado. Lo que ganaríamos los científicos si pudiésemos utilizar y cruzar los datos bien etiquetados de miles de pacientes!
De todas formas, algunas cosas empiezan a moverse en esa dirección, aunque tímidamente. Ahora no sólo nos obligan a publicar en open access sino también poner los datasets a disposición de cualquier investigador, aunque por ahora no hay formatos concretos que nos obliguen a utilizar y que permitirán agregar conjuntos de datos inicialmente aislados.
Cómo tú mencionas, son necesarias iniciativas cómo las de Apple para conseguir megaconjuntos de datos normalizados para luego lanzar algoritmos de machine learning para intentar encontrar correlaciones, biomarcadores, diagnósticos automatizados, etc.
En ello están. Llevo leyendo noticias sobre interoperabilidad de datos médicos desde hace más de diez años. Y también han estado trabajando en la forma de que el propio paciente lleve alguna clase de identificador al que se le puedan asociar esos datos (biométrica o lo que sea).
Haciendo un inciso aquí, si se permite, adentrándonos en el campo de la conspiración, llevo dándole vueltas a la cabeza semanas a que quizá todo ese rollo de las MAC address Bluetooth que arrojan muchos vacunados tenga algo que ver con eso.
Como paciente que he sido no me importaría mucho que mis datos se usasen para estudios científicos médicos. Siempre que no haya jamás forma humana ni divina de asociar esos datos con mi identidad personal. No me hace mucha gracia, pero en beneficio de posibles avances médicos lo aceptaría. Con dos condiciones más. Que se me pidiera permiso explícito y que esos datos nunca pudiesen ser cedidos a terceros sin mi autorización.
Todo eso de poner nuestros datos en la nube debe de ser muy apetecible, pero bajo ningún concepto aceptaría que mis datos acabasen al alcance de una entidad bancaria o aseguradora. Y es que una vez que la impersonalidad de una nube y un algoritmo de machine learning entra en acción, puede ser usado con muchos propósitos y no todo va a ser avances médicos que nos beneficien aunque sea como especie a largo plazo. De hecho toda esa gente que sueña con tener a su alcance nuestros datos, piensa muy poco en nuestro bienestar. Todo lo que quiere es lucrarse a nuestra costa. Lucrarse fuera de todo lo que es razonable y aplastando lo que tengan que aplastar para ello. Y aunque los investigadores en principio no tengan culpa, sí que tienen que bregar ese marco de avaricia en el que si sus investigaciones no van en la dirección que quiere el que paga, simplemente no les dan el dinero. Así que terminan también yendo contra los intereses del pueblo llano.
A vueltas de todo esto, y valorando que las élites -cuanto menos algunos sectores- consideran que los de abajo somos demasiados y que prácticamente sobramos. Que tienen que hacer limpieza, vaya. No me da ninguna confianza para en este momento poner mis datos médicos en bandeja a esos «benefactores». De todas formas, no creo que cuenten con nosotros para hacerlo. Si se da el caso de que lo tienen que implementar, harán lo de siempre. Poner a los medios a generar consenso durante un tiempo hasta que, por convencimiento o por hastío, dejemos de lado nuestras reticencias. Y entonces harán el decreto ley.
Hace muchos años interrvine en un proyecto que era crear una tarjeta sanitaria para una sociedad médica, concretamente AEGON que estaba asociada con BANESTO que ponía su central de Trajetas de Crédito e IBM que iba a proporcionar el lector de tarjetas para los medicos. Lo fundamental era tener centralizado los datos médicos y que cualquier médico de AEGON de cualquier punto de España tuviera acceso a los datos del paciente. se planteo el donde tener guardados los datos de los pacientes y consultamos a expertos de IBM en los LOPD-
Como los datos los podía leer un medico en cualquier punto de España los expertos fueron incapaces de garantizar que solo pudieran acceder los medio cos y no por ejemplo los encargados de la limpieza de las consultas y el problema fue tan insoluble que cancelamos el proyecto
Hoy cuando voy al ambulatorio y mi médico accede por las buenas a mis datos, me pregunto, si han cambiado la LOPD desde entonces, o si por ser de la Seguridad Social, han hecho la vista gorda, o bien, que es posible, que ellos hayan podido hacer eso, a pesar de la LOPD, por algún medio que a nosotros no se nos ocurrió.
Pues enhorabuena Gorki, pues tu proyecto AEGON era una ideal genial simplemente avanzada a su tiempo.
Sinceramente no se cómo hacen los sistemas de salud para mantener seguros los datos de cada paciente.
A mi, la idea más sencilla que se me ocurre es que a cada paciente de un sistema de salud se le de una ID (que no tenga relación con el nombre) y a cada médico lo mismo.
De forma que si vas a la consulta el médico deba entrar su ID y clave y te le des tu correspondiente par, y con eso tenga acceso a los datos médicos.
Sólo tiene un fallo: cuando te atiendan de urgencia y estes insconsciente y el médico no pueda acceder a tu historial por si eres alérgico a la penicilina, hemofilico, etc.
También podría haber dos conjuntos de datos, los de «emergencia médica», que no requeririan tu login y el resto, para completar el historial médico que si lo requeririan.
No se.. es una idea.
Esas y muchas otras ideas las dimos vuelta con los expertos en LOPD y no encontramos solución que fuera legal. tanto a nivel de consulta del médico, como a nivel del servicio central con toda la información,
Imagínate que lo hackean,. Lo puedes tener encriptado claro, pero la clave de encriptación la tienen 1000 médicos en España, repartidos por todos los sitios.unos seguros y otros en casas particulares.
Y no es posible recopilar los datos de manera anónima? De hecho ya ocurre con otro tipo de datos.
A nivel práctico, Fernando, cuando dependes de médicos de un hospital que ya van muy saturados con sus consultas, no les puedes pedir virguerias.
Lo que solemos poner es un intermediario que asigna IDs anónimas a cada paciente, él o ella tiene la correspondencia y a nosotros ya sólo nos pasa la ID con todos los datos y metadatos necesarios, sin identificación por nombre o DNI del paciente.
Es una forma de asegurarse que los datos del historial de cada paciente estan en el mismo ID.
Lo que, una vez repasado todo, se puede borrar perfectamente esa correspondencia, y, en cualquier caso, NUNCA pasarla on-line o subirla a la nube, siempre está en un ordenador local (que es cierto que podria ser hackeado), pero bueno, son medidas razonables de seguridad.
En sintonía con lo que dice Enrique, los «wearebles» tipo Apple Watch, Android Gear o pulseras Xiaomi tienen dos potenciales virtudes:
a) Masificar un estudio a miles de usuarios de estos gadgets (siempre con autoritzación y anonimización) cuya ventaja principal sería la uniformidad de los datos si cada participante «etiquetase» sus datos con el diagnóstico del médico de turno
b) La monitorización semi-continua de ciertos parámetros como la glucosa en sangre, pulsaciones y actividad física. Esto, ya de por si solo, abre nuevos caminos de investigación: tener datos sincronizados de pulsaciones y actividad física de forma semi-continua es una dimensión no explorada, al menos de forma masiva. O la monitorización con centeneres de puntos al día de la curva de glucemia en función de factores externos como actividad física, alimentación, medicación o inyecciones de insulina (cosas que actualmente, de forma individualizada y limitada en el tiempo a 24h se realiza con los famosos «holters»).
Despues de las fustraciones que he tenido por las limitaciones de muestras a las que he podido acceder en mis proyectos de investigación, que hacen más difícil encontrar biomarcadores estadísticamente significativos, tengo previsto, a medio plazo, pasarme a esta rama de investigación, a la que creo que se puede denominar «ehealth» (otros la llaman «telemedicina», pero para mi no es un término adecuado).
El problema creo que no es anonimizar los datos, sino que puede ser relativamente sencillo desanonimizarlos. Es muy probable que una vez recogida una cantidad suficiente de datos de una persona no haya otra persona en el mundo con datos similares. Del mismo modo que es posible hacer identificar y hacer seguimiento de la navegación web simplemente obteniendo una cantidad suficiente de variables de cada equipo conectado.
También es inquietante la capacidad predictiva podría conseguirse acumulando información en el tiempo sobre la salud de las personas. Está clarisima la vertiente positiva que podría tener esta capacidad predictiva desde el punto de vista de la prevención, pero también abre muchas posibilidades de usos terroríficos.
Como diría el tio Ben: Un gran poder entraña una gran responsabilidad.
Esos datos están protegidos en EE.UU. de forma estricta por la HIPAA (Health Insurance Portability and Accountability Act), la ley de protección de datos de caracter médico, así como en todos los demás países, por ser datos de especial protección.
No se puede comerciar con datos de salud. Ni recopilar de forma indiscriminada. Son una propiedad personalísima de los pacientes.
El Machine learning solo es una criba estadística de patrones. No es un oráculo mágico que permita hacer «predicciones» o extrapolar resultados, como bien saben en los mercados bursátiles.
Un estudio Epidemiológico solo se puede realizar a efectos estadísticos y de estudio de casuística, no es un método de diagnóstico.
Que antes de la HIPAA se recurriese a las tropas del ejercito de EE.UU., para realizar test periódicos de HIV, y posteriormente, utilizar esas muestras para realizar uno de los estudios, no es más que una circunvención de la actual legislación, que apenas tiene valor epidemiológico
Esa idea esotérica de un bálsamo de Fierabrás digital que cure enfermedades, solo es una forma de pseudociencia. No hay una cura mágica ni una ascensión al paraíso digital.
Creo, que después de lo que sucedido con Theranos y Elizabeth Holmes, habría que empezar a dejar de frivolizar con supuestos remedios mágicos.
Y que lamento que les vaya mal a las compañías que apuestan por buzzwords como Big data, Machine learning, etc. como principal activo.
Apple Watch Series 8 May Not Include Body Temperature, Blood Pressure, Glucose Sensors.
–
Disclaimer
«Não há nenhuma ideia inteligente que possa ganhar aceitação geral sem ser misturada antes com um pouco de estupidez.»
Por supuesto que con el machine learning se pueden hacer predicciones. ¡Hay toda una rama del machine learning dedicada a hacer predicciones! (el aprendizaje supervisado) Hasta el modelo mas tonto de regresión lineal se puede utilizar para hacer predicciones.
No es ninguna bobada pensar que se podría entrenar un modelo de clasificación con datos médicos de gran número de personas y obtener un modelo con la probabilidad para uan persona individual de desarrollar en el futuro una determinada dolencia.
Y ahora imagina ese modelo en manos de una compañía de seguros de vida.
Opinión:
Los proyectos de investigación que trataran con datos médicos de entidades públicas deberían aparte de garantizar el anonimato, que sus resultados fueran públicos y libres.
PS: free as in «free speech» and «free beer»
Exactamente, totalmente de acuerdo.
El Free Speech es el Open Source del que hablaba
El Free Beer, el repositorio de datos accessible publicamente (con los datos anonimizados, claro)
Ni más ni menos.
Pero es triste que hasta hace 5 años nadie lo exigia, y las editoriales científicas ni te cuento el dinero que hacían con nuestro trabajo financiado publicamente…
Queria decir Open Acces, no Open Source
Si en la publicación incluyes un algoritmo o software creado si que lo tienes que hacer open source.
Me quedo con el FER, para mi inclusión diaria de mentolado made in abogado del diablo…
Cría humana pasando hambre (y un montón de otras cosa) en Yemen… infinidad de crías humanas pasando algo parecido por el resto del planeta (incluidas periferias de grandes y sofisticadas urbes)…y no se necesita puta tecnología (actual) para conocer el problema y su solución…
Viejos «capitalistas» sobreviviendo enchufados a tubos y residencias de ultralujo… jubilados pero accionistas «con posibles»… y paar colmo voatntes de tipejos como el Trump…
En fin, es necesario que diga mi opinión sobre el avance de la tecnología «en la transformación digital de la salud»?
Y digo lo de siempre, la entrada para chapó.
Simplemente «me esfumo» por el lateral. No me va «hacer el Job», esperando curar del hígado con medicina natural (sea lo que eso pueda ser). Pero tampoco el capo de la «mafia legal» USA, con cara de Padre Fundador y culo de Buitre Financiero.
Con las noticias que leemos a diario de robos de datos a las empresas y organismos mas importantes del mundo, ¿como piensan que alguien se va a creer que su identidad va a estar protegida en una base de datos tan sensible al tiempo que accesible por tantos? ¿Cuanto tardaran en aparecer a la venta los datos de las personas famosas o famosillas?, ¿quién piensa que los médicos por el solo hecho de serlos, no tienen un precio o simplemente son descuidados en el acceso a los datos?
¿Que el procesamiento de esa información es una auténtica delicia para los investigadores?, sin duda alguna, ¿al precio de ver comprometida esos datos taaan personales?, lo dudo.
Todo lo que desea Enrique en este artículo se podría conseguir fácilmente entregando los datos médicos de cada uno a Facebook. Perdón, Meta.
El problema es que hace muy poco, lei un artículo fustigando la compartición de datos privados por cualquier medio que sea. Creo que hablaba de hipersegmentación, o algo así ¿no?
Muy buen artículo Enrique, el potencial de los datos para la investigación es enorme. Quizás te interese conocer Salus.coop, cooperativa ciudadana de datos para la investigación en salud.
Ofrecemos a los ciudadanos una vía segura y descentralizada para que puedan gestionar y compartir sus datos para proyectos de investigación de su interés. Y a los proyectos de investigación la posibilidad de acceder a los datos si cumplen las cinco condiciones de la licencia «Salus Common Good» que codisenamos con los propios ciudadanos.
Necesitamos nuevas instituciones sociales para la gestión colectiva de los datos para el bien común.
Todo está evolucionando muy rápido en esta dirección, pero en Europa en general vamos muy lentos y en España con 17 CCAA ni te cuento.
La teoría es que actualmente existen ya varios estándares (eg HL7 en USA), varios métodos de anonimización robustos, y un teorico acceso a toda nuestra info al instante en formato digital (al igual que con los bancos o con Amazon o google).
También está mejorando el proceso de Ownership del dato. El paciente como último propietario, el intermediario como posible aprobador y el dato agrregado o correctamente anonimizado. Además en el ámbito científico la GDPR es más flexible para el uso de datos.
La aplicación de la IA y otros análisis más sencillos ya permite detección precoz, o el descubrimiento de «efectos secundarios» positivos de un medicamenteo para repurpose.
NLP da un paso de gigante para ese dato oculto tan valioso en texto y en diferentes idiomas.
Sin entrar a hablar de la parte del discovery de medicamentos cuando unes dato médico, dato de ensayos y datos de estructuras moleculares.
Por último, el valor principal estará en una estratagia adecuada. Conectar esos miles de datos en diferentes proveedores con diferentes IDs y reutiizar ese dato o análisis o ese algoritmo o API. Esto es lo que de verdad permitiría reducir los tiempos de decenios a años
Me gusto tu articulo. Respecto a «en lugar de entender la sencillez de la anonimización de los datos», en realidad no es tan sencillo, la casuística es muy amplia. En muchos casos anonimizar los datos no es una tarea simple, los metadatos de gran cantidad de estudios son tan descriptivos que podrías identificar a la persona o se reduce el numero de posibles individuos a menos de 10 con lo que con un esfuerzo razonable podrías identificar a la persona. Para muchos otros estudios, los datos esta pseudo-anonimizados, quieres decir que dando los pasos necesarios seria posible de identificar al individuo. Por no hablar de datos genéticos, que por su naturaleza no son anónimos (es como intentar anonimizar la huella digital).