por Diego López-de-Ipiña González-de-Artaza, Diego Casado-Mansilla, Javier García-Zubia y
Mario Castro Ponce
Los datos son el petróleo del siglo XXI: cinco de las empresas más grandes del planeta (Amazon, Apple, Microsoft, Google y Facebook) deben gran parte de su negocio al uso que realizan de los datos personales de sus usuarios. Hablemos de datos públicos, personales o industriales, es primordial que preservemos, controlemos y explotemos su valor. La gobernanza (control y explotación) y la soberanía (acceso y consumo) de los datos, asociados comúnmente a la democracia, son cada vez más relevantes.
Más allá de su valor económico, la COVID-19 ha hecho patente la creciente relevancia que se le concede a los datos, algoritmos y modelos. Asistimos día a día a las predicciones sobre la propagación de la pandemia basadas en modelos cuantitativos. Este análisis permite que avancemos en las fases de la desescalada, que se adopten medidas y que se permita mayor o menor libertad de movimiento.
Sin embargo, esta crisis sanitaria muestra otra en la gestión de los datos, que alimenta una percepción de arbitrariedad y genera desconfianza en los ciudadanos: “No se contabilizan del mismo modo”, “el reporte los fines de semana se demora”, “algunas autonomías solo cuentan las defunciones en hospitales”. Estos inconvenientes están ligados al incumplimiento de los atributos necesarios para progresar hacia la democratización de los datos.
Diversos factores sociales, estructurales, legales y técnicos impiden que se compartan sistemáticamente fuentes de datos valiosas. En este escenario, la idea de la “democratización de los datos” es más un mantra al que aspirar que una realidad.
Un claro ejemplo es el que ofrecen los portales de datos de gobierno abierto. Su aparición generó grandes expectativas en todo el mundo a principios de la década de 2010. Después de una década, el movimiento de datos abiertos sigue luchando por demostrar sus claros impactos sociales y económicos. Desafortunadamente, la cuestión ya no es una prioridad para muchas administraciones públicas.
Hacia las 5 V
En los últimos años, los investigadores han popularizado calificadores asociados a los datos. Son las llamadas 5 V:
- Volumen. Se refiere a la enorme cantidad de información producida por los sistemas digitales.
- Velocidad. Se refiere al ritmo al que se crean, ingieren y procesan los datos.
- Variedad. Se refiere a los formatos y fuentes de datos heterogéneos que se deben cruzar en procesos de análisis.
- Variabilidad. Describe la evolución de los datos ingeridos.
- Veracidad. Describe el grado en que los datos son exactos, precisos y fiables.
Las principales arquitecturas de datos que se usan en la industria, la investigación y las administraciones públicas se han focalizado tradicionalmente en cumplir los requisitos relacionados con el volumen y la velocidad. Sin embargo, suelen pasar por alto las otras tres uves. Esto genera una cascada de problemas en términos de gestión, evolución y calidad de los datos.
Esta triple laguna es un importante obstáculo técnico para que los datos sean más accesibles, fiables y utilizables por todas las partes interesadas. La observación de esta triada es indudablemente una de las condiciones imprescindibles para la democratización de los datos.
Cómo democratizar los datos
Para lograr este progreso es necesario superar múltiples obstáculos: calidad, contexto y transparencia.
La calidad de los datos no afecta solo a su captura y accesibilidad, sino también a su revisión y tratamiento para asegurar su máxima calidad y, por tanto, utilidad. Tal como indica el principio Garbage-In-Garbage-Out, un algoritmo es tan bueno como la calidad de los datos que utiliza.
Otro problema que afecta al buen uso de los datos es su contexto. Así, en el proceso de democratización de los datos es imperativo alcanzar un equilibrio entre la comprensibilidad y la utilidad de los datos, tanto para las máquinas como para las personas. Es imprescindible avanzar hacia nuevas maneras de análisis de los datos. Por ejemplo, los llamados grafos de conocimiento han ganado una enorme popularidad. Este tipo de modelos de información permiten, por ejemplo, contextualizar la palabra “virus” según la fuente de información tenga que ver con la salud o la informática.
El último obstáculo es la transparencia (apertura) de los datos. Este es un atributo íntimamente ligado a la gobernanza y la democratización de los mismos.
En 2016, grupos de expertos internacionales acuñaron el concepto FAIR data (o “datos justos”) a través de un artículo en la prestigiosa revista Nature.
Los principios de FAIR hacen hincapié en facilitar que los sistemas informáticos puedan encontrar (find), acceder (access), interoperar (interoperate) y reutilizar (reuse) datos sin intervención humana o con una intervención humana mínima. Los seres humanos dependemos cada vez más del apoyo informático para tratar los datos como resultado del aumento del volumen, la complejidad y la velocidad de creación de los mismos.
La cuestión de la transparencia no se zanja con la publicación de datos abiertos. Para facilitar su tratamiento es imprescindible que puedan ser aprovechados y mejorados por la comunidad científica y la sociedad. Esta tarea recae en quienes aportan los datos, pero también en quienes los consumen.
Es crucial entender la importancia de la intervención humana por su capacidad única de mejorar algoritmos, detectar incoherencias y resolver errores. Esto no se puede delegar en sistemas de Inteligencia Artificial (IA) que sean opacos en dichos procesos.
Tradicionalmente, la ciudadanía queda relegada a ser consumidora y generadora de datos, en vez de establecerse como prosumidor crítico (anagrama que proviene de consumidor y productor), que consume y produce (mejora) los mismos. Afortunadamente algunos grupos de voluntarios, como EsCovid19Data, juegan un papel cada vez más relevante en la mejora proactiva de los datos.
En conclusión, los grandes desafíos de las sociedades democráticas se pueden afrontar con la ayuda de la ciencia de los datos. Pero es importante entender que no es suficiente contar con datos abiertos. También deben ser justos y de alta calidad para facilitar su procesamiento y su comprensión no solo por los científicos de datos y los epidemiólogos, sino por la ciudadanía en general. Solo así podremos avanzar hacia la democratización de los datos y mejorar nuestra capacidad de toma de decisiones.
Fuente
por Diego López-de-Ipiña González-de-Artaza, Diego Casado-Mansilla, Javier García-Zubia y
Mario Castro Ponce
Los datos son el petróleo del siglo XXI: cinco de las empresas más grandes del planeta (Amazon, Apple, Microsoft, Google y Facebook) deben gran parte de su negocio al uso que realizan de los datos personales de sus usuarios. Hablemos de datos públicos, personales o industriales, es primordial que preservemos, controlemos y explotemos su valor. La gobernanza (control y explotación) y la soberanía (acceso y consumo) de los datos, asociados comúnmente a la democracia, son cada vez más relevantes.
Más allá de su valor económico, la COVID-19 ha hecho patente la creciente relevancia que se le concede a los datos, algoritmos y modelos. Asistimos día a día a las predicciones sobre la propagación de la pandemia basadas en modelos cuantitativos. Este análisis permite que avancemos en las fases de la desescalada, que se adopten medidas y que se permita mayor o menor libertad de movimiento.
Sin embargo, esta crisis sanitaria muestra otra en la gestión de los datos, que alimenta una percepción de arbitrariedad y genera desconfianza en los ciudadanos: “No se contabilizan del mismo modo”, “el reporte los fines de semana se demora”, “algunas autonomías solo cuentan las defunciones en hospitales”. Estos inconvenientes están ligados al incumplimiento de los atributos necesarios para progresar hacia la democratización de los datos.
Diversos factores sociales, estructurales, legales y técnicos impiden que se compartan sistemáticamente fuentes de datos valiosas. En este escenario, la idea de la “democratización de los datos” es más un mantra al que aspirar que una realidad.
Un claro ejemplo es el que ofrecen los portales de datos de gobierno abierto. Su aparición generó grandes expectativas en todo el mundo a principios de la década de 2010. Después de una década, el movimiento de datos abiertos sigue luchando por demostrar sus claros impactos sociales y económicos. Desafortunadamente, la cuestión ya no es una prioridad para muchas administraciones públicas.
Hacia las 5 V
En los últimos años, los investigadores han popularizado calificadores asociados a los datos. Son las llamadas 5 V:
Las principales arquitecturas de datos que se usan en la industria, la investigación y las administraciones públicas se han focalizado tradicionalmente en cumplir los requisitos relacionados con el volumen y la velocidad. Sin embargo, suelen pasar por alto las otras tres uves. Esto genera una cascada de problemas en términos de gestión, evolución y calidad de los datos.
Esta triple laguna es un importante obstáculo técnico para que los datos sean más accesibles, fiables y utilizables por todas las partes interesadas. La observación de esta triada es indudablemente una de las condiciones imprescindibles para la democratización de los datos.
Cómo democratizar los datos
Para lograr este progreso es necesario superar múltiples obstáculos: calidad, contexto y transparencia.
La calidad de los datos no afecta solo a su captura y accesibilidad, sino también a su revisión y tratamiento para asegurar su máxima calidad y, por tanto, utilidad. Tal como indica el principio Garbage-In-Garbage-Out, un algoritmo es tan bueno como la calidad de los datos que utiliza.
Otro problema que afecta al buen uso de los datos es su contexto. Así, en el proceso de democratización de los datos es imperativo alcanzar un equilibrio entre la comprensibilidad y la utilidad de los datos, tanto para las máquinas como para las personas. Es imprescindible avanzar hacia nuevas maneras de análisis de los datos. Por ejemplo, los llamados grafos de conocimiento han ganado una enorme popularidad. Este tipo de modelos de información permiten, por ejemplo, contextualizar la palabra “virus” según la fuente de información tenga que ver con la salud o la informática.
El último obstáculo es la transparencia (apertura) de los datos. Este es un atributo íntimamente ligado a la gobernanza y la democratización de los mismos.
En 2016, grupos de expertos internacionales acuñaron el concepto FAIR data (o “datos justos”) a través de un artículo en la prestigiosa revista Nature.
Los principios de FAIR hacen hincapié en facilitar que los sistemas informáticos puedan encontrar (find), acceder (access), interoperar (interoperate) y reutilizar (reuse) datos sin intervención humana o con una intervención humana mínima. Los seres humanos dependemos cada vez más del apoyo informático para tratar los datos como resultado del aumento del volumen, la complejidad y la velocidad de creación de los mismos.
La cuestión de la transparencia no se zanja con la publicación de datos abiertos. Para facilitar su tratamiento es imprescindible que puedan ser aprovechados y mejorados por la comunidad científica y la sociedad. Esta tarea recae en quienes aportan los datos, pero también en quienes los consumen.
Es crucial entender la importancia de la intervención humana por su capacidad única de mejorar algoritmos, detectar incoherencias y resolver errores. Esto no se puede delegar en sistemas de Inteligencia Artificial (IA) que sean opacos en dichos procesos.
Tradicionalmente, la ciudadanía queda relegada a ser consumidora y generadora de datos, en vez de establecerse como prosumidor crítico (anagrama que proviene de consumidor y productor), que consume y produce (mejora) los mismos. Afortunadamente algunos grupos de voluntarios, como EsCovid19Data, juegan un papel cada vez más relevante en la mejora proactiva de los datos.
En conclusión, los grandes desafíos de las sociedades democráticas se pueden afrontar con la ayuda de la ciencia de los datos. Pero es importante entender que no es suficiente contar con datos abiertos. También deben ser justos y de alta calidad para facilitar su procesamiento y su comprensión no solo por los científicos de datos y los epidemiólogos, sino por la ciudadanía en general. Solo así podremos avanzar hacia la democratización de los datos y mejorar nuestra capacidad de toma de decisiones.
Fuente
Compartir esto: