IA Sociedad

El ansia de datos de OpenAI se vuelve en su contra – MIT Technology Review

Por Melissa Heikkilä

OpenAI tiene poco más de una semana para cumplir las leyes europeas de protección de datos tras una prohibición temporal en Italia y una serie de investigaciones en otros países de la UE. Si no lo consigue, podría enfrentarse a cuantiosas multas, verse obligada a borrar datos o incluso ser prohibida.

Pero los expertos han dicho a MIT Technology Review que será casi imposible que OpenAI cumpla las normas. Esto se debe a la forma en que se han recopilado los datos utilizados para entrenar sus modelos de inteligencia artificial: mediante la recolección de contenidos de Internet.

En el desarrollo de la IA, el paradigma dominante es que cuantos más datos de entrenamiento, mejor. El modelo GPT-2 de OpenAI tenía un conjunto de datos formado por 40 gigabytes de texto. GPT-3, en el que se basa ChatGPT, se entrenó con 570 GB de datos. OpenAI no ha revelado el tamaño del conjunto de datos de su último modelo, el GPT-4.

Pero ese afán por crear modelos más grandes se está volviendo en contra de la empresa. En las últimas semanas, varias autoridades occidentales de protección de datos han iniciado investigaciones sobre la forma en que OpenAI recopila y procesa los datos que alimentan ChatGPT. Creen que ha extraído datos personales, como nombres o direcciones de correo electrónico, y los ha utilizado sin su consentimiento.

La autoridad italiana ha bloqueado el uso de ChatGPT como medida cautelar, y los reguladores de datos franceses, alemanes, irlandeses y canadienses también están investigando cómo recopila y utiliza los datos el sistema OpenAI. El Consejo Europeo de Protección de Datos, la organización que agrupa a las autoridades de protección de datos, también está creando un grupo de trabajo a escala de la UE para coordinar las investigaciones y la aplicación de la ley en torno a ChatGPT.

Italia ha dado de plazo a OpenAI hasta el 30 de abril para cumplir la ley. Esto significa que OpenAI tendrá que pedir el consentimiento de los usuarios para que se recopilen sus datos o demostrar que tiene un “interés legítimo” en hacerlo. OpenAI también tendrá que explicar a los usuarios cómo utiliza ChatGPT sus datos y darles la posibilidad de corregir cualquier error que el chatbot cometa sobre ellos, borrarlos si lo desean y oponerse a que el programa informático los utilice.

Si OpenAI no puede convencer a las autoridades de que sus prácticas de uso de datos son legales, podría ser prohibida en determinados países o incluso en toda la Unión Europea. También podría enfrentarse a cuantiosas multas e incluso verse obligada a eliminar los modelos y los datos utilizados para entrenarlos, afirma Alexis Leautier, experto en IA de la agencia francesa de protección de datos CNIL.

Las violaciones de OpenAI son tan flagrantes que es probable que este caso acabe en el Tribunal de Justicia de la Unión Europea, el más alto tribunal de la UE, afirma Lilian Edwards, profesora de Derecho de Internet en la Universidad de Newcastle. Podrían pasar años antes de que veamos una respuesta a las preguntas planteadas por el regulador de datos italiano.

Mucho en juego

OpenAI se juega mucho. El Reglamento General de Protección de Datos de la UE es el régimen de protección de datos más estricto del mundo, y ha sido copiado ampliamente en todo el mundo. Los reguladores de todo el mundo, desde Brasil hasta California, estarán muy atentos a lo que suceda a continuación, y el resultado podría cambiar fundamentalmente la forma en que las empresas de IA recopilan los datos.

Además de ser más transparente sobre sus prácticas de datos, OpenAI tendrá que demostrar que está utilizando una de las dos formas legales posibles para recopilar datos de entrenamiento para sus algoritmos: consentimiento o “interés legítimo”.

Parece poco probable que OpenAI pueda alegar que obtuvo el consentimiento de los usuarios cuando recopiló sus datos. Le queda el argumento de que tenía un “interés legítimo” en hacerlo. Esto probablemente requerirá que la empresa presente a los reguladores argumentos convincentes sobre lo esencial que es ChatGPT para justificar la recopilación de datos sin consentimiento, afirma Edwards.

OpenAI nos dijo que cree que cumple con las leyes de privacidad, y en una entrada de blog dijo que trabaja para eliminar la información personal de los datos de entrenamiento a petición “cuando sea factible.”

La empresa afirma que sus modelos se entrenan con contenidos disponibles públicamente, contenidos con licencia y contenidos generados por revisores humanos. Pero para el GDPR, eso es un listón demasiado bajo.

“En EE.UU. existe la doctrina de que cuando algo es público deja de ser privado, pero la legislación europea no funciona así”, afirma Edwards. El GDPR otorga a las personas derechos como “sujetos de datos”, como el derecho a ser informados sobre cómo se recopilan y utilizan sus datos y a que sus datos se eliminen de los sistemas, incluso si eran públicos en primer lugar.

Encontrar una aguja en un pajar

OpenAI tiene otro problema. La autoridad italiana afirma que OpenAI no es transparente sobre cómo recopila los datos de los usuarios durante la fase posterior a la formación, por ejemplo en los registros de chat de sus interacciones con ChatGPT.

“Lo realmente preocupante es cómo utiliza los datos que le das en el chat”, dice Leautier. La gente tiende a compartir información íntima y privada con el chatbot, contándole cosas como su estado mental, su salud o sus opiniones personales. Leautier afirma que es problemático si existe el riesgo de que ChatGPT regurgite estos datos sensibles a otras personas. Y añade que, según la legislación europea, los usuarios deben tener la posibilidad de borrar sus datos de registro de chat.

A OpenAI le va a resultar casi imposible identificar los datos de las personas y eliminarlos de sus modelos, dice Margaret Mitchell, investigadora de IA y jefa de ética de la startup Hugging Face, que antes era codirectora de ética de IA de Google.

La empresa podría haberse ahorrado un gran quebradero de cabeza incorporando desde el principio un sólido sistema de registro de datos. En cambio, en el sector de la IA es habitual crear conjuntos de datos para los modelos de IA raspando indiscriminadamente la web y subcontratando después el trabajo de eliminar duplicados o puntos de datos irrelevantes, filtrar elementos no deseados y corregir errores tipográficos. Estos métodos, y el gran tamaño del conjunto de datos, hacen que las empresas tecnológicas tiendan a tener una comprensión muy limitada de lo que se ha hecho para entrenar sus modelos.

Las empresas tecnológicas no documentan cómo recopilan o anotan los datos de entrenamiento de IA y ni siquiera suelen saber qué hay en el conjunto de datos, afirma Nithya Sambasivan, antigua investigadora científica de Google y empresaria que ha estudiado las prácticas de datos de IA.

Encontrar datos italianos en el vasto y difícil de manejar conjunto de datos de entrenamiento de ChatGPT será como encontrar una aguja en un pajar. E incluso si OpenAI consiguiera eliminar los datos de los usuarios, no está claro si ese paso sería permanente. Los estudios han demostrado que los conjuntos de datos permanecen en Internet mucho después de haber sido borrados, porque las copias del original suelen seguir en línea.

“El estado actual de la recopilación de datos es muy, muy inmaduro”, afirma Mitchell. Esto se debe a que se ha trabajado mucho en el desarrollo de técnicas de vanguardia para los modelos de IA, mientras que los métodos de recopilación de datos apenas han cambiado en la última década.

En la comunidad de la IA, se da demasiada importancia a los modelos de IA en detrimento de todo lo demás, afirma Mitchell: “Culturalmente, existe este problema en el aprendizaje automático en el que trabajar con datos se considera un trabajo tonto y trabajar con modelos se considera un trabajo real”.

Sambasivan está de acuerdo: “En conjunto, el trabajo con datos necesita mucha más legitimidad”.

Original