Para una mejor rendición de cuentas, debemos cambiar el enfoque del diseño de estos sistemas a su impacto.
por Kristian Lum y Rumman Chowdhury
Describir un sistema de toma de decisiones como un “algoritmo” es a menudo una forma de desviar la responsabilidad por las decisiones humanas. Para muchos, el término implica un conjunto de reglas basadas objetivamente en evidencia o datos empíricos. También sugiere un sistema que es altamente complejo, quizás tan complejo que un ser humano tendría dificultades para comprender su funcionamiento interno o anticipar su comportamiento cuando se implementa.
Pero, ¿es precisa esta caracterización? No siempre.
Por ejemplo, a finales de diciembre, la mala asignación de las vacunas covid-19 del Stanford Medical Center se atribuyó a un “algoritmo” de distribución que favorecía a los administradores de alto rango sobre los médicos de primera línea. El hospital afirmó haber consultado con especialistas en ética para diseñar su “algoritmo muy complejo”, que un representante dijo que “claramente no funcionó bien”, como informó MIT Technology Review en ese momento. Si bien muchas personas interpretaron el uso del término en el sentido de que estaba involucrado la inteligencia artificial o el aprendizaje automático, el sistema era de hecho un algoritmo médico, que es funcionalmente diferente. Era más parecido a una fórmula muy simple o un árbol de decisiones diseñado por un comité humano.
Esta desconexión destaca un problema creciente. A medida que proliferan los modelos predictivos, el público se vuelve más cauteloso con su uso para tomar decisiones críticas. Pero a medida que los formuladores de políticas comienzan a desarrollar estándares para evaluar y auditar algoritmos, primero deben definir la clase de toma de decisiones o herramientas de apoyo a las decisiones a las que se aplicarán sus políticas. Dejar el término “algoritmo” abierto a interpretación podría colocar algunos de los modelos con mayor impacto fuera del alcance de las políticas diseñadas para garantizar que dichos sistemas no perjudiquen a las personas.
Cómo identificar un algoritmo
Entonces, ¿es el “algoritmo” de Stanford un algoritmo? Eso depende de cómo defina el término. Si bien no existe una definición universalmente aceptada, una común proviene de un libro de texto de 1971 escrito por el científico informático Harold Stone, quien afirma: “Un algoritmo es un conjunto de reglas que definen con precisión una secuencia de operaciones”. Esta definición abarca todo, desde recetas hasta complejas redes neuronales: una política de auditoría basada en ella sería ridículamente amplia.
En estadística y aprendizaje automático, generalmente pensamos en el algoritmo como el conjunto de instrucciones que ejecuta una computadora para aprender de los datos. En estos campos, la información estructurada resultante normalmente se denomina modelo. La información que la computadora aprende de los datos a través del algoritmo puede verse como “pesos” por los cuales multiplicar cada factor de entrada, o puede ser mucho más complicado. La complejidad del propio algoritmo también puede variar. Y los impactos de estos algoritmos dependen en última instancia de los datos a los que se aplican y del contexto en el que se implementa el modelo resultante. El mismo algoritmo podría tener un impacto neto positivo cuando se aplica en un contexto y un efecto muy diferente cuando se aplica en otro.
Historia relacionada
El hospital universitario culpó a un “algoritmo muy complejo” por su plan de distribución desigual de vacunas. Esto es lo que salió mal.
En otros dominios, lo que se describe anteriormente como un modelo se denomina en sí mismo algoritmo. Aunque eso es confuso, bajo la definición más amplia también es exacto: los modelos son reglas (aprendidas por el algoritmo de entrenamiento de la computadora en lugar de declaradas directamente por humanos) que definen una secuencia de operaciones. Por ejemplo, el año pasado en el Reino Unido, los medios describieron la falla de un “algoritmo” para asignar puntajes justos a los estudiantes que no pudieron presentarse a sus exámenes debido al covid-19. Sin duda, lo que estos informes estaban discutiendo era el modelo: el conjunto de instrucciones que traducían los insumos (el desempeño anterior de un estudiante o la evaluación de un maestro) en resultados (una puntuación).
Lo que parece haber sucedido en Stanford es que los humanos, incluidos los especialistas en ética, se sentaron y determinaron qué serie de operaciones debería utilizar el sistema para determinar, sobre la base de datos como la edad y el departamento de un empleado, si esa persona debería estar entre las primeras para recibir una vacuna. Por lo que sabemos, esta secuencia no se basó en un procedimiento de estimación optimizado para algún objetivo cuantitativo. Se trataba de un conjunto de decisiones normativas sobre cómo se deberían priorizar las vacunas, formalizadas en el lenguaje de un algoritmo. Este enfoque califica como un algoritmo en terminología médica y bajo la definición amplia, a pesar de que la única inteligencia involucrada fue la de los humanos.
Concéntrese en el impacto, no en la entrada
Los legisladores también están evaluando qué es un algoritmo. Presentado en el Congreso de EE. UU. En 2019, HR2291, o la Ley de Responsabilidad Algorítmica, utiliza el término “sistema automatizado de toma de decisiones” y lo define como “un proceso computacional, incluido uno derivado del aprendizaje automático, estadísticas u otras técnicas de procesamiento de datos o inteligencia artificial”. , que toma una decisión o facilita la toma de decisiones humanas, que impacta a los consumidores “.
Las auditorías de IA pueden pasar por alto ciertos tipos de sesgos y no necesariamente verifican que una herramienta de contratación elija a los mejores candidatos para un trabajo.
De manera similar, la ciudad de Nueva York está considerando Int 1894, una ley que introduciría auditorías obligatorias de “herramientas automatizadas de decisión de empleo”, definidas como “cualquier sistema cuya función se rija por la teoría estadística o sistemas cuyos parámetros estén definidos por dichos sistemas”. En particular, ambos proyectos de ley exigen auditorías, pero proporcionan solo pautas de alto nivel sobre lo que es una auditoría.
A medida que los tomadores de decisiones tanto en el gobierno como en la industria crean estándares para auditorías algorítmicas, es probable que haya desacuerdos sobre lo que cuenta como algoritmo. En lugar de intentar llegar a un acuerdo sobre una definición común de “algoritmo” o una técnica de auditoría universal particular, sugerimos evaluar los sistemas automatizados principalmente en función de su impacto. Al centrarnos en los resultados en lugar de en los aportes, evitamos debates innecesarios sobre la complejidad técnica. Lo que importa es el potencial de daño, independientemente de si estamos discutiendo una fórmula algebraica o una red neuronal profunda.
El impacto es un factor crítico de evaluación en otros campos. Está integrado en el marco clásico DREAD en ciberseguridad, que fue popularizado por primera vez por Microsoft a principios de la década de 2000 y todavía se usa en algunas corporaciones. La “A” en DREAD pide a los evaluadores de amenazas que cuantifiquen los “usuarios afectados” preguntando cuántas personas sufrirían el impacto de una vulnerabilidad identificada. Las evaluaciones de impacto también son comunes en los análisis de derechos humanos y sostenibilidad, y hemos visto a algunos de los primeros desarrolladores de evaluaciones de impacto de IA crear rúbricas similares. Por ejemplo, la Evaluación de impacto algorítmica de Canadá proporciona una puntuación basada en preguntas cualitativas como “¿Son los clientes de esta línea de negocio particularmente vulnerables? (sí o no).”
Ciertamente existen dificultades para introducir un término vagamente definido como “impacto” en cualquier evaluación. El marco DREAD fue posteriormente complementado o reemplazado por STRIDE, en parte debido a los desafíos para reconciliar diferentes creencias sobre lo que implica el modelado de amenazas. Microsoft dejó de usar DREAD en 2008.
En el campo de la IA, las conferencias y revistas ya han presentado declaraciones de impacto con diversos grados de éxito y controversia. Está lejos de ser infalible: las evaluaciones de impacto que son puramente formuladas se pueden jugar fácilmente, mientras que una definición demasiado vaga puede llevar a evaluaciones arbitrarias o imposiblemente largas.
Aún así, es un importante paso adelante. El término “algoritmo”, como sea que se defina, no debería ser un escudo para absolver a los humanos que diseñaron y desplegaron cualquier sistema de responsabilidad por las consecuencias de su uso. Es por eso que el público exige cada vez más la responsabilidad algorítmica, y el concepto de impacto ofrece un terreno común útil para los diferentes grupos que trabajan para satisfacer esa demanda.
por Kristian Lum y Rumman Chowdhury
Describir un sistema de toma de decisiones como un “algoritmo” es a menudo una forma de desviar la responsabilidad por las decisiones humanas. Para muchos, el término implica un conjunto de reglas basadas objetivamente en evidencia o datos empíricos. También sugiere un sistema que es altamente complejo, quizás tan complejo que un ser humano tendría dificultades para comprender su funcionamiento interno o anticipar su comportamiento cuando se implementa.
Pero, ¿es precisa esta caracterización? No siempre.
Por ejemplo, a finales de diciembre, la mala asignación de las vacunas covid-19 del Stanford Medical Center se atribuyó a un “algoritmo” de distribución que favorecía a los administradores de alto rango sobre los médicos de primera línea. El hospital afirmó haber consultado con especialistas en ética para diseñar su “algoritmo muy complejo”, que un representante dijo que “claramente no funcionó bien”, como informó MIT Technology Review en ese momento. Si bien muchas personas interpretaron el uso del término en el sentido de que estaba involucrado la inteligencia artificial o el aprendizaje automático, el sistema era de hecho un algoritmo médico, que es funcionalmente diferente. Era más parecido a una fórmula muy simple o un árbol de decisiones diseñado por un comité humano.
Esta desconexión destaca un problema creciente. A medida que proliferan los modelos predictivos, el público se vuelve más cauteloso con su uso para tomar decisiones críticas. Pero a medida que los formuladores de políticas comienzan a desarrollar estándares para evaluar y auditar algoritmos, primero deben definir la clase de toma de decisiones o herramientas de apoyo a las decisiones a las que se aplicarán sus políticas. Dejar el término “algoritmo” abierto a interpretación podría colocar algunos de los modelos con mayor impacto fuera del alcance de las políticas diseñadas para garantizar que dichos sistemas no perjudiquen a las personas.
Cómo identificar un algoritmo
Entonces, ¿es el “algoritmo” de Stanford un algoritmo? Eso depende de cómo defina el término. Si bien no existe una definición universalmente aceptada, una común proviene de un libro de texto de 1971 escrito por el científico informático Harold Stone, quien afirma: “Un algoritmo es un conjunto de reglas que definen con precisión una secuencia de operaciones”. Esta definición abarca todo, desde recetas hasta complejas redes neuronales: una política de auditoría basada en ella sería ridículamente amplia.
En estadística y aprendizaje automático, generalmente pensamos en el algoritmo como el conjunto de instrucciones que ejecuta una computadora para aprender de los datos. En estos campos, la información estructurada resultante normalmente se denomina modelo. La información que la computadora aprende de los datos a través del algoritmo puede verse como “pesos” por los cuales multiplicar cada factor de entrada, o puede ser mucho más complicado. La complejidad del propio algoritmo también puede variar. Y los impactos de estos algoritmos dependen en última instancia de los datos a los que se aplican y del contexto en el que se implementa el modelo resultante. El mismo algoritmo podría tener un impacto neto positivo cuando se aplica en un contexto y un efecto muy diferente cuando se aplica en otro.
Historia relacionada
El hospital universitario culpó a un “algoritmo muy complejo” por su plan de distribución desigual de vacunas. Esto es lo que salió mal.
En otros dominios, lo que se describe anteriormente como un modelo se denomina en sí mismo algoritmo. Aunque eso es confuso, bajo la definición más amplia también es exacto: los modelos son reglas (aprendidas por el algoritmo de entrenamiento de la computadora en lugar de declaradas directamente por humanos) que definen una secuencia de operaciones. Por ejemplo, el año pasado en el Reino Unido, los medios describieron la falla de un “algoritmo” para asignar puntajes justos a los estudiantes que no pudieron presentarse a sus exámenes debido al covid-19. Sin duda, lo que estos informes estaban discutiendo era el modelo: el conjunto de instrucciones que traducían los insumos (el desempeño anterior de un estudiante o la evaluación de un maestro) en resultados (una puntuación).
Lo que parece haber sucedido en Stanford es que los humanos, incluidos los especialistas en ética, se sentaron y determinaron qué serie de operaciones debería utilizar el sistema para determinar, sobre la base de datos como la edad y el departamento de un empleado, si esa persona debería estar entre las primeras para recibir una vacuna. Por lo que sabemos, esta secuencia no se basó en un procedimiento de estimación optimizado para algún objetivo cuantitativo. Se trataba de un conjunto de decisiones normativas sobre cómo se deberían priorizar las vacunas, formalizadas en el lenguaje de un algoritmo. Este enfoque califica como un algoritmo en terminología médica y bajo la definición amplia, a pesar de que la única inteligencia involucrada fue la de los humanos.
Concéntrese en el impacto, no en la entrada
Los legisladores también están evaluando qué es un algoritmo. Presentado en el Congreso de EE. UU. En 2019, HR2291, o la Ley de Responsabilidad Algorítmica, utiliza el término “sistema automatizado de toma de decisiones” y lo define como “un proceso computacional, incluido uno derivado del aprendizaje automático, estadísticas u otras técnicas de procesamiento de datos o inteligencia artificial”. , que toma una decisión o facilita la toma de decisiones humanas, que impacta a los consumidores “.
Las auditorías de IA pueden pasar por alto ciertos tipos de sesgos y no necesariamente verifican que una herramienta de contratación elija a los mejores candidatos para un trabajo.
De manera similar, la ciudad de Nueva York está considerando Int 1894, una ley que introduciría auditorías obligatorias de “herramientas automatizadas de decisión de empleo”, definidas como “cualquier sistema cuya función se rija por la teoría estadística o sistemas cuyos parámetros estén definidos por dichos sistemas”. En particular, ambos proyectos de ley exigen auditorías, pero proporcionan solo pautas de alto nivel sobre lo que es una auditoría.
A medida que los tomadores de decisiones tanto en el gobierno como en la industria crean estándares para auditorías algorítmicas, es probable que haya desacuerdos sobre lo que cuenta como algoritmo. En lugar de intentar llegar a un acuerdo sobre una definición común de “algoritmo” o una técnica de auditoría universal particular, sugerimos evaluar los sistemas automatizados principalmente en función de su impacto. Al centrarnos en los resultados en lugar de en los aportes, evitamos debates innecesarios sobre la complejidad técnica. Lo que importa es el potencial de daño, independientemente de si estamos discutiendo una fórmula algebraica o una red neuronal profunda.
El impacto es un factor crítico de evaluación en otros campos. Está integrado en el marco clásico DREAD en ciberseguridad, que fue popularizado por primera vez por Microsoft a principios de la década de 2000 y todavía se usa en algunas corporaciones. La “A” en DREAD pide a los evaluadores de amenazas que cuantifiquen los “usuarios afectados” preguntando cuántas personas sufrirían el impacto de una vulnerabilidad identificada. Las evaluaciones de impacto también son comunes en los análisis de derechos humanos y sostenibilidad, y hemos visto a algunos de los primeros desarrolladores de evaluaciones de impacto de IA crear rúbricas similares. Por ejemplo, la Evaluación de impacto algorítmica de Canadá proporciona una puntuación basada en preguntas cualitativas como “¿Son los clientes de esta línea de negocio particularmente vulnerables? (sí o no).”
Ciertamente existen dificultades para introducir un término vagamente definido como “impacto” en cualquier evaluación. El marco DREAD fue posteriormente complementado o reemplazado por STRIDE, en parte debido a los desafíos para reconciliar diferentes creencias sobre lo que implica el modelado de amenazas. Microsoft dejó de usar DREAD en 2008.
En el campo de la IA, las conferencias y revistas ya han presentado declaraciones de impacto con diversos grados de éxito y controversia. Está lejos de ser infalible: las evaluaciones de impacto que son puramente formuladas se pueden jugar fácilmente, mientras que una definición demasiado vaga puede llevar a evaluaciones arbitrarias o imposiblemente largas.
Aún así, es un importante paso adelante. El término “algoritmo”, como sea que se defina, no debería ser un escudo para absolver a los humanos que diseñaron y desplegaron cualquier sistema de responsabilidad por las consecuencias de su uso. Es por eso que el público exige cada vez más la responsabilidad algorítmica, y el concepto de impacto ofrece un terreno común útil para los diferentes grupos que trabajan para satisfacer esa demanda.
Fuente: MIT Technology Review
Compartir esto: