Hay quien critica a mucha inteligencia artificial como racista/etnocéntrica, pero el problema está en los datos

En el ámbito de las ciencias sociales y la psicología anglosajonas se habla en ocasiones de las investigaciones WEIRD. "WEIRD" significa 'raro', 'extraño' o 'peculiar', pero también son las siglas en inglés de "occidentales, educados y de países industrializados, ricos y democráticos".

Estamos ante un estudio WEIRD cuando los investigadores pretenden extrapolar al conjunto de la especie humana algún comportamiento o tendencia social para la cual se han estudiado únicamente sujetos de esas características, en la mayoría de los casos estudiantes en su etapa universitaria (lo que añadiría 'joven' a la lista de adjetivos).

Las investigaciones WEIRD no son la consecuencia de ninguna violación del método científico, ni de alguna clase de prejuicio arraigado entre los investigadores. Sencillamente intentan extraer conclusiones a partir de conjuntos de datos insuficientemente diversos. Al menos, si lo que pretenden estudiar es el conjunto de la especie humana.

Pero este problema no es, ni mucho menos, exclusivo de psicólogos, sociólogos y pedagogos. De hecho, es recurrente en el campo de la inteligencia artificial.

En Magnet

Cómo leer (y sospechar de) el último estudio científico que todo el mundo está compartiendo en tu TL

Pero, ¿cómo van a ser racistas las máquinas?

Parecería lógico pensar que las inteligencias artificiales no padecen algunos males típicamente humanos, como los prejuicios; y que no discriminan, por tanto, en base a la raza / nacionalidad / cultura. Pero la realidad es un poco más compleja.

Hace ya 9 años, HP se enfrentó a una polémica inesperada: un vídeo publicado en Youtube afirmaba que las computadoras de la compañía eran 'racistas'. Los espectadores podían comprobar por sí mismos que el software de reconocimiento facial incluido en la HP MediaSmart sólo se activaba al aparecer en escena una persona de raza blanca, y no con una de raza negra.

La primera reacción de HP fue intentar culpar a la falta de iluminación en el primer plano de la imagen. Pero en 2016 la IA todavía parecía seguir siendo 'racista', y esta vez no era culpa de la iluminación: el concurso de belleza Beauty.AI, gestionado a través de una IA, elegía de entre 6.000 personas de todo el mundo a 44 ganadores, de los que sólo uno tenía la piel oscura.

El problema no son los prejuicios, sino los datos

Imagen de Graham C99 (Flickr).

Joy Buolamwini (investigadora del MIT Media Lab) y Timnit Gebru (empleada de Microsoft) se unieron hace unos meses para poner a prueba tres sistemas de reconocimiento facial disponibles comercialmente: dos de empresas estadounidenses (Microsoft e IBM) y otra de una china (Megvii).

La conclusión a la que llegaron fue que dichos sistemas identificaban correctamente el género de los individuos en un 99% de las ocasiones, cuando dichos individuos eran varones de piel clara. Pero, cuando tenía que lidiar con personas de piel oscura, la tasa de error se disparaba, alcanzando el 35% en el caso de las mujeres.

Pero ni los programadores de Beauty.AI, no los de Microsoft, IBM o Megvii, diseñaron sus algoritmos con la intención de discriminar a ningún grupo humano. No, el problema residía en los datos.

Según Alex Zhavoronkov, director científico de Beauty.AI, el problema de su proyecto residió en que al haberse entrenado mayoritariamente con fotos de blancos, la IA no vinculaba la piel oscura al ideal de "belleza humana".

"Cuando entrenas un algoritmo para reconocer ciertos patrones ... es posible que no tengas suficientes datos o que los datos estén sesgados".

Otras veces el problema no es racial, sino cultural: las IAs fallan al reconocer escenas o artefactos cuando se salen de los estándares occidentales.

En Magnet

Morrearse no es algo universal: a la gente de sociedades más arcaicas les parece algo asqueroso

Ocurre que las IAs son entrenadas en base a recursos digitales recopilados por humanos. Por ejemplo, los bancos de imágenes de acceso público, como Open Images, se encuentran entre los recursos más utilizados.

Y es aquí donde aparece el sesgo: dichos bancos de imágenes ofrecen, mayoritariamente, imágenes que reflejan la cultura occidental (y, más concretamente, la anglosajona). De hecho, según ha expuesto la revista Nature, más del 45% de los datos de ImageNet (una de las principales referencias en la investigación de visión artificial) proviene de los Estados Unidos.

Pero los EE.UU son un país que acoge únicamente al 4% de la población mundial. Su sobrerrepresentación contrasta la situación de China y la India: pese a representar por sí mismas más de un tercio de la humanidad, ambas naciones aportan sólo el 3% de los datos de ImageNet.

No hay que buscar ninguna maldad detrás de esto: por su mayor acceso a las telecomunicaciones y las nuevas tecnologías, han sido usuarios occidentales los que más material audiovisual han creado y digitalizado en las últimas décadas. Tan 'simple' como eso. Pero claro, eso complica ahora que las IAs entiendan a la mayor parte de los humanos.

"¿Quieres etiquetar las fotos de mi boda?"

Y es que, el aprendizaje automático generado en base a dichos datos es incompleto, y no permite a las IAs reconocer (y, por tanto, describir) con precisión escenas ajenas a la cultura occidental. Este hecho, al margen de cualquier consideración sociopolítica, objetivamente resta efectividad a muchos sistemas de reconocimiento de imágenes.

El problema se aprecia fácilmente en la siguiente imagen. En ella, se ven varias fotos, y la descripción generada a partir de las mismas por un sistema estándar de reconocimiento de imágenes, alimentado por los bancos de datos de los que hablábamos.

Se aprecia que es capaz de afinar la descripción de las primeras fotos incluyendo términos como "vestido", "boda", "ceremonia", "novio", y "novia". Sin embargo, en la última foto sólo es capaz de indicar que aparecen "personas" en la misma, pese a tratarse igualmente de una foto de boda (africana tradicional, en este caso).

Este problema, claro está, se soluciona ampliando el espectro cultural en el que se entrena a las IAs. Con ese fin, Google lanzó en septiembre un Concurso de Imágenes Inclusivas, destinado a reducir el sesgo en un sistema de visión por computador y generar así resultados más representativos.

En Xataka

Esta (pseudo)ciencia dice predecir si eres un criminal analizando tu rostro

Para ello, Google animó en dicho concurso a que los equipos competidores se dedicasen a mejorar los algoritmos para optimizar su capacidad descriptiva, y una vez hecho esto se les sometió a una 'prueba de estrés' en base a las numerosas fotos aportadas por voluntarios de todo el mundo.

Aquellos algoritmos que etiquetasen con mayor precisión dichas nuevas fotos ganaron más puntos en base a los criterios establecidos por Google. Y, finalmente, cinco equipos recibieron cada uno un premio de 5.000 dólares.

Pese a ello, ninguno fue capaz de elaborar un algoritmo completamente imparcial: sólo uno de ellos, por ejemplo, fue capaz de reconocer la foto de una novia tradicional hindú con siri.

El Dataset Nutrition Label Project

Pero concursos como el de Google, si bien ayudan a visibilizar el problema, no ayudan a erradicarlo en su origen: en cómo plantean los profesionales de IA el uso de conjuntos de datos.

Para ello, el MIT ha puesto en marcha el Dataset Nutrition Label Project. En su página web y en el paper en el que basan su trabajo exponen su particular propuesta para comenzar a solucionar este problema:

Los datos incompletos, mal entendidos o históricamente problemáticos pueden influir negativamente en los algoritmos de AI. [...] Para mejorar la precisión e imparcialidad de los algoritmos [...] debemos facilitar que los profesionales evalúen rápidamente la viabilidad y la idoneidad de los conjuntos de datos.

[...]Los métodos actuales de análisis de datos, particularmente antes del desarrollo del modelo, son costosos y no están estandarizados.

[Así que] falta un paso en la línea de desarrollo de la IA: evaluar conjuntos de datos basados en medidas de calidad estándar, tanto cualitativas como cuantitativas. Estamos trabajando en agrupar dichas medidas en una Etiqueta de Alimentación de Sets de Datos que resulte fácil de usar.

Según los investigadores, los beneficios de esta 'etiqueta' (aquí el prototipo de la misma) serán los siguientes:

Para los especialistas en datos: "impulsará prácticas de análisis de datos más robustas, proporcionará una manera eficiente de seleccionar el mejor conjunto de datos para sus propósitos y aumentará la calidad general de los modelos de AI".
Para aquellos que crean y publican conjuntos de datos: "creará una expectativa de explicación, que impulsará mejores prácticas de recolección de datos".