Iris Domínguez Catena (Pamplona, 1992), investigador del Instituto de Smart Cities (ISC) de la Universidad Pública de Navarra (UPNA), ha desarrollado nuevas herramientas y metodologías para detectar y corregir sesgos demográficos en sistemas de inteligencia artificial (IA). Uno de los principales hallazgos de su investigación ha consistido en descubrir un tipo de sesgo demográfico, el estereotípico, que se produce cuando existe una asociación inadecuada entre grupos demográficos y clases en un problema de IA. Por ejemplo, en el reconocimiento de expresiones faciales, que las mujeres aparezcan más frecuentemente expresando felicidad y los hombres, ira. Este sesgo tiene “un impacto más fuerte en el comportamiento final de los modelos de inteligencia artificial”, que son entrenados con conjuntos de datos sesgados. “No basta con asegurar una representación equilibrada de diferentes grupos demográficos, sino que es crucial examinar y corregir posibles sesgos estereotípicos”, afirma sobre las implicaciones de su trabajo para desarrollar sistemas de inteligencia artificial más justos.
Estos resultados aparecen recogidos en la tesis doctoral de Iris Domínguez , centrada en los sesgos demográficos (o justicia algorítmica) en inteligencia artificial. Este tipo de sesgos, que consisten en la falta o mala representación de algunos grupos demográficos (por ejemplo, personas negras o mujeres), pueden generar un mal comportamiento de dichos sistemas y provocar un posible trato discriminatorio hacia determinados colectivos. “Esto significa que, basándose en variables demográficas como la raza, el género o la edad, un modelo de inteligencia artificial trata de forma innecesariamente diferente a las personas usuarias”, describe este investigador del grupo ARIN (Artificial Intelligence and Machine Learning Research).
Como caso de estudio, empleó el reconocimiento de expresiones faciales (FER, por sus siglas en inglés), “un campo donde se busca predecir, a partir de fotos de rostros, cuál es la emoción expresada por la persona” y con múltiples aplicaciones, como “los contenidos multimedia interactivos, la medicina, la seguridad vial o la robótica asistencial”.
Su tesis ha puesto el foco en el origen del sesgo en los conjuntos de datos empleados para entrenar los modelos de inteligencia artificial. Así, ha identificado dos tipos principales de sesgos demográficos: el representacional, que ocurre cuando “ciertos grupos demográficos están infrarrepresentados en los datos, por ejemplo, que haya muchas más personas blancas que de otras razas”, y el estereotípico ya descrito.
Según sus conclusiones, “el sesgo estereotípico, mucho menos estudiado que el representacional, tiene un impacto más fuerte en el comportamiento final de los modelos”. “Esto es especialmente relevante porque la tendencia actual de crear conjuntos de datos a partir de imágenes de Internet está generando, precisamente, este tipo de sesgo: aunque estos ‘datasets’ son más diversos en general, tienden a reforzar estereotipos existentes”, señala.
El investigador también ha observado “una correlación entre la cantidad de sesgo inducido y el error que comete el modelo”. “Este factor es realmente importante, ya que, hasta hace poco, se creía que eliminar el sesgo de un sistema siempre tenía un coste: empeorar su rendimiento”, indica el autor de la tesis, quien ha comprobado que ocurre lo contrario. “Los sistemas libres de sesgo pueden ser más precisos”, añade.
Para corregir los sesgos de los sistemas, Iris Domínguez desarrolló una herramienta, llamada DSAP (siglas en inglés de similitud demográfica a partir de perfiles auxiliares), una metodología que permite comparar la demografía de distintos conjuntos de datos, incluso sin información explícita sobre la población. “Tiene tres aplicaciones principales: la comparación directa entre conjuntos de datos, la medición de sesgo comparando ‘datasets’ reales e ideales y la detección de cambios demográficos en la población sobre la que trabajan sistemas ya desplegados”, explica.
En un segundo paso, Iris Domínguez investigó para entender cómo estos sesgos se transfieren a los modelos de inteligencia artificial. Para ello, desarrolló nuevas métricas para medir cada tipo de sesgo.
“Estas herramientas y metodologías para detectar y analizar sesgos demográficos en sistemas de IA, especialmente en el contexto de la visión artificial, demuestran la importancia de considerar los diferentes tipos de sesgo. Además, proporcionan mecanismos prácticos para su detección de forma más efectiva y también para su seguimiento tanto durante el desarrollo como durante el despliegue de dichos sistemas de IA”, concluye el autor de la tesis, que ha sido dirigida por dos investigadores del Instituto ISC: el catedrático Mikel Galar Idoate y el profesor Daniel Paternain Dallo.
Iris Domínguez Catena se acaba de doctorar en la UPNA, donde previamente completó su grado y máster en Ingeniería Informática. Su investigación se enfoca en la equidad algorítmica (AI Fairness, en inglés), en particular, en la detección de sesgos sociales en bases de datos y modelos de visión artificial.
Recientemente, fruto de una colaboración con la Universidad de Gante (Bélgica), trabaja también en sesgos en procesamiento de lenguaje natural y modelos de lenguaje (NLP/LLMs, por sus siglas en inglés).