Boletín N°210 - junio 2020
Los sistemas de inteligencia artificial pueden hacer
diagnósticos con sesgo de género si no son entrenados correctamente
Posted by
agenciacyta | Jun
24, 2020 | Ciencia,
Destacadas, Salud
Los modelos que
analizan radiografías pueden evaluar con errores determinados cuadros clínicos
para hombres y mujeres si son entrenados con datos desbalanceados, según un
estudio argentino.
(Agencia CyTA-Fundacion Leloir)-. Las instituciones médicas
están adoptando en todo el mundo sistemas de inteligencia artificial (IA) para
el diagnóstico y la detección asistida por computadora a partir de imágenes
tales como radiografías, resonancias y tomografías. Ahora, un estudio de
investigadores de Santa Fe demostró que esos sistemas pueden incurrir en un
sesgo de género en detrimento de la salud de miles de pacientes.
Se trata de la primera investigación sobre el sesgo de
género que pueden adquirir los modelos de diagnóstico asistido por computadoras
al ser entrenados con datos desbalanceados. El trabajo fue realizado por
científicos del Instituto de Investigación en Señales, Sistemas e Inteligencia
Computacional o "sinc(i)", con sede en la Ciudad de
Santa Fe.
"Lo que encontramos es que si un modelo de diagnóstico
asistido por computadora basado en aprendizaje automático sobre imágenes de
rayos X es entrenado con datos desbalanceados de hombres y mujeres (es decir,
pocos datos de alguno de ellos), el modelo puede presentar un rendimiento más
bajo en el grupo subrepresentado", afirmó a la
Agencia CyTA-Leloir el coordinador del estudio, Enzo Ferrante, investigador del sinc(i),
que depende de la Universidad Nacional del Litoral (UNL) y del CONICET, y tiene
sede en la Facultad de Ingeniería y Ciencias Hídricas (FICH-UNL) .
Hace algún tiempo, la comunidad de IA comenzó a advertir
sobre distintos tipos de sesgo en modelos predictivos de inteligencia
artificial, mayormente adquiridos a partir de los datos que habían sido
utilizados para su entrenamiento. Por ejemplo, algoritmos de traducción de
inglés a español que amplificaban los estereotipos de género existentes en
nuestra sociedad, o modelos para la clasificación de imágenes que presentaban
un rendimiento más bajo en grupos minoritarios.
"Esto nos llevó a adentrarnos en el estudio de un campo
emergente dentro de las ciencias de la computación: el de equidad o fairness en
aprendizaje automático (machine learning)", indicó Diego Milone,
investigador del CONICET y Director del sinc(i).
En 2019 se celebró en Santa Fe el Congreso Internacional de
Género en Ciencia, Tecnología e Innovación, que llevó al grupo a conocer los
trabajos de Londa Schiebinger,
de la Universidad de Stanford, Estados Unidos, sobre la necesidad de integrar
la dimensiones sexo-género en el análisis y diseño experimental en ciencia y
tecnología. Allí participaron los primeros autores del trabajo Agostina Larrazabal y Nicolás
Nieto, ambos becarios doctorales en el sinc(i), junto
a Victoria Peterson, becaria postdoctoral en el Instituto de Matemática
Aplicada del Litoral.
Dado que Ferrante y sus colegas se
dedican al desarrollo de nuevos métodos computacionales para el análisis de
imágenes biomédicas (como imágenes de rayos X, tomografía computada o
resonancia magnética), comenzaron a preguntarse cuáles serían las implicancias
de los sesgos de género en ese campo de aplicación y qué se podría hacer para
mitigar su impacto.
"Entrenamiento" de los sistemas de IA
¿Cómo aprenden estos sistemas? Se utiliza un conjunto de
datos (imágenes con el correspondiente diagnóstico médico) para "entrenarlos" y
luego se les pide que arrojen una predicción sobre una nueva imagen médica que
no habían visto.
En el nuevo estudio, publicado en Proceedings
of the National Academy of Sciences (PNAS),
los científicos santafesinos utilizaron bases de datos públicas: una curada por
investigadores de la Universidad de Stanford, con 65.240 pacientes con un total
de 224.316 imágenes, y otra publicada por el National Institutes of Health
de Estados Unidos (NIH) que incluye 30.805 pacientes y un total de 112.120
imágenes.
Estas bases de datos están compuestas por radiografías de
tórax de todos los pacientes, acompañadas por el correspondiente diagnóstico médico
que indica si poseen o no distintas patologías comunes del tórax que pueden
afectar tanto a hombres como mujeres, por ejemplo
hernias, neumonía, fibrosis, enfisema, edema, engrosamiento pleural y
neumotórax.
Los modelos utilizados están basados en redes "neuronales" convolucionales profundas y son entrenados para predecir si
esas patologías del tórax están presentes o no en la imagen. En sus
experimentos, los científicos del CONICET y de la UNL generaron conjuntos de
datos considerando distintos porcentajes de hombres y mujeres, y luego
evaluaron el rendimiento de cada modelo a la hora de predecir el diagnóstico en
nuevas imágenes de hombres y mujeres por separado, cuantificando el rendimiento
en ambos grupos.
En concreto, lo que hicieron fue entrenar distintos modelos
usando bases de datos de entrenamiento con diferentes niveles de desbalance de
género, por ejemplo, 25% de hombres y 75% de mujeres, o 0% y 100%
respectivamente. Luego evaluaron el rendimiento del modelo en nuevas imágenes
de personas de ambos sexos por separado.
"Lo que encontramos es que si el
desbalance de género es muy grande, el rendimiento del modelo disminuye
significativamente en el género subrepresentado",
afirmó Ferrante, especialista en aprendizaje
automático y visión computacional. Y agregó: "Incluso en los casos de
desbalance intermedio como 25%-75%, el rendimiento del modelo en el grupo
minoritario se ve reducido".
Si no se toman en cuenta estos desbalances, advirtieron los
científicos, puede ocurrir que el sistema indique que determinadas patologías
están presentes cuando en realidad no están (falso positivo), o viceversa
(falso negativo).
Los investigadores santafesinos creen que su trabajo tiene
implicaciones a varios niveles. En primer lugar, respecto a las personas que
diseñan las bases de datos que luego serán utilizadas para entrenar los
sistemas de diagnóstico basados en IA. "En este sentido, es importante contar
con la información demográfica que nos permita luego comprobar que el
rendimiento de nuestros modelos sea independiente del género, edad, etnia y
otros atributos, es decir, que su desempeño no disminuya en grupos
minoritarios", afirmaron los investigadores.
En segundo lugar, el nuevo estudio es importante para que
quienes se desempeñan en las ciencias de la computación desarrollen modelos que
sean "justos", insistieron. El diseño experimental y los modelos desarrollados
en este trabajo constituyen una base de referencia para futuras investigaciones
en la temática.
Los autores
del estudio: Agostina Larrazabal,
Nicolás Nieto, Victoria Peterson, Diego Milone y Enzo
Ferrante.
Si los
modelos de diagnóstico asistido por computadoras son entrenados con datos
desbalanceados pueden evaluar con errores determinados cuadros clínicos al
analizar radiografías de hombres y mujeres.