"Las prácticas clásicas en ciencia de datos fomentan el sexismo. El feminismo de datos lo combate"

Los algoritmos de inteligencia artificial y big data fomentan el machismo, el racismo y el clasismo, asegura esta profesora de Ciencia y Planificación Urbana en el MIT, que es también una activista de género y una hacker con el apodo de kanarinka. En su libro Data Feminism ofrece pautas para desvelar y contrarrestar estos sesgos discriminatorios.

Ana Hernando 24/10/2020 08:00 CEST

Catherine D’Ignazio. / Diana Levine / MIT

Catherine D'Ignazio (Chapel Hill, Carolina del Norte) es profesora de Ciencia y Planificación Urbana en el Instituto Tecnológico de Massachusetts (MIT). También dirige el Data + Feminism Lab, que utiliza datos y métodos computacionales para trabajar por la igualdad de género. Se define como académica, artista visual y desarrolladora de software y es conocida con el apodo de kanarinka en los hakathons feministas que organiza.

D'Ignazio, que vivió durante un tiempo en Barcelona cuando era estudiante de secundaria, ha escrito, junto a Lauren Klein, directora de Digital Humanities Lab en la Universidad de Emory, el libro Data Feminism, publicado este año. Las autoras consideran fundamental reconocer los sesgos de género —y también los de racismo, clasismo y discriminación de minorías— de los algoritmos usados masivamente en las aplicaciones de inteligencia artificial y en big data. Además, subrayan la necesidad de entender estos sesgos a nivel técnico para así introducir medidas que los contrarresten.

¿Qué es el feminismo de datos y para qué sirve?

Es una forma de reflexionar sobre los datos, tanto en lo que se refiere a sus usos como a sus limitaciones. Está fundamentado en la experiencia directa, el compromiso para la acción y el pensamiento feminista interseccional. El punto de partida es algo que generalmente no se reconoce en la ciencia de datos: que el poder no está distribuido equitativamente en el mundo, ya que quienes lo ejercen son, desproporcionadamente, hombres blancos con acceso a la educación, heterosexuales y del norte.

El trabajo del feminismo de datos consiste, en primer lugar, en examinar cómo las prácticas estándar en ciencia de datos sirven para reforzar estas desigualdades existentes, que se traducen en sexismo, pero también en racismo, clasismo y discriminación de minorías. Y, en segundo lugar, utilizar esta misma ciencia para desafiar y cambiar esta distribución de poder y luchar contra la discriminación en sus distintas variantes.

¿Cuáles son los principales sesgos discriminatorios que habéis encontrado?

Vemos el feminismo de datos como parte de un creciente cuerpo de trabajo que responsabiliza a los actores corporativos y gubernamentales por sus productos de datos racistas, sexistas y clasistas. Por ejemplo, hemos encontrado sistemas de detección de rostros que no reconocen a las mujeres negras, algoritmos que degradan a las mujeres, algoritmos de búsqueda que hacen circular estereotipos negativos sobre las niñas negras, algoritmos de detección de abuso infantil que castigan a los padres de bajos recursos, visualizaciones de datos que refuerzan el binarismo de género. Todo esto y mucho más.

Claramente hay ganadores y perdedores en el ámbito de los datos.

Cuadro de datos

"Hay sistemas de detección de rostros que no reconocen a las mujeres negras, algoritmos que degradan a las mujeres y que hacen circular estereotipos negativos sobre las niñas negras, algoritmos de detección de abuso infantil que castigan a los padres de bajos recursos..."

Sí, claro, como decía, los que pierden son desproporcionadamente mujeres, personas de color, indígenas y otros grupos marginados, como personas trans, no binarias y las personas pobres. Algo que igualmente puede considerarse como una pérdida es lo que llamamos missing data, es decir, todos aquellos datos que pueden ser importantes y no se están recogiendo. En el libro describimos el ejemplo de los datos sobre los feminicidios y denunciamos que los gobiernos no recolectan datos exhaustivos para entender el problema e implementar soluciones políticas para acabar con esta lacra.

Otros ejemplos de missing data son los datos de mortalidad materna, que solo se han comenzado a recoger recientemente, y los de acoso sexual. Además, no olvidemos que gran parte de nuestro conocimiento médico y de salud procede datos de investigaciones que se basan casi únicamente en el cuerpo masculino.

Cuadro de datos

"Los proyectos de ‘Big Dick Data’ ignoran el contexto de los datos, fetichizan el tamaño de la base de datos e inflan sus capacidades técnicas y científicas, normalmente con ánimo de lucro, poder o ambos"

En vuestro libro utilizáis el término Big Dick Data [dick es pene en argot popular y la expresión se podría traducir como ‘datos de quién la tiene más grande’]. ¿Nos puedes explicar su significado?

Es una crítica del machismo oculto en la mayoría de las narrativas en torno al big data. Las descripciones de proyectos en este ámbito se caracterizan por fantasías masculinas y totalizadoras de dominación mundial que se llevan a cabo mediante la captura y el análisis de datos.

Así, los proyectos de Big Dick Data ignoran el contexto de los datos, fetichizan el tamaño de la base de datos e inflan sus capacidades técnicas y científicas, normalmente con ánimo de lucro, poder o ambos.

Los algoritmos de machine learning se alimentan de datos históricos que perpetúan prejuicios, no solo en cuestiones de género. Por ejemplo, muchos estudios de criminalidad en EE UU apuntan a que las personas afroamericanas tienen más probabilidades de cometer delitos.

Como te decía, en el feminismo de datos dejamos espacio para una posición de rechazo de los datos y su uso en ciertas situaciones. Respecto a los datos de criminalidad en EE UU, por ejemplo, opino que tendríamos que desechar su uso enteramente porque están corrompidos por el racismo.

Después de siglos de encarcelar desproporcionadamente a afrodescendientes e indígenas, no podemos usar esos registros para predecir quién debería ser puesto en libertad bajo fianza e imaginar de alguna manera que los algoritmos van a ser neutrales. Repito: estos datos han sido corrompidos por siglos de supremacía blanca y deben ser rechazados, esa es mi opinión.

¿Cómo se cambia esa narrativa?

El cambio narrativo que necesitamos tiene que ver con dejar espacio para esta posición de rechazo en el diálogo público y en las políticas. Hay algunas tecnologías que no deberían construirse. Hay algunos datos que no deben usarse.

¿Podría lograrse la neutralidad de los datos?

No, los datos no serán neutrales jamás porque nunca son datos ‘crudos’. Están producidos por seres humanos que vienen de lugares determinados, tienen sus propias identidades, sus historias particulares y que trabajan en instituciones concretas.

Pero eso no significa que los datos no puedan ser útiles. Solo que tenemos que usarlos con los ojos abiertos. Y hacernos las preguntas adecuadas: ¿Quién se beneficia? ¿A quién se perjudica? ¿Quién hace el trabajo? ¿Quién recibe el crédito?

Portada del libro Data Feminism. / MIT

En el momento que vivimos, ¿Qué valoración haces del manejo de datos en la pandemia?

Aquí en EE UU está siendo terrible. Te pongo un ejemplo. Al comienzo de la pandemia, Trump expresó su deseo de no permitir que atracara un crucero con pasajeros afectados por la covid-19. Sus palabras fueron: "Me gusta que los números estén donde están. No necesito que se dupliquen por un barco que no es nuestra responsabilidad".

Otras agencias gubernamentales están también implicadas en esta subestimación deliberada. Durante once semanas, de marzo a mayo, los CDC [Centros para el Control y la Prevención de Enfermedades] no publicaron datos sobre cuántas personas estaban siendo testadas para detectar el virus. En cierto momento, se publicó silenciosamente un nuevo sitio web de los CDC que realizaba un seguimiento de las pruebas nacionales. Sin embargo, según una verificación independiente de The Atlantic, las cifras no coincidían con las que reportaban los propios estados. Ahora, la responsabilidad de monitorear los datos de la covid-19 se ha trasladado al departamento de Salud y Servicios Humanos [HHS] por razones políticas.

Cuadro de datos

"Los datos no serán neutrales jamás, pero eso no significa que no puedan ser útiles, solo que tenemos que usarlos con los ojos abiertos y hacernos las preguntas adecuadas: ¿Quién se beneficia? ¿A quién se perjudica? ¿Quién hace el trabajo? ¿Quién recibe el crédito?"

Suena todo bastante desastroso.

Pues sí. Y además los detalles demográficos sobre las muertes por coronavirus tampoco se reportan. Sabemos que los hombres mueren en proporciones más altas que las mujeres. También, que las comunidades negras, indígenas y latinas son las más afectadas. Pero los estados no están rastreando de manera fiable cuestiones como el género o la raza en los casos de covid-19. Y, si se hace, se categoriza a las poblaciones nativas como ‘otros’, lo que hace imposible desagregar los efectos racializados de la enfermedad en las personas indígenas. Es todo un gran desastre.

Ilustración de Catherine DIgnazio / Surasti Pari

Fuente: SINC

Derechos: Creative Commons.