RCTA V2 N44 2024

Digital Object Identiﬁer: 10.24054/rcta.v2i44.3010

Exploración del sesgo de género en la clasificación de ocupaciones de Colombia utilizando aprendizaje automático

Exploring gender bias in Colombian occupation classification using machine learning

MSc. Deimer de Jesús Ramos Cuello¹, MSc. Alveiro Rosado Gómez², PhD. Maritza Liliana Calderón Benavides¹

¹Universidad Autónoma de Bucaramanga, Facultad de Ingeniería, Maestría en Gestión Aplicación y Desarrollo de Software, Bucaramanga, Santander, Colombia.
²Universidad Francisco de Paula Santander, Facultad de Ingeniería, Grupo de Investigación en Desarrollo Tecnológico en Ingeniería (GITYD), Ocaña, Norte de Santander, Colombia.

Correspondencia: aarosadog@ufpso.edu.co

Recibido: 21 enero 2024.

Aceptado: 11 junio 2024.

Publicado:19 julio 2024.

Cómo citar: D. de J. Ramos Cuello, A. A. Rosado Gomez, y M. L. Calderón Benavides, «Exploración del sesgo de género en la clasificación de ocupaciones de Colombia utilizando aprendizaje automático», RCTA, vol. 2, n.º 44, pp. 83–88, jul. 2024. Recuperado de https://ojs.unipamplona.edu.co/index.php/rcta/article/view/3010

Derechos de autor 2024 Revista Colombiana de Tecnologías de Avanzada (RCTA).
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.

Resumen: El artículo explora el uso de Word2Vec y FastText para convertir nombres de ocupaciones en representaciones vectoriales y analizar su polaridad de género. Se emplearon dos bases de datos colombianas para preparar y limpiar los datos. Mediante clasificadores, se evaluó cómo la polaridad de género afecta la clasificación de ocupaciones y salarios. Se utilizó ANOVA y pruebas de Tukey para el análisis estadístico. Se descubrió que modelos como ExtraTreesClassifier y XGBClassifier presentaron menores diferencias de precisión entre géneros, sugiriendo que tienden a clasificar con mayor exactitud a los hombres. Sin embargo, no se evidenció una preferencia clara en las predicciones de los modelos hacia un género específico tras manipular las variables relacionadas con denominaciones profesionales. El estudio destaca la importancia de abordar los sesgos sistémicos en representaciones semánticas que pueden perpetuar prejuicios existentes.

Palabras clave: aprendizaje automático, aprendizaje supervisado, equidad en inteligencia artificial, incrustaciones de palabras, procesamiento del lenguaje natural.

Abstract: The paper explores using Word2Vec and FastText to convert occupational names into vector representations and analyze their gender polarity. Two Colombian databases were used to prepare and clean the data. Using classifiers, we evaluated how gender polarity affects the classification of occupations and salaries. ANOVA and Tukey tests were used for statistical analysis. It was discovered that models such as ExtraTreesClassifier and XGBClassifier presented more minor differences in accuracy between genders, suggesting that they tend to classify men more accurately. However, no clear preference was evident in the models' predictions toward a specific gender after manipulating the variables related to professional denominations. The study highlights the importance of addressing systemic biases in semantic representations that can perpetuate existing prejudices.

Keywords: Machine learning, supervised learning, equity in artificial intelligence, word embeddings, natural language processing.

1. INTRODUCCIÓN

La inteligencia artificial (IA) es una herramienta poderosa para automatizar tareas complejas y mejorar la eficiencia en diferentes campos, pero su crecimiento rápido plantea desafíos éticos y riesgos, como la posible discriminación al reflejar sesgos humanos en datos y decisiones .

El procesamiento del lenguaje natural (PLN) es un campo de la informática y la IA que se enfoca en analizar y representar lenguajes naturales como el inglés, español, francés, etc. en la era actual, que está llena de datos desestructurados, ya sean textuales o auditivos . PLN permite el análisis, pronóstico e interacción con sistemas inteligentes como asistentes virtuales o vehículos autónomos y aborda desafíos como la inferencia del lenguaje, la comprensión, el reconocimiento de voz y la clasificación de texto .

La arquitectura de un sistema PLN se basa en los niveles que componen un lenguaje humano, como el fonológico, morfológico, sintáctico, semántico y pragmático. Estos niveles proporcionan las herramientas necesarias para que los usuarios finales se comuniquen con la máquina y esta pueda interpretar sus intenciones . Además, el PLN implica diversas áreas, como la extracción de información, el análisis de sentimientos, la investigación y consultas, la síntesis automática y la minería de datos .

Una de las evoluciones que ha tenido el PLN, son las incrustaciones de palabras, las cuales consisten en representar palabras como vectores de valor real en un espacio multidimensional, donde métodos de incrustación semántica codifican el significado de las palabras de modo que las similares estén cercanas en el espacio vectorial . A medida que los algoritmos de aprendizaje automático se vuelven los responsables de la toma de decisiones, se aumenta el riesgo de sesgos sistemáticos en estos algoritmos. No solo pueden reflejar los sesgos humanos en los datos de entrenamiento, sino que también pueden amplificar esos sesgos en su aplicación práctica .

Sí un conjunto de datos de entrenamiento para incrustaciones de palabras contiene una alta frecuencia de asociaciones negativas o prejuicios hacia un grupo étnico en particular, las palabras relacionadas con ese grupo podrían estar más cerca de términos negativos en el espacio vectorial, reflejando así un sesgo. De manera similar, palabras relacionadas con género, como "enfermera" o "ingeniero", podrían estar ubicadas en regiones del espacio vectorial que reflejen estereotipos de género, lo que podría influir en las decisiones de algoritmos de aprendizaje automático .

2. METODOLOGÍA

El desarrollo de la investigación inicio con el acceso a la base de datos de Clasificación Única de Ocupaciones para Colombia (CUOC), que contiene información detallada sobre nombres de grupos primarios, descripciones de ocupaciones, niveles de competencia, nombres de denominaciones y redacción de funciones.

Posteriormente, se eligieron representaciones vectoriales de incrustaciones de palabras en español, Word2Vec y FastText, debido a su entrenamiento específico en español y su capacidad para capturar relaciones semánticas entre palabras . Las incrustaciones de palabras fueron utilizadas para transformar las denominaciones en representaciones vectoriales y luego se determinó la polaridad de género utilizando la biblioteca responsibly .

Para determinar si las ocupaciones que tenían una mayor polaridad por un género determinado influían en la clasificación, fue necesario utilizar los conjuntos de datos de Características generales, seguridad social en salud y educación (información personal de cada persona) y ocupados (información laboral de las personas que tienen un empleo) que hacen parte de la Encuesta Nacional de Hogares suministrada por el Departamento Administrativo Nacional de Estadística (DANE).

Todos los datos fueron integrados y procesados. Los registros que fueron utilizados con la información ofrecida por el DANE, fueron aquellos que estaban asociados a ocupaciones con polaridad de genero sesgada. Con esos datos fueron entrenados clasificadores para determinar si la transformación vectorial de los textos, puede influir en las salidas de los modelos entrenados con datos tabulares.

En el proceso de preparación de datos, se realizaron varias etapas. Primero, se generó una llave única concatenando variables como Directorio, SECUENCIA_P y ORDEN para identificar a las personas encuestadas en diferentes conjuntos de datos. Luego, esta llave se asignó a los datasets "ocupados" y "caracteristicas_generales", y se mapearon nombres legibles a las variables/columnas en estos conjuntos. Posteriormente, se unieron los dos conjuntos de datos basados en la llave única, combinando así la información de características generales y ocupaciones. Se extrajo y generó un nuevo conjunto de datos que incluye el código CIUO (Clasificación Internacional Uniforme de Ocupaciones) de ocupaciones sesgadas. Luego, se unieron los conjuntos de datos nuevamente usando identificadores de ocupación. Se corrigieron las edades, calculando las edades faltantes y mapeando valores numéricos de género a etiquetas literales. También se depuraron registros con edades menores de cinco años y se corrigieron salarios en cero utilizando el algoritmo KNNImputer en registros similares de la misma ocupación para imputar valores de remuneración .

Se efectuaron experimentos con clasificadores para evaluar la denominación de las ocupaciones, el género y las categorías de ingresos, utilizando las denominaciones como atributos binarios y midiendo la precisión de cada modelo. Finalmente se realizó un análisis estadístico con ANOVA y pruebas de Tukey, para determinar la interacción entre el género y las estrategias de procesamiento .

3. RESULTADOS

Se utilizó la biblioteca "responsibly" para evaluar el sesgo de género en ocupaciones laborales. Para evaluar el sesgo de género en español, se identificaron palabras neutras en cuanto al género, ya que muchas palabras en español tienen marcas de género morfológicas. La tabla 1 resultante muestra las ocupaciones laborales junto con su dirección de género, que indica si tienden hacia el sexo masculino (M) o femenino (F) en función del análisis de las palabras utilizadas para describir la ocupación, y su género asociado. En la tabla, se puede observar, como para la mayoría a la mayoría de las profesiones se le asigno el sexo masculino como la polaridad más cercana.

Tabla 1: Modelos pre-entrenados vs CUOC

Denominación	FastText	Word2Vec
Almacenista	M	M
Apuntador	M	M
Arquitecto	M	M
Chef	M	M
Cocinero	M	F
Electricista	M	M
Secretario	M	F