RCTA V2 N44 2024

Digital Object Identiﬁer: 10.24054/rcta.v2i44.3018

Optimización de la generación de informes de auditoría mediante procesamiento de lenguaje natural: un enfoque basado en datos de auditorías de calidad en educación superior

Optimizing audit reporting using natural language processing: a data-driven approach from quality audits in higher education

MSc. Alveiro Rosado Gómez¹, PhD. Claudia Marcela Duran Chinchilla², MSc. Deccy Arias Rodríguez³

¹Universidad Francisco de Paula Santander, Facultad de Ingeniería, Grupo de Investigación en Desarrollo Tecnológico en Ingeniería (GITYD), Ocaña, Norte de Santander, Colombia.
²Universidad Francisco de Paula Santander, Departamento de Humanidades, Grupo de Investigación de la Facultad de Educación, Artes y Humanidades (GIFEAH), Ocaña, Norte de Santander, Colombia.
³Universidad Francisco de Paula Santander, Facultad de Ciencias Agrarias y del Ambiente, Especialización en Sistemas de Gestión Integral HSEQ, Ocaña, Norte de Santander, Colombia.

Correspondencia: aarosadog@ufpso.edu.co

Recibido: 21 enero 2024.

Aceptado: 11 junio 2024.

Publicado:23 julio 2024.

Cómo citar: A. A. Rosado Gómez, C. M. Duran Chinchilla, y D. Arias Rodríguez, «Optimización de la generación de informes de auditoría mediante procesamiento de lenguaje natural: un enfoque basado en datos de auditorías de calidad en educación superior», RCTA, vol. 2, n.º 44, pp. 89–96, jul. 2024. Recuperado de https://ojs.unipamplona.edu.co/index.php/rcta/article/view/3018

Derechos de autor 2024 Revista Colombiana de Tecnologías de Avanzada (RCTA).
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.

Resumen: Esta investigación se centró en la automatización de la comprensión e identificación semántica de hallazgos para su clasificación en auditorías internas, utilizando técnicas de procesamiento de lenguaje natural. Se analizaron informes de auditorías internas para extraer textos vinculados a no conformidades, fortalezas y oportunidades de mejora. Para optimizar la presentación del texto para diversos algoritmos, se examinaron métodos como bolsa de palabras (BoW), frecuencia de término-frecuencia inversa de documento (TF-IDF), así como representaciones de texto a través de vectores de palabras incrustadas como Word2Vec y FastText. Se determinó que la mejor combinación de rendimiento provino de un clasificador lineal, que utiliza datos transformados mediante palabras incrustadas y equilibra las clases con sobre-muestreo. Este modelo fundamenta sus clasificaciones en palabras que capturan adecuadamente el sentido y contexto del hallazgo analizado.

Palabras clave: Aprendizaje automático, auditoría interna, aprendizaje supervisado, inteligencia artificial, procesamiento del lenguaje natural.

Abstract: This research focused on automating the understanding and semantic identification of findings for classification in internal audits using natural language processing techniques. Internal audit reports were analyzed to extract texts linked to non-conformities, strengths, and opportunities for improvement. To optimize text presentation for various algorithms, methods such as bag-of-words (BoW), term frequency-inverse document frequency (TF-IDF), and text representations via embedded word vectors such as Word2Vec and FastText. The best combination of performance was determined to come from a linear classifier, which uses data transformed by word embeddings and balances oversampled classes. This model bases its classifications on words that adequately capture the meaning and context of the analyzed finding.

Keywords: Machine learning, internal audit, supervised learning, artificial intelligence, natural language processing.

1. INTRODUCCIÓN

Las organizaciones constituyen agrupaciones de individuos con identidad legal propia, que colaboran bajo reglas específicas para lograr objetivos compartidos, centrados principalmente en brindar servicios y productos a la sociedad . En el ámbito de la gestión, estas entidades enfrentan retos continuos, incluyendo la calidad de sus productos o servicios, el cumplimiento normativo, la satisfacción del cliente y la búsqueda constante de mejoras. Para abordar estos desafíos, las organizaciones definen elementos fundamentales como directrices, metas y procedimientos. No obstante, la complejidad de estructurar y llevar a cabo estos componentes a menudo las lleva a apoyarse en sistemas de gestión . Un sistema de gestión de la calidad (SGC) representa la forma en que una organización guía y supervisa sus actividades relacionadas con la consecución de los resultados deseados . Este sistema engloba varios aspectos organizativos, planificación, procesos y recursos, enfocados hacia la calidad enmarcados dentro de la política de calidad que mantiene estándares internos de conformidad del producto . En este contexto, la norma ISO 9001 es una alternativa importante porque se centra en criterios de calidad en la gestión, promoviendo la implementación requisitos y estándares .

La norma ISO 9001, requiere de herramientas que le permitan determinar si el sistema de gestión de calidad cumple con los requisitos que ella enmarca. Para lograrlo, se realizan evaluaciones sistemáticas e independientes llamadas auditorías, que pueden ser de naturaleza interna, llevadas a cabo por el personal de la propia organización, o externas, realizadas por entidades independientes como organismos de certificación . Los resultados derivados de la valoración de la evidencia recopilada durante la auditoría en comparación con los estándares establecidos se denominan hallazgos de auditoría, los cuales abarcan tanto la conformidad como la no conformidad con los criterios de auditoría, además de posibles áreas de mejora .

Los hallazgos de la auditoría se constituyen en la base de los planes de mejora que realizan los procesos que incumplieron con algunos de los requisitos de la norma, por lo tanto, la forma en que se redacten guarda relación con la importancia y alcance de darle solución . Estos textos deben expresar con claridad los problemas y sus implicaciones, buscando un equilibrio entre proporcionar suficientes detalles para respaldar los hallazgos de manera lógica y coherente con síntesis que permitan una lectura efectiva .

Dentro del proceso de identificación y comunicación de hallazgos en un informe de auditoría, se requiere una clasificación en tres categorías: cuando el hallazgo es positivo, cuando es negativo o cuando existe espacio para mejorar. Al resaltar fortalezas, se describen los logros y prácticas eficaces que contribuyen tanto a los objetivos organizacionales como al sistema de gestión. En relación a las no conformidades, se propone una estructura que comienza con una clara identificación del incumplimiento, seguida por detalles y evidencia específicos, y se analiza cómo este afecta a procesos, calidad y objetivos. Al explorar oportunidades de mejora, se enfatiza la descripción de áreas con potencial para un cambio positivo, se presentan recomendaciones prácticas y los beneficios previstos para la organización en términos de desempeño y logro de metas .

Los auditores deben entregar el informe de auditoría a la persona o rol responsable de consolidar y revisar la información, con el propósito de evaluar su calidad, claridad y relevancia. Esta etapa implica una inversión significativa de tiempo y esfuerzo administrativo, ya que además de la duración del proceso de evaluación, se suma el tiempo necesario para que el auditor implemente las correcciones requeridas en el informe de auditoría. Lo que genera una mayor demora en la conclusión del proceso de auditoría y en el inicio del correspondiente plan de mejora . Esta situación invita a adelantar acciones encaminadas a reducir el tiempo y los recursos involucrados en el aseguramiento de la calidad en la gestión de la organización, por lo tanto, una opción que se plantea es la aplicación de tecnología que automatice el proceso de comprensión de los resultados de la auditoría .

Desde una perspectiva de automatización, resulta necesario contar con soluciones tecnológicas inteligentes capaces de manejar datos no estructurados para la identificación de información pertinente en auditorías . Mediante el procesamiento del lenguaje natural (PLN), es posible extraer datos de estos formatos, automatizando en gran medida la evaluación y validación de la calidad textual . Por esta razón, el objetivo de esta investigación fue incorporar técnicas de PLN en la valoración de los hallazgos consignados en los informes de auditoría, permitiendo reducir el tiempo, la incidencia de errores humanos en la redacción y categorización de los hallazgos.

2. METODOLOGÍA

El conjunto de datos que fue utilizado, corresponde a los resultados de las auditorías que se han realizado en una institución de educación superior certificada en la norma ISO 9001: 2015. El dataset contenía dos columnas una con descripción del hallazgo y la otra con su etiqueta de hallazgo, esta última columna contenía tres valores; No conformidad, que se utilizó cuando se incumplía un requisito de la norma. Fortaleza, cuando el proceso mostraba un grado de madurez superior al solicitado por la norma y en pro de la gestión. El tercer valor es oportunidad de mejora, la cual hace referencia al cumplimiento de la norma de forma aceptable o a un incumplimiento de las normas internas de la institución. La tabla 1, muestra la distribución de los 864 registros utilizados.

Tabla 1: Distribución de clases

Clase	Cantidad
FORTALEZA	294
NO CONFORMIDAD	78
OPORTUNIDAD DE MEJORA	492