Application of text mining techniques for the discovery of conceptual relationships between degree projects
DOI:
https://doi.org/10.24054/rcta.v2i38.1280Keywords:
Minería de texto, Aprendizaje automático, Relaciones conceptuales, Doc2vec, Word2vecAbstract
En este artículo se presentan uno de los resultados del proyecto de investigación cuyo objetivo fue descubrir relaciones conceptuales entre los trabajos de grado de la Universidad de Nariño utilizando técnicas de minería de texto que faciliten la recuperación de trabajos de grado relacionados con la temática de la búsqueda identificando similitudes y diferencias entre ellos. Se utilizó CRISP-DM como metodología. Usando técnicas de minería de texto se estructuraron los documentos del repositorio de trabajos de grado de la Universidad de Nariño. Se utilizaron técnicas de aprendizaje no supervisado para encontrar relaciones taxonómicas. Se entrenó el modelo Word2vec para encontrar relaciones temáticas. Se encontró el número óptimo de categorías, se logró interpretar los conceptos de cada categoría y sus relaciones
Downloads
References
Barrera, M.C. (2016). Minería de texto en la clasificación de documentos digitales. Biblios: Journal of Librarianship and Information Science, (64), 33–43.
Barsalou, L.W., Simmons, W.K., Barbey, A.K., and Wilson, C.D. (2003). Grounding conceptual knowledge in modality-specific systems. Trends in cognitive sciences, 7(2), 84–91.
Benavides, M. and RESTREPO, J.M.G. (2014). Umayux: un modelo de gestor de conocimiento soportado en una ontología dinámica débilmente acoplado con un gestor de base de datos.
Cabrera, O.E., Guerrero, J.M., Benavides, M.F., and and Pereira, R.T. (2015). Swa: ontología para la gestión de conocimiento sobre trabajos de grado. Revista Ontare, 1(2), 183–214.
Estes, Z., Golonka, S., and Jones, L.L. (2011). Thematic thinking: The apprehension and consequences of thematic relations. In Psychology of learning and motivation, volume 54, 249–294.
Elsevier. Figuerola, C.G., Berrocal, J.L.A., Rodríguez, A.F.Z., Rodríguez, E., and Reina, G. (2004). Algunas técnicas de clasificación automática de documentos. Cuadernos de documentación multimedia, ISSN-e, 1575–9733.
Golonka, S. and Estes, Z. (2009). Thematic relations affect similarity via commonalities. Journal of Experimental Psychology: Learning, Memory, and Cognition, 35(6), 1454.
Jain, A.K. (2010). Data clustering: 50 years beyond kmeans. Pattern recognition letters, 31(8), 651–666.
Kim, D., Seo, D., Cho, S., and Kang, P. (2019). Multico-training for document classification using various document representations: Tf–idf, lda, and doc2vec. Information Sciences, 477, 15–29.
Llorens, J., Velasco, M., Moreiro, J., and Morato, J. (1998). Características textuales como medida cualitativa de la información en la generación semiautomática de tesauros. Procesamiento del Lenguaje Natural, 23.
Montes y Gómez, M., Gelbukh, A., and López López, A. (2005). Minería de texto empleando la semejanza entre estructuras semánticas. Computación y Sistemas, 9(1), 63–81.
Muñoz, M.S. and Otón, E.M. (2010). Utilización de árboles semánticos para la comprensión de textos especializados a partir de su terminología. 18, 477–493.
Nandi, R.N., Zaman, M.A., Al Muntasir, T., Sumit, S.H., Sourov, T., and Rahman, M.J.U. (2018). Bangla news recommendation using doc2vec. In 2018 International Conference on Bangla Speech and Language Processing (ICBSLP), 1–5. IEEE.
Restrepo, J.G. and Pereira, R.T. (2015). Maskana: un gestor de conocimiento para recuperación y búsqueda inteligente de trabajos de grado en la universidad de Nariño. Revista Tecnológica-ESPOL, 28(5).
Rodríguez-Tapia, S. and Camacho-Cañamón, J. (2018). Los métodos de aprendizaje automático supervisado en la clasificación textual según el grado de especialización. Tonos Digital, 35(0).
Santana Mansilla, P.F., Costaguta, R.N., and Missio, D. (2014). Aplicación de algoritmos de clasificación de minería de textos para el reconocimiento de habilidades de e-tutores colaborativos.
Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1–47. Tan, P.N., Steinbach, M., and Kumar, V. (2016). Introduction to data mining. Pearson Education India.
Troyano, J.A., Díaz, V.J., Enríquez, F., Barroso, J., and Carrillo, V. (2003). Identificación de entidades con nombre basada en modelos de markov y árboles de decisión. Procesamiento del lenguaje natural, 31.
Vivas, L. and Coni, A.G. (2013). Relaciones conceptuales: Definición del constructo, bases neuroanatomías y formas de evaluación. Actualidades en psicología, 27(114), 1–18.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2021 REVISTA COLOMBIANA DE TECNOLOGIAS DE AVANZADA (RCTA)
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.