Repositorio Digital - Sistema de Bibliotecas Universidad del Bio-Bio (SIBUBB) >
PUBLICACIONES DIGITALES >
MEMORIAS: Proyectos de Título de Pregrado >
Facultad de Ingeniería >
Ingeniería Civil Industrial >
Por favor, use este identificador para citar o enlazar este ítem:
http://repobib.ubiobio.cl/jspui/handle/123456789/4107
|
Título : | Predicción de genero de los autores de artículos científicos con técnicas de minería de datos para determinar la participación en la creación de conocimiento científico por genero |
Otros títulos : | Gender prediction of authors of scientific articles using data mining techniques to determine the participation in the creation of scientific knowledge by gender |
Autor : | Troncoso Espinosa, Fredy Humberto Valenzuela B, Macarena profesora Yáñez Oyarce, Diego Antonio Universidad del Bío-Bío. Departamento de Ingeniería Industrial (Chile) |
Palabras clave : | MINERIA DE DATOS PUBLICACIONES CIENTIFICAS- MEDICIONES METODOLOGIA KDD DISTANCIA DE LEVENSHTEIN CREACION DE CONOCIMIENTO CIENTIFICO POR GENERO DESIGUALDAD DE GENERO KDD METHODOLOGY LEVENSHTEIN DISTANCE SCIENTIFIC KNOWLEDGE CREATION BY GENDER GENDER INEQUALITY |
Fecha de publicación : | 2023 |
Resumen : | En este estudio, se documenta la creación de un algoritmo el cual es capaz de determinar la participación femenina y masculina en una base de datos extraída desde Web of Science para ayudar en la creación de herramientas que apoyen los estudios de cienciometría de las áreas de dirección de la universidad, algoritmo el cual fue programado en Rstudio.
Se contempla el uso de la metodología Knowledge Discovery in Databases (KDD) para realizar minería de datos con métodos estadísticos tradicionales (uso de un diccionario de nombres) y algoritmos de edición de cadenas de texto (distancia de Levenshtein) sobre el primer y segundo nombre de los autores.
La metodología se aplica sobre una base de datos de 12.000 artículos científicos filtrados por tema “género” en Sudamérica, identificando 50.300 autores. Al utilizar un diccionario de nombres considerado en otras investigaciones se dejan 7.975 autores sin clasificar (16%), sin embargo, incorporando un algoritmo de edición de cadenas de texto se puede disminuir ese número a 3.092 (6%), número el cual coincide con la cantidad de autores que no se les puede identificar su nombre, por lo que en realidad la metodología clasifica el 100% de los autores potenciales a ser clasificados con un porcentaje de acierto del 88,18%. El algoritmo entrega como resultado que la participación femenina corresponde a un 57% (26.825) y la participación masculina a un 43% (20.383) al omitir aquellos autores que no les identifica ni primer ni segundo nombre. |
Descripción : | Memoria (Ingeniero Civil Industrial) --Universidad del Bío-Bío. Concepción, 2023. |
URI : | http://repobib.ubiobio.cl/jspui/handle/123456789/4107 |
Aparece en las colecciones: | Ingeniería Civil Industrial
|
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.
|