Universal Dependencies of Old English. Automatic parsing with a computational model of language

Domínguez Barragán, Sara

Universal Dependencies of Old English. Automatic parsing with a computational model of language

Domínguez Barragán, Sara

Dirigida por:

Francisco Javier Martín Arista Director
Ana Elvira Ojanguren López Directora

Universidad de defensa: Universidad de La Rioja

Fecha de defensa: 19 de febrero de 2024

Tribunal:

María Luisa Carrió Pastor Presidente/a
Juan Antonio Cutillas Espinosa Secretario/a

Departamento:

Filologías Modernas

Programa de Doctorado:

Programa de Doctorado en Filología Inglesa por la Universidad de La Rioja

Tipo: Tesis

Teseo: 833507 DIALNET Dialnet editor

Repositorio institucional: Acceso abierto Editor

Resumen

Esta tesis se inscribe en los ámbitos de la lingüística histórica, la lingüística de corpus y el procesamiento del lenguaje natural. Para ser más precisos, se centra en la morfología y la sintaxis del inglés antiguo y pretende evaluar la precisión de un modelo automático de anotación del inglés antiguo que aplica el marco de las Dependencias Universales (de Marneffe et al. 2021). Para ello, se ha anotado manualmente un corpus de 25.000 palabras (corpus de oro) con los conjuntos de etiquetas del corpus paralelo inglés contemporáneo-inglés antiguo ParCorOEv2 (Martín Arista et al. 2021). A continuación, el conjunto de datos y el conjunto de etiquetas del corpus de oro se han adaptado para ajustarse a los requisitos de Dependencias Universales en términos de tokenización, anotación morfológica, anotación sintáctica y formato CoNLL-U. Al mismo tiempo, el conjunto de datos en bruto se ha anotado automáticamente y el resultado de la anotación automática se ha comparado con los resultados de la anotación manual. Esta comparación se refiere tanto al método como a la propia anotación. En cuanto al método, se ha evaluado y comparado con una publicación reciente, respecto a la cual este enfoque muestra una mayor precisión y un mejor rendimiento en términos generales. En cuanto a la anotación, se han identificado las principales áreas de error de la asignación automática de rasgos morfológicos, categorías gramaticales y funciones sintácticas. Las principales conclusiones de esta investigación apuntan a las limitaciones del modelo en cuanto a su rendimiento en la tarea de anotación automática del inglés antiguo y las Dependencias Universales, al tiempo que aportan algunas soluciones para abordar dichas limitaciones.