Universal Dependencies of Old English. Automatic parsing with a computational model of language

Domínguez Barragán, Sara

Universal Dependencies of Old English. Automatic parsing with a computational model of language

Domínguez Barragán, Sara

Supervised by:

Francisco Javier Martín Arista Director
Ana Elvira Ojanguren López Director

Defence university: Universidad de La Rioja

Fecha de defensa: 19 February 2024

Committee:

María Luisa Carrió Pastor Chair
Juan Antonio Cutillas Espinosa Secretary

Department:

Filologías Modernas

Doctoral Programme:

Programa de Doctorado en Filología Inglesa por la Universidad de La Rioja

Type: Thesis

Teseo: 833507 DIALNET Dialnet editor

Institutional repository: Open access Editor

Abstract

Esta tesis se inscribe en los ámbitos de la lingüística histórica, la lingüística de corpus y el procesamiento del lenguaje natural. Para ser más precisos, se centra en la morfología y la sintaxis del inglés antiguo y pretende evaluar la precisión de un modelo automático de anotación del inglés antiguo que aplica el marco de las Dependencias Universales (de Marneffe et al. 2021). Para ello, se ha anotado manualmente un corpus de 25.000 palabras (corpus de oro) con los conjuntos de etiquetas del corpus paralelo inglés contemporáneo-inglés antiguo ParCorOEv2 (Martín Arista et al. 2021). A continuación, el conjunto de datos y el conjunto de etiquetas del corpus de oro se han adaptado para ajustarse a los requisitos de Dependencias Universales en términos de tokenización, anotación morfológica, anotación sintáctica y formato CoNLL-U. Al mismo tiempo, el conjunto de datos en bruto se ha anotado automáticamente y el resultado de la anotación automática se ha comparado con los resultados de la anotación manual. Esta comparación se refiere tanto al método como a la propia anotación. En cuanto al método, se ha evaluado y comparado con una publicación reciente, respecto a la cual este enfoque muestra una mayor precisión y un mejor rendimiento en términos generales. En cuanto a la anotación, se han identificado las principales áreas de error de la asignación automática de rasgos morfológicos, categorías gramaticales y funciones sintácticas. Las principales conclusiones de esta investigación apuntan a las limitaciones del modelo en cuanto a su rendimiento en la tarea de anotación automática del inglés antiguo y las Dependencias Universales, al tiempo que aportan algunas soluciones para abordar dichas limitaciones.