The Lemmatisation of Old English Weak Verbs on a Relational Database

Tío Sáenz, Marta

The Lemmatisation of Old English Weak Verbs on a Relational Database

Tío Sáenz, Marta

Supervised by:

Francisco Javier Martín Arista Director
Monika Kirner Ludwig Co-director

Defence university: Universidad de La Rioja

Fecha de defensa: 28 October 2019

Committee:

Javier Calle Martín Chair
Roberto Torre Alonso Secretary
Begoña Crespo Committee member

Department:

Filologías Modernas

Doctoral Programme:

Programa de Doctorado en Filología Inglesa por la Universidad de La Rioja

Type: Thesis

Teseo: 606554 DIALNET Dialnet editor

Institutional repository: Open access Editor

Abstract

Resumen en castellano: Esta tesis trata de la morfología verbal del inglés antiguo para identificar y lematizar los verbos débiles de esta lengua en un corpus al que se accede a través de una base de datos léxica. La lematización es una de las tareas más importantes a la hora de construir un diccionario. Sin embargo, es una de las tareas pendientes en el campo de la lingüística histórica debido a que no existen corpora exhaustivos y lematizados de esta lengua. El enfoque de esta tesis doctoral está en la lematización de las tres clases de verbos débiles del inglés antiguo, aunque las áreas de la Lexicografía y la Lingüística de Corpus son también relevantes para esta investigación. Las fuentes principales de esta investigación son las formas flexivas que están atestiguadas en el Dictionary of Old English Corpus (DOEC) y que están disponibles en el lematizador Norna, las fuentes lexicográficas que existen publicadas sobre esta lengua, principalmente el Dictionary of Old English (DOE), y otras fuentes textuales como el York-Toronto-Helsinki Parsed Corpus of Old English (YCOE) y una indexación de fuentes secundarias del inglés antiguo. El objetivo principal supone la identificación de las flexiones de los verbos débiles y de su lematización con uno de los lemas propuestos en las listas de referencia. Conseguir este objetivo implica manejar las fuentes disponibles en inglés antiguo para poder lematizar y validar los resultados del análisis y el diseño de un método que combine búsquedas automáticas en la base de datos léxica Nerthus y la revisión manual de los resultados. La metodología incluye cuatro pasos sucesivos con diversas tareas en cada paso. El primero de estos pasos tiene como objetivo la lematización de las formas canónicas de los verbos débiles lanzando cadenas de búsquedas específicas para cada clase de verbos débiles en el lematizador Norna, donde está disponible un índice de tipos del DOEC, la fuente de información más fiable de la que se dispone en inglés antiguo. Después, los resultados se validan con el DOE y se añaden las formas no-canónicas de los verbos débiles entre las letras A y H. El tercer paso tiene como objetivo identificar las formas no-canónicas de las terminaciones flexivas y de las vocales de los radicales que aparecen con más frecuencia en los verbos débiles para generar patrones de lematización. La búsqueda de estos patrones y de la lista de prefijos no-canónicos que está disponible en Norna culmina en la lematización de las formas flexivas no transparentes de los verbos débiles. La validación de los resultados de las letras I a la Y supone el último paso de la metodología, donde se comparan los datos obtenidos con el análisis sintáctico del YCOE y con los datos que se obtienen de una base de datos de indexación de las fuentes secundarias del inglés antiguo. Los problemas que surgen a lo largo del proceso de lematización tienen que ver principalmente con las peculiaridades del inglés antiguo y las limitaciones de la lematización de tipos que esta investigación sigue. La discusión de los resultados del análisis concluye esta tesis. Las principales aportaciones de esta tesis son las listas de lemas y sus formas flexivas, especialmente las de los verbos entre las letras I y la Y ya que no están disponibles todavía, y el método que se ha diseñado para identificar estas formas, incluyendo los patrones de lematización generados para lematizar las formas con terminaciones no comunes y vocales no canónicas en el radical.