Lemmatisation of old english strong verbs on a lexical database

La nueva base de datos del Proyecto Nerthus, llamada The Grid, fue presentada por Martín Arista en una conferencia dictada en la Universidad de Sheffield en 2013. The Grid consiste en cinco tablas relacionadas: la base de datos léxica Nerthus, una concordancia por fragmentos, una concordancia por palabras, un índice y un índice inverso de The Dictionary of Old English Corpus. The Grid no está basado en formas de diccionario, sino en atestiguaciones textuales. De todas las líneas de investigación posibles que esta nueva organización de la base de datos ofrece, este trabajo se hace cargo de la lematización de las formas textuales. La razón es que un corpus morfológicamente anotado de inglés antiguo es una asignatura pendiente de esta disciplina. La información morfológica sólo está disponible para las letras A-G, las cuales ya han sido publicadas por el The Dictionary of Old English, pero no existe, o no es tan fácil de encontrar en los diccionarios actuales para las letras H-Y. El propósito de la investigación es proporcionar un inventario de lemas de verbos fuertes basados en la evidencia textual que viene proporcionada por el Dictionary of Old English Corpus. Respecto al Proyecto Nerthus, esta tesis intenta desarrollar un sistema de búsquedas basado en sucesivas búsquedas, de manera que las formas más transparentes sean etiquetadas antes que otras formas más opacas. La restricción del ámbito de análisis a los verbos fuertes se basa en dos razones. La primera es que el sistema de verbos fuertes en ingles antiguo desempeña un papel central en la derivación y el desarrollo del léxico. Por otra parte, los verbos fuertes, caracterizados por la apofonía, o ablaut, pueden ser buscados no solo por la terminación flexiva, pero también por la vocal radical, lo que contribuye a refinar el sistema de búsquedas. El punto de partida de esta investigación es que la labor de lematización se puede hacer en parte automáticamente y en parte manualmente. La información contenida en la base de datos, junto con las funcionalidades de Filemaker, pueden maximizar la parte automática del análisis y minimizar la revisión manual. La metodología incluye tres pasos principales: la recopilación de un corpus de verbos fuertes que se adapte al análisis, la identificación de las formas flexivas, y la definición de códigos de búsqueda automática. La lista de verbos fuertes se ha tomado de la lista de referencia de verbos fuertes del Proyecto Nerthus, que se basa en las siete clases de Campbell (1987) y Hogg and Fulk (2011), y en las subclases de Krygier (1994). Para la identificación de las formas flexivas relevantes, los verbos fuertes que no han sido derivados, han sido derivados en el infinitivo, presente de indicativo, pretérito de indicativo, presente de subjuntivo, pretérito de subjuntivo, e imperativo, todos ellos en singular y plural. Para las búsquedas en la base de datos léxica, esta tesis propone un sistema de cuatro códigos de búsqueda sucesivos que están diseñados específicamente para buscar determinadas formas verbales. Aparte del inventario de verbos fuertes, en las conclusiones se presentan resultados en dos áreas. Primero, esta tesis puede responder de manera motivada la cuestión de los límites en la automatización en el análisis morfológico. En segundo lugar, que tesis arroja luz sobre la cuestión de la regularización de la ortografía característica del trabajo lexicográfico o normalización.