Automatic Lemmatization of Old English Class III Strong Verbs (L-Y) with ALOEV3

Este artículo presenta ALOEV3, un lematizador basado en la Generación Morfológica que permite la lematización automática basada en tipos de los verbos fuertes de la clase III del inglés antiguo que comienzan por las letras L-Y. El lematizador opera sobre la base de las reglas de alternancia flexiva, derivativa y morfofonológica propias de esta clase. Las formas generadas se contrastan con los dos corpus de referencia del inglés antiguo, a saber, el "Dictionary of Old English Corpus y el York-Toronto-Helsinki Parsed Corpus of Old English Prose", a fin de validar su atestiguación y asignarles el lema correspondiente. Los resultados muetran que al 97% de las forma generadas se les asigna un único lema. El resto de formas flexivas generadas (38 de 1.256) muestran competencia entre dos lemas. Esto implica que a pesar del algo grado de precisión del lematizador, aún es necesaria la desambiguación contextual basada en tokens. No obstante, la competición de lemas esta restringida a un número limitado de pares de lemas y sus derivados. Aunque centrada en sólo una clase de verbos, esta investigación confirma que explorar procesos de lematización automática contribuye al campo de la lexicografía del inglés antiguo, bien mediante la lematización automática de las formas atestiguadas o la identificación de zonas grises que requieren revisión manual.

