Generación de flexión morfológica con UniMorph.Evaluación con base de datos relacional y pautas de entrenamiento

  1. Martín Arista, Javier
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2022

Número: 68

Páginas: 61-70

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Repositorio institucional: lock_openAcceso abierto Postprint lock_openAcceso abierto Editor

Resumen

El propósito de este artículo es evaluar la generación morfológica flexiva del set de datos UniMorph. El método del estudio se basa en el modelo de generación de paradigmas morfológicos putativos propuesto por McCarthy et al. (2020). La evaluación incluye las flexiones (tanto los rasgos morfológicos como sus valores), las formas flexivas y los radicales. Se aborda también la cuestión de la plausibilidad, entendida como la atestiguación efectiva de una forma flexiva. Las tareas de evaluación se llevan a cabo en una base de datos relacional específicamente diseñada para almacenar y comparar los sets de datos relevantes, que incluyen bancos de datos y bases de datos recopilados a partir de fuentes lexicográficas y textuales del inglés antiguo. La conclusión general es que el set de datos del inglés antiguo de UniMorph es congruente y robusto. Sin embargo, sobre la base de la evaluación que se lleva a cabo en este estudio se proponen algunas líneas maestras para el entrenamiento del modelo relativas a los caracteres, diacríticos, el prefijo ge- en verbos, el grado superlativo del adjetivo, el participio flexionado de acuerdo con la declinación adjetival y algunos aspectos mejorables de tipo local.

Datos de investigación

Referencias bibliográficas

  • Anthony, L. 2020. AntConc (Version 3.5.9) [Computer Software]. Tokyo, Japan: Waseda University. Available from https://www.laurenceanthony.net/software
  • Campbell, A. 1987. Old English Grammar. Oxford University Press, Oxford.
  • Çöltekin, Çağrı. 2019. Cross-lingual morphological inflection with explicit alignment. Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology, pages 71–79, Association for Computational Linguistics.
  • Cotterell, R., C. Kirov, J. Sylak-Glassman, G. Walther, E. Vylomova, A. D. McCarthy, K. Kann, S. Mielke, G. Nicolai, M. Silfverberg, D. Yarowsky, J. Eisner, and M. Hulden. 2018. The CoNLL–SIGMORPHON 2018 Shared Task: Universal Morphological Reinflection. Proceedings of the CoNLL–SIGMORPHON 2018 Shared Task: Universal Morphological Reinflection, pages 1-27, Association for Computational Linguistics.
  • Healey, A. (ed.), J. Wilkin, and X. Xiang. 2004. The Dictionary of Old English web corpus. Toronto: Dictionary of Old English Project, Centre for Medieval Studies, University of Toronto.
  • Healey, A. (ed.). 2018. The Dictionary of Old English in electronic form A-I. Toronto: Dictionary of Old English Project, Centre for Medieval Studies, University of Toronto.
  • Hogg, R. M., and R. D. Fulk. 2011. A Grammar of Old English. Volume 2: Morphology. Blackwell.
  • Johnson, B. 2009. Using the Levenshtein algorithm for automatic lemmatization in Old English. MA Thesis, The University of Georgia.
  • Jurafsky, D., and J. H. Martin. Speech and Language Processing (3rd. edition). Forthcoming.
  • Kastovsky, D. 1992. Semantics and vocabulary. In R. Hogg (ed.) The Cambridge history of the English language I: The beginnings to 1066, pages 290-408, Cambridge University Press, Cambridge.
  • Martín Arista, J. 2012. The Old English prefix ge-: A panchronic reappraisal. Australian Journal of Linguistics, 32(4):411–433.
  • Martín Arista, J., S. Domínguez Barragán, L. García Fernández, E. Ruíz Narbona, R. Torre Alonso, R., and R. Vea Escarza. 2021. ParCorOEv2. An open access annotated parallel corpus Old English-English. Nerthus Project, Universidad de La Rioja, www.nerthusproject.com.
  • McCarthy, A. D., C. Kirov, M. Grella, A. Nidhi, P. Xia, K. Gorman, E. Vylomova, S. J. Mielke, G. Nicolai, M. Silfverberg, T. Arkhangelskij, N. Krizhanovsky, A. Krizhanovsky, E. Klyachko, A. Sorokin, J. Mansfield, V. Ernštreits, Y. Pinter, C. L. Jacobs, R. Cotterell, M. Hulden, and D. Yarowsky. 2020. UniMorph 3.0: Universal Morphology. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), pages 3922–3931, European LanguageResources Association.
  • Sylak-Glassman, J. 2016. The Composition and Use of the Universal Morphological Feature Schema (UniMorph Schema). Working draft, v. 2. Forthcoming.
  • Taylor, A., A. Warner, S. Pintzuk, and F. Beths. 2003. The York-Toronto-Helsinki Parsed Corpus of Old English Prose https://www-users.york.ac.uk/~lang22/YcoeHome1.htm.
  • Torre Alonso, R. 2021. Old English Class I Strong Verbs Lemmatization: A Morphological Generation Approach. Studia Neophilologica. To appear. DOI: 10.1080/00393274.2021.2010128.