L'aprenentatge automàtic incremental i la seva aplicació al PLN inter-actiu

  1. Benavent Portabella, Francesc
Dirigida por:
  1. Toni Badia Cardús Director/a

Universidad de defensa: Universitat Pompeu Fabra

Fecha de defensa: 29 de noviembre de 2013

Tribunal:
  1. Irene Castellón Masalles Presidente/a
  2. Antonio Oliver González Secretario/a
  3. Xavier Carreras Vocal

Tipo: Tesis

Teseo: 352383 DIALNET lock_openTDX editor

Resumen

En este trabajo se propone utilizar técnicas de Aprendizaje Automático Incremental, también conocido como Aprendizaje On-Line, para resolver tareas de Procesamiento de Lenguaje Natural de manera más eficiente. También estudia la viabilidad técnica de su aplicación en el desarrollo de entornos Inter-Activos de anotación lingüística. El documento está estructurado en tres partes: la justificación conceptual de la propuesta, la viabilidad técnica a partir del estado de la cuestión y las pruebas experimentales para obtener datos cuantitativos sobre la eficiencia conseguida. La primera parte describe la situación actual, basada en el paradigma de aprendizaje batch, cuestiona el consenso existente y expone sus limitaciones: económicas, técnicas y metodológicas. A continuación, presenta el paradigma incremental y plantea la forma en que una arquitectura Inter-Activa, basada en el aprendizaje activo y los algoritmos incrementales, podría minimizar el cuello de botella asociado a la anotación manual de corpus. La segunda parte presenta el estado de la cuestión del Aprendizaje Automático Incremental: los algoritmos de inducción de modelos, las arquitecturas de combinación de clasificadores y las técnicas auxiliares de optimización y evaluación. La tercera parte del trabajo describe la metodología utilizada en una serie de pruebas experimentales, con cuatro tareas de PLN, con el objetivo de cuantificar la calidad de los modelos inducidos y la eficiencia de los entrenamientos. Presenta los resultados de más de un centenar de experimentos, analiza y justifica las curvas de evaluación obtenidas y compara los entrenamientos en términos de precisión y eficiencia alcanzada. Los resultados validan la hipótesis principal del trabajo, que defiende que mediante el entrenamiento Inter-Activo es posible obtener modelos clasificadores tan o más precisos que con el entrenamiento estándar, pero utilizando únicamente una fracción del corpus existente; concretamente, y según las pruebas realizadas, requiriendo entre 5 y 100 veces menos ejemplos. Así mismo, también profundiza en el análisis de los datos obtenidos durante los entrenamientos basados en el aprendizaje activo, especialmente en la evolución de los grados de certeza de sus clasificaciones y de la precisión de estas estimaciones. A partir de estos datos se concluye que la selección de ejemplos basada en un umbral de certeza es demasiado sensible al valor elegido, y se sugiere investigar algoritmos de entrenamiento basados en umbrales de certeza dinámicos.