A linguistically-aware computational approach to microtext location detection

  1. Fernández Martínez, Nicolás José
Dirigida por:
  1. Angel Miguel Felices Lago Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 21 de octubre de 2020

Tribunal:
  1. Cristóbal Jesús Lozano Pozo Presidente/a
  2. Pamela Faber Benítez Secretario/a
  3. Antonio Jesús Moreno Ortíz Vocal
  4. María Beatriz Pérez Cabello de Alba Vocal
  5. Rocío Jiménez Briones Vocal

Tipo: Tesis

Resumen

La extracción de información geoespacial rica de microtextos como los tweets es sumamente importante para sistemas geolocalizadores en servicios de emergencias para contribuir a la conciencia situacional sobre una emergencia como desastres naturales o producidos por el hombre, ya sean terremotos, inundaciones, pandemias, accidentes de tráfico, ataques terroristas, tiroteos, etc. (Vieweg et al., 2010; Crooks et al., 2013; Imran et al., 2014; Jongman et al., 2015; Martínez-Rojas et al., 2018; C. Zhang et al., 2019; Siriaraya et al., 2019). Dicho de otra manera, los servicios de emergencias y autoridades competentes necesitan comprender dónde ha ocurrido el incidente, dónde necesita la gente ayuda y/o qué lugares han sido afectados con el objetivo de proporcionar asistencia inmediata y destinar recursos en aquellas áreas o a aquellas personas afectadas. Estos sistemas podrían servir para salvar vidas y prevenir futuros daños a zonas urbanas o áreas medioambientales en contextos de crisis o emergencias. El problema reside en la escasez de tweets geoetiquetados (Middleton et al., 2014); por tanto, ha de recurrirse a los mensajes de texto en búsqueda de esa evidencia geoespacial (Wallgrün et al., 2018). En este contexto, presentamos LORE, un sistema multilingüístico de detección de localizaciones en tweets en inglés, español y francés basado en reglas que integra recursos léxicos de nombres de lugar y de palabras que indican localización junto con conocimiento lingüístico proporcionado por diversas técnicas computacionales de Procesamiento de Lenguaje Natural. También introducimos nLORE, un modelo basado en Deep Learning que se nutre del conocimiento lingüístico proporcionado por LORE. Una de las contribuciones más notables de nuestros modelos tiene que ver con la granularidad semántica de los tipos de localizaciones extraídas, desde entidades geopolíticas (e.g. pueblos, ciudades, regiones, países, etc.) y accidentes geográficos (e.g. montañas, ríos, lagos, colinas, valles, etc.) hasta puntos de interés (e.g. plazas, catedrales, universidades, residencias, restaurantes, museos, etc.) y vías de tráfico (e.g. calles, avenidas, carreteras, autovías, etc.). LORE supera a sistemas conocidos de dominio general de reconocimiento de entidades nombradas que se utilizan con frecuencia en sistemas de evaluación (Schmitt et al., 2019) como Stanford NER, spaCy, NLTK, OpenNLP, Google Natural Language Cloud y Stanza, alcanzando unas puntuaciones récord de evaluación en términos de precisión y cobertura, a la vez que muestra un rendimiento similar cuando se aplica a otros corpora. nLORE llega a superar LORE por un margen estrecho y confirma la utilidad de la implementación de características lingüísticas en la Inteligencia Artificial (Linzen, 2019). En este sentido, nuestros modelos proporcionan, no solo un salto cuantitativo respecto a la competencia en términos de rendimiento y precisión, sino también un salto cualitativo dada la diversidad y granularidad semántica de las referencias locativas que se pueden extraer de los tweets.