Outlier identification in industrial processesa new method

  1. Manuel Castejón Limas
  2. Joaquín Bienvenido Ordieres Meré
  3. Ana González Marcos
  4. Alpha Verónica Pernía Espinoza
Libro:
VIII Congreso Internacional de Ingeniería de Proyectos: Bilbao 6-8 de octubre de 2004. Actas

Editorial: Asociación Española de Ingeniería de Proyectos (AEIPRO)

ISBN: 84-95809-22-2

Año de publicación: 2005

Congreso: CIDIP. Congreso Internacional de Ingeniería de Proyectos (8. 2004. Bilbao)

Tipo: Aportación congreso

Resumen

La incorporación de las Tecnologías de la Información a los procesos industriales abre la puerta a la mejora de la calidad de los mismos a través de nuevos métodos de análisis y modelización. La ingente cantidad de información disponible gracias al registro en una base de datos de las señales del proceso permiten adentrarnos en su estructura intrínseca sin las mermas redundantes de la desconsideración de efectos ni las suposiciones de linealidad usuales. No obstante, las herramientas de minería de datos disponibles, son susceptibles de errar en sus resultados por la presencia en las bases de datos de trabajo de valores cuyo comportamiento se aleja de los patrones observados. Resulta prudente, como paso previo a la modelización del proceso, discriminar entre aquellas muestras "excéntricas" que se apartan del comportamiento general, de aquellas otras útiles para la elaboración de un modelo. En este artículo se presentan los resultados obtenidos por un algoritmo de creación propia, capaz de identificar datos excéntricos en conjuntos de datos de carácter industrial. El algoritmo se encuentra implementado en un lenguaje de programación gratuito y de libre acceso (R) y su aplicación ha resultado útil no sólo en la mejora de los modelos matemáticos de predicción de diferentes industrias, sino también en la determinación de las causas que originaron la presencia de datos excéntricos en la muestra. A lo largo del artículo se hilvana la relación que existe entre las técnicas de identificación de casos atípicos, los algoritmos de análisis cluster y de análisis discriminante: cómo los primeros son imprescindibles para el propósito planteado, y cómo los segundos proporcionan una interpretación de los resultados obtenidos.