A machine learning model for improving the annotation of protein sequence variants in sequencing projects

  1. Álvarez de la Campa Crespo, Elena
Dirixida por:
  1. Francisco Javier de la Cruz Montserrat Director
  2. María Ángeles Martínez Balbás Co-director

Universidade de defensa: Universitat de Barcelona

Fecha de defensa: 26 de novembro de 2019

Tribunal:
  1. Javier Sancho Sanz Presidente/a
  2. Juan Fernández Recio Secretario
  3. Sara Gutierrez Enrriquez Vogal

Tipo: Tese

Teseo: 609931 DIALNET

Resumo

La aplicación de técnicas de secuenciación de última generación (NGS) en el entorno clínico está limitada, entre otras cosas, por nuestra incapacidad para determinar con precisión la variante causal de la condición del paciente a partir del conjunto de variantes identificadas en los experimentos de secuenciación. Con frecuencia, esto se debe a la falta de información sobre la patogenicidad de estas variantes. En esta situación, los predictores de patogenicidad, diseñados para estimar el daño causado por las variantes de secuencia, pueden proporcionar información valiosa. Para las variantes que resultan en sustituciones de aminoácidos, estas herramientas combinan propiedades que miden diferentes aspectos de la estructura/función de la proteína. Por ejemplo, algunas de las propiedades (como la hidrofobia o las diferencias de volumen) están relacionadas con cambios en la estabilidad de la proteína tras la mutación, mientras que otras indican si el sitio funcional de la proteína se ha dañado. Usando esta información, los predictores in silico producen una puntuación numérica que se transforma en una predicción binaria (patogénica/neutra) mediante el uso de un umbral de decisión. La precisión de estas predicciones es de alrededor del 80%. Aunque este valor no es un umbral fundamental que limita el uso de herramientas in silico en la clínica, este tipo de aplicación en principio no estaba recomendada. Sin embargo, esta situación está cambiando debido a tres hechos. Primero, la caída en los costes de secuenciación está dejando la interpretación de variantes como uno de los principales cuellos de botella en las aplicaciones clínicas de NGS, creando así una presión importante para encontrar estrategias que alivien este problema. En segundo lugar, y más en esta dirección, los usuarios clínicos consideran cada vez más la posibilidad de utilizar predicciones de patogenicidad como evidencia de apoyo que se puede combinar con datos médicos para respaldar las decisiones de diagnóstico. Esta visión ha sido facilitada por la aclaración de la naturaleza probabilística de la evidencia computacional. Y, tercero, el hecho de que la tasa de éxito de los predictores de patogenicidad permanezca en torno al 80%, independientemente de las diferencias técnicas entre ellos, indica que estas herramientas reconocen una señal común en muchas variantes patogénicas, pero ausente en las neutrales. En este escenario, donde las predicciones de patogenicidad pueden ser útiles, pero aún son imperfectas, el objetivo de este proyecto es obtener herramientas para identificar mutaciones patológicas cuando los métodos estándar no pueden proporcionar suficiente información. Con este fin, estudiamos cómo la caracterización de sistemas específicos proporciona pistas mecanicistas valiosas relevantes en la comprensión de la enfermedad, centrándonos en el caso de las deficiencias inmunes (Objetivo 1) y el caso de las variantes mitocondriales y sus enfermedades asociadas (Objetivo 2). Paralelamente, combinaremos herramientas estándar utilizando un enfoque genuinamente nuevo, basado en el particionado del espacio de las mutaciones y aplicando métodos de aprendizaje automático (Objetivo 3). Creemos que los resultados obtenidos en estos tres capítulos contribuirán a aumentar el alcance de las herramientas in silico en el entorno clínico.