Ciencia y Tecnología

Nuevos métodos estadísticos para mejorar el análisis genómico

Los nuevos métodos estadísticos ofrecen formas más eficientes de descubrir cambios biológicamente significativos en los datos genómicos en múltiples condiciones, como el tipo de célula y el tejido.

Los estudios del genoma completo arrojan una gran cantidad de datos, desde millones de secuencias de ADN individuales hasta la ubicación de elementos funcionales dentro del genoma e información sobre dónde se expresan miles de genes. Debido a la cantidad y complejidad de los datos, comparar diferentes condiciones biológicas o comparar estudios realizados en diferentes laboratorios puede ser un desafío estadístico.

Qunhua Li, profesor asociado de estadística en la Universidad Estatal de Pensilvania, dijo: “Los métodos existentes son computacionalmente costosos y producen resultados que son difíciles de interpretar biológicamente. CLIMB mejora los métodos existentes y produce resultados que son computacionalmente eficientes y biológicamente interpretables. Hemos probado este método en tres tipos de datos genómicos recopilados de células hematopoyéticas relacionadas con el tallo sanguíneo También se pueden utilizar células, pero el método está abierto al análisis de otros datos “ómicos”.

Los investigadores describen el método CLIMB (Composite Likelihood eMpirical Bayes) en un artículo publicado en línea en la revista el 12 de noviembre. comunicación de la naturaleza.

“En un experimento en el que hay una gran cantidad de información, pero proviene de un número relativamente pequeño de personas, es útil poder usar la información de la manera más eficaz posible”, dijo en ese momento un estudiante de posgrado de la Universidad Estatal de Pensilvania. del estudio Hilary Koch, una estudiante, dijo: Estadístico superior. en Moderna. “Hay una ventaja estadística en poder mirar todo junto y usar información de experimentos relacionados. CLIMB nos permite hacer precisamente eso”.

El método CLIMB utiliza los principios de dos técnicas tradicionales para analizar datos en múltiples condiciones. Una técnica utiliza comparaciones por pares entre un conjunto de condiciones, lo que se vuelve cada vez más difícil de interpretar a medida que se agregan más condiciones.

Otra técnica combina los patrones de actividad de cada sujeto en diferentes condiciones en “vectores de asociación”, por ejemplo, genes que están regulados al alza, a la baja o invariantes en cada uno de los muchos tipos de células. El vector de asociación refleja directamente el patrón de especificidad de la condición y es fácil de interpretar. Sin embargo, incluso si hay pocas condiciones, son posibles varias combinaciones, por lo que la cantidad de cálculo es muy grande. Para superar este desafío, hacemos suposiciones sobre cómo simplificar los datos que este segundo enfoque por sí solo no siempre es correcto.

“CLIMB aprovecha los aspectos de estos dos enfoques”, dice Koch. “Eventualmente analizaremos los vectores de asociación, pero primero usaremos el análisis por pares para identificar patrones que pueden existir a priori. Elimina combinaciones que los datos no respaldan fuertemente, lo que reduce en gran medida el espacio de posibles modelos en condiciones que de otro modo serían muy computacionalmente intensivo.”

Después de compilar un conjunto reducido de posibles vectores de asociación, el método agrupa sujetos que siguen el mismo patrón en todas las condiciones. Por ejemplo, los resultados pueden indicar a los investigadores un conjunto de genes que están regulados al alza colectivamente en algunos tipos de células pero están regulados a la baja en otros.

Los investigadores probaron el método en los datos recopilados de los experimentos utilizando una técnica llamada RNA-seq, que puede medir la cantidad de ARN producido a partir de cada gen expresado en una célula.Investigamos cómo las células madre hematopoyéticas ayudan a determinar qué tipo de célula. Finalmente transformado.

“En comparación con los métodos comunes por pares, nuestros resultados son más específicos. Nuestras listas de genes son más concisas y biológicamente más relevantes”.

Los métodos tradicionales por pares identificaron de 6 a 7000 genes de interés, mientras que CLIMB generó una lista mucho más pequeña de 2 a 3000 genes, y ambos análisis identificaron al menos 1000 genes.

“Diferentes tipos de glóbulos tienen diferentes funciones. Algunas se convierten en glóbulos rojos, otras en células inmunitarias. Y qué genes probablemente están involucrados en la determinación de cada tipo de célula diferente”. Queríamos saber si era posible”, dijo Ross Hardison de T.Ming. Chu Profesor de Bioquímica y Biología Molecular en Penn State University. “El enfoque CLIMB extrajo varios genes importantes. Es mucho más específico y más fácil de interpretar”.

Los investigadores también utilizaron CLIMB en datos generados a partir de ChIP-seq, otra técnica experimental que puede identificar ubicaciones en el genoma donde proteínas específicas se unen al ADN. Muestran cómo la unión de una proteína llamada CTCF, un factor de transcripción que ayuda a establecer las interacciones necesarias para regular los genes en el núcleo celular, varía en 17 poblaciones celulares derivadas de una misma célula madre hematopoyética o no cambia. Los análisis CLIMB han identificado distintas categorías de sitios asociados con CTCF, algunos revelan un papel para este factor de transcripción en todas las células sanguíneas y otros en tipos de células específicos.

Finalmente, el equipo examinó datos de otra técnica experimental llamada DNase-seq, que puede localizar regiones reguladoras, para determinar la accesibilidad de la cromatina (un complejo de ADN y proteínas) en 38 células humanas comparadas.

“Para las tres pruebas, queríamos ver si los resultados tenían relevancia biológica, por lo que comparamos los resultados con datos independientes, como estudios de secuenciación de alto rendimiento de modificaciones de histonas y huellas dactilares de factores de transcripción”, dijo Koch. “En cada caso, nuestros resultados son consistentes con estos otros métodos. A continuación, queremos mejorar la velocidad computacional del método y aumentar la cantidad de condiciones que puede manejar. Por ejemplo, la accesibilidad a la cromatina. Los datos están disponibles para muchos otros tipos de células. , por lo que queremos escalar CLIMB”.

Además de Li, Koch y Hardison, el equipo de investigación incluye a Cheryl Keller, Guanjue Xiang y Belinda Giardine de la Universidad Penn State, Feipeng Zhang de la Universidad Xi’an Jiaotong en China y Yicheng Wang de la Universidad de Columbia. Este trabajo fue apoyado por los Institutos Nacionales de Salud, incluido el Instituto Nacional de Ciencias Médicas Integrales, el Instituto Nacional del Genoma Humano y el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales.

About the author

w-admin

Leave a Comment