Estadística#

Introducción#

Los datos cuantitativos a menudo se resumen y analizan con métodos estadísticos y se visualizan con gráficos/gráficos/diagramas. Los métodos estadísticos revelan tendencias cuantitativas, patrones y valores atípicos en los datos, mientras que los diagramas y gráficos ayudan a transmitirlos al público. Llevar a cabo un análisis estadístico adecuado y elegir un tipo de gráfico adecuado para sus datos, identificar sus posibles errores y realizar fielmente el análisis o generar el gráfico con el software adecuado son esenciales para respaldar las conclusiones experimentales con datos y alcanzar los objetivos de comunicación.

Reducción de dimensionalidad#

¿Qué es?#

La reducción de dimensionalidad (también llamada reducción de dimensión) tiene como objetivo mapear datos de alta dimensión en un espacio de menor dimensión para revelar mejor tendencias y patrones. Los algoritmos que realizan esta tarea intentan retener la mayor cantidad de información posible al reducir la dimensionalidad de los datos. Esto se logra asignando puntajes de importancia a características individuales, eliminando redundancias e identificando características no informativas (por ejemplo, constantes). La reducción de la dimensionalidad es un paso importante en el análisis cuantitativo, ya que hace que los datos sean más manejables y fáciles de visualizar. También es un paso de preprocesamiento importante en muchos algoritmos de análisis posteriores, como los clasificadores de aprendizaje automático.

📏 ¿Cómo lo hago?

La técnica de reducción de dimensionalidad más tradicional es el análisis de componentes principales (PCA)50. En pocas palabras, PCA recupera una transformación lineal de los datos de entrada en un nuevo sistema de coordenadas (los componentes principales) que concentra la variación en sus primeros ejes. Esto se logra basándose en el álgebra lineal clásica, calculando una descomposición propia de la matriz de covarianza de los datos. Como resultado, los primeros 2 o 3 componentes principales proporcionan una versión de baja dimensión de la distribución de datos que es fiel a la varianza que estaba originalmente presente. Los métodos de reducción de dimensionalidad más avanzados que son populares en biología incluyen la incrustación de vecinos estocásticos distribuidos en t (t-SNE) y la aproximación y proyección de colector uniforme (UMAP). A diferencia de PCA, estos métodos no son lineales y, por lo tanto, pueden explotar relaciones más complejas entre características al construir la representación de menor dimensión. Sin embargo, esto tiene un costo: tanto t-SNE como UMAP son estocásticos, lo que significa que los resultados que producen dependen en gran medida de la elección de hiperparámetros y pueden diferir entre diferentes ejecuciones.

⚠️ ¿Dónde pueden salir mal las cosas?

Aunque reducir la dimensionalidad puede ser muy útil para la exploración y el análisis de datos, también puede eliminar información o estructura que sea relevante para el problema que se está estudiando. Esto está muy bien ilustrado por el [conjunto de datos de Datasaurus] (https://cran.r-project.org/web/packages/datasauRus/vignettes/Datasaurus.html), que demuestra cómo los conjuntos de medidas de aspecto muy diferente pueden volverse indistinguibles. cuando se describe mediante un pequeño conjunto de estadísticas resumidas. La mejor manera de minimizar este riesgo es comenzar explorando visualmente los datos siempre que sea posible, y verificando cuidadosamente las suposiciones subyacentes del método de reducción de dimensionalidad que se utiliza para garantizar que se mantengan para los datos considerados. La reducción de la dimensionalidad también puede mejorar y revelar patrones que no son biológicamente relevantes, debido al ruido o a artefactos sistemáticos en los datos originales (consulte la sección Corrección del efecto por lotes a continuación). Además de aplicar la normalización y la corrección por lotes a los datos antes de reducir la dimensionalidad, algunos métodos de reducción de la dimensionalidad también ofrecen las llamadas estrategias de regularización para mitigar esto. Al final, se debe considerar cualquier patrón identificado en los datos de dimensiones reducidas teniendo en cuenta el contexto biológico de los datos para interpretar los resultados adecuadamente.

📚🤷‍♀️ ¿Dónde puedo obtener más información?

Corrección por lotes#

¿Qué es?#

Los efectos por lotes son variaciones sistemáticas entre muestras correlacionadas con condiciones experimentales (como diferentes horas del día, diferentes días de la semana o diferentes herramientas experimentales) que no están relacionadas con el proceso biológico de interés. Los efectos por lotes deben mitigarse antes de realizar comparaciones entre varios conjuntos de datos, ya que afectan la reproducibilidad y la confiabilidad del análisis computacional y pueden sesgar drásticamente las conclusiones. Los algoritmos para la corrección del efecto por lotes abordan esto identificando y cuantificando las fuentes de variación técnica y ajustando los datos para que se minimicen mientras se preserva la señal biológica. La mayoría de los métodos de corrección de efectos por lotes se desarrollaron originalmente para datos de micromatrices y datos de secuenciación, pero se pueden adaptar a vectores de características extraídos de imágenes.

📏 ¿Cómo lo hago?

Dos de los métodos más utilizados para la corrección del efecto por lotes son ComBat y Surrogate Variable Analysis (SVA), dependiendo de si las fuentes de los efectos por lotes se conocen a priori o no. En pocas palabras, ComBat consta de tres pasos: 1) dividir los datos en lotes conocidos, 2) estimar el efecto del lote ajustando un modelo lineal que incluye el lote como covariable y 3) ajustar los datos eliminando el efecto estimado del lote de cada punto de datos. Por el contrario, SVA tiene como objetivo identificar «variables sustitutas» que capturan fuentes desconocidas de variabilidad en los datos. Las variables sustitutas se pueden estimar basándose en métodos de álgebra lineal (como la descomposición de valores singulares) o mediante un modelo de análisis factorial bayesiano. Se ha demostrado que SVA reduce las fuentes no observadas de variabilidad y, por lo tanto, es de particular ayuda cuando la identificación de las posibles causas de los efectos de los lotes es un desafío, pero tiene un costo computacional más alto que ComBat.

⚠️ ¿Dónde pueden salir mal las cosas?

A pesar de ser tan importante para el análisis, la corrección del efecto por lotes puede salir mal cuando se hace demasiado o muy poco. Tanto la sobrecorrección como la subcorrección pueden ocurrir cuando los métodos no se usan correctamente o cuando no se cumplen sus suposiciones subyacentes. Como resultado, las señales biológicas pueden eliminarse (en el caso de una corrección excesiva) o pueden permanecer fuentes de variación irrelevantes (en el caso de una corrección insuficiente), lo que podría conducir a conclusiones inexactas. La corrección del efecto por lotes puede ser particularmente complicada cuando se sospecha que la variación biológica de interés se confunde con el lote. En este caso en particular (aunque siempre es un buen enfoque), las primeras líneas de lucha contra los efectos por lotes deben ser un diseño experimental bien pensado y un control de calidad cuidadoso, así como una exploración visual de los datos 52. Graficar datos lote por lote antes de aplicar cualquier corrección puede ayudar a confirmar (o invalidar) que las tendencias observadas son similares en todos los lotes.

📚🤷‍♀️ ¿Dónde puedo obtener más información?

Pruebas de normalidad#

¿Qué es?#

Las pruebas de normalidad consisten en evaluar si los datos siguen una distribución gaussiana (o normal). Debido a que la distribución gaussiana se encuentra con frecuencia en la naturaleza y tiene propiedades matemáticas importantes, la normalidad es una suposición central en muchas pruebas estadísticas ampliamente utilizadas. Cuando se viola esta suposición, sus conclusiones pueden no ser válidas o ser erróneas. Por lo tanto, la prueba de normalidad es un paso importante de la pipeline de análisis de datos antes de cualquier tipo de prueba estadística.

📏 ¿Cómo lo hago?

La normalidad de una distribución de datos se puede evaluar cualitativamente mediante el trazado, por ejemplo, basándose en un histograma. Para una lectura más cuantitativa, los métodos estadísticos como las pruebas de Kolmogorov-Smirnov (KS) y Shapiro-Wilk (entre muchas otras) informan cuánto se desvía la distribución de datos observados de una gaussiana. Estas pruebas generalmente arrojan un valor p vinculado a la hipótesis de que los datos se muestrean a partir de una distribución gaussiana. Un valor p alto indica que los datos no son inconsistentes con una distribución normal, pero no es suficiente para demostrar que siguen una Gaussiana. Un valor de p más pequeño que un umbral de significancia predefinido (normalmente 0,05) indica que los datos no se muestrean a partir de una distribución normal.

⚠️ ¿Dónde pueden salir mal las cosas?

Aunque muchos de los métodos estadísticos «estándar» se han diseñado con una suposición de normalidad, existen enfoques alternativos para datos que no se distribuyen normalmente. Muchos procesos biológicos dan como resultado «estados» multimodales (por ejemplo, diferenciación) que inherentemente no son gaussianos. Por lo tanto, las pruebas de normalidad no deben confundirse con una evaluación de la calidad de los datos: simplemente informan sobre los tipos de herramientas que son apropiadas para usar al analizarlos.

📚🤷‍♀️ ¿Dónde puedo obtener más información?