FAIR and interactive data graphics from a scientific knowledge graph

Las tecnologías de transcriptómica son las técnicas utilizadas para el estudio del transcriptoma de un organismo, es decir, el conjunto de todos sus transcritos de ARN. La información contenida en un organismo se guarda en el ADN de su genoma y se expresa mediante la transcripción. Entonces, el ARNm sirve como una molécula intermediaria y transitoria en la red de información, mientras que los ARNs no codificantes cumplen con diferentes funciones adicionales. Un transcriptoma refleja una foto fija en el tiempo de los transcritos totales presentes en una célula. Las tecnologías de transcriptómica permiten saber qué procesos celulares se encuentran activos y cuáles inactivos. Uno de los principales retos de la biología molecular es comprender cómo un único genoma origina variedad de células. Otro es cómo se regula la expresión génica.

Los primeros intentos en estudiar transcriptomas completos comenzó al comienzo de la década de 1990. Desde finales de esta década, los subsiguientes avances tecnológicos han transformado repetidamente el campo y hecho de la transcriptómica una disciplina generalizada en las ciencias biológicas. Existen dos técnicas actuales clave en este campo: microarrays, los cuales cuantifican un conjunto de secuencias predeterminadas, y ARN-Seq, el cual utiliza secuenciación de alto rendimiento para registrar todos los transcritos. Conforme la tecnología ha mejorado, el volumen de datos producidos por cada experimento de transcriptómica se ha incrementado. Como resultado, los métodos de análisis de datos se han adaptado continuamente para analizar, de manera más precisa y eficiente, grandes volúmenes de datos. Las bases de datos transcriptómicos también se han ampliado y se han vuelto más útiles a medida que los investigadores continúan coleccionando y compartiendo transcriptomas. Sin el conocimiento de experimentos previos, sería imposible interpretar la información contenida en un transcriptoma.

La medición de la expresión de los genes de un organismo en tejidos, condiciones o momentos diferentes, aporta información sobre cómo los genes se regulan y revela detalles de la biología de un organismo. También se puede utilizar para inferir las funciones de genes previamente no anotados. Los análisis del transcriptoma han permitido el estudio de cómo la expresión génica cambia en diferentes organismos y ha sido crucial en la comprensión de las enfermedades humanas. Un análisis completo de la expresión génica hace posible la detección de tendencias amplias y coordinadas que no pueden discernirse de otra forma mediante ensayos más específicos.

Historia

Uso de métodos de transcriptómica a lo largo del tiempo. Artículos publicados sobre ARN-Seq (negro), microarrays de ARN (rojo), marcadores de secuencia expresada (EST) (azul), visualización diferencial digital (DDD) (verde) y análisis en serie/cap de la expresión génica (amarillo), desde 1990.[1]

La transcriptómica se ha caracterizado por el desarrollo de nuevas técnicas, las cuales han redefinido cada década lo que es posible y han convertido en obsoletas tecnologías previas. El primer intento en capturar el transcriptoma humano de manera parcial fue publicado en 1991 e informó de 609 secuencias de ARNm del cerebro humano.[2]​ En 2008 se publicaron dos transcriptomas humanos, compuestos de millones de secuencias derivadas de transcritos y cubriendo 16 000 genes.[3][4]​ En 2015, se habían publicado transcriptomas de cientos de individuos.[5][6]​ Actualmente, se generan continuamente transcriptomas de diferentes enfermedades, tejidos o incluso de células únicas.[6][7][8]​ El rápido desarrollo de nuevas tecnologías con sensibilidad mejorada y más baratas ha posibilitado esta explosión en transcriptómica.[9][10][11][12]

Antes de la transcriptómica

Varias décadas antes de que estuviera disponible cualquier estrategia de transcriptómica, ya se realizaban estudios de transcritos individuales. A finales de la década de 1970, se coleccionaron transcritos de ARNm de la mosca de seda, convirtiéndolos a ADN complementario (ADNc) para almacenamiento mediante transcriptasa inversa.[13]​ En los años 1980, la secuenciación de bajo rendimiento utilizando el método de Sanger se utilizó para secuenciar transcritos al azar, produciendo marcadores de secuencias expresadas (ESTs).[2][14][15][16]​ El método de secuenciación de Sanger predominaba hasta la llegada de los métodos de alto rendimiento, tales como la secuenciación por síntesis (Solexa/Illumina). Las secuencias ESTs se convirtieron en las predominantes durante los años 1990 como un método eficiente para determinar el contenido de genes de un organismo sin secuenciar el genoma completo.[16]​ Multitud de métodos permitieron cuantificar transcritos individuales, tales como northern blot, matrices de membrana de nailon y PCR cuantitativa tras transcriptasa inversa (RT-qPCR).[17][18]​ Sin embargo, estos métodos son laboriosos y solo pueden capturar una pequeña subsección del transcriptoma.[12]​ Consecuentemente, la manera en que un transcriptoma en su conjunto se expresa y regula permaneció desconocida hasta el desarrollo de las técnicas de alto rendimiento.

Primeros intentos

El término transcriptoma se utilizó por primera vez en la década de los años 1990.[19][20]​ En 1995, se desarrolló uno de los primeros métodos de secuenciación basados en transcriptómicas , el análisis seriado de expresión génica (SAGE), la cual funcionaba mediante secuenciación de Sanger de fragmentos transcritos concatenados al azar.[21]​ Los transcritos se cuantificaron comparando los fragmentos con genes conocidos. También se utilizó en un breve espacio de tiempo una variante de SAGE, que utiliza técnicas de secuenciación de alto rendimiento, denominada análisis de expresión génica digital.[9][22]​ Sin embargo, estos métodos fueron rápidamente reemplazados por la secuenciación de alto rendimiento de transcritos completos, lo cual proveía de información adicional sobre la estructura de los transcritos, por ejemplo, variantes de empalme alternativo.[9]

Desarrollo de técnicas contemporáneas.

Comparación de métodos contemporáneos[23][24][10]
ARN-Seq Microarray
Rendimiento 1-7 días por experimento[10] 1-2 días por experimento[10]
Cantidad de ARN de entrada Bajo ~ 1 ng de ARN total[25] Alto ~ 1 μg de ARNm[26]
Intensidad de trabajo Alto (preparación de muestras y análisis de datos)[10][23] Bajo[10][23]
Conocimiento previo No se requiere ninguno, aunque conocer una secuencia de genoma/transcriptoma de referencia es útil[23] Se requiere un genoma/transcriptoma de referencia para el diseño de sondas[23]
Precisión en la cuantificación ~90 % (limitado por la cobertura de la secuencia)[27] >90 % (limitado por la precisión de detección de fluorescencia)[27]
Resolución de secuencia ARN-Seq puede detectar SNPs y variantes de empalme (limitado por la precisión de secuenciación de ~99 %)[27] Las matrices especializadas pueden detectar variantes de empalme de ARNm (limitado por el diseño de la sonda y la hibridación cruzada)[27]
Sensibilidad 1 transcrito/millón (aproximado, limitado por la cobertura de la secuencia)[27] 1 transcrito/mil (aproximado, limitado por detección de fluorescencia)[27]
Rango dinámico 100 000:1 (limitado por la cobertura de secuencia)[28] 1000:1 (limitado por la saturación de fluorescencia)[28]
Reproducibilidad técnica >99 %[29][30] >99 %[31][32]

Las técnicas predominantes actualmente, los microarrays y el ARN-Seq, se desarrollaron en la mitad de la década de 1990 y de 2000.[9][33]​ En 1995 se publicaron por primera vez microarrays capaces de medir la abundancia de un conjunto definido de transcritos mediante su hibridación en una matriz de sondas complementarias.[34][35]​ La tecnología de microarray permitió el ensayo de miles de transcritos simultáneamente y a un coste considerablemente reducido por gen y con ahorro de trabajo manual.[36]​ Tanto las matrices de oligonucleótidos individuales como las de alta densidad de Affymetrix fueron los métodos preferidos para la elaboración de perfiles transcripcionales hasta finales de la década de 2000.[12][33]​ Durante este periodo, se produjeron una serie de microarrays para abarcar genes conocidos de organismos modelo o de importancia económica. Los avances en el diseño y fabricación de matrices mejoraron la especificidad de las sondas y permitieron analizar más genes en un única matriz. Los avances en la detección por fluorescencia aumentaron la sensibilidad y la precisión de las mediciones de transcritos de baja abundancia.[35][37]

El ARN-Seq se realiza mediante la transcripción inversa in vitro del ARN y la secuenciación del ADNc resultante.[10]​ La abundancia de los transcritos se obtiene a partir del número de recuentes de cada transcrito. Por lo tanto, la técnica está altamente influenciada por el desarrollo de las tecnologías de secuenciación de alto rendimiento.[9][11]​ La secuenciación masiva en paralelo (MPSS) fue un ejemplo temprano basado en la generación de secuencias de 16-20 pares de base mediante series complejas de hibridaciones,[38][nota 1]​ y se utilizó en 2004 para validar la expresión de 10 000 genes en Arabidopsis thaliana.[39]​ El primer proyecto de ARN-Seq se publicó en 2006 con 1000 transcritos secuenciados utilizando tecnología 454.[40]​ Esto fue suficiente cobertura para cuantificar la abundancia relativa de los transcritos. El ARN-Seq comenzó a ser a popular después de 2008 cuando nuevas tecnologías Solexa/Illumina permitieron registrar mil millones de secuencias de transcritos.[4][10][41][42]​ Este rendimiento permite ahora la cuantificación y comparación de transcriptomas humanos.[43]

Recopilación de datos

La generación de datos sobre los transcritos de ARN es posible mediante dos aproximaciones fundamentales: secuenciación de transcritos individuales (ESTs, o ARN-Seq) o hibridación de una matriz ordenada de sondas de nucleótidos (microarrays).[23]

Aislamiento de ARN

Todos los métodos de transcriptómica requieren primero el aislamiento del ARN del organismo experimental antes de poder registrar los transcritos. Aunque los sistemas biológicos son increíblemente diversos, las técnicas de extracción de ARN son muy similares entre sí e involucran la disrupción mecánica de células y tejidos, disrupción de ARNasa con sales caotrópicas,[44]​ disrupción de macromoléculas u complejos de nucleótidos, separación del ARN de biomoléculas indeseadas incluyendo ADN, y concentración del ARN mediante precipitación de una solución o dilución de una matriz sólida.[44][45]​ El ARN aislado puede ser tratado adicionalmente con DNasa para digerir cualquier traza de ADN.[46]​ Es necesario el enriquecimiento del ARN mensajero, ya que los extractos de ARN total, típicamente, se componen de ARN ribosómico en un 98%.[47]​ El enriquecimiento de transcritos se puede llevar a cabo mediante métodos de afinidad por la poli-A o por depleción de ARN ribosómico mediante sondas específicas de secuencia.[48]​ El ARN degradado puede afectar a los resultados posteriores; por ejemplo, el enriquecimiento de ARNm a partir de muestras degradas dará como resultado la depleción de los extremos 5' del ARNm y una señal irregular a lo largo de la longitud de cada transcrito. Es típica la congelación rápida de tejidos previa al aislamiento del ARN. Así se reduce la exposición de las enzimas RNasa una vez que el aislamiento está completo.[45]

Marcadores de secuencia expresada

Un marcador de secuencia expresada (EST) es una secuencia corta de nucleótidos generada a partir de un solo transcrito de ARN. El ARN se copia primero en forma de ADN complementario (ADNc) mediante una enzima transcriptasa inversa, antes de la secuenciación del ADNc resultante.[16]​ Ya que los ESTs se pueden coleccionar sin el conocimiento previo del organismo de procedencia, se pueden crear a partir de mezclas de diferentes organismos de muestras ambientales.[49][16]​ Aunque actualmente se utilizan métodos de mayor rendimiento, las bibliotecas de ESTs solían aportar información de secuencias para diseños tempranos de microarrays; por ejemplo, se diseñó un microarray de cebada a partir de 350 000 ESTs secuenciados.[50]

Análisis en serie y cap de la expresión génica (SAGE/CAGE)

Resumen de SAGE. En un organismo, los genes se transcriben y empalman (en eucariotas) para producir transcritos maduros de ARNm (rojo). El ARNm se extrae del organismo, y se utiliza la transcriptasa inversa para copiar el ARNm en ADNc de doble cadena y más estable (ds-cDNA; azul). En SAGE, el ADNc se digiere mediante enzimas de restricción (en la localización "X" y "X+11") para producir fragmentos "marcadores" de 11 nucleótidos. Estos marcadores se concatenan y secuencian utilizando secuenciación de Sanger de lectura larga (las diferentes sombras indican marcadores de diferentes genes). Las secuencias se deconvuelven para encontrar la frecuencia de cada marcador. La frecuencia de un marcador se puede utilizar para informar sobre la transcripción de su gen de origen.[51]

El análisis en serie de la expresión génica (SAGE) se desarrolló a partir de la metodología de ESTs para incrementar el rendimiento de los marcadores generados y permitir la cuantificación de la abundancia de transcritos.[21]​ El ADNc se genera a partir del ARN, pero luego se digiere en fragmentos "marcadores" de 11 pares de bases, mediante enzimas de restricción que cortan el ADN en secuencias específicas. Entonces, las secuencias se dividen de nuevo en sus fragmentos originales de 11 pares de bases mediante un software de computación, en un proceso llamado deconvolución.[21]​ Si existe un genoma de referencia de alta calidad, estos marcadores se pueden emparejar con su gen correspondiente en el genoma. Si no existe un genoma de referencia, los marcadores se pueden utilizar directamente como marcadores diagnósticos si se encuentran expresados diferencialmente en un estado de enfermedad.[21]

El análisis en cap de la expresión génica (CAGE) es un método derivado del SAGE que secuencia marcadores solo desde el extremo 5' de un transcrito de ARNm.[52]​ Por lo tanto, el sitio de inicio de la transcripción de los genes se puede identificar cuando los marcadores se alinean a un genoma de referencia. La identificación de sitios de inicio en los genes es útil para el análisis de promotores y para la clonación de ADNc en su longitud completa.

SAGE y CAGE son métodos que generan información de más genes de los que era posible mediante la secuenciación de ESTs únicos, pero la preparación de las muestras y el análisis de datos son típicamente más intensivos.[52]

Microarrays

Resumen de microarrays de ADN. En un organismo, los genes se transcriben y empalman (en eucariotas) para producir transcritos maduros de ARNm (rojo). El ARNm se extrae del organismo y se utiliza la transcriptasa inversa para copiar el ARNm a ADNc de doble cadena y más estable (ds-cDNA; azul). En microarrays, el ADNc se fragmenta y marca por fluorescencia (naranja). Los fragmentos marcados se unen a un array ordenado de oligonucleótidos ordenados. La medida de la intensidad de la fluorescencia a lo largo de la matriz indica la abundancia de un conjunto predeterminado de secuencias. Estas secuencias se seleccionan normalmente de manera específica para informar sobre los genes de interés en el genoma del organismo.[51]

Principios y avances

Los microarrays consisten normalmente de una gradilla de oligómeros cortos de nucleótidos, llamados sondas y típicamente organizados en un portaobjetos de vidrio.[53]​ La abundancia de transcritos se determina por hibridación de los transcritos marcados por fluorescencia a estas sondas.[54]​ La intensidad de la fluorescencia en cada sonda del array indica la abundancia del transcrito para la secuencia de esa sonda.[54]​ Se puede diseñar grupos de sondas para medir el mismo transcrito (por ejemplo, hibridando un transcrito en específico en diferentes posiciones) y suelen denominarse "conjuntos de sondas".

Los microarrays necesitan cierto conocimiento sobre la genómica del organismo de interés, por ejemplo, en forma de una secuencia del genoma anotada, o una genoteca de ESTs que se pueda utilizar para generar las sondas para la matriz.[36]

Métodos

Los microarrays utilizados en transcriptómica normalmente se clasifican en dos amplias categorías: matrices punteadas de baja densidad o matrices de sondas pequeñas y alta densidad. La abundancia de transcritos se infiere por la intensidad de la fluorescencia, producto de transcritos marcados con fluoróforos, que se unen a la matriz.[36]

Las matrices punteadas de baja densidad muestran normalmente gotas de picolitro[nota 2]​ de un rango de ADNc purificado en la superficie de un portaobjetos de vidrio.[55]​ Estas sondas son más largas que las utilizadas en matrices de alta densidad y no pueden identificar eventos de empalme alternativo. Las matrices punteadas usan dos fluoróforos diferentes para marcar las muestras test y control, y el ratio de fluorescencia se utiliza para calcular de manera relativa la abundancia.[56]​ Por otra parte, los de alta densidad utilizan un único marcador fluorescente, y cada muestra se híbrida y detecta individualmente.[57]​ Estos arrays se popularizaron por el array Affymetrix GeneChip, en el que cada transcrito se cuantifica por diferentes sondas cortas de 25 oligómeros que analizan conjuntamente un gen.[58]

Las matrices NimbleGen fueron un modelo de matriz de alta densidad producidas por un método de fotoquímica sin máscara, el cual permitió la manufactura flexible de matrices tanto en cantidades pequeñas como grandes. Estas tenían 100 000s de sondas de 45 a 85 oligómeros y se hibridaban con una muestra marcada de un color para el análisis de la expresión.[59]​ Algunos diseños incorporaban hasta 12 matrices independientes por portaobjetos.

ARN-Seq

Resumen de ARN-Seq. En un organismo, los genes se transcriben y empalman (en eucariotas) para producir transcritos maduros de ARNm (rojo). El ARNm se extrae del organismo, se fragmenta y copia a ADNc de doble cadena y estable (ds-cDNA; azul). El ADNc se secuencia utilizando métodos de secuenciación de lectura corta y alto rendimiento. Estas secuencias se pueden alinear a la secuencia de un genoma de referencia para reconstruir las regiones del genoma que se transcribieron. Estos datos se pueden utilizar para anotar donde se encuentran los genes en expresión, sus niveles relativos de expresión y cualquier variante de empalme alternativo.[51]

Principios y avances

El ARN-Seq consiste en la combinación de metodologías de secuenciación de alto rendimiento con métodos computacionales para capturar y cuantificar transcritos presentes en un extracto de ARN.[10]​ La secuencia de nucleótidos generada es normalmente de una longitud de 100 pares de bases, aunque puede variar desde 30 a más de 10 000 pares de bases dependiendo del método de secuenciación utilizado. El ARN-Seq aprovecha el muestreo profundo del transcriptoma con muchos fragmentos pequeños de este para permitir la reconstrucción computacional del transcrito de ARN original alineando las lecturas a un genoma de referencia o entre sí (ensamblaje de novo).[9]​ En un experimento de ARN-Seq se pueden cuantificar tanto los ARNs de baja como de alta abundancia (rango dinámico de 5 órdenes de magnitud) - una ventaja clave frente a los transcriptomas mediante microarray. Además, la cantidad de ARN de entrada es mucho menor para ARN-Seq (cantidades de nanogramos) en comparación con los microarrays (cantidades de microgramos), lo cual permite un examen más fino de las estructuras celulares hasta el nivel unicelular cuando se combina con la amplificación lineal de ADNc.[25][60]​ En teoría, no existe un límite máximo para la cuantificación por ARN-Seq, y el ruido de fondo es muy bajo para lecturas de 100 pares de bases en regiones no repetitivas.[10]

El ARN-Seq se puede utilizar para identificar genes en un genoma o para identificar qué genes están activos en un momento concreto en el tiempo. El conteo de lecturas se puede utilizar para modelizar de manera precisa los niveles relativos de expresión génica. La metodología del ARN-Seq ha mejorado continuamente, principalmente por el desarrollo de tecnologías de secuenciación de ADN para incrementar el rendimiento, precisión y longitud de lectura.[61]​ Desde las primeras descripciones en 2006 y 2008,[40][62]​ el ARN-Seq se ha adoptado rápidamente y superó a los microarrays como la técnica dominante en transcriptómica en 2015.[63]

El objetivo de generar datos transcriptómicos a nivel de células individuales ha impulsado avances en los métodos de preparación de genotecas para ARN-Seq, dando lugar a avances espectaculares en sensibilidad. En la actualidad, los transcriptomas de célula única están bien descritos e incluso se han extendido a ARN-Seq in situ, en el que los transcriptomas de células individuales se analizan directamente en tejidos fijados.[64]

Métodos

El ARN-Seq se estableció en paralelo al rápido desarrollo de una serie de tecnologías de secuenciación de ADN de alto rendimiento.[65]​ Sin embargo, antes de la secuenciación de los transcritos de ARN extraídos, se realizan diferentes pasos clave de procesamiento. Los métodos difieren en el uso del enriquecimiento de los transcritos, fragmentación, amplificación, secuenciación simple o por pares, y en la conservación o no de la información de la hebra.[65]

La sensibilidad de un experimento de ARN-Seq puede incrementarse al enriquecer tipos de ARN que sean de interés y eliminando los ARNs conocidos en abundancia. Las moléculas de ARNm se pueden separar utilizando sondas de oligonucleótidos, las cuales se unen a sus colas de poli-A. De manera alternativa, se puede utilizar la ribo-depleción para eliminar específicamente ARNr abundante y no informativo mediante hibridación de sondas a medida de las secuencias de ARNr específicas de taxón (ej.: ARNr de mamífero, de planta). Sin embargo, la ribo-depleción también puede introducir cierto sesgo al eliminar de manera inespecífica transcritos fuera del objetivo.[66]​ Los ARNs pequeños, tales como micro ARNs, se pueden purificar en función de su tamaño mediante electroforesis en gel y extracción.

Dado que los ARNs mensajeros son más largos que las lecturas de los métodos de secuenciación de alto rendimiento típicos, los transcritos se suelen fragmentar antes de la secuenciación. El método de fragmentación es un aspecto clave de la construcción de bibliotecas para secuenciación.[67]​ La fragmentación se puede lograr mediante hidrólisis química, nebulización, sonicación o transcripción inversa con nucleótidos terminadores de cadena.[67]​ Alternativamente, la fragmentación y marcado de ADNc se pueden hacer simultáneamente mediante el uso de enzimas transposasas.[68]

Durante la separación para la secuenciación, las copias ADNc de los transcritos se pueden amplificar mediante PCR para enriquecer los fragmentos que contienen las secuencias de los adaptadores 5' y 3'.[69]​ La amplificación también se utiliza para permitir la secuenciación de cantidades muy pequeñas de ARN, siendo hasta 50 pq en aplicaciones extremas.[70]​ Los controles del aumento de ARNs conocidos se pueden utilizar para controles de calidad de la preparación de bibliotecas y secuenciación, en términos de contenido en GC, longitud de los fragmentos, así como el sesgo producido por la posición de los fragmentos en un transcrito.[71]​ Los identificadores moleculares únicos (UMIs) son secuencias cortas al azar que se utilizan para marcar individualmente fragmentos de secuencia durante la preparación de genotecas para que cada fragmento marcado sea único.[72]​ Los UMIs proveen de una escala absoluta para la cuantificación, la oportunidad de corregir el consiguiente sesgo de amplificación introducido durante la construcción de la genoteca, y estimar de manera precisa el tamaño de las muestras iniciales. Los UMIs son particularmente adecuados para transcriptómica mediante ARN-Seq de célula única, donde la cantidad de ARN de entrada está restringida y se necesita la extensión de la amplificación de la muestra.[73][74][75]

Una vez que se han preparado las moléculas de los transcritos, se pueden secuenciar en una sola dirección (single-end) o en ambas direcciones (paired-end). Una secuencia en una sola dirección suele ser más rápida de producir, más barata que la secuenciación en ambas direcciones y suficiente para la cuantificación de niveles de expresión génica. La secuenciación en dos direcciones produce alineamientos/ensamblajes más robustos, lo cual es beneficioso para la anotación de genes y descubrimiento de isoformas de transcritos.[10]​ Los métodos de ARN-Seq específicos de hebra preservan la información de la hebra de un transcrito secuenciado.[76]​ Sin esta información, las lecturas se pueden alinear al locus de un gen pero no informan en qué dirección se transcribe el gen. Este tipo de ARN-Seq es útil para descifrar la transcripción de genes que se solapan en diferentes direcciones y para hacer predicciones de genes más robustas en organismos no modelo.[76]

Plataformas de tecnología de secuenciación comúnmente utilizadas para ARN-Seq[77][78]
Plataforma Lanzamiento comercial Longitud típica de lectura Rendimiento máximo por análisis Precisión de lectura única Análisis de ARN-Seq depositadas en NCBI SRA (octubre de 2016)[79]
454 Life Sciences 2005 700 pb 0,7 Gbp 99,9% 3 548
Illumina 2006 50–300 pb 900 Gbp 99,9% 362 903
SOLiD 2008 50 pb 320 Gbp 99,9% 7 032
Ion Torrent 2010 400 pb 30 Gbp 98% 1 953
PacBio 2011 10 000 pb 2GB 87% 160

Leyenda: NCBI SRA - Archivo de lecturas de secuencias del Centro Nacional para la Información Biotecnológica (NCBI)

Actualmente, el ARN-Seq se basa en copiar moléculas de ARN en ADNc previamente a la secuenciación; por lo tanto, las plataformas consiguientes son las mismas para datos genómicos y transcriptómicos. Consecuentemente, el desarrollo de tecnología de secuenciación de ADN ha sido una característica definitoria del ARN-Seq.[78][80][81]​ La secuenciación directa de ARN mediante secuenciación de nanoporos representa una técnica de ARN-Seq de vanguardia en la actualidad.[82][83]​ La secuenciación de ARN con nanoporos puede detectar bases modificadas que pasarían inadvertidas de otra manera al secuenciar ADNc y también elimina pasos de amplificación que podrían introducir sesgos.[11][84]

La sensibilidad y precisión de un experimento de ARN-Seq dependen del número de lecturas obtenidas por cada muestra.[85][86]​ Se necesita una gran cantidad de lecturas para asegurar una cobertura suficiente del transcriptoma, permitiendo la detección de transcritos de baja abundancia. El diseño experimental se complica aún más por las tecnologías de secuenciación con un rango limitado de salida de resultados, la eficiencia variable de la creación de secuencias, y la calidad de secuencia variable. Además de estas consideraciones, en cada especie existe un número diferente de genes y, por lo tanto, requiere un rendimiento de secuencias adaptado para un transcriptoma eficaz. Estudios iniciales determinaron los umbrales adecuados empíricamente, pero a medida que la tecnología maduró se predijo computacionalmente la cobertura adecuada mediante la saturación del transcriptoma. Aunque es algo contraintuitivo, la manera más efectiva de mejorar la detección de expresión diferencial en genes de baja expresión es añadir más réplicas biológicas en vez de añadir más lecturas.[87]​ Los estándares actuales recomendados por el proyecto de la Enciclopedia de elementos de ADN (ENCODE) son una cobertura de 70 veces el exoma para el ARN-Seq estándar y de hasta 500 veces el exoma para detectar transcritos e isoformas raros.[88][89][90]

Análisis de datos

Los métodos de transcriptómica son altamente paralelos y requieren una computación significativa para producir datos significativa tanto para experimentos de microarrays como ARN-Seq.[91][92][93][94]​ Los datos de microarray se registran como imágenes de alta resolución, necesitando la detección de características y análisis espectral.[95]​ Cada archivo de datos crudos de microarray tiene un tamaño de 750 MB aproximadamente, mientras que las intensidades procesadas, en torno a 60 MB. El acoplamiento de múltiples sondas pequeñas con un solo transcrito puede revelar detalles sobre la estructura intrón-exón, requiriendo de modelos estadísticos para determinar la autenticidad de la señal de los resultados. Los estudios de ARN-Seq producen miles de millones de secuencias cortas de ADN, las cuales se tienen que alinear a genomas de referencia compuestos de millones a miles de millones de pares de bases. El ensamblaje de novo de las lecturas en un conjunto de datos requiere la construcción de grafos de secuencias altamente complejos.[96]​ Los protocolos de ARN-Seq son altamente repetitivos y se benefician de la computación paralela, pero los algoritmos modernos permiten que el hardware informático de consumo es suficiente para experimentos simples de transcriptómica que no requieren de ensamblaje de novo de las lecturas.[97]​ Un transcriptoma humano podría ser capturado eficazmente utilizando ARN-Seq con 30 millones de secuencias de 100 pb por muestra.[85][86]​ Este ejemplo requeriría de aproximadamente 1,8 GBs de espacio de disco por muestra al almacenar los datos en formato comprimido FASTQ. Los datos de conteo procesados para cada gen ocuparían mucho menos espacio, siendo equivalentes a las intensidades procesadas en un microarray. Los datos de secuenciación se pueden almacenar en repositorios públicos, tales como el Sequence Read Archive (SRA).[98]​ Se pueden cargar conjuntos de datos de ARN-Seq mediante la plataforma Gene Expression Omnibus.[99]

Procesamiento de imágenes

Microarray y celdas de flujo de secuenciación. Microarrays y ARN-Seq se basan en el análisis de imágenes de diferentes maneras. En un chip de microarray, cada punto del chip es una sonda de oligonucleótidos definida y la intensidad de la fluorescencia detecta directamente la abundancia de una secuencia específica (Affymetrix). En una celda de flujo de secuenciación de alto rendimiento, los nucleótidos se secuencian uno a uno en cada punto, donde el color de cada secuenciación indica el siguiente nucleótido en la secuencia (Illumina Hiseq). Otras variaciones de estas técnicas utilizan más o menos tipos de colores.[51][100]

El procesamiento de imágenes de microarray debe identificar correctamente la cuadrícula regular de características en una imagen y cuantificar independientemente la intensidad de fluorescencia para cada característica. Adicionalmente, se deben identificar los artefactos en imágenes y eliminarlos del análisis general. Las intensidades de fluorescencia indican la abundancia de cada secuencia, ya que la secuencia de cada sonda en el array se conoce previamente.[101]

Los primeros pasos del ARN-Seq también incluyen un procesado similar de imágenes; sin embargo, la conversión de imágenes a datos de secuencias se trata típicamente de manera automática mediante software. El método de secuenciación por síntesis de Illumina resulta en un array de clústeres distribuidos sobre la superficie de una celda de flujo.[102]​ La celda de flujo se visualiza hasta cuatro veces durante cada ciclo de secuenciación, con un total de decenas a cientos de ciclos. Los clústers de celdas de flujo son análogos a los puntos de un microarray y se deben identificar correctamente durante los primeros estadios del proceso de secuenciación. En el método de pirosecuenciación de Roche, la intensidad de luz emitida determina el número de nucleótidos consecutivos en una repetición homopolimérica. Existen muchas variantes de estos métodos, cada cual con un perfil de error diferente para los datos resultantes.[103]

Análisis de datos de ARN-Seq

Los experimentos de ARN-Seq generan grandes cantidades de lecturas de secuencias en crudo que tienen que ser procesadas para obtener información útil. El análisis de datos normalmente requiere una combinación de herramientas de software bioinformático (ver también Anexo: Herramientas bioinformáticas de ARN-Seq) que varían en función del diseño experimental y objetivos. El proceso se puede dividir en cuatro etapas: control de calidad, alineamiento, cuantificación y expresión diferencial.[104]​ Los programas más populares de ARN-Seq se ejecutan desde una interfaz de líneas de comandos, ya sea en un ambiente Unix o en un ambiente estadístico de R/Bioconductor.[93]

Control de calidad

Las lecturas de secuenciación no son perfectas, por lo que la precisión de cada base en la secuencia necesita estimarse mediante posteriores análisis. Los datos crudos se examinan para asegurar que las puntuaciones de calidad de las llamadas de bases son altas, que el contenido en GC coincide con la distribución esperada, que los motivos de secuencias cortas (k-meros) no están sobrerrepresentados, y que el ratio de lecturas duplicadas es aceptablemente bajo.[86]​ Existen diferentes opciones de software para en análisis de calidad de las secuencias, incluyendo FastQC y FaQCs.[105][106]​ Las anormalidades se pueden eliminar o marcar para tratamientos especiales en procesos posteriores.

Alineamiento

Para relacionar la abundancia de lecturas de secuencias con la expresión de un gen en particular, se alinea las secuencias de transcritos a un genoma de referencia, o entre las secuencias en un ensamblaje de novo si no existe un genoma de referencia.[107][108][109]​ Los retos clave para el software de alineamiento incluyen: suficiente velocidad para permitir el alineamiento de miles de millones de secuencias cortas, flexibilidad para reconocer y tratar el empalme de intrones de ARNm eucariótico, y la correcta asignación de lecturas que se mapean en diferentes localizaciones del genoma. Los avances en software han atajado enormemente estos problemas, y el incremento en la longitud de lecturas secuenciadas reduce la probabilidad de alineamientos ambiguos. El Instituto Europeo de Bioinformática (EBI) soporta actualmente una lista de alineadores de secuencias de alto rendimiento.[110][111]

El alineamiento de secuencias de transcritos primarios derivados de eucariotas a un genoma de referencia requiere de un tratamiento especializado de las secuencias de intrones, los cuales no están presentes en el ARNm maduro.[112]​ Los alineadores de lecturas cortas realizan una ronda adicional de alineamientos específicamente diseñados para identificar las uniones de empalme, basándose en las secuencias canónicas de los sitios de empalme y la información conocida de sitios de empalme de intrones. La identificación de los sitios de empalme de intrones previene el alineamiento incorrecto de estos o de ser erróneamente descartados, permitiendo el alineamiento de más lecturas al genoma de referencia y la mejora de la precisión en las estimaciones de expresión génica. Debido a que la regulación génica puede ocurrir a nivel de isoformas de ARNm, los alineamientos en los que se tenga en cuenta el empalme alternativo también permiten la detección de cambios en la abundancia de isoformas, cuya información se perdería en otros análisis en bloque.[113]

El ensamblaje de novo se puede utilizar para alinear lecturas entre sí para construir secuencias de transcritos en su longitud completa sin usar un genoma de referencia.[114]​ Los retos particulares de un ensamblaje de novo incluyen requerimiento computacionales mayores comparados con un transcriptoma basado en una referencia, validación adicional de variantes génica o fragmentos, y anotación funcional de transcritos ensamblados. Las primeras métricas utilizadas para describir ensamblajes de transcriptoma, tales como N50, han demostrado ser engañosas[115]​ y ahora se dispone de métodos de evaluación mejorados.[116][117]​ Las métricas basadas en anotación evalúan mejor cómo de completo es el ensamblaje, tales como el conteo de mejores cóntigos recíprocos. Una vez se ha completado el ensamblaje de novo, este se puede usar como referencia para métodos posteriores de alineamiento de secuencias y para análisis cuantitativo de expresión génica.

Software de ensamblaje de ARN-Seq de novo
Software Año de lanzamiento Última actualización Eficiencia computacional Fortalezas y debilidades
Velvet-Oases[118][119] 2008 2011 Baja, un solo subproceso, necesita RAM alta El ensamblador original de lecturas cortas. Ahora está en gran parte reemplazado.
SOAPdenovo-trans[108] 2011 2014 Moderada, múltiples subprocesos, RAM media Un ejemplo temprano de un ensamblador de lecturas cortas. Se ha actualizado para el ensamblaje del transcriptoma.
Trans-ABySS[120] 2010 2016 Moderada, múltiples subprocesos, RAM media Adecuado para lecturas cortas, puede manejar transcriptomas complejos y está disponible una versión paralela de MPI para clústeres informáticos.
Trinity[121][96] 2011 2017 Moderada, múltiples subprocesos, RAM media Adecuado para lecturas cortas. Puede manejar transcriptomas complejos pero requiere mucha memoria.
miraEST[122] 1999 2016 Moderada, múltiples subprocesos, RAM media Puede procesar secuencias repetitivas, combinar diferentes formatos de secuenciación y se acepta una amplia gama de plataformas de secuencias.
Newbler[123] 2004 2012 Baja, un único subproceso, RAM alta Especializado para adaptarse a los errores de secuenciación de homopolímeros típicos de los secuenciadores Roche 454.
CLC genomics workbench[124] 2008 2014 Alta, múltiples subprocesos, RAM baja Tiene una interfaz gráfica de usuario, puede combinar diversas tecnologías de secuenciación, no tiene características específicas del transcriptoma y se debe comprar una licencia antes de su uso.
SPAdes[125] 2012 2017 Alta, múltiples subprocesos, RAM baja Se utiliza para experimentos de transcriptómica en células individuales.
RSEM[126] 2011 2017 Alta, múltiples subprocesos, RAM baja Puede estimar la frecuencia de transcritos con empalme alternativo. Fácil de usar.
StringTie[97][127] 2015 2019 Alta, múltiples subprocesos, RAM baja Puede usar una combinación de métodos de ensamblaje guiados por un genoma de referencia y de novo para identificar transcritos.

Leyenda: RAM – memoria de acceso aleatorio; MPI: interfaz de paso de mensajes; EST: marcador de secuencia expresada.

Cuantificación

Identificación por mapa de calor de patrones de coexpresión génica en diferentes muestras. Cada columna contiene las medidas de cambios en la expresión génica para cada muestra individual. La expresión génica relativa se indica por colores: alta expresión (rojo), expresión media (blanco) y baja expresión (Azul). Los genes y muestras con perfiles de expresión similares se pueden agrupar automáticamente (árboles a la izquierda y arriba). Las muestras pueden ser de diferentes individuos, tejidos, ambientes o condiciones de salud. En este ejemplo, la expresión del grupo de genes 1 es alta y la expresión del grupo 2 es baja en las muestras 1, 2 y 3.[51][128]

La cuantificación de alineamientos de secuencias se puede realizar a nivel de gen, exón o de transcrito.[87]​ Los resultados típicos incluyen una tabla de conteo de lecturas para cada característica analizada por el software; por ejemplo, para genes en un archivo de formato general feature. El conteo de genes y exones se puede calcular fácilmente utilizando HTSeq, por ejemplo,[129]​ La cuantificación a nivel de transcrito es más complicada y requiere de métodos probabilísticos para estimar la abundancia de isoformas de transcritos a partir de lecturas cortas; por ejemplo, utilizando el software cufflinks.[113]​ Las lecturas alineadas equitativamente a múltiples localizaciones se deben identificar y eliminar, alinear a una de las posibles localizaciones, o alinear a la localización más probable.

Algunos métodos de cuantificación pueden eludir por completo la necesidad de un alineamiento exacto de una lectura a un genoma de referencia. El software kallisto es un método que combina el pseudoalineamiento y cuantificación en un solo paso, ejecutándose 2 órdenes de magnitud más rápido que otros métodos contemporáneos, tales como aquellos utilizados por tophat/cufflinks, con menos carga computacional.[130]

Expresión diferencial

Una vez que el conteo de cada transcrito está disponible, la expresión génica diferencial se mide mediante normalización, modelización, y análisis estadístico de los datos.[107]​ La mayoría de las herramientas leen una tabla de genes y su conteo, pero algunos problemas, como cuffdiff, aceptan alineamiento de lecturas en formato BAM. Los resultados finales de estos análisis son listas de genes con tests por pares asociados para expresión diferencial entre tratamientos y las estimaciones de probabilidad de esas diferencias.[131]

Software de expresión génica diferencial ARN-Seq
Software Ambiente Especialización
Cuffdiff2[107] Basado en Unix Análisis de transcrito que rastrea empalmes alternativos de ARNm
EdgeR[92] R/Bioconductor Cualquier dato genómico basado en conteo
DEseq2[132] R/Bioconductor Tipos de datos flexibles, baja replicación
Lima/Voom[91] R/Bioconductor Datos de micromatrices o ARN-Seq, diseño de experimentos flexible
Ballgown[133] R/Bioconductor Descubrimiento de transcritos eficiente y sensible, flexible.

Leyenda: ARNm - ARN mensajero.

Validación

Los análisis de transcriptómica se pueden validar utilizando una técnica independiente, por ejemplo, una PCR cuantitativa (qPCR), la cual es reconocible y estadísticamente evaluable.[134]​ La expresión génica se mide en comparación con estándares definidos tanto para el gen de interés como para genes control. La medición por qPCR es similar a la obtenida por ARN-Seq, en la que se puede calcular un valor para la concentración de una región diana en una muestra dada. Sin embargo, la qPCR está restringida por amplicones más pequeños de 300 pb, normalmente hacia el extremo 3' de la región codificante, evitando la región 3'-UTR.[135]​ Si se necesita la validación de isoformas de transcritos, una inspección de los alineamiento de lecturas en ARN-Seq debería indicar donde se podrían localizar los primers de la qPCR para una discriminación máxima. La medición de múltiples genes control con los genes de interés genera una referencia estable en un contexto biológico.[136]​ La validación de datos de ARN-Seq mediante qPCR ha demostrado normalmente que los diferentes métodos de ARN-Seq están altamente correlacionados.[62][137][138]

La validación funcional de genes clave es una consideración importante para la planificación posterior a la construcción del transcriptoma. Los patrones de expresión génica observados se pueden relacionar funcionalmente a un fenotipo mediante un estudio independiente de knockdown/rescate en el organismo de interés.[139]

Aplicaciones

Diagnóstico y perfilado de enfermedades

Las estrategias de transcriptómica han visto una amplía aplicación en diferentes áreas de la investigación biomédica, incluyendo diagnóstico y clasificación de enfermedades.[10][140]​ Las aproximaciones de ARN-Seq han permitido la identicación a gran escala de sitios de inicio de la transcripción, descubierto el uso de promotores alternativos y nuevas variantes de empalme. Estos elementos reguladores son importantes en enfermedades humanas y, por lo tanto, definir tales variantes es crucial para la interpretación de estudios de asociación de enfermedades.[141]​ El ARN-Seq puede identificar también polimorfismos de nucleótido único (SNPs) asociados a enfermedades, expresión específica de alelo, y fusiones de genes, los cuales contribuyen al entendimiento de variantes causales de enfermedad.[142]

Los retrotransposones son elementos transponibles que proliferan en genomas eucariotas mediante un proceso que involucra la transcripción inversa. El ARN-Seq puede proveer de información sobre la transcripción de retrotransposones endógenos que pueden influenciar la transcripción de genes vecinos por diferentes mecanismos epigenéticos que llevan a enfermedad.[143]​ De manera similar, el potencial de utilizar ARN-Seq para comprender enfermedades relacionados con el sistema inmunitario se está expandiendo rápidamente debido a la habilidad de diseccionar poblaciones de células inmunitarias y secuenciar repertorios de receptores de células T y B de pacientes.[144][145]

Transcriptomas humanos y patógenos

El ARN-Seq de patógenos humanos se ha convertido en un método establecido para cuantificar cambios en la expresión génica, identificando nuevos factores de virulencia, prediciendo resistencia a antibióticos, y desentrañando interacciones inmunitarias huésped-patógeno.[146][147]​ Un objetivo principal de esta tecnología es desarrollar mediciones de control de infección optimizadas y tratamientos individualizados dirigidos.[145]

El análisis transcriptómico se ha centrado predominantemente en ya sea el huésped o el patógeno. El ARN-Seq dual se ha aplicado para clasificar simultáneamente la expresión de ARN tanto en el patógeno como en el huésped a lo largo del proceso de infección. Esta técnica permite estudiar la respuesta dinámica y redes reguladoras de genes inter-especie en ambas partes involucradas en la interacción desde el contacto inicial hasta la invasión y la persistencia final del patógeno o su eliminación por el sistema inmunitario del huésped.[148][149]

Respuestas al entorno

La transcriptómica permite la identificación de genes y rutas metabólicas que responden a y contrarrestan el estrés ambiental biótico y abiótico.[150][139]​ La naturaleza no dirigida de la transcriptómica permite la identificación de redes transcripcionales nuevas en sistemas complejos. Por ejemplo, el análisis comparativo de una serie de líneas de garbanzo en distintas fases de desarrollo identificó perfiles transcripcionales distintos asociados al estrés de sequía y salinidad, incluida la identificación del rol de isoformas de transcritos de AP2-EREBP.[150]​ La investigación de la expresión génica durante la formación de biopelículas por el hongo patógeno Candida albicans reveló un conjunto de genes co-regulados, los cuales son críticos para el establecimiento de la biopelícula y su mantenimiento.[151]

Los perfiles transcriptómicos también aportan información crucial sobre los mecanismos de resistencia a fármacos. Un análisis de más de 1000 aislados de Plasmodium falciparum, un parásito virulento responsable de la malaria en humanos,[152]​ identificó que la regulación al alza de la respuesta a las proteínas desplegadas y que una progresión más lenta durante los estadios tempranos del ciclo de desarrollo asexual intraeritrocítico se asociaban con la resistencia a la artemisinina en aislados del sudeste asiático.[153]

El uso de la transcriptómica también es importante para investigar respuestas en el ambiente marino.[154]​ En ecología marina, "estrés" y "adaptación" han figurado entre los temas de investigación más comunes, especialmente en relación con el estrés antropogénico, como el cambio global o la contaminación.[154]​ La mayoría de los estudios en este campo se han realizado en animales, aunque los invertebrados han estado infrarrepresentados.[154]​ Un problema que sigue existiendo es la deficiencia de estudios de genética funcional, que dificulta la anotación de genes, especialmente para especies no modelo, y puede llevar a conclusiones vagas sobre los efectos a las respuestas estudiadas.[154]

Anotación funcional de genes

Todas las técnicas transcriptómicas han sido particularmente útiles para identificar las funciones de genes e identificar aquellos responsables de determinados fenotipos. La transcriptómica de ecotipos de Arabidopsis que hiperacumulan metales correlacionó genes involucrados en la absorción, tolerancia y homeostasis de metales con el fenotipo.[155]​ La integración de conjuntos de datos de ARN-Seq en diferentes tejidos se ha utilizado para mejorar la anotación funcional de genes en organismos de importancia comercial (ej.: pepino)[156]​ o especies en peligro (ej.: koala).[157]

El ensamblaje de lecturas de ARN-Seq no depende de un genoma de referencia[121]​ y, por ello, es ideal para estudios de la expresión génica de organismos no modelo con recursos genómicos inexistentes o pobremente desarrollados. Por ejemplo, una base de datos de SNPs utilizada en programas de mejora genética del abeto Douglas se creó mediante análisis transcriptómico de novo en ausencia de un genoma secuenciado.[158]​ De manera similar, se identificaron los genes involucrados en el desarrollo de tejidos cardiaco, muscular y nervioso en langostas mediante la comparación de transcriptomas de varios tipos de tejidos sin el uso de la secuencia de un genoma.[159]​ El ARN-Seq también se puede utilizar para identificar regiones codificantes de proteínas previamente desconocidas en genomas ya secuenciados.

Un reloj del envejecimiento basado en transcriptomas

Las intervenciones preventivas del envejecimiento no son posibles sin mediciones de la velocidad de envejecimiento personal. La forma más actualizada y compleja de medir el envejecimiento es mediante el uso de biomarcadores variables del envejecimiento humano, lo cual se basa en la utilización de redes neuronales profundas que se pueden entrenar con cualquier tipo de datos ómicos para predecir la edad del sujeto. Se ha demostrado que el envejecimiento es un fuerte impulsor de cambios en el transcriptoma.[160][161]​ Los relojes de envejecimiento basados en transcriptomas han sufrido de considerables variaciones en los datos y una precisión relativamente baja. Sin embargo, una aproximación que utiliza el escalado temporal y binarización de transcriptomas para definir un conjunto de genes que predice la edad biológica con precisión permitió alcanzar una evaluación cercana al límite teórico.[160]

ARN no codificante

La transcriptómica se aplican más comúnmente al contenido en ARNm de una células. Sin embargo, las mismas técnicas son igualmente aplicables a ARNs no codificantes (ARNnc), los cuales no se traducen a proteínas, pero en cambio tienen funciones directas (ej.: papel en la traducción de proteínas, replicación del ADN, empalme de ARN, y regulación transcripcional).[162][163][164][165]​ Muchos de estos ARNnc afectan al estado de enfermedades, incluyendo el cáncer, enfermedades cardiovasculares y neurológicas.[166]

Bases de datos de transcriptómica

Los estudios de transcriptómica generan grandes cantidades de datos que tienen potenciales aplicaciones más allá de los objetivos originales de un experimento. Como tales, los datos crudos o procesados se pueden depositar en bases de datos públicas para asegurar su utilidad para la comunidad científica en general. Por ejemplo, a fecha de 2018, la base de datos Gene Expression Omnibus contenía millones de experimentos.[167]

Bases de datos de transcriptómica
Nombre Anfitrión Datos Descripción
Gene Expression Omnibus[99] NCBI Microarray ARN-Seq Primera base de datos transcriptómica que acepta datos de cualquier fuente. Introdujo los estándares comunitarios MIAME y MINSEQE que definen los metadatos experimentales necesarios para garantizar una interpretación y repetibilidad efectivas.[168][169]
ArrayExpress[170] ENA Microarray Importa conjuntos de datos de Gene Expression Omnibus y acepta envíos directos. Los datos procesados y los metadatos del experimento se almacenan en ArrayExpress, mientras que las lecturas de secuencia sin procesar se mantienen en ENA. Cumple con los estándares de MIAME y MINSEQE.[168][169]
Expression Atlas[171] EBI Microarray ARN-Seq Base de datos de expresión génica específica de tejido para animales y plantas. Muestra análisis secundarios y visualización, como el enriquecimiento funcional de términos de ontología génica, dominios InterPro o rutas metabólicas. Enlaces a datos de abundancia de proteínas donde estén disponibles.
Genevestigator[172] Datos procesados privadamente Microarray ARN-Seq Contiene procesamientos manuales de conjuntos de datos de transcriptomas públicos, centrándose en datos médicos y de biología vegetal. Los experimentos individuales se normalizan en la base de datos completa para permitir la comparación de la expresión génica en diversos experimentos. La funcionalidad completa requiere la compra de una licencia, con acceso gratuito a una funcionalidad limitada.
RefEx[173] DDBJ Todos Transcriptomas humanos, murinos y de rata de 40 órganos diferentes. Expresión génica visualizada como mapas de calor proyectados en representaciones 3D de estructuras anatómicas.
NONCODE[174] nocode.org ARN-Seq ARN no codificantes (ARNnc) excluyendo ARNt y ARNr.

Leyenda: NCBI – Centro Nacional para la Información Biotecnológica; EBI – Instituto Europeo de Bioinformática; DDBJ – Banco de datos de ADN de Japón; ENA – Archivo Europeo de Nucleótidos; MIAME – Información Mínima Sobre un Experimento de Microarray; MINSEQE – Información mínima sobre un experimento de secuenciación de nucleótidos de alto rendimiento.

Véase también

Referencias

  1. «Medline trend: automated yearly statistics of PubMed results for any query». dan.corlan.net. Consultado el 5 de octubre de 2016. 
  2. a b Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.; Xiao, H.; Merril, C. R.; Wu, A. et al. (Junio de 1991). «Complementary DNA sequencing: expressed sequence tags and human genome project». Science 252 (5013): 1651-6. Bibcode:1991Sci...252.1651A. PMID 2047873. doi:10.1126/science.2047873. 
  3. Pan, Q.; Shai, O.; Lee, L. J.; Frey, B. J.; Blencowe, B. J. (Diciembre de 2008). «Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing». Nature Genetics 40 (12): 1413-5. PMID 18978789. doi:10.1038/ng.259. 
  4. a b Sultan, M.; Schulz, M. H.; Richard, H.; Magen, A.; Klingenhoff, A.; Scherf, M.; Seifert, M.; Borodina, T. et al. (Agosto de 2008). «A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome». Science 321 (5891): 956-60. Bibcode:2008Sci...321..956S. PMID 18599741. doi:10.1126/science.1160342. 
  5. Lappalainen, T.; Sammeth, M.; Friedländer, M. R.; 't Hoen, P. A.; Monlong, J.; Rivas, M. A.; Gonzàlez-Porta, M.; Kurbatova, N. et al. (Septiembre de 2013). «Transcriptome and genome sequencing uncovers functional variation in humans». Nature 501 (7468): 506-11. Bibcode:2013Natur.501..506L. PMC 3918453. PMID 24037378. doi:10.1038/nature12531. 
  6. a b Melé, M.; Ferreira (Mayo de 2015). «Human genomics. The human transcriptome across tissues and individuals». Science 348 (6235): 660-5. Bibcode:2015Sci...348..660M. PMC 4547472. PMID 25954002. doi:10.1126/science.aaa0355. 
  7. Sandberg, R. (Enero de 2014). «Entering the era of single-cell transcriptomics in biology and medicine». Nature Methods 11 (1): 22-4. PMID 24524133. doi:10.1038/nmeth.2764. 
  8. Kolodziejczyk, A. A.; Kim, J. K.; Svensson, V.; Marioni, J. C.; Teichmann, S. A. (Mayo de 2015). «The technology and biology of single-cell RNA sequencing». Molecular Cell 58 (4): 610-20. PMID 26000846. doi:10.1016/j.molcel.2015.04.005. 
  9. a b c d e f McGettigan, P. A. (Febrero de 2013). «Transcriptomics in the RNA-seq era». Current Opinion in Chemical Biology 17 (1): 4-11. PMID 23290152. doi:10.1016/j.cbpa.2012.12.008. 
  10. a b c d e f g h i j k l Wang, Z.; Gerstein, M.; Snyder, M. (Enero de 2009). «RNA-Seq: a revolutionary tool for transcriptomics». Nature Reviews Genetics 10 (1): 57-63. PMC 2949280. PMID 19015660. doi:10.1038/nrg2484. 
  11. a b c Ozsolak, F.; Milos, P. M. (Febrero de 2011). «RNA sequencing: advances, challenges and opportunities». Nature Reviews Genetics 12 (2): 87-98. PMC 3031867. PMID 21191423. doi:10.1038/nrg2934. 
  12. a b c Morozova, O.; Hirst, M.; Marra, M. A. (2009). «Applications of new sequencing technologies for transcriptome analysis». Annual Review of Genomics and Human Genetics 10: 135-51. PMID 19715439. doi:10.1146/annurev-genom-082908-145957. 
  13. Sim, G. K.; Kafatos, F. C.; Jones, C. W.; Koehler, M. D.; Efstratiadis, A.; Maniatis, T. (Diciembre de 1979). «Use of a cDNA library for studies on evolution and developmental expression of the chorion multigene families». Cell 18 (4): 1303-16. PMID 519770. doi:10.1016/0092-8674(79)90241-1. 
  14. Sutcliffe, J. G.; Milner, R. J.; Bloom, F. E.; Lerner, R. A. (Agosto de 1982). «Common 82-nucleotide sequence unique to brain RNA». Proceedings of the National Academy of Sciences of the United States of America 79 (16): 4942-6. Bibcode:1982PNAS...79.4942S. PMC 346801. PMID 6956902. doi:10.1073/pnas.79.16.4942. 
  15. Putney, S. D.; Herlihy, W. C.; Schimmel, P. (Abril de 1983). «A new troponin T and cDNA clones for 13 different muscle proteins, found by shotgun sequencing». Nature 302 (5910): 718-21. Bibcode:1983Natur.302..718P. PMID 6687628. doi:10.1038/302718a0. 
  16. a b c d Marra, M. A.; Hillier, L.; Waterston, R. H. (Enero de 1998). «Expressed sequence tags—ESTablishing bridges between genomes». Trends in Genetics 14 (1): 4-7. PMID 9448457. doi:10.1016/S0168-9525(97)01355-3. 
  17. Alwine, J. C.; Kemp, D. J.; Stark, G. R. (Diciembre de 1977). «Method for detection of specific RNAs in agarose gels by transfer to diazobenzyloxymethyl-paper and hybridization with DNA probes». Proceedings of the National Academy of Sciences of the United States of America 74 (12): 5350-4. Bibcode:1977PNAS...74.5350A. PMC 431715. PMID 414220. doi:10.1073/pnas.74.12.5350. 
  18. Becker-André, M.; Hahlbrock, K. (Noviembre de 1989). «Absolute mRNA quantification using the polymerase chain reaction (PCR). A novel approach by a PCR aided transcript titration assay (PATTY)». Nucleic Acids Research 17 (22): 9437-46. PMC 335144. PMID 2479917. doi:10.1093/nar/17.22.9437. 
  19. Piétu, G.; Mariage-Samson, R.; Fayein, N. A.; Matingou, C.; Eveno, E.; Houlgatte, R.; Decraene, C.; Vandenbrouck, Y. et al. (Febrero de 1999). «The Genexpress IMAGE knowledge base of the human brain transcriptome: a prototype integrated resource for functional and computational genomics». Genome Research 9 (2): 195-209. PMC 310711. PMID 10022985. doi:10.1101/gr.9.2.195. 
  20. Velculescu, V. E.; Zhang, L.; Zhou, W.; Vogelstein, J.; Basrai, M. A.; Bassett, D. E.; Hieter, P.; Vogelstein, B. et al. (Enero de 1997). «Characterization of the yeast transcriptome». Cell 88 (2): 243-51. PMID 9008165. doi:10.1016/S0092-8674(00)81845-0. 
  21. a b c d Velculescu, V. E.; Zhang, L.; Vogelstein, B.; Kinzler, K. W. (Octubre de 1995). «Serial analysis of gene expression». Science 270 (5235): 484-7. Bibcode:1995Sci...270..484V. PMID 7570003. doi:10.1126/science.270.5235.484. 
  22. Audic, S.; Claverie, J. M. (Octubre de 1997). «The significance of digital gene expression profiles». Genome Research 7 (10): 986-95. PMID 9331369. doi:10.1101/gr.7.10.986. 
  23. a b c d e f Mantione, K. J.; Kream, R. M.; Kuzelova, H.; Ptacek, R.; Raboch, J.; Samuel, J. M.; Stefano, G. B. (Agosto de 2014). «Comparing bioinformatic gene expression profiling methods: microarray and RNA-Seq». Medical Science Monitor Basic Research 20: 138-42. PMC 4152252. PMID 25149683. doi:10.12659/MSMBR.892101. 
  24. Zhao, S.; Fung-Leung, W. P.; Bittner, A.; Ngo, K.; Liu, X. (2014). «Comparison of RNA-Seq and microarray in transcriptome profiling of activated T cells». PLOS ONE 9 (1): e78644. Bibcode:2014PLoSO...978644Z. PMC 3894192. PMID 24454679. doi:10.1371/journal.pone.0078644. 
  25. a b Hashimshony, T.; Wagner, F.; Sher, N.; Yanai, I. (Septiembre de 2012). «CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification». Cell Reports 2 (3): 666-73. PMID 22939981. doi:10.1016/j.celrep.2012.08.003. 
  26. Stears, R. L.; Getts, R. C.; Gullans, S. R. (Agosto de 2000). «A novel, sensitive detection system for high-density microarrays using dendrimer technology». Physiological Genomics 3 (2): 93-9. PMID 11015604. doi:10.1152/physiolgenomics.2000.3.2.93. 
  27. a b c d e f Illumina (11 de julio de 2011). «RNA-Seq Data Comparison with Gene Expression Microarrays». European Pharmaceutical Review. 
  28. a b Black, M. B.; Parks, B. B.; Pluta, L.; Chu, T. M.; Allen, B. C.; Wolfinger, R. D.; Thomas, R. S. (Febrero de 2014). «Comparison of microarrays and RNA-seq for gene expression analyses of dose-response experiments». Toxicological Sciences 137 (2): 385-403. PMID 24194394. doi:10.1093/toxsci/kft249. 
  29. Marioni, J. C.; Mason, C. E.; Mane, S. M.; Stephens, M.; Gilad, Y. (Septiembre de 2008). «RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays». Genome Research 18 (9): 1509-17. PMC 2527709. PMID 18550803. doi:10.1101/gr.079558.108. 
  30. SEQC/MAQC-III Consortium (Septiembre de 2014). «A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium». Nature Biotechnology 32 (9): 903-14. PMC 4321899. PMID 25150838. doi:10.1038/nbt.2957. 
  31. Chen, J. J.; Hsueh, H. M.; Delongchamp, R. R.; Lin, C. J.; Tsai, C. A. (Octubre de 2007). «Reproducibility of microarray data: a further analysis of microarray quality control (MAQC) data». BMC Bioinformatics 8: 412. PMC 2204045. PMID 17961233. doi:10.1186/1471-2105-8-412. 
  32. Larkin, J. E.; Frank, B. C.; Gavras, H.; Sultana, R.; Quackenbush, J. (Mayo de 2005). «Independence and reproducibility across microarray platforms». Nature Methods 2 (5): 337-44. PMID 15846360. doi:10.1038/nmeth757. 
  33. a b Nelson, N. J. (Abril de 2001). «Microarrays have arrived: gene expression tool matures». Journal of the National Cancer Institute 93 (7): 492-4. PMID 11287436. doi:10.1093/jnci/93.7.492. 
  34. Schena, M.; Shalon, D.; Davis, R. W.; Brown, P. O. (Octubre de 1995). «Quantitative monitoring of gene expression patterns with a complementary DNA microarray». Science 270 (5235): 467-70. Bibcode:1995Sci...270..467S. PMID 7569999. doi:10.1126/science.270.5235.467. 
  35. a b Pozhitkov, A. E.; Tautz, D.; Noble, P. A. (Junio de 2007). «Oligonucleotide microarrays: widely applied—poorly understood». Briefings in Functional Genomics & Proteomics 6 (2): 141-8. PMID 17644526. doi:10.1093/bfgp/elm014. 
  36. a b c Heller, M. J. (2002). «DNA microarray technology: devices, systems, and applications». Annual Review of Biomedical Engineering 4: 129-53. PMID 12117754. doi:10.1146/annurev.bioeng.4.020702.153438. 
  37. McLachlan, Geoffrey J.; Do, Kim-Anh; Ambroise, Christopher (2005). Analyzing Microarray Gene Expression Data. Hoboken: John Wiley & Sons. ISBN 978-0-471-72612-8. [página requerida]
  38. Brenner, S.; Johnson, M.; Bridgham, J.; Golda, G.; Lloyd, D. H.; Johnson, D.; Luo, S.; McCurdy, S. et al. (Junio de 2000). «Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays». Nature Biotechnology 18 (6): 630-4. PMID 10835600. doi:10.1038/76469. 
  39. Meyers, B. C.; Vu, T. H.; Tej, S. S.; Ghazal, H.; Matvienko, M.; Agrawal, V.; Ning, J.; Haudenschild, C. D. (Agosto de 2004). «Analysis of the transcriptional complexity of Arabidopsis thaliana by massively parallel signature sequencing». Nature Biotechnology 22 (8): 1006-11. PMID 15247925. doi:10.1038/nbt992. 
  40. a b Bainbridge, M. N.; Warren, R. L.; Hirst, M.; Romanuik, T.; Zeng, T.; Go, A.; Delaney, A.; Griffith, M. et al. (Septiembre de 2006). «Analysis of the prostate cancer cell line LNCaP transcriptome using a sequencing-by-synthesis approach». BMC Genomics 7: 246. PMC 1592491. PMID 17010196. doi:10.1186/1471-2164-7-246. 
  41. Mortazavi, A.; Williams, B. A.; McCue, K.; Schaeffer, L.; Wold, B. (Julio de 2008). «Mapping and quantifying mammalian transcriptomes by RNA-Seq». Nature Methods 5 (7): 621-8. PMID 18516045. doi:10.1038/nmeth.1226. 
  42. Wilhelm, B. T.; Marguerat, S.; Watt, S.; Schubert, F.; Wood, V.; Goodhead, I.; Penkett, C. J.; Rogers, J. et al. (Junio de 2008). «Dynamic repertoire of a eukaryotic transcriptome surveyed at single-nucleotide resolution». Nature 453 (7199): 1239-43. Bibcode:2008Natur.453.1239W. PMID 18488015. doi:10.1038/nature07002. 
  43. Sultan, M.; Schulz, M. H.; Richard, H.; Magen, A.; Klingenhoff, A.; Scherf, M.; Seifert, M.; Borodina, T. et al. (Agosto de 2008). «A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome». Science 321 (5891): 956-60. Bibcode:2008Sci...321..956S. PMID 18599741. doi:10.1126/science.1160342. 
  44. a b Chomczynski, P.; Sacchi, N. (Abril de 1987). «Single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extraction». Analytical Biochemistry 162 (1): 156-9. PMID 2440339. doi:10.1016/0003-2697(87)90021-2. 
  45. a b Chomczynski, P.; Sacchi, N. (2006). «The single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extraction: twenty-something years on». Nature Protocols 1 (2): 581-5. PMID 17406285. doi:10.1038/nprot.2006.83. 
  46. Grillo, M.; Margolis, F. L. (Septiembre de 1990). «Use of reverse transcriptase polymerase chain reaction to monitor expression of intronless genes». BioTechniques 9 (3): 262, 264, 266-8. PMID 1699561. 
  47. «Isolation of messenger RNA». RNA Isolation and Characterization Protocols. Methods in Molecular Biology 86. 1998. pp. 61-4. ISBN 978-0-89603-494-5. PMID 9664454. doi:10.1385/0-89603-494-1:61. 
  48. Zhao, W.; He, X.; Hoadley, K. A.; Parker, J. S; Hayes, D. N.; Perou, C. M. (Junio de 2014). «Comparison of RNA-Seq by poly (A) capture, ribosomal RNA depletion, and DNA microarray for expression profiling». BMC Genomics 15 (1): 419. PMC 4070569. PMID 24888378. doi:10.1186/1471-2164-15-419. 
  49. Algunos ejemplos de muestras ambientales incluyen: agua de mar, tierra o aire.
  50. Close, T. J.; Wanamaker, S. I.; Caldo, R. A.; Turner, S. M.; Ashlock, D. A.; Dickerson, J. A.; Wing, R. A.; Muehlbauer, G. J. et al. (Marzo de 2004). «A new resource for cereal genomics: 22K barley GeneChip comes of age». Plant Physiology 134 (3): 960-8. PMC 389919. PMID 15020760. doi:10.1104/pp.103.034462. 
  51. a b c d e Lowe, R.; Shirley, N.; Bleackley, M.; Dolan, S.; Shafee, T. (Mayo de 2017). «Transcriptomics technologies». PLOS Computational Biology 13 (5): e1005457. Bibcode:2017PLSCB..13E5457L. PMC 5436640. PMID 28545146. doi:10.1371/journal.pcbi.1005457. 
  52. a b Shiraki, T.; Kondo, S.; Katayama, S.; Waki, K.; Kasukawa, T.; Kawaji, H.; Kodzius, R.; Watahiki, A. et al. (Diciembre de 2003). «Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage». Proceedings of the National Academy of Sciences of the United States of America 100 (26): 15776-81. Bibcode:2003PNAS..10015776S. PMC 307644. PMID 14663149. doi:10.1073/pnas.2136655100. 
  53. Romanov, V.; Davidoff, S. N.; Miles, A. R.; Grainger, D. W.; Gale, B. K.; Brooks, B. D. (Marzo de 2014). «A critical comparison of protein microarray fabrication technologies». The Analyst 139 (6): 1303-26. Bibcode:2014Ana...139.1303R. PMID 24479125. doi:10.1039/c3an01577g. 
  54. a b Barbulovic-Nad, I.; Lucente, M.; Sun, Y.; Zhang, M.; Wheeler, A. R.; Bussmann, M. (1 de octubre de 2006). «Bio-microarray fabrication techniques—a review». Critical Reviews in Biotechnology 26 (4): 237-59. PMID 17095434. doi:10.1080/07388550600978358. 
  55. Auburn, R. P.; Kreil, D. P.; Meadows, L. A.; Fischer, B.; Matilla, S. S.; Russell, S. (Julio de 2005). «Robotic spotting of cDNA and oligonucleotide microarrays». Trends in Biotechnology 23 (7): 374-9. PMID 15978318. doi:10.1016/j.tibtech.2005.04.002. 
  56. Shalon, D.; Smith, S. J.; Brown, P. O. (Julio de 1996). «A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization». Genome Research 6 (7): 639-45. PMID 8796352. doi:10.1101/gr.6.7.639. 
  57. Lockhart, D. J.; Dong, H.; Byrne, M. C.; Follettie, M. T.; Gallo, M. V.; Chee, M. S.; Mittmann, M.; Wang, C. et al. (Diciembre de 1996). «Expression monitoring by hybridization to high-density oligonucleotide arrays». Nature Biotechnology 14 (13): 1675-80. PMID 9634850. doi:10.1038/nbt1296-1675. 
  58. Irizarry, R. A.; Bolstad, B. M.; Collin, F.; Cope, L. M.; Hobbs, B.; Speed, T. P. (Febrero de 2003). «Summaries of Affymetrix GeneChip probe level data». Nucleic Acids Research 31 (4): 15e-15. PMC 150247. PMID 12582260. doi:10.1093/nar/gng015. 
  59. Selzer, R. R.; Richmond, T. A.; Pofahl, N. J.; Green, R. D.; Eis, P. S.; Nair, P.; Brothman, A. R.; Stallings, R. L. (Noviembre de 2005). «Analysis of chromosome breakpoints in neuroblastoma at sub-kilobase resolution using fine-tiling oligonucleotide array CGH». Genes, Chromosomes & Cancer 44 (3): 305-19. PMID 16075461. doi:10.1002/gcc.20243. 
  60. Svensson, V.; Vento-Tormo, R.; Teichmann, S. A. (Abril de 2018). «Exponential scaling of single-cell RNA-seq in the past decade». Nature Protocols 13 (4): 599-604. PMID 29494575. doi:10.1038/nprot.2017.149. 
  61. Tachibana, Chris (18 de agosto de 2015). «Transcriptomics today: Microarrays, RNA-seq, and more». Science 349 (6247): 544. Bibcode:2015Sci...349..544T. doi:10.1126/science.opms.p1500095. 
  62. a b Nagalakshmi, U.; Wang, Z.; Waern, K.; Shou, C.; Raha, D.; Gerstein, M.; Snyder, M. (Junio de 2008). «The transcriptional landscape of the yeast genome defined by RNA sequencing». Science 320 (5881): 1344-9. Bibcode:2008Sci...320.1344N. PMC 2951732. PMID 18451266. doi:10.1126/science.1158441. 
  63. Su, Z.; Fang, H.; Hong, H.; Shi, L.; Zhang, W.; Zhang, W.; Zhang, Y.; Dong, Z. et al. (Diciembre de 2014). «An investigation of biomarkers derived from legacy microarray data for their utility in the RNA-seq era». Genome Biology 15 (12): 523. PMC 4290828. PMID 25633159. doi:10.1186/s13059-014-0523-y. 
  64. Lee, J. H.; Daugharthy, E. R.; Scheiman, J.; Kalhor, R.; Yang, J. L.; Ferrante, T. C.; Terry, R.; Jeanty, S. S. et al. (Marzo de 2014). «Highly multiplexed subcellular RNA sequencing in situ». Science 343 (6177): 1360-3. Bibcode:2014Sci...343.1360L. PMC 4140943. PMID 24578530. doi:10.1126/science.1250212. 
  65. a b Shendure, J.; Ji, H. (Octubre de 2008). «Next-generation DNA sequencing». Nature Biotechnology 26 (10): 1135-45. PMID 18846087. doi:10.1038/nbt1486. 
  66. Lahens, N. F.; Kavakli, I. H.; Zhang, R.; Hayer, K.; Black, M. B.; Dueck, H.; Pizarro, A.; Kim, J. et al. (Junio de 2014). «IVT-seq reveals extreme bias in RNA sequencing». Genome Biology 15 (6): R86. PMC 4197826. PMID 24981968. doi:10.1186/gb-2014-15-6-r86. 
  67. a b Knierim, E.; Lucke, B.; Schwarz, J. M.; Schuelke, M.; Seelow, D. (2011). «Systematic comparison of three methods for fragmentation of long-range PCR products for next generation sequencing». PLOS ONE 6 (11): e28240. Bibcode:2011PLoSO...628240K. PMC 3227650. PMID 22140562. doi:10.1371/journal.pone.0028240. 
  68. Routh, A.; Head, S. R.; Ordoukhanian, P.; Johnson, J. E. (Agosto de 2015). «ClickSeq: Fragmentation-Free Next-Generation Sequencing via Click Ligation of Adaptors to Stochastically Terminated 3'-Azido cDNAs». Journal of Molecular Biology 427 (16): 2610-6. PMC 4523409. PMID 26116762. doi:10.1016/j.jmb.2015.06.011. 
  69. Parekh, S.; Ziegenhain, C.; Vieth, B.; Enard, W.; Hellmann, I. (Mayo de 2016). «The impact of amplification on differential expression analyses by RNA-seq». Scientific Reports 6: 25533. Bibcode:2016NatSR...625533P. PMC 4860583. PMID 27156886. doi:10.1038/srep25533. 
  70. Shanker, S.; Paulson, A.; Edenberg, H. J.; Peak, A.; Perera, A.; Alekseyev, Y. O.; Beckloff, N.; Bivens, N. J. et al. (Abril de 2015). «Evaluation of commercially available RNA amplification kits for RNA sequencing using very low input amounts of total RNA». Journal of Biomolecular Techniques 26 (1): 4-18. PMC 4310221. PMID 25649271. doi:10.7171/jbt.15-2601-001. 
  71. Jiang, L.; Schlesinger, F.; Davis, C. A.; Zhang, Y.; Li, R.; Salit, M.; Gingeras, T. R.; Oliver (Septiembre de 2011). «Synthetic spike-in standards for RNA-seq experiments». Genome Research 21 (9): 1543-51. PMC 3166838. PMID 21816910. doi:10.1101/gr.121095.111. 
  72. Kivioja, T.; Vähärautio, A.; Karlsson, K.; Bonke, M.; Enge, M.; Linnarsson, S.; Taipale, J. (Noviembre de 2011). «Counting absolute numbers of molecules using unique molecular identifiers». Nature Methods 9 (1): 72-4. PMID 22101854. doi:10.1038/nmeth.1778. 
  73. Tang, F.; Barbacioru, C.; Wang, Y.; Nordman, E.; Lee, C.; Xu, N.; Wang, X.; Bodeau, J. et al. (Mayo de 2009). «mRNA-Seq whole-transcriptome analysis of a single cell». Nature Methods 6 (5): 377-82. PMID 19349980. doi:10.1038/nmeth.1315. 
  74. Islam, S.; Zeisel, A.; Joost, S.; La Manno, G.; Zajac, P.; Kasper, M.; Lönnerberg, P.; Linnarsson, S. (Febrero de 2014). «Quantitative single-cell RNA-seq with unique molecular identifiers». Nature Methods 11 (2): 163-6. PMID 24363023. doi:10.1038/nmeth.2772. 
  75. Jaitin, D. A.; Kenigsberg, E.; Keren-Shaul, H.; Elefant, N.; Paul, F.; Zaretsky, I.; Mildner, A.; Cohen, N. et al. (Febrero de 2014). «Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types». Science 343 (6172): 776-9. Bibcode:2014Sci...343..776J. PMC 4412462. PMID 24531970. doi:10.1126/science.1247651. 
  76. a b Levin, J. Z.; Yassour, M.; Adiconis, X.; Nusbaum, C.; Thompson, D. A.; Friedman, N.; Gnirke, A.; Regev, A. (Septiembre de 2010). «Comprehensive comparative analysis of strand-specific RNA sequencing methods». Nature Methods 7 (9): 709-15. PMC 3005310. PMID 20711195. doi:10.1038/nmeth.1491. 
  77. Quail, M. A.; Smith, M.; Coupland, P.; Otto, T. D.; Harris, S. R. apellidos6= Connor (Julio de 2012). «A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers». BMC Genomics 13: 341. PMC 3431227. PMID 22827831. doi:10.1186/1471-2164-13-341. 
  78. a b Liu, L.; Li, Y.; Li, S.; Hu, N.; He, Y.; Pong, R.; Lin, D.; Lu, L. et al. (2012). «Comparison of next-generation sequencing systems». Journal of Biomedicine & Biotechnology 2012: 251364. PMC 3398667. PMID 22829749. doi:10.1155/2012/251364. 
  79. «SRA». Consultado el 6 de octubre de 2016. La búsqueda en el NCBI Sequence Read Archive (SRA) se realizó utilizando “RNA-Seq[Strategy]” y una opción de las siguientes: "LS454[Platform]”, “Illumina[platform]”, "ABI Solid[Platform]”, "Ion Torrent[Platform]”, "PacBio SMRT"[Platform]” para obtener el número de análisis de ARN-Seq depositados en cada plataforma.
  80. Loman, N. J.; Misra, R. V.; Dallman, T. J.; Constantinidou, C.; Gharbia, S. E.; Wain, J.; Pallen, M. J. (Mayo de 2012). «Performance comparison of benchtop high-throughput sequencing platforms». Nature Biotechnology 30 (5): 434-9. PMID 22522955. doi:10.1038/nbt.2198. 
  81. Goodwin, S.; McPherson, J. D.; McCombie, W. R. (Mayo de 2016). «Coming of age: ten years of next-generation sequencing technologies». Nature Reviews Genetics 17 (6): 333-51. PMID 27184599. doi:10.1038/nrg.2016.49. 
  82. Garalde, D. R.; Snell, E. A.; Jachimowicz, D.; Sipos, B.; Lloyd, J. H.; Bruce, M.; Pantic, N.; Admassu, T. et al. (Marzo de 2018). «Highly parallel direct RNA sequencing on an array of nanopores». Nature Methods (en inglés) 15 (3): 201-206. PMID 29334379. doi:10.1038/nmeth.4577. 
  83. Loman, N. J.; Quick, J.; Simpson (Agosto de 2015). «A complete bacterial genome assembled de novo using only nanopore sequencing data». Nature Methods 12 (8): 733-5. PMID 26076426. doi:10.1038/nmeth.3444. 
  84. Ozsolak, F.; Platt, A. R.; Jones, D. R.; Reifenberger, J. G.; Sass, L. E.; McInerney, P.; Thompson, J. F.; Bowers, J. et al. (Octubre de 2009). «Direct RNA sequencing». Nature 461 (7265): 814-8. Bibcode:2009Natur.461..814O. PMID 19776739. doi:10.1038/nature08390. 
  85. a b Hart, S. N.; Therneau, T. M.; Zhang, Y.; Poland, G. A.; Kocher, J. P. (Diciembre de 2013). «Calculating sample size estimates for RNA sequencing data». Journal of Computational Biology 20 (12): 970-8. PMC 3842884. PMID 23961961. doi:10.1089/cmb.2012.0283. 
  86. a b c Conesa, A.; Madrigal, P.; Tarazona, S.; Gomez-Cabrero, D.; Cervera, A.; McPherson, A.; Szcześniak, M. W.; Gaffney, D. J. et al. (Enero de 2016). «A survey of best practices for RNA-seq data analysis». Genome Biology 17: 13. PMC 4728800. PMID 26813401. doi:10.1186/s13059-016-0881-8. 
  87. a b Rapaport, F.; Khanin, R.; Liang, Y.; Pirun, M.; Krek, A.; Zumbo, P.; Mason, C. E.; Socci, N. D. et al. (2013). «Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data». Genome Biology 14 (9): R95. PMC 4054597. PMID 24020486. doi:10.1186/gb-2013-14-9-r95. 
  88. ENCODE Project Consortium; Aldred, Shelley F.; Collins, Patrick J.; Davis, Carrie A.; Doyle, Francis; Epstein, Charles B.; Frietze, Seth; Harrow, Jennifer; Kaul, Rajinder (Septiembre de 2012). «An integrated encyclopedia of DNA elements in the human genome». Nature 489 (7414): 57-74. Bibcode:2012Natur.489...57T. PMC 3439153. PMID 22955616. doi:10.1038/nature11247. 
  89. Sloan, C. A.; Chan, E. T.; Davidson, J. M.; Malladi, V. S.; Strattan, J. S.; Hitz, B. C. et al. (Enero de 2016). «ENCODE data at the ENCODE portal». Nucleic Acids Research 44 (D1): D726-32. PMC 4702836. PMID 26527727. doi:10.1093/nar/gkv1160. 
  90. «ENCODE: Encyclopedia of DNA Elements». encodeproject.org. 
  91. a b Ritchie, M. E.; Phipson, B.; Wu, D.; Hu, Y.; Law, C. W.; Shi, W.; Smyth, G. K. (Abril de 2015). «limma powers differential expression analyses for RNA-sequencing and microarray studies». Nucleic Acids Research 43 (7): e47. PMC 4402510. PMID 25605792. doi:10.1093/nar/gkv007. 
  92. a b Robinson, M. D.; McCarthy, D. J.; Smyth, G. K. (Enero de 2010). «edgeR: a Bioconductor package for differential expression analysis of digital gene expression data». Bioinformatics 26 (1): 139-40. PMC 2796818. PMID 19910308. doi:10.1093/bioinformatics/btp616. 
  93. a b Huber, W.; Carey, V. J.; Gentleman, R.; Anders, S.; Carlson, M.; Carvalho, B. S. et al. (Febrero de 2015). «Orchestrating high-throughput genomic analysis with Bioconductor». Nature Methods 12 (2): 115-21. PMC 4509590. PMID 25633503. doi:10.1038/nmeth.3252. 
  94. Smyth, G. K. (2005). «Limma: Linear Models for Microarray Data». Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Statistics for Biology and Health (en inglés). Springer, New York, NY. pp. 397–420. ISBN 9780387251462. doi:10.1007/0-387-29362-0_23. 
  95. Steve., Russell (2008). Microarray Technology in Practice. Meadows, Lisa A. Burlington: Elsevier. ISBN 9780080919768. OCLC 437246554. 
  96. a b Haas, B. J.; Papanicolaou, A.; Yassour, M.; Grabherr, M.; Blood, P. D.; Bowden, J.; Couger, M. B.; Eccles, D. et al. (Agosto de 2013). «De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis». Nature Protocols 8 (8): 1494-512. PMC 3875132. PMID 23845962. doi:10.1038/nprot.2013.084. 
  97. a b Pertea, M.; Pertea, G. M.; Antonescu, C. M.; Chang, T. C.; Mendell, J. T.; Salzberg, S. L. (Marzo de 2015). «StringTie enables improved reconstruction of a transcriptome from RNA-seq reads». Nature Biotechnology (en inglés) 33 (3): 290-5. PMC 4643835. PMID 25690850. doi:10.1038/nbt.3122. 
  98. Kodama, Y.; Shumway, M.; Leinonen, R. (Enero de 2012). «The Sequence Read Archive: explosive growth of sequencing data». Nucleic Acids Research 40 (Database issue): D54-6. PMC 3245110. PMID 22009675. doi:10.1093/nar/gkr854. 
  99. a b Edgar, R.; Domrachev, M.; Lash, A. E. (Enero de 2002). «Gene Expression Omnibus: NCBI gene expression and hybridization array data repository». Nucleic Acids Research 30 (1): 207-10. PMC 99122. PMID 11752295. doi:10.1093/nar/30.1.207. 
  100. Petrov, Anton; Shams, Soheil (1 de noviembre de 2004). «Microarray Image Processing and Quality Control». Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology 38 (3): 211-226. doi:10.1023/B:VLSI.0000042488.08307.ad. 
  101. Petrov, Anton; Shams, Soheil (2004). «Microarray Image Processing and Quality Control». The Journal of VLSI Signal Processing-Systems for Signal, Image, and Video Technology 38 (3): 211-226. doi:10.1023/B:VLSI.0000042488.08307.ad. 
  102. Kwon, Young Min; Ricke, Steven (2011). High-Throughput Next Generation Sequencing. Methods in Molecular Biology 733. SpringerLink. ISBN 978-1-61779-088-1. doi:10.1007/978-1-61779-089-8. 
  103. Nakamura, K.; Oshima, T.; Morimoto, T.; Ikeda, S.; Yoshikawa, H.; Shiwa, Y.; Ishikawa, S.; Linak, M. C. et al. (Julio de 2011). «Sequence-specific error profile of Illumina sequencers». Nucleic Acids Research 39 (13): e90. PMC 3141275. PMID 21576222. doi:10.1093/nar/gkr344. 
  104. Van Verk, M. C.; Hickman, R.; Pieterse, C. M.; Van Wees, S. C. (Abril de 2013). «RNA-Seq: revelation of the messengers». Trends in Plant Science 18 (4): 175-9. PMID 23481128. doi:10.1016/j.tplants.2013.02.001. 
  105. «FastQC: A Quality Control tool for High Throughput Sequence Data». Babraham Bioinformatics. 2010. Consultado el 23 de mayo de 2017. 
  106. Lo, C. C.; Chain, P. S. (Noviembre de 2014). «Rapid evaluation and quality control of next generation sequencing data with FaQCs». BMC Bioinformatics 15 (1): 366. PMC 4246454. PMID 25408143. doi:10.1186/s12859-014-0366-2. 
  107. a b c Trapnell, C.; Hendrickson, D. G.; Sauvageau, M.; Goff, L.; Rinn, J. L.; Pachter, L. (Enero de 2013). «Differential analysis of gene regulation at transcript resolution with RNA-seq». Nature Biotechnology 31 (1): 46-53. PMC 3869392. PMID 23222703. doi:10.1038/nbt.2450. 
  108. a b Xie, Y.; Wu, G.; Tang, J.; Luo, R.; Patterson, J.; Liu, S.; Huang, W.; He, G. et al. (Junio de 2014). «SOAPdenovo-Trans: de novo transcriptome assembly with short RNA-Seq reads». Bioinformatics 30 (12): 1660-6. PMID 24532719. arXiv:1305.6760. doi:10.1093/bioinformatics/btu077. 
  109. Siadjeu, Christian; Mayland-Quellhorst, Eike; Pande, Shruti; Laubinger, Sascha; Albach, Dirk C. (2021). «Transcriptome Sequence Reveals Candidate Genes Involving in the Post-Harvest Hardening of Trifoliate Yam Dioscorea dumetorum». Plants (en inglés) 10 (4): 787. PMC 8074181. PMID 33923758. doi:10.3390/plants10040787. 
  110. HTS Mappers. http://www.ebi.ac.uk/~nf/hts_mappers/
  111. Fonseca, N. A.; Rung, J.; Brazma, A.; Marioni, J. C. (Diciembre de 2012). «Tools for mapping high-throughput sequencing data». Bioinformatics 28 (24): 3169-77. PMID 23060614. doi:10.1093/bioinformatics/bts605. 
  112. Trapnell, C.; Pachter, L.; Salzberg, S. L. (Mayo de 2009). «TopHat: discovering splice junctions with RNA-Seq». Bioinformatics 25 (9): 1105-11. PMC 2672628. PMID 19289445. doi:10.1093/bioinformatics/btp120. 
  113. a b Trapnell, C.; Williams, B. A.; Pertea, G.; Mortazavi, A.; Kwan, G.; van Baren, M. J.; Salzberg, S. L.; Wold, B. J. et al. (Mayo de 2010). «Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation». Nature Biotechnology 28 (5): 511-5. PMC 3146043. PMID 20436464. doi:10.1038/nbt.1621. 
  114. Miller, J. R.; Koren, S.; Sutton, G. (Junio de 2010). «Assembly algorithms for next-generation sequencing data». Genomics 95 (6): 315-27. PMC 2874646. PMID 20211242. doi:10.1016/j.ygeno.2010.03.001. 
  115. O'Neil, S. T.; Emrich, S. J. (Julio de 2013). «Assessing De Novo transcriptome assembly metrics for consistency and utility». BMC Genomics 14: 465. PMC 3733778. PMID 23837739. doi:10.1186/1471-2164-14-465. 
  116. Smith-Unna, R.; Boursnell, C.; Patro, R.; Hibberd, J. M.; Kelly, S. (Agosto de 2016). «TransRate: reference-free quality assessment of de novo transcriptome assemblies». Genome Research 26 (8): 1134-44. PMC 4971766. PMID 27252236. doi:10.1101/gr.196469.115. 
  117. Li, B.; Fillmore, N.; Bai, Y.; Collins, M.; Thomson, J. A.; Stewart, R.; Dewey, C. N. (Diciembre de 2014). «Evaluation of de novo transcriptome assemblies from RNA-Seq data». Genome Biology 15 (12): 553. PMC 4298084. PMID 25608678. doi:10.1186/s13059-014-0553-5. 
  118. Zerbino, D. R.; Birney, E. (Mayo de 2008). «Velvet: algorithms for de novo short read assembly using de Bruijn graphs». Genome Research 18 (5): 821-9. PMC 2336801. PMID 18349386. doi:10.1101/gr.074492.107. 
  119. Schulz, M. H.; Zerbino, D. R.; Vingron, M.; Birney, E. (Abril de 2012). «Oases: robust de novo RNA-seq assembly across the dynamic range of expression levels». Bioinformatics 28 (8): 1086-92. PMC 3324515. PMID 22368243. doi:10.1093/bioinformatics/bts094. 
  120. Robertson, G.; Schein, J.; Chiu, R.; Corbett, R.; Field, M.; Jackman, S. D. et al. (Noviembre de 2010). «De novo assembly and analysis of RNA-seq data». Nature Methods 7 (11): 909-12. PMID 20935650. doi:10.1038/nmeth.1517. 
  121. a b Grabherr, M. G.; Haas, B. J.; Yassour, M.; Levin, J. Z.; Thompson, D. A.; Amit, I.; Adiconis, X.; Fan, L. et al. (Mayo de 2011). «Full-length transcriptome assembly from RNA-Seq data without a reference genome». Nature Biotechnology 29 (7): 644-52. PMC 3571712. PMID 21572440. doi:10.1038/nbt.1883. 
  122. Chevreux, B.; Pfisterer, T.; Drescher, B.; Driesel, A. J.; Müller, W. E.; Wetter, T.; Suhai, S. (Junio de 2004). «Using the miraEST assembler for reliable and automated mRNA transcript assembly and SNP detection in sequenced ESTs». Genome Research 14 (6): 1147-59. PMC 419793. PMID 15140833. doi:10.1101/gr.1917404. 
  123. Margulies, M.; Egholm, M.; Altman, W. E.; Attiya, S.; Bader, J. S.; Bemben, L. A. et al. (Septiembre de 2005). «Genome sequencing in microfabricated high-density picolitre reactors». Nature 437 (7057): 376-80. Bibcode:2005Natur.437..376M. PMC 1464427. PMID 16056220. doi:10.1038/nature03959. 
  124. Kumar, S.; Blaxter, M. L. (Octubre de 2010). «Comparing de novo assemblers for 454 transcriptome data». BMC Genomics 11: 571. PMC 3091720. PMID 20950480. doi:10.1186/1471-2164-11-571. 
  125. Bankevich, A.; Nurk, S.; Antipov, D.; Gurevich, A. A.; Dvorkin, M.; Kulikov, A. S.; Lesin, V. M.; Nikolenko, S. I. et al. (Mayo de 2012). «SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing». Journal of Computational Biology 19 (5): 455-77. PMC 3342519. PMID 22506599. doi:10.1089/cmb.2012.0021. 
  126. Li, B.; Dewey, C. N. (Agosto de 2011). «RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome». BMC Bioinformatics 12: 323. PMC 3163565. PMID 21816040. doi:10.1186/1471-2105-12-323. 
  127. Kovaka, Sam; Zimin, Aleksey V.; Pertea, Geo M.; Razaghi, Roham; Salzberg, Steven L.; Pertea, Mihaela (8 de julio de 2019). «Transcriptome assembly from long-read RNA-seq alignments with StringTie2». bioRxiv: 694554. doi:10.1101/694554. Consultado el 27 de agosto de 2019. 
  128. Gehlenborg, N.; O'Donoghue, S. I.; Baliga, N. S.; Goesmann, A.; Hibbs, M. A.; Kitano, H.; Kohlbacher, O.; Neuweger, H. et al. (Marzo de 2010). «Visualization of omics data for systems biology». Nature Methods (en inglés) 7 (3 Suppl): S56-68. PMID 20195258. doi:10.1038/nmeth.1436. 
  129. Anders, S.; Pyl, P. T.; Huber, W. (Enero de 2015). «HTSeq—a Python framework to work with high-throughput sequencing data». Bioinformatics 31 (2): 166-9. PMC 4287950. PMID 25260700. doi:10.1093/bioinformatics/btu638. 
  130. Bray, N. L.; Pimentel, H.; Melsted, P.; Pachter, L. (Mayo de 2016). «Near-optimal probabilistic RNA-seq quantification». Nature Biotechnology 34 (5): 525-7. PMID 27043002. doi:10.1038/nbt.3519. 
  131. Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G. et al. (Agosto de 2009). «The Sequence Alignment/Map format and SAMtools». Bioinformatics 25 (16): 2078-9. PMC 2723002. PMID 19505943. doi:10.1093/bioinformatics/btp352. 
  132. Love, M. I.; Huber, W.; Anders, S. (2014). «Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2». Genome Biology 15 (12): 550. PMC 4302049. PMID 25516281. doi:10.1186/s13059-014-0550-8. 
  133. Frazee, A. C.; Pertea, G.; Jaffe, A. E.; Langmead, B.; Salzberg, S. L.; Leek, J. T. (Marzo de 2015). «Ballgown bridges the gap between transcriptome assembly and expression analysis». Nature Biotechnology (en inglés) 33 (3): 243-6. PMC 4792117. PMID 25748911. doi:10.1038/nbt.3172. 
  134. Fang, Z.; Cui, X. (Mayo de 2011). «Design and validation issues in RNA-seq experiments». Briefings in Bioinformatics 12 (3): 280-7. PMID 21498551. doi:10.1093/bib/bbr004. 
  135. Ramsköld, D.; Wang, E. T.; Burge, C. B.; Sandberg, R. (Diciembre 2009). «An abundance of ubiquitously expressed genes revealed by tissue transcriptome sequence data». PLOS Computational Biology 5 (12): e1000598. Bibcode:2009PLSCB...5E0598R. PMC 2781110. PMID 20011106. doi:10.1371/journal.pcbi.1000598. 
  136. Vandesompele, J.; De Preter (Junio de 2002). «Accurate normalization of real-time quantitative RT-PCR data by geometric averaging of multiple internal control genes». Genome Biology 3 (7): RESEARCH0034. PMC 126239. PMID 12184808. doi:10.1186/gb-2002-3-7-research0034.  Texto « nombre8 F. » ignorado (ayuda)
  137. Core, L. J.; Waterfall (Diciembre de 2008). «Nascent RNA sequencing reveals widespread pausing and divergent initiation at human promoters». Science 322 (5909): 1845-8. Bibcode:2008Sci...322.1845C. PMC 2833333. PMID 19056941. doi:10.1126/science.1162228. 
  138. Camarena, L.; Bruno, V.; Euskirchen, G.; Poggio, S.; Snyder, M. (Abril de 2010). «Molecular mechanisms of ethanol-induced pathogenesis revealed by RNA-sequencing». PLOS Pathogens 6 (4): e1000834. PMC 2848557. PMID 20368969. doi:10.1371/journal.ppat.1000834. 
  139. a b Govind, G.; Harshavardhan, V. T.; ThammeGowda, H. V.; Patricia, J. K.; Kalaiarasi, P. J.; Dhanalakshmi, R.; Iyer, D. R.; Senthil, Kumar M. et al. (Junio de 2009). «Identification and functional validation of a unique set of drought induced genes preferentially expressed in response to gradual water stress in peanut». Molecular Genetics and Genomics 281 (6): 591-605. PMC 2757612. PMID 19224247. doi:10.1007/s00438-009-0432-z. 
  140. Tavassoly, Iman; Goldfarb, Joseph; Iyengar, Ravi (4 de octubre de 2018). «Systems biology primer: the basic methods and approaches». Essays in Biochemistry (en inglés) 62 (4): 487-500. ISSN 0071-1365. PMID 30287586. doi:10.1042/EBC20180003. 
  141. Costa, V.; Aprile, M.; Esposito, R.; Ciccodicola, A. (Febrero de 2013). «RNA-Seq and human complex diseases: recent accomplishments and future perspectives». European Journal of Human Genetics 21 (2): 134-42. PMC 3548270. PMID 22739340. doi:10.1038/ejhg.2012.129. 
  142. Khurana, E.; Fu, Y.; Chakravarty, D.; Demichelis, F.; Rubin, M. A.; Gerstein, M. (Febrero de 2016). «Role of non-coding sequence variants in cancer». Nature Reviews Genetics 17 (2): 93-108. PMID 26781813. doi:10.1038/nrg.2015.17. 
  143. Slotkin, R. K.; Martienssen, R. (Abril de 2007). «Transposable elements and the epigenetic regulation of the genome». Nature Reviews Genetics 8 (4): 272-85. PMID 17363976. doi:10.1038/nrg2072. 
  144. Proserpio, V.; Mahata, B. (Febrero de 2016). «Single-cell technologies to study the immune system». Immunology 147 (2): 133-40. PMC 4717243. PMID 26551575. doi:10.1111/imm.12553. 
  145. a b Byron, S. A.; Van Keuren-Jensen, K. R.; Engelthaler, D. M.; Carpten, J. D.; Craig, D. W. (Mayo de 2016). «Translating RNA sequencing into clinical diagnostics: opportunities and challenges». Nature Reviews Genetics 17 (5): 257-71. PMC 7097555. PMID 26996076. doi:10.1038/nrg.2016.10. 
  146. Wu, H. J.; Wang, A. H.; Jennings, M. P. (Febrero de 2008). «Discovery of virulence factors of pathogenic bacteria». Current Opinion in Chemical Biology 12 (1): 93-101. PMID 18284925. doi:10.1016/j.cbpa.2008.01.023. 
  147. Suzuki, S.; Horinouchi, T.; Furusawa, C. (Diciembre de 2014). «Prediction of antibiotic resistance by gene expression profiles». Nature Communications 5: 5792. Bibcode:2014NatCo...5.5792S. PMC 4351646. PMID 25517437. doi:10.1038/ncomms6792. 
  148. Westermann, A. J.; Gorski, S. A.; Vogel, J. (Septiembre de 2012). «Dual RNA-seq of pathogen and host». Nature Reviews. Microbiology 10 (9): 618-30. PMID 22890146. doi:10.1038/nrmicro2852. 
  149. Durmuş, S.; Çakır, T.; Özgür, A.; Guthke, R. (2015). «A review on computational systems biology of pathogen-host interactions». Frontiers in Microbiology 6: 235. PMC 4391036. PMID 25914674. doi:10.3389/fmicb.2015.00235. 
  150. a b Garg, R.; Shankar, R.; Thakkar, B.; Kudapa, H.; Krishnamurthy, L.; Mantri, N.; Varshney, R. K.; Bhatia, S. et al. (Enero de 2016). «Transcriptome analyses reveal genotype- and developmental stage-specific molecular responses to drought and salinity stresses in chickpea». Scientific Reports 6: 19228. Bibcode:2016NatSR...619228G. PMC 4725360. PMID 26759178. doi:10.1038/srep19228. 
  151. García-Sánchez, S.; Aubert, S.; Iraqui, I.; Janbon, G.; Ghigo, J. M.; d'Enfert, C. (Abril de 2004). «Candida albicans biofilms: a developmental state associated with specific and stable gene expression patterns». Eukaryotic Cell 3 (2): 536-45. PMC 387656. PMID 15075282. doi:10.1128/EC.3.2.536-545.2004. 
  152. Rich, S. M.; Leendertz, F. H.; Xu, G.; LeBreton, M.; Djoko, C. F.; Aminake, M. N.; Takang, E. E.; Diffo, J. L. et al. (Septiembre de 2009). «The origin of malignant malaria». Proceedings of the National Academy of Sciences of the United States of America 106 (35): 14902-7. Bibcode:2009PNAS..10614902R. PMC 2720412. PMID 19666593. doi:10.1073/pnas.0907740106. 
  153. Mok, S.; Ashley, E. A.; Ferreira, P. E.; Zhu, L.; Lin, Z.; Yeo, T. et al. (Enero de 2015). «Drug resistance. Population transcriptomics of human malaria parasites reveals the mechanism of artemisinin resistance». Science 347 (6220): 431-5. Bibcode:2015Sci...347..431M. PMC 5642863. PMID 25502316. doi:10.1126/science.1260403. 
  154. a b c d Page, Tessa M.; Lawley, Jonathan W. (2022). «The Next Generation Is Here: A Review of Transcriptomic Approaches in Marine Ecology». Frontiers in Marine Science 9. ISSN 2296-7745. doi:10.3389/fmars.2022.757921. 
  155. Verbruggen, N.; Hermans, C.; Schat, H. (Marzo de 2009). «Molecular mechanisms of metal hyperaccumulation in plants». The New Phytologist 181 (4): 759-76. PMID 19192189. doi:10.1111/j.1469-8137.2008.02748.x. 
  156. Li, Z.; Zhang, Z.; Yan, P.; Huang, S.; Fei, Z.; Lin, K. (Noviembre de 2011). «RNA-Seq improves annotation of protein-coding genes in the cucumber genome». BMC Genomics 12: 540. PMC 3219749. PMID 22047402. doi:10.1186/1471-2164-12-540. 
  157. Hobbs, M.; Pavasovic, A.; King, A. G.; Prentis, P. J.; Eldridge, M. D.; Chen, Z.; Colgan, D. J.; Polkinghorne, A. et al. (Septiembre de 2014). «A transcriptome resource for the koala (Phascolarctos cinereus): insights into koala retrovirus transcription and sequence diversity». BMC Genomics 15 (1): 786. PMC 4247155. PMID 25214207. doi:10.1186/1471-2164-15-786. 
  158. Howe, G. T.; Yu, J.; Knaus, B.; Cronn, R.; Kolpak, S.; Dolan, P.; Lorenz, W. W.; Dean, J. F. (Febrero de 2013). «A SNP resource for Douglas-fir: de novo transcriptome assembly and SNP detection and validation». BMC Genomics 14: 137. PMC 3673906. PMID 23445355. doi:10.1186/1471-2164-14-137. 
  159. McGrath, L. L.; Vollmer, S. V.; Kaluziak, S. T.; Ayers, J. (Enero de 2016). «De novo transcriptome assembly for the lobster Homarus americanus and characterization of differential gene expression across nervous system tissues». BMC Genomics 17: 63. PMC 4715275. PMID 26772543. doi:10.1186/s12864-016-2373-3. 
  160. a b Meyer, D. H.; Schumacher, B. (2020). «BiT age: A transcriptome‐based aging clock near the theoretical limit of accuracy». Aging Cell 20 (3): e13320. PMC 7963339. PMID 33656257. doi:10.1111/acel.13320. 
  161. Fleischer, J. G.; Schulte, R.; Tsai, H. H.; Tyagi, S.; Ibarra, A.; Shokhirev, M. N.; Navlakha, S. (2018). «Predicting age from the transcriptome of human dermal fibroblasts». Genome Biology 19 (1): 221. PMC 6300908. PMID 30567591. doi:10.1186/s13059-018-1599-6. 
  162. Noller, H. F. (1991). «Ribosomal RNA and translation». Annual Review of Biochemistry 60: 191-227. PMID 1883196. doi:10.1146/annurev.bi.60.070191.001203. 
  163. Christov, C. P.; Gardiner, T. J.; Szüts, D.; Krude, T. (Septiembre de 2006). «Functional requirement of noncoding Y RNAs for human chromosomal DNA replication». Molecular and Cellular Biology 26 (18): 6993-7004. PMC 1592862. PMID 16943439. doi:10.1128/MCB.01060-06. 
  164. Kishore, S.; Stamm, S. (Enero de 2006). «The snoRNA HBII-52 regulates alternative splicing of the serotonin receptor 2C». Science 311 (5758): 230-2. Bibcode:2006Sci...311..230K. PMID 16357227. doi:10.1126/science.1118265. 
  165. Hüttenhofer, A.; Schattner, P.; Polacek, N. (Mayo de 2005). «Non-coding RNAs: hope or hype?». Trends in Genetics 21 (5): 289-97. PMID 15851066. doi:10.1016/j.tig.2005.03.007. 
  166. Esteller, M. (Noviembre de 2011). «Non-coding RNAs in human disease». Nature Reviews Genetics 12 (12): 861-74. PMID 22094949. doi:10.1038/nrg3074. 
  167. «Gene Expression Omnibus». www.ncbi.nlm.nih.gov. Consultado el 26 de marzo de 2018. 
  168. a b Brazma, A.; Hingamp, P.; Quackenbush, J.; Sherlock, G.; Spellman, P.; Stoeckert, C.; Aach, J.; Ansorge, W. et al. (Diciembre de 2001). «Minimum information about a microarray experiment (MIAME)-toward standards for microarray data». Nature Genetics 29 (4): 365-71. PMID 11726920. doi:10.1038/ng1201-365. 
  169. a b Brazma, A. (Mayo de 2009). «Minimum Information About a Microarray Experiment (MIAME)--successes, failures, challenges». TheScientificWorldJournal 9: 420-3. PMC 5823224. PMID 19484163. doi:10.1100/tsw.2009.57. 
  170. Kolesnikov, N.; Hastings, E.; Keays, M.; Melnichuk, O.; Tang, Y. A.; Williams, E.; Dylag, M.; Kurbatova, N. et al. (Enero de 2015). «ArrayExpress update—simplifying data submissions». Nucleic Acids Research 43 (Database issue): D1113-6. PMC 4383899. PMID 25361974. doi:10.1093/nar/gku1057. 
  171. Petryszak, R.; Keays, M.; Tang, Y. A.; Fonseca, N. A.; Barrera, E.; Burdett, T.; Füllgrabe, A.; Fuentes, A. M. et al. (Enero de 2016). «Expression Atlas update—an integrated database of gene and protein expression in humans, animals and plants». Nucleic Acids Research 44 (D1): D746-52. PMC 4702781. PMID 26481351. doi:10.1093/nar/gkv1045. 
  172. Hruz, T.; Laule, O.; Szabo, G.; Wessendorp, F.; Bleuler, S.; Oertle, L.; Widmayer, P.; Gruissem, W. et al. (2008). «Genevestigator v3: a reference expression database for the meta-analysis of transcriptomes». Advances in Bioinformatics 2008: 420747. PMC 2777001. PMID 19956698. doi:10.1155/2008/420747. 
  173. Mitsuhashi, N.; Fujieda, K.; Tamura, T.; Kawamoto, S.; Takagi, T.; Okubo, K. (Enero de 2009). «BodyParts3D: 3D structure database for anatomical concepts». Nucleic Acids Research 37 (Database issue): D782-5. PMC 2686534. PMID 18835852. doi:10.1093/nar/gkn613. 
  174. Zhao, Y.; Li, H.; Fang, S.; Kang, Y.; Wu, W.; Hao, Y.; Li, Z.; Bu, D. et al. (Enero de 2016). «NONCODE 2016: an informative and valuable data source of long non-coding RNAs». Nucleic Acids Research 44 (D1): D203-8. PMC 4702886. PMID 26586799. doi:10.1093/nar/gkv1252. 

Notas

  1. En biología molecular, la hibridación es un fenómeno en el que las moléculas de ácido desoxirribonucleico de cadena simple (ADN) o de ácido ribonucleico (ARN) se combinan formando ADN o ARN complementario.
  2. Un picolitro es aproximadamente 30 millones de veces más pequeño que una gota de agua.

Otras lecturas