La metilación del ADN constituye una de las marcas epigenéticas más estudiadas en eucariotas y cumple un rol esencial en la regulación de la expresión génica, el desarrollo embrionario y la determinación de fenotipos dependientes de tejido. Esta modificación, caracterizada por la adición de un grupo metilo al quinto carbono de la citosina para formar 5-metilcitosina (5mC), ocurre predominantemente en contextos CpG y se concentra en regiones genómicas conocidas como islas CpG (ICGs). Aproximadamente el 70% de los promotores génicos se solapan con ICGs y, en células, suelen encontrarse no metilados, favoreciendo la transcripción activa. Por el contrario, regiones intragénicas y cuerpos de genes suelen presentar altos niveles de metilación, contribuyendo al silenciamiento génico.
La secuenciación por bisulfito de genoma completo (WGBS) constituye la técnica de referencia para la caracterización de la metilación del ADN con resolución de nucleótido único. No obstante, el tratamiento con bisulfito implica una conversión de citosinas no metiladas a timinas que si bien reduce la complejidad del genoma, plantea desafíos técnicos en el alineamiento de las lecturas de secuenciación y en los análisis posteriores. Ante la gran diversidad de algoritmos y herramientas disponibles, la construcción de un flujo de análisis de principio a fin que asegure precisión técnica, eficiencia computacional y relevancia biológica representa un desafío no trivial.
En este trabajo se desarrollaron cuatro flujos de análisis integral para datos de WGBS, abarcando desde el control de calidad y el preprocesamiento de lecturas hasta el alineamiento, la cuantificación de niveles de metilación y la identificación e interpretación de regiones diferencialmente metiladas (DMRs). Para ello, se evaluaron y compararon dos herramientas ampliamente utilizadas para el alineamiento de lecturas y cuantificación de los perfiles de metilación, Bismark y BSMAP, junto con dos metodologías estadísticas para la detección de DMRs, DSS y methylKit.
Los resultados evidenciaron diferencias en el desempeño computacional de Bismark y BSMAP, aunque ambos mostraron porcentajes equivalentes de lecturas únicas y estimaciones globales de metilación. La comparación con datos de referencia de ENCODE reveló una alta correlación positiva (r > 0,91) entre los niveles de metilación predichos y los reportados experimentalmente, validando la robustez del pipeline desarrollado. El análisis funcional de los DMRs indicó que una proporción significativa de los cambios de metilación se localizan en elementos regulatorios como promotores y enhancers, confirmando la estrecha relación entre los perfiles epigenéticos y la regulación de la expresión génica dependiente de tejido. En particular, se observó que los promotores que cambian de estado de actividad entre corazón y riñón presentan mayores diferencias de metilación que aquellos que mantienen su estado.
En conjunto, en este trabajo se diseñaron cuatro flujos bioinformáticos flexibles, reproducibles y escalables para el análisis de datos de WGBS, capaces de integrar distintos alineadores y métodos estadísticos, y de proporcionar resultados consistentes con datos de referencia y biológicamente relevantes. Asimismo, su integración con anotaciones regulatorias de Ensembl abre la posibilidad de aplicar este enfoque en estudios comparativos de epigenomas de múltiples especies, en línea con iniciativas como ENCODE, GENE-SWitCH y AQUA-FAANG.
DNA methylation is one of the best-characterized epigenetic marks in eukaryotes, with a fundamental role in gene expression regulation, embryonic development, and the establishment of tissue-specific phenotypes. This modification is defined by the addition of a methyl group to the fifth carbon of cytosine to generate 5-methylcytosine (5mC), occurs mainly in CpG contexts and tends to cluster in CpG islands (CGIs). Around 70% of gene promoters overlap with CGIs and are usually unmethylated in normal cells, which favors transcriptional activity. In contrast, intragenic regions and gene bodies are often methylated, contributing to transcriptional silencing.
Whole-genome bisulfite sequencing (WGBS) remains the gold standard for studying DNA methylation at single-nucleotide resolution. Although the chemical conversion of unmethylated cytosines to thymines reduces genome complexity, it introduces technical challenges for read alignment and downstream analyses. Given the large number of available tools and algorithms, designing an end-to-end workflow that balances technical accuracy, computational efficiency, and biological relevance is not straightforward.
In this work, four WGBS analysis workflows covering all steps from quality control and read preprocessing to alignment, methylation quantification, and the identification and interpretation of differentially methylated regions (DMRs) were developed. Two widely-used tools for mapping and methylation estimation, Bismark and BSMAP, together with two statistical approaches for DMR detection, DSS and methylKit, were systematically compared.
Although Bismark and BSMAP differed in computational performance, both produced comparable percentages of uniquely mapped reads and similar global methylation estimates. Importantly, a comparison with reference data from ENCODE revealed strong positive correlations (r > 0.91) between predicted methylation levels and experimental measurements, supporting the robustness of the developed pipelines. The functional analysis of DMRs further showed that many methylation changes occur in regulatory elements such as promoters and enhancers, highlighting the link between epigenetic variation and tissue-specific gene regulation. Notably, promoters that switched activity state between heart and kidney displayed larger methylation differences compared with those that maintained their status.
Together, these results demonstrate that the workflows developed here provide a flexible, reproducible, and scalable framework for WGBS data analysis. They integrate different alignment and statistical strategies, yield results consistent with reference data, and capture biologically meaningful patterns. In addition, the connection with regulatory annotations from Ensembl makes this approach suitable for comparative epigenomic studies across species, in line with international initiatives such as ENCODE, GENE-SWitCH, and AQUA-FAANG