NAR:李春权教授团队开发SEanalysis 2.0: 一个全面的人类和小鼠超级增强子调控网络分析工具
时间:2023-06-05 20:46:50 热度:37.1℃ 作者:网络
作为DNA调控元件,超级增强子 ( SE) 具有富集大量转录因子(TF)结合并进一步显著调控细胞关键基因表达的优越能力。已有研究表明,这些TF通常受关键信号通路的调节,在细胞发育中起着至关重要的作用。TF可以通过改变SE来影响疾病进展和细胞谱系发育。显然,在许多生物过程的调控机制中,通路、TF、SE和基因之间的功能相互作用形成的复杂网络尤为重要。
为此,2019年,李春权教授团队在自主研发数据库SEdb(现已更新为SEdb 2.0)的同时,开发了在线软件分析平台SEanalysis,用于SE的上下游调控网络分析。SEanalysis是SE领域的第一款基于web平台的在线SE上下游调控网络分析工具。团队开发的SEanalysis软件和SEdb数据库等软件平台已成为具有国际影响力的生物医学大数据分析软件和平台,已广泛被美国、英国、德国、日本、法国等近100个国家的研究机构和人员使用,累计获得10万多次的用户访问量。
文章发表在Nucleic Acids Research上
为进一步满足研究需求,阐明SE相关网络的调控机制,南华大学附属第一医院李春权教授团队开发了SEanalysis web平台的更新版本SEanalysis 2.0,用于全面分析由SE、通路、TF和基因组成的转录调控网络。此项工作的参与单位还包括哈尔滨医科大学医学信息学院、湖南省妇幼保健医院国家卫生健康委员会出生缺陷研究与预防重点实验室、南华大学计算机学院。SEanalysis 2.0中的SE相关样本量是1.0版本的5倍多,显著提高了原有SE相关网络分析理解上下游特异性基因调控的能力,包括“通路下游分析”、“ 基因组区域注释”和“上游调控分析”。更重要的是,SEanalysis 2.0还新增了两个分析功能:“转录因子调控分析”和“样本比较分析”。为了进一步建立疾病遗传风险与SE之间的联系,该平台还利用风险SNP数据提供了注释功能。
该成果已发表在国际知名学术期刊Nucleic Acids Research上,文章题为”SEanalysis 2.0: a comprehensive super-enhancer regulatory network analysis tool for human and mouse”。
图1. 研究概要,来源:Nucleic Acids Research
据悉,当前的SEanalysis 2.0增加了小鼠SE,进一步扩大了人类SE的规模,研究团队基于SEdb 2.0数据库的H3K27ac ChIP-seq数据中增加了931个小鼠SE集和1198个人类SE集。目前,SEanalysis 2.0记录了2670个样本中的1,717,744个SE,包括1739个样本的1,167,518个人类SE,以及931个样本的550,226个小鼠SE。从数量来看,SEanalysis 2.0中SE相关ChIP-seq样本量是1.0版本的5倍以上,显著提高了SEanalysis 1.0中三个原有SE相关网络分析(”通路下游分析”、”上游调控分析”和”基因组区域注释”)理解上下游特定基因调控的能力。
同时,SEanalysis 2.0在SEanalysis 1.0的基础上,增加了两个新的靶基因识别策略:“JEME”和”Prestige”。SEanalysis 2.0增加了>600个人类TF和新增加755个小鼠TF,以获得更全面的TF-SE关系。
随着数据的增加,SE相关的调控网络覆盖了更多关于SE、TF、潜在通路和基因的调控信息。因此,SEanalysis 2.0改进了1.0中原有的三个分析功能,同时增加了两个新的分析功能:“TF调控分析”和”样本比较分析”,以支持对TF驱动的SE调控网络进行更全面的分析。
SEanalysis 2.0的“TF调控分析”功能可帮助用户通过SE发现目标TF调控的组织或细胞,并进一步阐明TF在特定组织或细胞中的相关功能和潜在的生物学机制。具体而言,SEanalysis 2.0首先根据“FIMO阈值”确定每个样本中TF的范围,输入目标TF,设置富集显著性p值、SE-Gene连锁策略和FIMO阈值。对于每个样本,通过ChIP-seq数据和motif扫描在预设的“FIMO阈值”下建立SE和注释TF之间的关系;采用“SE-Gene连锁策略”将SE与其靶基因进行连锁。经过富集分析和过滤后,显示显著富集的样本及其信息。随后,用户可以进一步选择最多两个目标样本,获得详细的调控信息和可视化,包括调控网络、风险SNP注释、基因活性评分和统计信息。其中,调控网络由带注释的TF、含有这些TF的通路、TF结合SE和SE相关基因组成。
SE通常被认为是细胞/组织特异性DNA调控元件。两个样本中的差异和共同SE的调控网络分析是理解上下游特定的基因调控所必不可少的。因此,SEanalys增加了“样本比较分析”功能,用于探讨两个目标样本中差异和共同SE的详细调控网络信息,有助于评估这些SE的不同调控作用。利用SEanalysis 2.0,用户可以通过“物种”、“组织类型”和“样本名称”来选择两个目标SE样本。此外,用户可以选择多个阈值,包括FIMO阈值和SE基因连接策略。接下来,比较两个选定样本之间的SE基因组区域,不重叠区域作为每个样本的特异SE,重叠区域作为每个样本的共同SE。“样本比较分析”输出结果包括:所选SE样本的详细信息;两个样本中差异/共同SE对应调控网络的表格和可视化;差异/共同SE靶基因的基因活性评分;网络中每个节点的拓扑结构;每个疾病/性状在SE区域内的风险SNP比率。
SE的细胞类型特异性调控往往与重要的生物学过程和疾病有关,因此,
SEanalysis 2.0增加了非编码调控区域的风险SNP注释功能,以提供与SE相关的潜在疾病/性状信息。研究团队从GWAS数据中收集了风险SNP信息,过滤得到与疾病/性状相关的449,062个风险SNP,当SNP位置与SE区域的组成SE重叠时,将这些风险SNP注释到SE区域。此外,研究人员进一步计算了每个样本中与每种疾病/性状相关的风险SNP数量。
整体而言,SEanalysis 2.0构建了由SE、TF、通路和基因组成的SE相关调控网络,支持五种SE相关分析:(i) 通路下游分析;(ii) 上游调控分析;(iii) 基因组区域注释;(iv) TF调控分析;(v) 样本对比分析。此外,SEanalysis 2.0还有助于浏览、搜索、下载和可视化SE。
图2. SEanalysis 2.0功能,来源: Nucleic Acids Research
此外,研究人员利用SEanalysis 2.0探究了SE介导的白血病细胞标志物TF的作用机制及调控机制,验证了SEanalysis2.0的有效分析能力。
图3. SEanalysis 2.0在白血病机制研究中的应用,来源:Nucleic Acids Research
近年来,大量的研究集中在SE介导的癌基因失调分子机制的临床作用上。TF和SNP可以激活或抑制SE,并影响其上下游调控关系。同时,越来越多的证据表明,SE可以被认为是潜在的药物靶点。为了进一步推进机制研究,李春权教授团队开发了SEanalysis 2.0,旨在对SE相关调控网络进行更全面、更灵活的分析。
SE和TF的数据增长使得调控关系的覆盖更加全面,从而显著提高了SEanalysis 2.0分析工具的能力,包括两个新增加分析工具:“TF调控分析”和”样本比较分析”。“TF调控分析”可以促进对SE驱动的转录因子调控网络的全面分析,“样本比较分析”可以帮助解释SE的细胞类型特异性调节作用。因此,SEanalysis 2.0不仅扩展了大规模SE数据,而且促进了更全面的分析。此外,SE区域中风险SNP的富集可以在细胞类型特异性水平上提供疾病/性状的潜在机制信息,进一步促进了对表观基因组网络调控的生物学机制的理解。
总而言之,SEanalysis 2.0有助于更好地探索SE在疾病发生的分子机制和细胞生物学过程中的关键作用,协助研究人员更深入地了解SE。
论文链接:
https://doi.org/10.1093/nar/gkad408
SEanalysis 2.0在线软件分析平台链接:
http://licpathway.net/SEanalysis