Cell:重复多态性是青光眼和结直肠癌最高遗传风险位点的基础
时间:2023-08-10 11:33:28 热度:37.1℃ 作者:网络
数以千计的人类基因组片段以不同数量的串联重复序列(VNTR)存在于不同个体的基因组中,但VNTR对人类表型的影响一直难以测量。在每个 VNTR 位点,每个等位基因的核苷酸序列(长度从七个到数千个碱基对)重复几次到数百次,重复次数因个体而异。
极端 VNTR 等位基因与人类疾病有关,包括进行性肌阵挛癫痫和面肩肱型肌营养不良症。然而,大多数全基因组关联研究 (GWAS) 并未考虑 VNTR,因为此类多态性不是通过 SNP 阵列直接测量的,并且很难从短序列读取中进行表征。
最近的计算进展使得可以根据测序数据测量或估计 VNTR 长度,并评估其与表型的关联。迄今为止,大多数研究都分析了对参与者进行表型和测序的队列,直接通过跨读或间接通过测序覆盖深度测量 VNTR 等位基因长度。这种方法成功地识别了 VNTR 与附近基因表达之间的关联;然而,发现与健康和疾病表型的关联。
事实证明,由于在大量个体中收集表型和 VNTR 等位基因信息的挑战,通常需要基因研究来发现基因型-表型关联,并且需要更大的样本量来区分基因组附近变异的影响(例如如 VNTR 和附近的 SNP)。推动发现许多 SNP 表型关联的一种方法是根据未分型等位基因分离的 SNP 单倍型来推算它们; 这种方法已扩展到复杂的多等位基因拷贝数变异。
最近观察到这种方法可以扩展到串联重复,进一步证明,通过有效地组合从最近的共同祖先遗传了相同 VNTR 等位基因的个体的测量结果,在许多位点上共享单倍型的分析可以显着提高短读长测序深度的 VNTR 长度估计的准确性。最近的工作应用这种统计插补框架来分析英国生物银行(UKB)的外显子组测序数据,结果表明,编码蛋白质的 VNTR 是与不同表型(包括身高、血清尿素和卷发)之间已知最强的一些遗传关联的基础。
2023年7月31日发表在Cell的文章,研究人员将这种方法应用于全基因组测序(WGS)数据,以估计来自基因型组织表达(GTEx)项目的深度表型 UKB 参与者和 RNA 测序生物样本供体的全基因组 VNTR 长度,以评估非-编码以及编码VNTR以塑造人类表型和基因表达。
本文摘要图
为了评估 VNTR 在全基因组范围内的表型影响,研究人员应用统计插补方法来估计 418,136 名不相关的 UK Biobank 参与者和 838 名 GTEx 参与者中 9,561 个常染色体 VNTR 位点的长度。关联和统计精细作图分析确定了英国生物库中的 58 个 VNTR 似乎影响了一个复杂的性状,其中 18 个似乎也调节了附近基因的表达或剪接。
TMCO1和EIF3H处的非编码 VNTR似乎分别产生了已知的最大的常见人类遗传变异对青光眼和结直肠癌风险的贡献。这两种 VNTR 中的每一种都与个体的风险范围 >2 倍相关。这些结果揭示了非编码 VNTR 在人类健康和基因调控中发挥着重要的作用,而这一作用此前并未得到重视。
TMCO1内的内含子重复扩增与青光眼风险和眼压相关
这些结果确定了许多似乎对人类表型和基因表达有强烈影响的 VNTR,包括与常见疾病风险相关的五种 VNTR 长度多态性。研究人员观察到的两种疾病关联,涉及TMCO1和EIF3H处的 VNTR,似乎是常见遗传变异对青光眼和结直肠癌风险的已知最强的遗传影响。
此外,GTEx 中的分析表明,VNTR 似乎能够通过多种机制从受影响剪接位点的近端和远端位置调节剪接亚型的使用。这些发现是通过 VNTR 基因型估计的计算方法实现的,该方法将测序覆盖深度分析与统计定相和插补集成到 SNP 阵列基因分型数据中,该框架同样可以应用于其他遗传数据集。
原文出处
Mukamel, R. E.; Handsaker, R. E.; Sherman, M. A.; Barton, A. R.; Hujoel, M. L. A.; McCarroll, S. A.; Loh, P.-R., Repeat polymorphisms underlie top genetic risk loci for glaucoma and colorectal cancer. Cell 2023.