作者:冯丽妃 来源: 中国科学报
人类完整基因组高配“拼图”完成
4月1日《科学》杂志封面:填补空缺。图片来源:《科学》
4月1日,美国科学家领衔的国际合作团队在发表于《科学》的6篇论文中报告称,有史以来最完整的人类基因组图谱绘制完成。
20多年前,科学家发表了人类基因组草图,破译了“生命天书”。不过,当时的序列尚不完整。此后遗传学家持续改进,但仍有约8%的序列缺失或错误。
现在,科学家揭开了最后的谜团,人类基因组图谱的最后一块拼图终于补齐。
“人类基因组的这些部分,对我们理解基因组如何工作、遗传疾病、人类多样性和进化非常重要。”该研究发起人之一、美国加利福尼亚大学圣克鲁兹分校的Karen Miga在邮件中告诉《中国科学报》。
“零件”更齐全的“高配”汽车
科学家于1990年启动人类基因组测序项目,并于2001年公布了首个人类基因组草图。
它使人们对人类生物学和疾病的理解取得巨大进展。但因为技术限制,最初公布的基因组序列并不完整。
“构成人类23对染色体的DNA碱基对太长了,当时测序时总是要切割。切割后我们就遇到一个问题——人类遗传密码中有大量的重复序列。”中国科学院院士、国际人类基因组计划参与者陈润生向《中国科学报》解释道,其中一类是像“糖葫芦”一样串联的重复序列,另一类则是散在的重复序列。
“如果串成串,你不知道它串的是99个重复还是100个重复;散在的问题是不知道要把它接到哪一个具有重复基因的片段上。”陈润生说,有人将这部分难测的基因形容为“梦幻的”或“隐蔽的”基因。
2003年人类基因组计划宣告完成之后,遗传学家继续对这部分隐蔽基因进行改进,但仍有约8%的序列存在缺失或错误。现在,在新技术的支撑下,科学家终于破译了最后一块拼图,绘制出缺失的部分。
新版本基因组被命名为T2T-CHM13。这有两个缘由。一方面,它由“端粒到端粒”(T2T)联盟绘制。另一方面,研究人员是从一个被称为CHM13的细胞系中读取的DNA。该细胞系来自完全性葡萄胎——当精子使一个没有细胞核的卵子受精时在人体内形成的组织,这种细胞可以在实验室中培养。
普通人类细胞的每段DNA都有两个副本,一个来自母亲,另一个来自父亲,往往存在重大差异。当科学家试图组装基因组片段时,来自父母的序列可能会混合在一起,掩盖了个体基因组中的实际变化。
使用CHM13就避免了这个问题。由此产生的细胞只含有来自父亲的染色体。“这使我们看到了生命基因手稿中以前从未读过的章节。”华盛顿大学霍华德·休斯医学研究所研究员、T2T联盟联合主席Evan Eichler说。
T2T-CHM13被认为是自人类参考基因组首次发布以来进行的最大改进。
据了解,它比上一个版本增加了近2亿个碱基对以及2000多个新基因;绘制了更精确的五条染色体臂的图谱,这将有助于人们进一步增加对染色体的认识;覆盖了基因组中最复杂的一些区域,包括在重要染色体结构及其周围发现的高度重复的DNA序列,如将两条染色体连接在一起的着丝粒和为细胞的蛋白质工厂提供指令核糖体的DNA;发现了人类基因组中200多万个变异,为622个医学相关的基因组变异提供了更准确的信息。
“以前我们看到了90%以上的基因组,但还有许多重要方面隐藏在科学视野之外。现在,我们可以站在山顶,看到山下所有的风景,获得人类基因资源的完整图像。”加利福尼亚大学圣克鲁兹分校基因组学研究所主任David Haussler说。
“假如把人类基因组序列比作一辆非常复杂的汽车,那么与20年前完成的人类基因组草图相比,完整的新序列相当于增添了更多零件。”对此,人类基因组计划参与者、中国科学院北京基因组研究所研究员于军在接受《中国科学报》采访时比喻说,“没有它能跑,有它更好。”
“游戏规则的改变者”
过去10年间出现的第三代DNA测序“长读”技术是弥补8%空缺的“游戏规则的改变者”。
在T2T联盟采用的两种技术中,牛津纳米孔DNA测序方法可以一次读取100万个DNA字母,但精度不高;而太平洋生物科学公司的测序方法可以一次读取大约2万个字母,精度近乎完美。这两种测序方法的优势“叠加”生成了完整的人类基因组序列。
“这种技术的进步是划时代的,就像从蒸汽机发展到内燃机再到信息化、智能化的大踏步前进。”于军说,这是获取完整序列的“后盾”。
“长读技术加上进行基因组重建和质量评估的创新方法,是这项努力成功的原因。”Miga对记者说。
那么,中国相关技术储备如何呢?
深圳华大生命科学研究院群体基因组学领域首席科学家金鑫向《中国科学报》表示,我国10年以前基本上依赖国外的基因测序设备,但在2015年开始拥有第一款真正的国产基因测序仪,目前拥有一款全球单日数据量产出最高的测序仪。
“在短读长(基因序列精读)部分,我们已经做到了与全球领先水平并驾齐驱,相关错误率仅有万分之一,甚至是十万分之一。”他表示,相关技术已经非常稳定。
在长读方面,他表示,国内多家机构正处于研发和追赶的阶段,现在也有了一些突破。
神秘的着丝粒
对于此次人类基因组的新部分,研究人员特别感兴趣的是神秘的着丝粒。它们是将两条染色体连接在一起的密集的DNA束,在细胞分裂中起着关键作用。
“约90%的新序列实际上来自染色体的着丝粒。”描述着丝粒周围碱基对序列论文的第一作者、加利福尼亚大学伯克利分校的博士后Nicolas Altemose介绍,着丝粒内部及周围的新DNA序列约占整个基因组的6.2%。
他和团队发现,着丝粒的大型蛋白质复合物牢牢抓住了染色体,这样细胞核内的其他机器就可以将染色体对分开。“一旦这一过程出错,就会得到错误的染色体分离,这将导致各种问题。如果这发生在减数分裂中,就意味着可能会发生染色体异常,导致自然流产或先天性疾病。如果它发生在体细胞中,可能会导致癌症。”他说。
他们还以T2T-CHM13为框架,比较了来自世界各地的1600名个体的着丝粒DNA,发现了其周围重复DNA的序列和拷贝数的主要差异,这可以用于追溯人类的谱系。
此外,完整的基因组也有助于提高科学家对不同人群个体基因组变异的理解力。
据介绍,T2T-CHM13将为人类参考基因组38 (GRCh38)提供补充。该基因组起源于人类基因组计划,自2000年第一稿以来一直在更新。GRCh38并不代表任何一个个体,而是由多个捐赠者的DNA组装而成,被合并为一个线性序列。
Miga表示,单个基因组的成功完成并不是最后的定论。目前,T2T联盟已与人类泛基因组参考联盟合作,旨在对350个个体进行全基因组测序,并基于此创建一个新的“人类泛基因组参考”,以“确保准确地捕获整个相关的基因组”。
于军则向《中国科学报》表示,中国人的基因组与现有的完整白人基因组序列仍然存在较大差异,他希望我国尽快发展三代、四代测序技术,测出完整的中国人基因组序列。
本文转载自《中国科学报》
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。