当前位置:首页 - 业界前沿
再刷记录,Q80.83!中科院基因组所康禹课题组完成犹太人二倍体基因组拼装
2024-04-17 分享至:

  导读  

日前,中国科学院北京基因组研究所(国家生物信息中心)康禹课题组,采用完全公开的欧洲犹太裔个体HG002的原始测序数据,完成其二倍体基因组的sub-T2T组装(除rDNA区以外,实现端粒到端粒拼接)——HG002.k1


HG002个体测序数据由美国瓶中基因组(genome in a bottle,GIAB)联盟完成并公开(CC0),采用其各版本基因组相同的质量评估方法(包括相同的软件、参数、和相同的评估用测序数据)进行评估,k1版本达到Q80.83(母本:Q82.71;父本Q79.49),再次刷新人类二倍体基因组拼接质量。与GIAB在2023年10月底发布的HG002v1.0.1(质量为母本Q75.5,父本Q74.7)版本相比,k1版本修正了263 处拼接错误,其中母本116处,父本147处,包括母本10号染色体上一段长达13.8kb的缺失,所有修正都有充足的测序数据支持。

目前k1版本基因组序列已经上传亚马逊云,说明文档发布于Github(https://github.com/KANGYUlab/HG002),内含HG002.k1基因组序列、原始测序数据列表、评估软件、代码、评估数据列表,以及相关文献的链接,信息完全公开,供全球任何人自由下载、验证和使用,无任何版权要求(CC0)。

康禹 研究员

任何发现的HG002.k1或该课题组参与拼装的T2T-YAO(“唐尧”基因组)的拼接错误,或与基因组拼接技术有关问题和讨论,都欢迎在该课题组主页的“问题讨论”页面(https://github.com/KANGYUlab/HG002/issues)留言,作者诚邀一切基于数据和事实的科学质证和讨论。

与此同时,作者正在与合作者进一步提高T2T-YAO(“唐尧”基因组)的拼接质量,尽早实现无拼装错误的中国人二倍体基因组序列。

|| HG002基因组研究背景

美国国家标准及技术研究所 (National Institute of Standards and Technology,NIST) 为基因组测序和分析建立了多个来自不同人种的标准细胞株,用于提取DNA标准物质。其中,来自东欧犹太人的HG002(GM24385和huAA53E0)细胞系是基因组测序和研究最为深入的一株。基因组标准物质和对应的基因组标准序列是评价各种测序、组装和变异识别技术/算法的“金标准”。NIST成立的瓶中基因组(GIAB)联盟致力于获得HG002的完整准确的二倍体基因组,100%还原其标准DNA序列,从而建立基因组水平的评估标准(genome benchmark),取代以往的变异水平的评估标准(variant benchmark)。

为了实现这一目标,GIAB联盟、端粒到端粒(T2T)联盟和人类泛基因组参考(HPRC)联盟正在合作开展“Q100”项目( Q100是指10Gb基因组中有1个错误,由于人类二倍体基因组为6G,Q100即没有拼接错误),并自2022年以来,陆续发布HG002基因组序列版本,不断提高其拼接质量和完整性。同时,GIAB向全球公开所有各组装基因组版本和原始测序数据,欢迎全球科学家参与该项目,共同实现HG002二倍体基因组的Q100拼装。




相关链接

HG002.k1:

https://github.com/KANGYUlab/HG002

T2T-YAO:

https://www.sciencedirect.com/science/article/pii/S1672022923001006https://ngdc.cncb.ac.cn/gsa-human/browse/HRA004987

HG002 Q100:

https://github.com/marbl/HG002

文章内容来源于“测序中国”公众号,本网站仅用于学术分享,如有侵权请联系管理员删除或修改。