健康医疗大数据西部研究院

导读

日前，中国科学院北京基因组研究所（国家生物信息中心）康禹课题组，采用完全公开的欧洲犹太裔个体HG002的原始测序数据，完成其二倍体基因组的sub-T2T组装（除rDNA区以外，实现端粒到端粒拼接）——HG002.k1。

HG002个体测序数据由美国瓶中基因组（genome in a bottle，GIAB）联盟完成并公开（CC0），采用其各版本基因组相同的质量评估方法（包括相同的软件、参数、和相同的评估用测序数据）进行评估，k1版本达到Q80.83（母本：Q82.71；父本Q79.49），再次刷新人类二倍体基因组拼接质量。与GIAB在2023年10月底发布的HG002v1.0.1（质量为母本Q75.5，父本Q74.7）版本相比，k1版本修正了263 处拼接错误，其中母本116处，父本147处，包括母本10号染色体上一段长达13.8kb的缺失，所有修正都有充足的测序数据支持。

目前k1版本基因组序列已经上传亚马逊云，说明文档发布于Github（https://github.com/KANGYUlab/HG002），内含HG002.k1基因组序列、原始测序数据列表、评估软件、代码、评估数据列表，以及相关文献的链接，信息完全公开，供全球任何人自由下载、验证和使用，无任何版权要求（CC0）。

康禹研究员

任何发现的HG002.k1或该课题组参与拼装的T2T-YAO（“唐尧”基因组）的拼接错误，或与基因组拼接技术有关问题和讨论，都欢迎在该课题组主页的“问题讨论”页面（https://github.com/KANGYUlab/HG002/issues）留言，作者诚邀一切基于数据和事实的科学质证和讨论。

与此同时，作者正在与合作者进一步提高T2T-YAO（“唐尧”基因组）的拼接质量，尽早实现无拼装错误的中国人二倍体基因组序列。

|| HG002基因组研究背景

美国国家标准及技术研究所 (National Institute of Standards and Technology，NIST) 为基因组测序和分析建立了多个来自不同人种的标准细胞株，用于提取DNA标准物质。其中，来自东欧犹太人的HG002（GM24385和huAA53E0）细胞系是基因组测序和研究最为深入的一株。基因组标准物质和对应的基因组标准序列是评价各种测序、组装和变异识别技术/算法的“金标准”。NIST成立的瓶中基因组（GIAB）联盟致力于获得HG002的完整准确的二倍体基因组，100%还原其标准DNA序列，从而建立基因组水平的评估标准（genome benchmark），取代以往的变异水平的评估标准（variant benchmark）。

为了实现这一目标，GIAB联盟、端粒到端粒（T2T）联盟和人类泛基因组参考（HPRC）联盟正在合作开展“Q100”项目（ Q100是指10Gb基因组中有1个错误，由于人类二倍体基因组为6G，Q100即没有拼接错误），并自2022年以来，陆续发布HG002基因组序列版本，不断提高其拼接质量和完整性。同时，GIAB向全球公开所有各组装基因组版本和原始测序数据，欢迎全球科学家参与该项目，共同实现HG002二倍体基因组的Q100拼装。