浙江仙居乡村治水景美如画

像乔布斯那样做一个基因组测序难吗

不少人对这个名字还有些陌生,但早在30多年前,人类基因组测序计划就已经成为破译人类遗传密码的大科学工程,并与曼哈顿原子弹计划、阿波罗登月计划并称为“20世纪人类三大科学计划”。

据阮珏介绍,Wtdbg算法的开发得益于一个新的组装图理论的提出,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。

以全基因组组装方式对群体进行测序分析,成为生物和医学研究的趋势。生物信息学领域的科学家们,也致力于改变这种数据产出速度高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。

阮珏说,这一研究成果表明我国在基因组算法领域具有了引领国际的实力,也代表了我国科技发展的软实力。有了这个更快的全基因组组装方式,也将有更多的人从中受益,比如,像史蒂夫·乔布斯那样做一个基因组测序。

2016年,这一研究成果开始对所有人免费开放使用,不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中做为性能测试赛题。

国际学术期刊《自然—方法学》(Nature Methods)近日刊发了这一成果的论文,其中提到,这一算法极大提高三代测序数据的分析效率,与今年4月科学家研发的Flye算法相比,分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。

从2013年开始,阮珏和李恒着手解决第三代测序组装的问题,随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。

亨德里克外围射门偏出。威廉禁区边缘外劲射被本-米挡出底线。詹姆斯右路禁区边缘劲射稍稍偏出右上角。第18分钟,麦克尼尔任意球斜传,越位的本-米头球摆渡,亨德里克头球破门被判无效。切尔西第27分钟取得领先,洛顿禁区内对威廉犯规,若日尼奥主罚点球命中。

伯恩利(4-4-1-1):1-波普;2-洛顿,5-塔尔科夫斯基,6-本-米,3-泰勒;25-列侬,18-韦斯特伍德,4-科克,11-麦克尼尔;13-亨德里克(73′,27-维德拉);9-克里斯-伍德

不过,第三代测序技术也面临着一个尴尬困境:要完成这样数据规模的全基因组组装分析,需要消耗50万个CPU小时,只能在超大计算机集群上进行。这种情况下,同时对大量个体的全基因组进行组装分析,是难以想象的。

亚布拉罕进球,2-0

切尔西近4战伯恩利取得3胜1平。切尔西在双方近12次交锋中仅负1场,其余10战7胜3平。切尔西近12个主场对阵伯恩利也仅负1场,其余11场取得7胜4平。双方历史交锋99场,切尔西37胜25平37负不分上下。亚布拉罕、威廉、芒特、阿斯皮利奎塔、吕迪格和凯帕轮换回到首发。

如今,中国农业科学院农业基因组研究所博士阮珏与美国哈佛大学医学院博士李恒合作,研发出第一个能够跟上基因组测序产生速度的组装算法——Wtdbg。

如今科技发展日新月异,完成一个人的全基因组测序,已经是普通实验室甚至家庭都可以负担得起的“平常事”。以当下火热的第三代测序为例,完成个人全基因组测序仅需1天时间,有的费用已经低于5万元。

伯恩利展开反攻,麦克尼尔禁区前劲射被凯帕扑出。本-米角球混战中头球攻门被封堵,克里斯-伍德和杰克-科克在小禁区右侧的射门也被相继封堵。切尔西第38分钟扩大比分,詹姆斯右路下底传中,亚布拉罕小禁区边缘力压2人头球破门,2-0。随后巴克利传球,詹姆斯禁区右肋10码处劲射被扑出。

所谓基因组测序,就是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,锁定个人病变基因,提前预防和治疗。多年前,苹果公司创始人史蒂夫·乔布斯在确诊胰腺癌后,曾花费10万美元进行个人基因组测序,引发公众关注。

切尔西(4-3-3):1-凯帕;24-詹姆斯,2-吕迪格,4-克里斯滕森,28-阿斯皮利奎塔;19-芒特,5-若日尼奥,8-巴克利;10-威廉,9-亚布拉罕,20-奥多伊

“我们重新定义了‘短串’,新设计的模糊布鲁因图能够容忍高噪声数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。”阮珏说。

第49分钟,阿斯皮利奎塔左路斜传,亚布拉罕头球顶空,奥多伊小禁区右侧铲射入网,3-0。芒特传球,亚布拉罕小禁区右侧射门被扑出。随后芒特传中,但亚布拉罕小禁区边缘头球攻门偏出。詹姆斯右路传中,亚布拉罕小禁区边缘铲射错过皮球,威廉远点小角度射偏。

“由于第二代测序错误率低,大部分短串是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。”阮珏说,突破性的方法基于突破性的理论基础。

詹姆斯传球,威廉禁区左侧抽射上角被波普托出横梁。奥多伊右路低传,芒特前点小禁区前铲射被波普扑出。芒特开出角球,克里斯滕森小禁区前头球攻门稍稍高出。麦克尼尔30码处任意球直接射门偏出左上角。蓝军终结联赛主场连败。