【IT 领袖峰会】华大基因王俊:IT 与 BT 融合引爆产业
王俊领导的华大基因是世界上最大的基因测序公司。1999 年,华大基因支持了人类基因组计划的 1%,而到 2012 年底,华大基因的测序数据产出能力占全球一半以上。华大基因致力于用基因科技造福人类,而个人基因测序价格的逐步大众化也使得更长寿、更健康的生活成为了可能。此外,华大基因正在科研、医疗、健康及农业等领域的应用服务方面深入发展,推动个体化医疗和健康的新模式。
2013 年 9 月,王俊被全球最具影响力的商业杂志《财富》(Fortune)评为 2013 年度全球 40 位 40 岁以下精英之一。这是自 2009 年公布榜单以来首位上榜的中国科学家,也是首位生命科学界入选精英。与王俊共同跻身榜单的有雅虎 CEO、Twitter 联合创始人、Facebook 创始人等。2012 年,王俊被英国《自然》杂志评选为年度十大科学人物,也是路透社 2012 年度最热门科学人物之一,获得科学研究领域 “影响世界华人大奖”。
去年的腾讯 WE 大会上,华大基因 CEO 王俊便是做主题演讲的嘉宾之一,今天的 IT 领袖峰会又一次在深圳召开,主场作战的华大基因 CEO 王俊也紧接着百度首席科学家吴恩达做了名为《IT 与 BT 的融合,产业的爆发点》。之前我们也偶有报道过类似的选题,IT(信息技术)和 BT(生物技术)的融合是未来的一个大趋势,去年 WE 大会上,王俊的演讲题目就是《生命的语言》,在其展望中,生命某种程度上也是一种程序化的语言,当生命被数字化后,生命也就存在着被改造的可能。
如果说上一次《生命的语言》是一次对长远愿景的预言的话,那么这一次的《IT 与 BT 的融合,产业的爆发点》(王俊笑称,原题目为《IT 遇上 BT,谁会爱上谁?》)是触手可及的明日现实。
生命是数字化的
说到 BT 和 IT 的相似点没完全可以归结到信息化上,多年前,克隆羊多利轰动了生物学界,其实放到 IT 领域,其实就像是一次简单的复制粘贴。只不过前者是以基因信息为基础,后者以二进制的 O 和 1 为基础。王俊说:
“因为计算和编程最核心基本单位是基因,基因是生命体最基本构成单位。我们每个人身上蕴藏所有信息组合就是一套生命信息基本程序,这套基本程序就是生命的语言。”
我们人身上有 2-3 万个基因,水稻有 5 万多基因,不同物种有不同基因,比如我们现在看到一个酵母菌用 4000 个基因,所有不同基因组合形式不同的生命程序,不同生命程序就形成这个个体与周围环境适应,每一套程序代表着不同的生存策略,这套不同的生存策略事实上针对于不同环境体系而来。检查这个程序到底好用不好用唯一标准就是这套程序能不能活下去,传播更多后代。当选择传播更多后代的这套程序就叫做可以适应于这套环境的生命语言。
如果程序设定我们的最大寿命是 150 岁,但是为什么我们活不到,生病是主要原因。从基因角度来看,很多病症都是基因问题,可以视作是生命程序出现了 Bug。
疾病是生命程序中的 Bug
那么疾病跟基因有什么关系、或者跟环境、跟数字化、跟 IT、BT 有什么关系呢?王俊的解释是:
“基因里面的毛病有点像写程序的时候出了一个 bug,出了 bug,基因程序运行不了,在有时候就出现很严重的问题。比如各种各样罕见疾病。有罕见疾病的一般生存周期都非常短,我们有各种各样例子,这种罕见疾病听起来非常罕见,但是加起来一点都不罕见,中国有大于 5.6% 的孩子出生有各种各样的出生缺陷,非常大的。生命程序不断试代码、试代码过程中不断试错,当然每一个错误并不是代表新的往前演化的可能。?
我们一般在教堂宣誓都这么讲,无论是疾病与否、健康与否都一辈待在一起?但是对于后代健康的问题,不应该从纯浪漫的角度出发。两广福建地区地中海贫血基因缺陷携带率差不多 19%,如果有两个携带者的夫妇结合在一起,生了地中学贫血孩子的可能性非常大。
提前检测基因可以有效预防这类基因疾病的发生。我们可以人工受精,做一个移植前检测,移植前检测在中国很多医院已经开展了。如果怀孕了怎么办?怀孕两到三个月之内可以对孩子进行完整基因检测,尤其是针对非常罕见的基因性疾病,通过这些筛差可以达到出生前防控。如果再往下走,新生儿出生了还需不需要检测?中国耳聋发生率很多是因为错用抗生素,如果体内基因不能受链霉素这个抗生素,一下就耳聋。如果早一点知道他得各种各样的心脏病、耳聋,包括自闭症风险,我们是不是可以早一点干预?
是可以的。
如何找 Bug,如何修 Bug
如果停留在预防和干预的阶段,却没有真正的解决方案,始终不能说引爆产业。而 IT 和 BT 的融合提供了这个可能。王俊透露,他们有一个计划,去搜索 100 万人的基因数据。寻找那些单纯从基因校对来讲他应该有单基因疾病,但是非常健康的人。这类人被称之为 “超级英雄”。这些人非常有意思,他们体内有非常明确的致病基因,但是非常健康,这是因为体内有另外一套基因保护他。就像程序出现 bug,但是有另外一段修复。如果找出那一段是什么,也许可以找出罕见性疾病的药物。
类似的,肿瘤和其他的一些慢性疾病,如糖尿病这些,都有望过基因技术来发现和解决。其中则需要一个生命的公式,左边是自己的基因、环境因素的基因,各种各样的东西,右边是你表现的状况,身高、体重、各种各样的病理特征、健康与否。找出其中公式则需要大数据技术,如果研究清楚身高基因的关系,需要 100 万人。要研究清楚绝大部分复杂疾病和基因以及环境的关系,需要把 100 万人各种各样信息全部搜集,才能得到刚才讲的生命公式。
如果有了 100 万的基因数据
如果把每个人数据都连起来,形成基因组网络,其中的机会不可估量。类似于我们讲的 IT 互联网企业,超级计算机,个人电脑,真正成了不可估量的机会。每个人在上面产生数据和支持,每个人的基因计划,所有基因组就形成网络。如此大的基因网络最终要做的是需要人工智能来学习,因为这么大的量已经不可能用一个单一模型来解决。
目前华大基因已经开始做这方面的基础研究,他们做了 3000 株小米,在同一个地方测定各种各样生长条件,最后看出来产量是多少、营养成分怎么样、各种各样结果,然后通过深度学习、人工智能方法,现在给定另外一株小米,华大基因有 90% 准确性可以预测另外这株的小米长成怎么样。
对健康有这样的准确预知能力吗?当我们拥有 100 万人基因测序的时候,离这样的能力就很近。奥巴马提出一个精准医疗计划,就是要做 100 万人基因组库,当所有人完成后,我们会有一个水晶球,未来健康的预测就走向了预知。
而这样的预知很有可能再做一些改变,最科幻的莫过于基因编辑,以及返老还童。说到这里,BT 技术其实又和 IT 技术殊途同归了,无外乎就是对于数据的改写和备份还原。