生物信息(计算生物学)感悟十年

我是在2008年决定转向到生物信息这个领域的,彼时二代测序(NGS)刚刚兴起,市场上有Illumina收购的solexa,Roche 454 和ABI SoLid,呈现三分天下的格局。当时Illumina还是一个没有什么名气的公司,测序的读长只有30多个碱基,因为大规模边合成边并行测序(massive parallel sequencing)一次测序可以轻易产生数百万甚至千万条短序列(read),通量(总数据量bp)远远高于之前的一代测序(毛细管电泳)。这绝对是革命性的变化。

首先,动辄几十G bases甚至数T的大数据对分析提出了非常大的考验,在硬件层面需要多核和具有庞大内存的服务器集群来进行运算,一般的个人用台式机因为硬件配置问题完全无法胜任;其次因为二代测序独特的数据特点reads多,单个read短,对算法和软件开发都提出了新的要求。事实上,二代测序技术兴起以后带动了整个生物信息学科的发展。除了在2000年之后的不到10年内因为基因芯片(microarray)技术的兴起,大量借用统计学的方法做过一些算法包之外,从上个世纪90年代序列比对算法BLAST推广开的漫长时间,生物信息这个学科的发展是相对停滞不前和不接地气的。

其次,随着二代测序技术的进步,读长和测序通量急剧增加,进而导致完成一项研究的测序成本显著下降。二代测序从2008年只有少数土豪寡头才能玩的起的技术到现在完全普及,整个测序产业链分工明确,在这产业链的各个节点都有利益的分享者。以二代测序为核心的实验技术层出不穷,从最早的RNA-seq,exome-seq到现在据说有好几百种XX-seq,并且微量建库的技术持续发展,最近两年单细胞测序技术异常火爆。

第三,因为二代测序的兴起和发展日臻成熟,在2015年左右开启了精准医疗的生物企业创业和投资热潮,在高峰期全国有近500家以上的公司参与开发基于二代测序进行肿瘤伴随诊断和生育健康等等方面的市场。目前精准医疗的头部企业有50余家,在主板和创业板上市的共有十余家,今后还有更多的相关公司登陆资本市场。学术界和产业界的巨大需求导致生物信息领域的人才抢手,资薪待遇向IT和互联网看齐。

因为生物信息的火爆,有很多学习物理,数学,计算机,统计,甚至化学等等方面的人转行过来;反而学习分子生物学,医学相关科学的人由于长期脱离数理训练,缺乏基本的编程技能,在分析自己通过实验产出的高通量测序数据时并无太多优势。由于本人也是由分子生物学转行改做计算的,我深知实验的艰辛和不确定。但是转行生物信息,也绝非朝夕之功。常常有一些分子生物学的厌倦者问我转行的事情,这方面以后我会逐步分享我的体会。