生物数据的急速积累

全球医学界和学术界能够以如此惊人的速度响应新冠疫情大流行,正是信息革命的直接成果。互联网和无线通信基础设施让海量病毒基因组测序数据与流行病学数据可以在世界范围内实时共享,数字技术使得公共健康信息的日常搜集、整合与传播成为可能。在私有药厂,深度依赖计算功能的药物研发管线利用人工智能算法和生物科技创新让化合物筛选、临床前检验和临床开发流程加速。无论是政府、工业界还是其他组织支持的国际合作科研项目,几乎每一分努力都受益于云计算资源。堆成山的数据帮助我们更好地理解了疾病的本质,为快速研发有效的治疗与反制手段提供了巨大的希望。

生物医学研究与药物研发领域的从业者几乎立即对疫情做出了响应。这不仅是因为他们察觉到了时间的紧迫,也因为他们发现了其中潜在的商机与实现科学突破的可能。在数以千计的实验室里,研究员利用病毒基因组序列、病毒与宿主的相互作用以及健康医疗系统中的数据验证着新的治疗思路。

在疫情早期,研究成果的大量发布形成了前所未有的知识宝库,medRxiv和bioRxiv平台上发表了超过5万篇与病毒有关的早期研究,使得我们能够及时浏览有关病毒研究的方方面面:从病毒复制机制的生物学与临床研究,到用于测试疫苗及其他疗法的复杂跨国临床试验,不一而足。可惜的是,我们无法及时审核并验证这些研究思路、治疗药物与重要公共政策。它们中很多都由于不够成熟而最终走向失败,或沦为了阴谋论的素材。技术只能帮助我们走到这里,而新冠疫情告诉我们,科学也有其局限性。

在2020年新冠疫情初期,基因组数据的发布对病毒追踪极为重要。但可能更为重要的是,它使得我们可以为基于基因组的诊断、疫苗和药物开发策略制订科学计划。通过将测序仪产生的包含数亿核苷酸(即我们熟悉的A、C、G和T,代表构成DNA的化学基础)的杂乱数据转换为字节,计算生物学家搭建出了一个包含病毒完整基因组的约3万个核苷酸长的“组装体”。从这里起步,研究人员在基因组上划定边界,“绘制”出了线性分布在基因组上的每个基因。

组装片段并确定序列身份都依赖于将序列片段与生物序列数据库中的已知基因组进行比对。通过设计好的算法,我们可以找到与拭子或液体样本中的短序列一致或高度相似的数据库匹配。这使我们可以快速了解采集到的生物材料中包含哪种或哪些生物体。为了表征并分类病毒基因组,我们需要将重新组装的DNA序列与通用数据库进行比较。这个通用数据库中包含了数万种已知细菌物种、数千种病毒和其他一系列奇特、致病基因序列的完整基因组。

利用基因组流行病学追踪新型冠状病毒

我们能够从基因组序列中获取的远不止病原体的身份信息。基因组信息可以进一步被应用在4个主要领域:流行病学、诊断学、疫苗设计与治疗学(包括抗病毒药物和其他模态的药物)。病毒学家、流行病学家和公共卫生体系已经对各类病毒序列进行了几十年的搜集与分析,而直到最近,随着二代测序和第三代测序(纳米孔或单分子测序)的兴起,我们才将流行病感染病例中病原体基因组测序的完成速度从几个月的时间压缩到了几天。这种基于基因组的流行病学方法与随之而来的大量数据催生了全新的全球疫情暴发追踪方法。

基因组流行病学的基础是,借助参考基因组,我们可以检测出单碱基分辨率尺度上的序列改变。通过与生物体所在家族、群落甚至种群内的基因组进行比较,我们可以获知生物体基因组每一个位点上的差异信息。这一方法能够成功应用于流行病学的关键是,病毒(尤其是RNA病毒)在宿主体内进行易错复制[12]时会留下可追溯的分子轨迹,我们可以通过检测碱基突变识别出这些轨迹。每当一个被散布到环境中的新的病毒粒子开始感染下一任宿主时,遗传物质复制周期就会再次开始。以新型冠状病毒为例,它的RNA基因组是通过一种叫作依赖于RNA的RNA聚合酶(抗病毒药物瑞德昔韦的靶点蛋白)复制的。这种酶工作时导致的复制错误,或者叫作碱基突变,会被保留并传递给后代。这些突变可以是“中性”的,不会影响病毒蛋白的功能或病毒的生存能力;然而,有些突变可能会随机为病毒引入生存优势,并因此得到广泛传播。还有一些有害突变可能会使病毒丧失复制能力,或者损害病毒的其他关键功能,因此在进化过程中丢失了。另一些被暂时保留的突变则可能会加速病毒的消亡。通过在时间尺度上追踪这些突变的印记,我们便可以得到病毒的家族树;利用测序信息构建病毒遗传家族树就是基因组流行病学的研究内容。随着时间的流逝,随机产生的突变在基因组上累积,形成了家族树不同分支的独特标记——只有基因组测序数据才能提供这种高精度的印记信息。

在2013—2016年的埃博拉大流行中,我们第一次利用高通量测序对埃博拉病毒进行了基因组监测。[13]这是流行病学历史上的一次里程碑事件——首次利用基因组监测手段解析病毒传染路径,规划疫情响应方案。同时,我们还能追踪疫情发展中病原体的进化方向。正是这次对抗埃博拉的经验促使科学界建立起了许多信息技术体系,以用于共享基因组数据、研发基因组流行病学分析工具。GISAID(全球共享流感数据倡议组织)便是其中的早期成果之一。[14]研究人员可以通过这一网站共享基因组序列,追踪流感病毒的遗传进化方向。另一项努力则与冠状病毒相关。Nextstrain.org是西雅图弗雷德·哈钦森癌症研究中心的特雷弗·贝德福德团队与瑞士巴塞尔大学生物中心的理查德·内尔团队共同建立的病原体检测开源平台。[15]在2017年开放科学奖的支持下,这一平台成功上线,并在新冠疫情中及时发挥了作用。

2020年1月,新冠病毒测序结果刚刚出炉,数字化加持的全球资源平台便开始了行动。亚洲、欧洲、北美和其他各个国家的测序结果也被上传到了GISAID网站。贝德福德和同事们则开始利用涌入的基因组序列重构病毒在全球传播的路径。其他地区的研究者也在追踪疫情的传播,利用基因组数据监测毒株是否发生了改变。在疫情刚刚暴发的几个月里,大量的基因组信息为我们揭露了病毒的重要特征。首先,为数不多的突变数目表明,新冠病毒感染近期才开始。和其他病毒相比,这种新型冠状病毒变化更慢,动态分支更少。图1—1展示了这棵新近出现的病毒进化树。

在疫情全球蔓延的初始,我们还没有准备好进行大规模的基因组分析与溯源工作,追踪疫情传播并不顺利。举例来说,来自加拿大、英国和澳大利亚的新冠患者的身上所携带的病毒具有相同或高度相似的基因组,这意味着他们之间有某种关联;而流行病学专家在分析了这些病例的社会活动后,发现这些早期病例有着一个共同点:最近到访过伊朗。没有基因组学的帮助,我们几乎没有办法定位到这样的关联。基因组监测也提供了美国西雅图发生社区传播的最早期证据:一个新冠患者检测出了与从武汉回来的本地“零号病人”几乎相同的病毒基因特征。[16]基因组流行病学工具的潜力在于,即使只有少量的基因组数据,我们也有可能对病毒的传播进行密切监测,从而使得公共卫生专家不再需要制定高度严格的社会隔离标准——一种控制疫情的重要手段。最起码,基因组数据能够告诉政府新发感染来自外部输入还是本地传播。但是,新冠病毒的变异不够迅速,没有办法支持我们准确地推算出传播路径(这一方法对艾滋病毒有效,因为艾滋病毒的每一次传播都会产生独特的基因型)。

图1—1 北美新冠疫情暴发期间的基因组流行病学

注:进化树展示了2019年12月至2020年3月新冠病毒感染个体体内828个病毒基因组间的关系。点表示个体,以图例中的地理来源标记。进化树是通过比较个体之间的病毒基因组序列生成的。突变会引入新的分支,垂直距离代表基因组之间的差异程度。处于同一水平线上的个体共享具有相同基因组的病毒,通过这种方法,这些病毒可以追溯到一个共同祖先。

在疫情暴发后的几周之内,我们便破译了传染病病原体的基因组信息,这是前所未有的事情。数字时代的我们很难想象当初生物学家和临床医生如何抽丝剥茧,花费大量时间找出艾滋病等神秘疾病的病因。由于疾病病程复杂,再加上各种技术、医学和社会观念的限制,发现人类免疫缺陷病毒是艾滋病元凶的过程分外缓慢。从1981年美国正式确诊第一例艾滋病患者,到1984年发现新的病毒——人类免疫缺陷病毒(最初命名为HTLV-III)[17],历经了3年的深入研究。幸运的是,在那段时间,分子生物学工具已经初具规模,研究人员可以对基因进行分离、克隆,然后通过手工方法进行测序(见第四章)。但其他技术进步更加重要。例如,我们需要细胞培养技术来繁殖病毒,利用动物模型解析疾病发展过程。当时,最重要的突破是临床研究人员发现了艾滋病的通用生物标志事件——患者体内某类T细胞(CD4+)的数目会严重下降。对我们理解艾滋病的过程而言,反转录病毒基因组序列的测定并不是其中的关键;测序过程直到病毒发现晚期才得以完成。

艾滋病大流行使人们认识到人畜共患病毒的存在及其带来的全球性威胁。在艾滋病出现之前,医学界的大多数人都认为,进入工业化社会后,外来病毒和鼠疫耶尔森菌(来自啮齿动物携带的蚤)不会再构成威胁。美国最后一例天花病例记录出现在1949年。借助全球疫苗接种计划,天花病毒在20世纪70年代末灭绝。1979年,美国排名前五的传染病分别是水痘(199 081例),沙门氏菌病(33 138例),甲型肝炎(30 407例),梅毒(24 874例)和乙型肝炎(15 452例)。[18]有效疫苗的问世遏制了这些疾病的传播,并大大降低了许多危险的“儿童”疾病(包括麻疹、流行性腮腺炎、风疹和脊髓灰质炎)的发病率。然而,从动物传播到人类的新发疾病仍在世界各地出现,可能在非洲、亚洲,也可能在其他任何地方。这些病毒的名字既让人感到熟悉又令人感到害怕:汉坦病毒属(1993年,美国西南部)、西尼罗病毒(1996年,罗马尼亚;2002年,美国)、寨卡病毒(多次流行:2007年、2013年、2015年、2016年)和埃博拉病毒(几内亚,2013—2016年)。到2018年,美国的传染病形势发生了巨大变化。在美国疾控中心的列表上,许多重点关注的病原体都具有动物宿主。其中,流感(禽类和猪)、冠状病毒(蝙蝠、骆驼、鸟)和西尼罗病毒(蚊子)都位居前五。[19]

21世纪初,病原体检测技术已经不再局限于简单的聚合酶链反应和传统的病毒学研究方法。2002—2003年,在严重急性呼吸综合征出现,也就是第一次冠状病毒疫情流行时,高通量测序仪器就已经投入使用了。当病毒分离完成,培养出的病毒粒子可以提取出足量的遗传物质之后,自动测序仪结合基因组组装算法在5个月内就拼接出了这种全新冠状病毒的基因组(从2002年11月到2003年4月中旬,其中技术测序步骤仅需要31天)。[20]接着,2012年,人们发现一种新的冠状病毒从骆驼迁到了人类。在这10年间,测序技术的水平实现了指数级的进步。二代测序用时3个月便测定了中东呼吸综合征冠状病毒(严重急性呼吸综合征冠状病毒的远亲)的基因组序列。[21]序列信息和分子诊断工具使我们能够在病毒引起更广泛的传播之前就采取相应的行动。

仅仅几个月之后,2012年12月,当几内亚一个偏远村庄出现埃博拉疫情时,DNA测序技术很快就派上了用场。[22]疫情暴发后,我们花了3周时间便从患者身上提取、恢复了病毒基因组序列。尽管基因组流行病学当时已经用于实时监测病毒在幸存者之间传播和通过性行为传播的过程,但如果我们更早获取到了序列信息,就可以利用这些数据完成更多事情。最后,在新冠疫情过程中,从“病因未知”到确定元凶的精确分子特征,仅仅用了3天时间。尽管我们还需要花费更多时间学习、理解这一病毒,但基因组测序和计算方法已经为我们提供了对抗疫情所需的基本信息。挖掘出蕴藏在病毒遗传物质——29 123个RNA核苷酸中的数据奥秘,即可引发一场搜寻救命药物与疫苗的全球性努力。