在达纳法伯癌症研究所癌症计算生物学中心主任John Quackenbush教授看来,精准医疗的发展进入了2.0时代。在这个时代里,毋庸置疑“数据为王”,但倘若没有它的实用王后——生物学,是毫无意义的。
Quackenbush教授指出:很多我们研究的肿瘤精准医疗药物一直专注于识别个体的突变或基因组的个体差异,如HER-2基因扩增匹配的患者是否存在改变单一治疗的方式。这间接证明了我们对癌症分子基础的科学理解;也凸显了我们真正了解的程度。
尽管大多数人都掌握了生物学的基础,但许多有针对性的治疗只占其中一小部分。即使是这个新时代最成功的药物,如检查点抑制剂,也不能像预期的那样普遍发挥作用。
Quackenbush教授继续补充道,“目前肿瘤学精准医疗的发展现状是,在很多已经实施精准医学的细分领域,对生物系统功能逐渐具有一定了解。随着时间的推移,其他领域将一步步跟随。
尽管通过的路径不同,但精准医学的终极目标相似,即真正认识到单个突变或单个基因组改变只是我们解决问题的其中部分。
那么其他部分从哪里来呢?
Quackenbush解释道,最近的许多热点都集中在将表型数据集成到基因组数据库中。换句话说,追踪病人及其肿瘤的物理特性,而不是简单地从他们的基因组中进行预测。因此,他认为在精准医疗2.0时代,数据和内容必须同时进行。
他举了个电子病历的例子,目前电子病历的设计大多数不是为研究及患者护理而设计的,它们是为报销而设计的。而如何在宏观尺度上提取信息且不丢失数据的上下文,并牢牢把握其局限性,这是一个挑战。
他说:“很多人都急于以不可知论的方式来解释这种数据,这使得科学家不得不面对过度拟合或不适合他们模型的问题,或者他们建立的模型缺乏真实世界价值或。在我的职业生涯中,我总是接受这些大规模的数据集。但我对如何使用它们一直很谨慎。”
Quackenbush博士还指出,很多网站通过模仿数据,建立所谓的模型都是“虚假相关”。例如作者Tyler Vigen在研究肯塔基渔民死亡与婚姻间的强相关性时,使用的数据一部分是来自美国疾病控制预防中心和国家统计报告;另一部分则是来自尼古拉斯·凯奇出演的电影数量和掉进游泳池淹死人数之间的联系。可以肯定地说,这两者间不存在因果关系。
上述只是一个简单的问题,生物学问题比其更要复杂很多倍,且风险要高得多。如何获得真正的生物学见解,Quackenbush博士认为,大量数据分析只是研究人类生物学复杂性的一部分。通过大数据我们看到了巨大的希望,但前提是我们要勇敢地面对这些生物系统。