三体迷局,算法破局
海量碱基若烟尘,微量信号似金针。偏倚如雾遮真相,算法如火炼精纯。
漏诊顽疾一朝破,千万患者得新春。技术转化结硕果,无创检测泽苍生。
我就读的是香港中文大学(简称港中文,CUHK),成立于1963年,是一所由三所书院合并而成的大学:新亚书院、崇基学院和联合书院。建校的初心很有意思——既想传承中华文化,又想接轨国际学术,典型的“左手传统,右手现代”,试图在中西之间搭一座桥。这也让它成了香港唯一一所采用书院制的大学,每个学生都隶属于一个书院,生活学习都在里面打转,既有归属感,也有点像江湖门派,多少带点神秘色彩。
港中文的主校区位于新界沙田,坐落在狮子山的山腰上,这地理位置实在是“修仙级别”的。学校大门在山脚,而教室、图书馆、饭堂、宿舍基本都藏在半山腰甚至更高的地方。第一次来中大,站在山脚一看:这哪是上学,简直是要去朝圣。每次爬山去上课,五分钟腿软,十分钟气就喘得像是刚做完深蹲。山又陡,路又绕。所以大多数时候,大家都靠校巴上下山,功能上很接地气,节奏上却完全随缘,你等它,它不来;你不等它,它偏就来了。人多、车少、还容易错过,排队时仿佛在体验一种微缩版的社会竞争。
不过,我和这座山的关系不大。因为除了上课,我基本不在主校区。我所在的地方,是中文大学医学院的李嘉诚健康科学研究所。这个研究所在威尔斯亲王医院里面,是港中文的附属的医院。这个研究所和主校区其实算是两个世界,虽然都在新界,但坐地铁得倒一次车。
我导师是副教授S,是个刚从美国回来的年轻副教授,专业是生物信息学。他是被D教授亲自招回来的。D教授才是真正的大人物,当时是李嘉诚健康研究所的所长,后来几年更是直接升任了香港中文大学的校长。要说科研圈的江湖地位,他就是那个坐镇一方、说话就带风的大佬。
D教授手下有三个核心成员:R教授、A教授,还有我的导师S教授。前三位都是医学出身,搞不定生物信息和数据分析这块。所以从美国请回了S,希望他能补上技术上的短板。S就是他们的技术担当。
我第一次见到D教授,就觉得他自带一种科研富豪的气场。他的实验室配备了两台Illumina测序仪,这在当时是极其稀有的配置。要知道,那时候中国的很多高校和研究院都还买不起这种仪器,只有华大基因这种专门做人类基因组测序的科研机构才买得起。而他一个实验室就搞了两台,跟家里备了两台冰箱似的。关键是,这种测序仪还不是买来摆着好看的,用的时候耗材贵得惊人,一做实验就是钱在哗哗往外烧。这也从侧面说明了一个事实:D教授,不差钱。
D教授的不差钱还体现在他每天轮换开着两辆不同颜色的法拉利和奔驰上下班。香港经常下雨,法拉利车身太低,他还得撑着伞、下车刷卡进车库,这个场景有点像是超级英雄下凡,还得顾着停车场的门禁系统。
但比起这些外在的光鲜,我更被他身上的一种理念打动。以前我对科研有种清教徒式的幻想,觉得搞研究就不该谈钱,像古人讲“为天地立心,为生民立命”那样,一切都得为了科学的纯洁性服务。但到了香港,看见D教授,忽然意识到:科研和金钱,其实并不是敌对的。
当科研成果能转化成现实社会的价值,它带来的不仅是声望和影响力,还有可观的回报。而这些回报,又能反哺科研本身,让研究有条件变得更好。比如D教授可以买得起昂贵的测序仪,可以请得起厉害的技术人员,可以让研究加速落地,形成一个正向循环。这其中,也当然包括个人的回报,但这并不肮脏,反而是一种现实的理想主义。
更重要的是,当做科研的目的不是简单地埋头苦干、钻牛角尖,而是从一开始就思考它可能的社会价值,那种科研的方向往往更稳,也更有意义。否则,有些研究最后也许只是为了发一篇paper,发完了就被遗忘在数据库里。而像D教授那样,始终把科研放在现实问题的语境中,思考成果如何真正落地转化,这样的科研就多了一份使命感,也多了一份实用性。对我来说,这是非常深刻的启发。科研不该是闭门造车,而应该是一种有温度的创造,既能满足好奇心,也能回应社会的需要。
D教授让我看到了一种新的科研模式:不靠苦哈哈熬夜,也不靠空谈理想,而是用实力、资源和眼光,把科研做成了一种能自我造血的事业。这对当时的我,是一种刷新三观的启发。
D教授实验室专注于利用外周血进行产前诊断的突破性研究。他在医学界首次发现,在妊娠期间,胎儿的DNA会通过胎盘进入母体血液循环系统。这一发现看似简单,实则具有划时代的意义。在孕期监护中,及时检测胎儿健康状况、筛查遗传性疾病至关重要,这关系到早期诊断、及时干预乃至必要的治疗方案的制定。传统的超声波检查虽然能够提供一定的诊断信息,但其分辨率有限,往往需要等到妊娠中后期才能获得较为明确的诊断结果。若要在分子层面进行精准检测,则必须采用羊水穿刺等侵入性检测手段。
羊水穿刺听起来就让人心里发怵,医生需要用一根细长的针穿过孕妇的腹部,抽取羊水样本进行检查。这种传统方法虽然有效,但存在一定的流产风险,属于典型的侵入性操作。因此,当D教授发现只需从孕妇手臂抽取少量血液,就能检测到胎儿的DNA信息时,这无疑为产前诊断开辟了一条全新的道路。这种无创检测方法不仅操作简单、安全性高,而且对胎儿零伤害,堪称产前诊断领域的一次革命性突破。
更牛的是,这项技术不光能用在产前诊断上,甚至还能用于肿瘤的早期筛查。肿瘤,本质上是人体内部新长出来的一个异类组织,它也会偷偷地释放出一些独特的DNA信号,漂浮在外周血液里。所以只要抽点血,就有机会早期发现癌症。
当然,说起来容易,做起来难。不管是胎儿还是肿瘤,它们释放到外周血里的DNA都少得可怜,微乎其微,跟海洋里的一滴墨水差不多。而这些微量的异常DNA会被海量的正常DNA淹没,所以就需要非常高超的生物信息学技术来把它们捞出来,就像是大海捞针。
我负责的一个具体课题是:用这种外周血测序的技术,去研究21三体综合症、13三体综合症和18三体综合症的产前诊断。什么是三体综合症?简单来说,人类每个正常的染色体应该是成对出现的,但有些胎儿会多出一条染色体,比如21三体,就是第21号染色体多了一条,这种情况在唐氏综合征(Down Syndrome)中最为常见;13和18也是类似的情况,但病情通常更加严重。
在我进入D教授实验室之前,他们团队已经开发出了一整套基于外周血的测序检测技术,用来筛查这些三体综合症。检测21三体的效果相当不错,敏感度和特异度都能接近90%,已经非常实用了。但奇怪的是,这个技术一旦用在13和18三体综合症上,表现就差强人意,尤其是13三体综合症,敏感度只有30%多点,等于有大量真正患病的case检测不出来,存在严重的漏诊问题。
我刚进实验室没多久,就开始琢磨这里面到底哪里出了问题。我发现,原来13号和18号染色体有个很明显的特征,就是它们的G和C含量特别高。DNA就像一串由四个字母(A、T、C、G)组成的密码,其中C和G是一对好搭档,它们喜欢紧紧抱在一起。而我们用的测序技术当时并不成熟,对G和C特别多的区域非常不友好,会造成GC Bias,也就是说测出来的数据本身就带了偏差。这个问题会导致我们低估了这些染色体的表达,从而漏掉了真正的异常样本。
于是我就想出了一个办法,既然测序会带来偏差,那就得先把数据中这个偏差校正掉。我采用了一种叫Lowess Regression的统计方法,对这些GC含量引起的偏差进行建模和矫正。调整完之后,再使用原来的技术流程进行检测,结果13和18三体综合症的敏感度都有了显著提升,尤其是13三体综合症,直接从30%飙升到了90%以上,几乎是质的飞跃。这个困扰大家已久的问题,就这样被我给漂亮地解决了。
D教授知道这个结果之后非常高兴,立马让我把这个结果写成一篇paper发表出来。后来这也成为了我的硕士毕业论文的核心内容。D教授还用这篇论文去申请了专利。虽然只给了我5%的专利权,但也算是我人生中第一笔技术红利。这个专利后来还被一家公司给买走了,从那以后,每年我都能收到一点点专利费。虽说不多,但让我深刻体会到科研不仅能推动医学进步、造福患者,还能转化为实际应用,创造社会价值。这种将知识转化为现实影响力的过程,让我倍感科研工作的意义与成就感。
回顾这段经历,我特别感激在中科院实习时J教授对我的影响。她当时对我说"He is just a laborer"这句话,像一记惊雷,在我脑海中炸响。那一刻,我仿佛看到实验室里无数埋头苦干的科研民工,他们机械地重复着实验,却从未真正思考过自己在做什么、为什么要这么做。这句话像一把锋利的手术刀,剖开了科研工作的表象,让我看到了更深层的本质。
从那天起,我开始用全新的眼光看待科研。在D教授的实验室里,我不再是那个等待导师S教授分配任务的乖学生,而是化身为一个充满好奇心的探索者。每天我都会像寻宝者一样,阅读大量最新的文献,搜寻灵感;我像侦探一样,仔细分析数据观察其中的每一个异常现象,试图从中发现隐藏的线索。
我为了验证关于GC bias的假设,我经常没日没夜泡在实验室里,长时间看着电脑屏幕眼睛熬得通红,却依然精神抖擞。当结果终于验证了我的猜想时,那种兴奋感就像在茫茫大海中发现了新大陆。这种主动探索的过程,让我体会到了科研真正的魅力,它不仅仅是数据的堆砌,更是一场充满未知与惊喜的冒险之旅。
正是这种转变,让我从一个只会按部就班的laborer,成长为一个能够独立思考、解决问题的thinker。我彻底从一个被动研究生蜕变成主动研究者。我开始把导师和教授都当作是辅助资源,而不是过渡依赖的指路明灯。也正是这种态度,让我在硕士阶段就能解决一个连整个团队之前都没有搞定的问题,还实现了商业转化。这比任何之前我经历的考试高分、奖学金、排名,都来得更让我心潮澎湃。
Last updated