概率为径,推断作梯
生物歧路转层峦,统计幽深探更难。公式万千如骤雨,经书百卷似狂澜。
荧光笔下分多彩,苦思冥中过险滩。终得心源无滞碍,豁然开朗见峰峦。
早在博士入学前,我就暗自下定决心要选择统计方向,这个决定在当时看来颇为大胆,甚至有些不自量力。我的本科背景是生物,虽然在香港读研时接触了一些生物信息学,但和那些数学或统计科班出身的同学比起来,我的统计学基础几乎为零,更别提本科时那门讲得极其糟糕、让我昏昏欲睡的概率统计课了,那点底子基本可以忽略不计。
为什么我明知山有虎,偏向虎山行?原因很多。一方面,是源于一种朴素的认知:做课题、看论文时,总觉得用到统计方法的分析显得特别牛掰。更深层次的原因,则是我逐渐意识到统计学的力量和魅力。在本科后的实习中,我曾感受到师兄用贝叶斯网络做基因组学研究,那种从数据中推断因果关系(causal inference)的能力让我觉得无比神奇。而且,我隐约感觉到,统计学是理解这个充满不确定性的世界的钥匙,它能帮助我们量化未知,从杂乱无章的数据中寻找规律,这与看待世界非黑即白的确定性思维完全不同。我还预感到,统计学是机器学习和深度学习的基石,正如我后来的博士导师提到的"计算机背景的人做出来的东西,我用统计都可以把它做得更好",统计是很多应用领域更底层的研究手段。掌握它对于未来从事数据分析相关的职业至关重要,无论是找工作面试(比如我后来发现,很多金融量化岗位的面试题,追根溯源,很多都是考察条件概率Conditional Probability和期望值Expectation的计算和理解)还是实际应用,都绕不开它。再加上骨子里那点不服输的劲头,越是难啃的骨头越想试试,于是便一头扎进了这个对我而言全新的领域。
自学统计的过程,初期确实充满了痛苦和挣扎。顶着生物学的背景去啃统计这块硬骨头,起初的日子简直可以用水深火热来形容。统计学这门学科的抽象性远超生物学,甚至比线性代数更难找到直观的理解途径。对于习惯了形象思维、需要具象化来辅助学习的我来说,这无疑是一道巨大的坎。我沿用了学生时代最熟悉的学习模式,试图靠死记硬背来掌握那些抽象的公式和概念。毕竟,学生物时,很多知识点确实需要强行记忆,潜移默化中,我似乎把这种思维定式带到了统计学习中。然而,很快我就发现此路不通。统计学并非生物学那样的文科,纯粹的记忆无法带来真正的理解。我可能会记住Z检验和T检验的适用规则,比如样本量大于30用Z,小于30用T,但为什么要这样?它们背后的假设是什么?T分布的厚尾巴(heavy tail)意味着什么?为什么样本量大了T分布就能被正态分布近似?这些深层逻辑,死记硬背是无法触及的。
一开始,即使我投入了大量时间和精力上课、自学,我对统计学的理解也确实停留在极其表面的层次。我能记住一些定义,比如什么是p值,什么是总体(population)和样本(sample)。甚至在研究生阶段的生物统计课上,我也能依葫芦画瓢地用软件跑一些分析,比如做个t检验(t-test)或者方差分析(ANOVA)。但这些操作背后的原理,我当时还并不真正理解。就像合作者经常问我的一个经典问题:图上的误差(error bar)到底该用标准误(standard error)还是标准差(standard deviation)?虽然现在看来很简单,但当时的我可能也只能含糊其辞。这种知其然不知其所以然的感觉非常沮丧,但也正是这种不满足感,驱动着我必须转变学习方法,从记忆转向理解,去探究每个公式、每个概念背后的统计含义和思想。这就像读论文不能只看方法和结果,更要去揣摩讨论部分作者的思路和洞见一样,理解为什么远比记住是什么更重要。
没有人指导,只能靠自己硬啃。那些厚厚的英文教科书,对我来说如同天书一般。第一遍看不懂,就看第二遍,第二遍还是模糊,就看第三遍。我甚至沿用了高中政治老师教的笨方法,买了各种颜色的荧光笔,每读一遍就用不同颜色的笔画重点,试图在反复的涂抹和阅读中抓住那些飘忽不定的概念。书本被我画得五颜六色,笔记做得密密麻麻。除了反复阅读,做题也是必不可少的环节。课后习题是强迫自己思考和应用知识的最佳方式。没时间做所有题,至少要把书中的例题自己动手推导一遍,或者合上书默想一遍解题思路。这个过程虽然枯燥,但对于巩固理解至关重要。正是这种最原始、最笨拙的反复琢磨,为后续的理解打下了基础。
正是因为经历了这段痛苦的摸索,我才逐渐意识到,要真正掌握统计,关键在于建立起一个清晰的知识框架,并深入理解那些核心概念的本质。统计学知识体系的特点是层层递进,不像生物学的很多分支可以并行学习。基础不牢,地动山摇。通过废寝忘食的学习,我慢慢认识到,如果一开始没搞懂概率论(Probability),包括各种概率分布、随机变量、大数定律和中心极限定理这些基石,后面学习统计推断(Statistical Inference)就会步履维艰。我开始理解到,统计推断这部分,无论是叫数理统计(Mathematical Statistics)还是别的名字,其核心无非就是解决两大问题:一是如何估计模型参数(Parameter Estimation),二是如何进行假设检验(Hypothesis Testing)或更广义的统计推断,也就是量化我们结论的不确定性(比如计算p值或置信区间)。把这些基本功打扎实了,后面的学习才算有了方向。
为了真正搞懂统计,我开始了漫长的自学探索。对于像我这样基础薄弱的门外汉,在线课程是很好的起点。我当时就上过Coursera上约翰霍普金斯大学那个数据科学、统计和机器学习的专项课程。虽然对我来说内容偏基础,但对于零基础入门,我觉得是个不错的选择,它至少能让我对整个领域有个初步印象。后来我还发现密歇根大学也有一个用Python学统计的专项课程,看介绍也挺系统,同样适合新手入门。这些课程的好处是结构清晰,能帮我快速建立一个知识框架。
然而,在线课程终究只是领进门。要想深入堂奥,还得靠啃那些经典的教科书。我的首选,也是后来无数个日夜与之搏斗的,是Casella和Berger合著的《Statistical Inference》。这本书堪称统计推断领域的圣经,覆盖了概率论和统计推断的核心内容,是很多美国大学统计系或生物统计系研究生阶段的指定教材。它的优点是体系完整,论证严谨,例子也选得恰到好处,能帮我深刻理解概念。但缺点也很明显,对于自学者来说,难度不小,很多地方需要反复琢磨,甚至需要结合其他资料才能完全搞懂。我常常是几本书对照着看,比如同一个概念,在这本书里看不太明白,就去翻翻另一本,比如Larry Wasserman的《All of Statistics》。这本书覆盖面更广,除了经典的频率学派内容,还包含了广义线性模型和贝叶斯方法(作者本身就是贝叶斯学派的),对于想了解统计全貌,尤其是后来想接触机器学习的同学非常有帮助。它让我意识到统计学内部也有不同的流派和视角。
说到机器学习,就不能不提《An Introduction to Statistical Learning》(ISLR)这本书。它是另一本神书《Elements of Statistical Learning》(ESL)的简化版。ESL虽然经典,但难度极大,对初学者非常不友好。ISLR则友好得多,它用更易懂的方式介绍了机器学习中常用的统计模型和方法,比如线性回归、逻辑回归、树模型等等,而且提供了R语言的实战代码,非常实用。这本书我反复看了很多遍,它清晰地展示了统计学是如何支撑起机器学习的半壁江山。
我还专门花时间学习了贝叶斯统计。在机器学习日益重要的今天,贝叶斯思想的应用越来越广泛。虽然最经典的贝叶斯教材是Gelman等人的《Bayesian Data Analysis》(BDA),但它同样以艰深著称。我选择的是John K. Kruschke的《Doing Bayesian Data Analysis》。这本书写得非常通俗易懂,图文并茂(甚至有很多彩图),还有配套代码,读起来非常舒服,极大地降低了学习贝叶斯方法的门槛。它让我体会到贝叶斯推断的强大之处,即能够自然地量化不确定性,并融入先验知识。
除了这些技术性很强的教材,我还看了一些介绍统计学发展历史的书籍,比如Stephen Stigler的《Statistics on the Table》。了解像Fisher这样的统计学巨匠是如何在解决农业实验、赌博等实际问题中,逐步发展出似然(Likelihood)、最大似然估计(MLE)这些核心概念的,这对于理解统计思想的脉络和动机非常有帮助。读历史能让我明白,很多我们现在觉得理所当然的方法,其实是前人智慧的结晶,是经历了反复试错和改进才形成的。
随着基础的夯实,我开始能够逐步深入到更具体的模型和领域,比如线性模型(Linear Models,如线性回归)、广义线性模型(Generalized Linear Models,如逻辑回归)、多元统计(Multivariate Statistics)、随机过程(Stochastic Processes,对理解时间序列和金融模型很重要)、贝叶斯统计(Bayesian Statistics,理解现代机器学习的一个重要视角)等等。再往深处,还有研究大样本性质的渐近统计(Asymptotic Statistics),处理变量远多于样本数的高维统计(High Dimensional Statistics),以及与机器学习交叉的统计学习(Statistical Learning)等更专门的领域。我逐渐看清了这门学科的版图和内在逻辑,理解了这个学习路径是环环相扣的,不能随意跳跃。
更重要的是,通过大量的阅读、思考和实践,我终于开始真正理解一些看似简单却极其关键的概念的本质。比如相关性(Correlation)不等于因果性(Causality),不能看到两个变量一起变化就认为一个是另一个的原因。还有辛普森悖论(Simpson's Paradox)警示我们,如果不考虑潜在的混淆变量(confounding variables),局部看到的趋势可能和整体趋势完全相反,就像"一叶障目,不见泰山"。以及频率学派(Frequentist)和贝叶斯学派(Bayesian)对概率本身的不同解读,前者认为概率是大量重复试验下的频率极限,后者认为概率是主观信念的度量,这种根本认识上的差异导致了后续推断方法的不同。当这些概念不再是孤立的定义,而是能够联系实际、融会贯通时,我才感觉自己真正开始运用统计思维去分析问题、理解世界了。
回首博士那几年在统计学上的挣扎与成长,我认识到,克服跨学科学习的巨大挑战,光靠埋头苦干是不够的,更要掌握正确的学习方法,抓住知识的本质。整个博士期间,我花在统计学上的时间和精力远超其他任何学科,包括后来学习的编程、机器学习和深度学习。统计学的抽象性和对思维方式的挑战,对我来说是前所未有的。从相对直观的生物学转向高度抽象的统计学,不仅仅是学习新知识,更是一次思维模式的根本转变。我必须努力摆脱对具象化的依赖,学会在概率和随机性的框架下思考问题。
渐渐地,我认识到,学习统计并非一蹴而就,也没有太多捷径可走,需要投入大量的时间和耐心。不同的人学习统计的目的也不同。如果只是想掌握一些基本的分析技能,应付日常工作,或许几门入门课程就够了。但如果想真正理解统计的精髓,用统计思维去解决复杂问题,甚至从事相关研究,那就必须下苦功,系统地学习那些核心教材,打下扎实的基础。我个人认为,只有啃完了像Casella & Berger这样的书,才算真正摸到了统计学的门槛。对于更高阶的研究,比如金融量化或者某些前沿的生物信息学研究,可能还需要学习更深入的知识,像是随机过程、高维统计或者生存分析等等。这些都是在打好基础之后,根据具体方向需要去拓展的领域。
回看这段经历,我时常在想,如果当时能有一个统计学的双学位,是不是会更有帮助?知识学到了是自己的,但学位在求职时毕竟是一个更直观的证明。统计能力不像做一个机器学习项目那样容易在简历上展示。我知道有些学校,比如宾夕法尼亚州立大学(PSU)提供在线的统计学硕士学位。我读博的学校,统计系也允许其他专业的博士生辅修统计学硕士学位,只需要选修足够学分即可,我认识的一些同学就拿到了这样的双学位,学费通常还能被本系覆盖,相当划算。可惜我当时因为种种原因错过了,但如果重新选择,我可能会认真考虑这个选项。
这个过程无疑是痛苦的,但也正是这段经历,让我完成了必要的思维重塑。如今看来,我非常庆幸当初投入了大量时间和精力死磕统计学。博士这几年死磕统计学的经历,虽然充满艰辛,但最终证明是无比值得的。它不仅让我掌握了一门强大的分析工具,更重要的是,它彻底重塑了我的思维方式,让我学会了用概率的眼光看待世界,用严谨的逻辑去分析问题。正是这段经历,为我日后转向机器学习领域打下了坚实无比的基础,那些核心的统计概念和思想,后来都成为了我理解和应用机器学习算法的关键。
Last updated