成文于2015年9月21日
2007年1月28日早上,Jim·Gray独自驾驶一条长40英尺的游艇,驶往位于旧金山金门大桥以西25英里的费拉隆岛[1]。他告诉家人,他要为过世的97岁的老母亲撒骨灰,并打算当晚返回。早上10点左右,他的妻子和女儿接到他的电话,当时一切如常,他赞叹天气很好,有海豚在船周围游来游去,还说接下来有几个小时他将收不到电话信号。然后,Gray消失了。到31日为止,海岸警卫队沿着太平洋沿岸,搜索了从蒙特里海湾到俄勒冈的金1.6万平方英里的海域,既没有发现Gray,也没有找到他的船,就这样他和他的小船消失至今……
1、范式
从可信的材料来看,“范式(paradigm)”在现时语境中所具有的含义,最早出处来自于托马斯·库恩(Thomas·Kuhn)在上世纪60年代完成的名著《科学革命的结构(the structure of scientific revolutions)》(以下简称《结构》)。事实上,库恩的《结构》一书中,Margaret·Masterman曾统计过,其出现了对“范式”的21中不同用法,导致库恩在随后的几年中不断发文,对其《结构》中“范式”一词进行了更为细致的解释。 [2] 在《结构》书中第二章“通往常规科学之路”中,库恩提到“常规科学建立在为某个科学共同体所认可的先前的科学成绩之上”。库恩认为,每个这样的共同体都有着自己的一组承诺,以及自己的如何从事研究的模型。
库恩所认为科学成果的范式,除了令人瞩目外,还应该:1、空前地吸引一批坚定的拥护者(可能是一种信仰的存在),使他们脱离科学活动的其他竞争模式;2、它们必须是开放性的,具有许多的问题,留待重新组成的一批实践者去解决。在笔者的理解来看,范式必须是主动地(而非被动地)在现时科学界发生的趋势和模式,甚至在转变中(范式转移paradigm shift);越来越多的科学同人、学界同人开始认同这样的范式,并以此为未来研究发展的核心目标和手段;同时,可以借助这样有共识的范式,进行预测和分析。而范式的“广泛认同”不仅来源于学界,也来自社会、媒体各界的认同。笔者认为,不论“范式”的理论基础和实践意义有多少水分和质疑之处,其实质是在讨论科学技术发展的一个时间维度,用时间轴的方式划分人类历史长河中科学的不同发展阶段,甚至是全人类思考方式的一种历史变化。把我们从混沌中拯救出来,厘清科研的逻辑和方向,不论是自然科学或是社会科学都将从中受益。
所以,笔者认为在讨论科学技术的发展、变革甚至是革命的时候,如果要从哲学的高度去审视这个命题,“范式化”的思考是必不可少的。
2、Gray与大数据
詹姆斯·尼古拉·格雷(James Nicholas “Jim” Gray,1944年-?),美国资讯工程学家,在著名的美国加州大学伯克利分校计算机科学系获得博士学位。其博士论文是有关优先文法语法分析理论的。学成以后,他先后在贝尔实验室、IBM、Tandem、DEC等公司工作,研究方向转向数据库领域。在IBM期间,他参与和主持过IMS、System R、SQL/DS、DB2等项目的开发,其中除System R仅作为研究原型,没有成为产品外,其他几个都成为IBM在数据库市场上有影响力的产品。可以说,终其一生都在与数据以及数据库相关的整理和分析研究中度过,其被广泛认为是大数据技术的重要旗手之一,并以此获得了图灵奖。
基于数据密集型科学的新科学研究方法的创新和应用,Gray在关于“eScience:科学方法的一次革命”的演讲中提出当数据量不断增长和累积到今天,传统的3种范式在科学研究,指出特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的第4种范式来指导新形势下的科学研究。这种基于数据密集型科学的数据探索型研究方式,被他自己称之为科学研究的“第4种范式”(The Forth Paradigm)。新的第四范式可以为当今的科学研究带来新的生命力。微软研究院出版的《The Forth Paradigm》 [3] 一书以科学研究为切入点,阐述了如何在eScience时代做数据密集型科学研究。
3、第4种范式
如上所述,作为关系数据库的鼻祖,Gray基于数据形式分析方法的发展,认为科学的演变经历了四种范式转换:(1)实验科学,发生在前文艺复兴时期,其形式是经验主义,描述自然现象;(2)理论科学,发生在前计算机时期,其形式是模型化和普遍化;(3)计算机科学,发生在前大数据时期,其形式是复杂现象的模拟;(4)探索性科学,发生在当下,其形式是数据密集型、统计性探索和数据采集。可以把数据扔进世界上所能够见到的最大的计算群,让统计算法发现那些科学所无法发现的模式,因此相关性替代了因果性。甚至无需连贯的模型、统一的理论,或者任何机械的解释,科学都能够前进而无需墨守成规。
4、疑问
(1)向这样的第4中范式转移是否真的能够实现?大数据虽然在当下的语境中是相关的火热,但其自身真的是否能成为带动科技发展甚至是变革的核心力量,仍有待考证(是否会有其他技术带来实际的第4范式);
(2)当前学界对大数据的运用是否普遍或者仍有疑虑,甚至是不屑?这里就需要大量的社会调查和文献分析。笔者认为,当前大数据可能只是可供选择的研究方式的一种,但并不能以偏概全,由此就认为所有的学科都采用这样的范式,甚至会不会大数据本身对一些学科是有相当程度抵触的(如以实验为主的应用学科等);
(3)数据的来源是否可靠、可信以及真实,直接决定了第4种范式的成败;
(4)这样的数据采集和挖掘是否会侵犯到他人或者单位甚至是国家的权利和利益,对于现行的知识产权(商业秘密)制度是否会有较大的冲击?
(5)库恩所指的范式转移,是前者被后者完全取代,还是有选择的部分核心研究思考范式的替换,仍有待考证。这就回应了上述(2)中的疑问,在Gray所描述的第4种范式中,是否就是指科学研究不再需要实验、理论研究,直接数据整理、分析和推导就行?这对于一个一生沉迷于数据的GEEK也许说得通,但真正的科学研究还是要从全领域和全学科的角度来看;
(6)最大的问题还在于,这样的4种范式划分并没有出现在库恩的哲学著作中,而只是在Gray一个发言稿中的只言片语。如果真的需要动用和确信第4种范式的发生,这就需要大量的功夫花在是否前三种的划分是正确的,并为公众和学界广泛接受的,这需要时间去研究和考验。
5、思考
Gray的第4种范式是在促进科学发展,还是在误导科学发展,仍有待大家去讨论。但毋庸置疑的是,世界上庞大数据库的发展、云计算的兴盛和大数据技术的不断扩散,我们的科学研究正在发生着翻天覆地的变化,笔者甚至认为计算机技术的出现只是提升了研究的速度,节省了人类思考的空间,但是大数据以及相关技术的蓬勃发展,也许才能真正颠覆人类思考的方向和模式,或更简单或更深刻,各有各的利弊。
Gray的小船虽然永远消失在了费拉隆岛旁澎湃的大海中,但其留下思考仍将在数据的海洋中波涛汹涌、兴风作浪(Gray在2007年1月11日发表了《eScience: A Transformed Scientific Method》,其集中阐释了他对第4范式的理解。而就是发言两周后失踪)。知产学人有句笑话:知识产权制度与科技创新的天然密不可分性,导致了只要技术在不断发展,制度都需要随之更变(或早或晚),这样一来学IP的人永远都不需要担心没有饭吃。那么,就让Jim·Gray的风暴来的更猛烈些吧!(终)