2018-01-26
张小劲 孟天广:论计算社会科学的缘起、发展与创新范式
大数据时代的到来,既向传统的学科分野及其方法论范式提出挑战,又为新学科发展及范式突破准备了基础条件。作为前沿交叉学科,计算社会科学既是大数据时代科技进步、数据爆炸和方法创新的产物,又是社会科学长久以来的计算传统知识积累的成果,致力于应用数据思维、数据资源和数据分析学以研究人类社会行为和社会运行规律等。近年来计算社会科学的发展使新学科成为现实,这种学科创新体现为围绕着数据驱动和算法驱动,采取不同融合方式的一系列“问题解决性、应用导向”多元化进路,推动社会科学范式转换。
文/张小劲 孟天广
清华大学 社会科学学院 政治学系 教授
清华大学 社会科学学院 政治学系 副教授
大数据时代的到来,既向传统的学科分野及其方法论范式提出了挑战,又为新学科发展及其方法论突破准备了条件。“计算社会科学”概括了社会科学在大数据时代所呈现出的新发展、新路径和新范式。计算社会科学以“计算”为核心,通过将研究对象充分数字化、网络化延伸了人类器官的感知功能,拓宽了思维视野,有利于多学科协同发展和知识创新,已经显现出独特魅力。本文将系统阐述计算社会科学的缘起,并探讨学科发展从“分化”走向“整合”的多学科进路等特征、范式转换以及关键性方法论创新。
计算社会科学的“史前史”是基于社会研究与计算技术的学科发展。倘以Lazer等人发表《计算社会科学》一文划界,那么,从18 世纪末到21 世纪初这一漫长时段的社会科学发展历程可看作是计算社会科学的“史前史”阶段。从计算社会科学的发展脉络来看,这一“史前史”阶段的意义在于,它从基础理论、专业知识、技术方法上为计算社会科学的诞生奠定了坚实的基石。更确切地讲,社会科学自脱离“社会哲学”而成为日益壮大的学科门类统称以来,其追寻自然科学的模式以探求社会规律的学术努力始终未曾中断。统计学发展史的考察充分说明社会科学研究具有深远的计算传统。
计算社会科学的“前身”要归功于定量社会科学的发展。计算社会科学固然是计算机和信息技术的发展进入大数据时代的产物,但就学科发展脉络而言,计算社会科学无疑与定量社会科学(Quantitative Social Sciences)有着深厚的渊源。定量社会科学从经济学起源,在半个世纪之内逐步扩展到社会科学各领域,极大地推动了社会科学方法论及理论知识的发展。定量社会科学走向主流地位和逻辑统合的发展趋势为计算社会科学奠定了坚实的方法论和技术基础。
计算社会科学的创生是来自于新兴学科本体论的探讨。20 世纪后半叶以来,社会科学发展的趋势正是研究者自发地使用海量数据开展以纯理论或应用为目的的研究。2009 年,Lazer 等人第一次正式提出了计算社会科学的概念,概括了计算社会科学的出现及其发展,强调了网络科学研究在其中所扮演的角色和数字化媒体所提供的机遇。此后,有关计算社会科学的研究得到了学术界广泛关注,并且产生了大量的研究成果。
早在Lazer之前,关于科学发展进入全新阶段的讨论即已初显端倪。著名学者、1998 年图灵奖得主、关系数据库的鼻祖Jim Gray 早在2006 年就发表了题为《第四范式:数据密集型科学发现》的公开演讲。Gary 认为,人类科学发展先后经历了四种“范式”。由英国eScience 计划前首席科学家Tony Hey等人编著的《第四种范式》一书于2009 年正式出版。在Gary 首倡的“第四种范式”框架下,此书强调在未来的科学研究和技术应用方面,要更多地利用数据,要在科研领域发展并推广数据采集、数据存储、数据传输、云计算、数据可视化、科研信息搜索等方面的技术;要促进数据和科研成果的分享和更加广泛的使用,因此,要促进研究者之间的新型合作,这将是一种大规模的、跨学科的、高频率的合作。
计算社会科学的发展:从分化到跨学科
2009 年Lazer 等人发表《计算社会科学》,标志着计算社会科学的诞生。计算社会科学是以大数据及其相关技术的应用为背景的。在这里,“大数据”可以从两个层面加以定义。狭义的“大数据”是指体量异常庞大、结构复杂,以至于传统数据处理方法难以应对的数据集。人们通常用“5V”或“6C”来加以概括。而广义的“大数据”则不仅指海量数据,还包括获取、传输、存储、挖掘、分析和应用海量数据的一系列方法、技术和模式,后者通常被称为“大数据分析学”(Big Data Analytics)。
2012 年,由来自意大利国家科研委员会的R.Conte领衔,来自欧美国家的14 位学者又在《欧洲物理学刊- 专刊》(第1 期)发表了《计算社会科学宣言》。这篇《宣言》从时代机遇、技术发展、方法创新、当下挑战和预期影响等五个方面全景式地说明了计算社会科学发展现状及其未来的前景。这些发展将会开启一个更安全、更可持续和更公平的全球社会。概言之,从Gary 的《第四范式》,经由Lazer 等人的《计算社会科学》,再到Conte等人的《计算社会科学宣言》,这些研究成果对计算社会科学给出了高屋建瓴般的论说。
与这些全景式的论证相媲美的是,有关社会科学分支学科的“计算化”进路的探索早在20 世纪已开启,并为计算社会科学的构建奠定了领域基础。计算社会学是广泛应用计算机技术研究、认知和理解社会现象的社会学分支,包括计算机模拟、人工智能、复杂统计方法、社会网络分析技术等在内的多种手段和工具,通过对多样化社会互动的基础建模方式而提出并检验了关于复杂社会进程的多种理论发现。
此外,计算社会科学还广泛应用于更多的跨学科研究,包括“计算新闻学”“计算语言学”“计算犯罪学”“计量分类学”以及“计算创新”等范畴,均有极其重要的研究进展。同样,在人文学科领域,包括“计算史学”“计算法学”等分支学科,长期的研究积累加之以现代计算技术的辅助,也产出了大量令人瞩目的研究成果。
在当前的大数据背景下,计算社会科学更多地是以“大数据+”的形式出现,因而相应产生了大数据社会学、大数据政治学等学科领域。但在具体的分支学科领域,“计算化”的发展和成熟程度存在着明显的差异,这既与分支学科的历史积累有关,又与学科知识的实际应用偏好有关。然而,值得注意的是,作为计算社会科学的分支,它们的知识发展同样受到“双重驱动”的关键影响。一是“数据驱动”,即学科在何种程度上利用了本领域产生的数据;二是“算法驱动”,即学科在何种程度上发展了适合自身需要的算法和模型。
计算社会科学是一门数据驱动的、以数据密集化为特征的交叉学科,其研究和应用的范围十分广泛。其发展大致受到四种相互区别的议题的共同作用:一是传统议题与新兴议题。二是主体性与群体性。三是外部条件性与内部动力性。四是独立性与交互性。
具体的学科领域之于相关社会生活领域的宽狭大小、相关社会生活领域的“数字化生存”程度高低以及数据生成能力的大小和数据密集程度的高低,作为外部主体的体量会严重限定具体学科受到“数据驱动”的压力大小。而具体的学科领域在其前期发展所积累的量化知识总量、计算能力的高低乃至于与其他计算学科的共享融合水平,作为主体的内生变量会严重影响其“算法驱动”的强度。
大数据经济学则既受益于数据驱动又归功于算法驱动,其主要分支包括大数据宏观经济研究、大数据金融学、大数据经济心理学等。大数据语境下,数据噪声会影响数据质量,因而宏观经济数据挖掘变得十分重要,这就要改进数据挖掘技术,加强对非结构化和半结构化数据的挖掘。实时、快速、海量的数据为更加准确的宏观经济预测提供了可能。
大数据政治学主要应用大数据分析学和海量数据资源探究新信息时代的政治现象。大数据将政治场域从物理空间扩展到虚拟空间,为政府、公民、企业等行为主体创造新的互动空间和模式,重塑各主体间的关系模式。大数据方法一定程度上可以穿透政治现象的复杂性和特殊性,为中国政治的研究者带来深刻而丰富的洞见,并为其理论提供更强大的说服力。
相较于传统心理学,大数据心理学具有新的研究对象和研究范式。在研究范式方面,心理学强调研究的可重复性、可比较性和标准化,而大数据的行为数据为可复制、可比较地开展研究提供了数据和算法条件。
此外,与大数据相关的新兴技术的快速发展与应用(如物联网、云计算、可穿戴设备、人工智能、增强/ 虚拟现实等)催生了新的管理和商业模式、新兴产业,为社会经济生活注入了新活力,极大地丰富和拓展了大数据在管理科学、法学、传播学、人文学科等领域的创新应用,为学术界、产业界以及政府部门的知识需求和交流带来新模式。
社会科学的范式发展经历了宏大理论时期、行为主义时期、后行为主义时期和计算社会科学时期。从科学哲学的角度看,计算科学的发展历程向我们呈现了一个科学范式发生转化的生动例证。近年来学界讨论计算社会科学革命的声音不断增加。库恩认为任何科学的发展都要经过一个相同的历程:前科学—常规科学—危机—革命—新的常规科学—新的危机—新的革命,这个过程循环往复不断进行,推动科学不断进步。在常规科学阶段,为科学家共同体所公认并用以指导其研究工作的统摄性理论框架或科学研究视角形成,科学共同体中的科学家运用相同的范式去解决该领域中的科学难题。当常规科学发展到一定时候,科学家会遇到既有范式无法解决的反常问题,使得人们开始对范式失去信心,于是“危机”出现。在这种情况下,为了解决反常问题,有人会提出新的范式。如果新的范式被科学家共同体广泛接受,科学革命便发生。因此,所谓科学革命,就是一种新的科学范式取代原有范式的过程。一般而言,一种新的范式不可能立即取代原有的范式,总要经过或长或短时间的争论乃至斗争。
计算社会科学是建立在社会科学量化分析的本体论和多元化技术积累基础上的。计算社会科学尽管更为强调数据、模型、算法等“计算”维度,但它确实可被视为行为主义与后现代主义为代表的新理论的某种妥协和融合。首先,计算社会科学承认个体或群体层面的人类行为具有某些用行为主义的研究范式难以觉察并加以研究的因素,但其处理方法,则是将此类因素分为潜变量和显变量,尽管有些因素确实是难以直接测量和观察的,但它们可被视为影响行为的潜变量,并因此可以用其作为其外在表征的显变量来呈现和测量。其次,计算社会科学承认人类行为的复杂性,认为抽象模型和变量不足以反映社会现象,但处理方法则是将大量变量纳入分析中,变量的丰富性及变量间的复杂关系无疑超出了任何人类研究者进行纯粹定性研究的研究能力。计算社会科学是社会科学定性—定量传统、相关-因果传统、社会科学与自然科学竞争与融合的产物,而技术进步、学科间融合、新数据分析技术的应用、新的商业和组织环境正在加速推动这种范式转换。现有研究逐步表明,计算社会科学会引发社会科学的一场革命,即社会科学的计算路径有潜力为社会科学共同体接受,从而成为一种在社会科学研究中有竞争力的研究范式。
社会科学的发展史已经证明,一门新兴学科的兴起是多种条件共同作用的结果。具体到计算社会科学而言,实际就是社会科学知识、现实经济社会发展需要、数据收集及分析技术、网络与计算基础设施、算法模型等方面发展共同促成的产物。计算社会科学的发展史已经显示,不同要素之间不仅具有外在联系,而且也具有内在联系,往往一种要素并不会“等待”其它要素的改变以形成新学科,而是会主动促成其它要素的改变。计算社会科学使用海量数据为基础,服务于日益兴盛的社会经济需求,而与海量数据分析相应的并行计算、多元算法和硬件条件几乎是在很短的时间内完成整合的。近两年来,计算社会科学的发展逐步使新学科的形成成为现实,这种学科创新将体现为围绕着数据驱动和算法驱动采取不同融合方式而形成的一系列“问题解决性、应用导向”研究领域。
当然,大数据时代,熟悉计算技术的社会科学家能够以前所未有的工具和手段借助自然科学的“实验—理论—验证”的范式研究社会现象,这是社会科学当代发展的必然。然而,个体行动者的个体差异、相互交往和网络关系的异常复杂且日益加剧,数据获取和处理的困难,以及研究对象的数据隐私及其伦理接点,加上计算思维在社会科学研究中的应用还处在初始起步阶段,观念的滞后、理论的零散、方向的模糊、多学科背景的综合人才极度缺乏、原有学科框架的知识制约,也会成为计算社会科学发展的障碍。因此,计算社会科学的发展仍需要有更多志同道合者的共同努力。
本文原载于《理论探索》2017年第6期。为方便阅读,有删节和调整。
更多内容敬请点击浏览北京大学中国政治学研究中心官网:www.rccp.pku.edu.cn。
希望阅读更多文章请扫描中心二维码: