2019-01-16
政治科学视角下的大数据方法与因果推论
伴随着科技进步和治理实践的不断演进,日新月异的组织制度环境、学科间融合和新兴方法的广泛应用,持续驱动着政治科学理论和方法创新。大数据既是新兴研究方法,为政治学研究提供丰富数据源,更是政治学研究新议题,日益为政治学的知识生产提供新动力。针对政治科学对因果性知识的严格要求,大数据方法被认为重视相关性分析而非因果性研究。近年来,伴随着大数据方法在方法论层面日趋成熟、方法技术日益丰富、研究议题逐步拓展,且与传统社会科学方法逐步融合,大数据方法推进因果推论的能力逐步完善,革新着数据采集、概念测量、相关性分析、因果性与预测性分析等因果推论的各环节,形成了大数据与统计方法、大数据与小数据分析、大数据与实验研究、大数据模拟方法等多种生产和检验因果性知识的方法路径。
文/孟天广
清华大学社会科学学院政治学系 副教授
引言
21世纪以来,人类社会进入科技突破和治理演进的新时代,世界各国在技术革新的驱动下纷纷开展了一系列制度改革,推动着国家和全球治理的发展。这对政治科学及时应用创新方法探讨新议题提出了迫切要求。国内外政治学家认为,政治学发展的前沿正在经历探究政治现象背后之因果关系的变革,而这一变革的推进源于过去半个世纪以来政治科学理论与方法的长期积累,更源于人类社会对政治学知识生产之内容、质量和价值的重新定义。简言之,政治学迫切需要生产兼具规范性和经验性、描述性(相关性)与因果性、解释性与预测性的政治学理论和知识,构建知识体系,为人类社会的治理进步提供更为坚实、可行和有效的知识贡献。政治学(乃至整个社会科学)的发展始终与科技进步紧密联系,科技进步为政治学研究创造着新议程,提供了新方法,更直接介入政治过程,推动着国家或社会治理的理论与实践发展。作为互联网、ICT技术和机器学习技术革新的重要成果,大数据无论是作为新兴研究方法,还是作为新议题,都对政治科学的理论和方法更新产生了重大影响,为大数据时代政治学知识的生产和积累提供了创新途径,《政治分析》还专门刊出“政治科学中的大数据方法”网络专刊。
尽管对政治科学研究的使命有着不同理解,金(King,G.)等学者在经典著作《社会科学中的研究设计》中尝试着对“科学研究”提出四项基本要求:其一,以(描述性和因果性)推论为研究目的;其二,采用公开的研究程序;其三,结论是不确定性的;其四,科学研究的要核是关于方法的。此后,大量政治科学家围绕政治科学的知识贡献、研究议题和方法展开了激烈辩论,但几乎所有学者均认为政治科学研究的目标应该是探索有关政治现象的描述性或因果性知识,为人类社会提供政治现象“是什么?为什么?怎么样?”的系统性知识。其中,“因果性(Causality)”更被视为社会科学研究的“圣杯”。探究因果关系并非仅为了满足人们理解社会现象的好奇心,更重要的是通过科学研究促进知识积累,为改善或干预人类社会提供知识库。政治科学对因果性知识的追求使得研究者对政治现象(制度、组织、行为等)开展定性、定量或实验式的“科学化”研究,探求政治现象背后的特定概念、变量或因素间的因果关系,尤为重视中观和微观层面的因果关联及相应的因果机制。
作为新兴研究方法,大数据方法传统上被认为是数据驱动的知识发现过程。大数据方法是用一系列算法从海量非结构化数据中发现反映社会现象的特定模式、特定关系或特定趋势,其目标是运用机器学习把非结构化的、高维的、海量的数据,转化为结构化的、可被理解的社会知识,因此被视为探索性(相关性)分析而非因果性分析方法。譬如吉姆·加里(JimGray)强调大数据方法利用相关关系即可建立预测模型,满足政府、企业等知识消费者预测社会行为的知识需求,精准指导社会或经济干预。因此,有学者认为大数据方法是“数据驱动”而非“理论驱动”,大数据方法在描述性(相关性)研究中具有优势,有助于对社会现象“是什么”做出更为全面、精准、实时的呈现,但在因果性(解释性)研究中却表现乏力。然而,伴随着大数据方法在方法论层面日益成熟,方法技术层面日益多元化,大数据方法与传统社会科学研究方法的深度融合,大数据方法推进因果推论的方法功能逐步完善,在因果推论的数据采集、数据管理、概念(变量)测量、探索性(相关性)分析、因果性和预测性分析等各个环节均呈现出创新性,形成了大数据与统计方法相结合、大数据与小数据相结合、大数据与实验研究相结合、大数据模拟研究等多种生产和检验因果性理论或知识的方法路径。
因果推论框架下大数据方法的方法论功能
人类探求因果关系的努力自古有之,东西方哲学家老子、苏格拉底等都曾提出探究原因与结果之联系的命题。进入近代社会,科学研究从神学和哲学体系中独立出来,因果性成为科学知识的终极目标。尽管学者们在不同意义上使用因果、原因、结果等概念,但科学研究普遍相信“凡事必有因”,而因果性(Causality)即是(社会)规律,掌握因果关系就可以预测未来。学术界关于因果关系已经形成多元化理解,布雷迪(HenrryBrody)总结了政治科学构建因果关系的四种逻辑传统:1.依据充分条件来定义因果关系的休谟传统;2.反事实逻辑;3.实验(科学)逻辑;4.因果机制逻辑。对因果关系的上述理解为政治科学研究创造了巨大空间,为采取多元化路径对政治现象的竞争性解释(理论猜想)的检验提供了方法论依据。
因果性的识别与判定(因果推论)是一项系统工程,要求研究者利用规范程序采集经验资料、定义和测量抽象概念(变量)、探索原因与结果的关联模式、识别因果关系的效应(方向)与机制(过程)。在因果推论视角下,大数据方法具有这些方法论功能:第一,数据采集。帮助研究者获取既有方法无法采集或处理的海量数据,为政治科学研究提供新素材和新问题。第二,数据管理和挖掘。帮助研究者有效地管理海量的非结构化数据,比如利用数据库技术和自然语言过程对非结构化数据进行数据清洗、检索和实体识别等,为数据挖掘和统计建模做好准备。第三,测量方法。大数据方法(数据挖掘)作为概念(变量)测量的工具。数据挖掘可以将高维、复杂和非结构化数据转化为低维的结构化数据,其本质就是测量模型。以文本数据为例,对非结构化文本资料进行挖掘所获得的诸如主题、聚类或情感,就是将文本资料结构化的过程。这与传统因子分析、项目反映理论等测量方法类似。第四,描述性(探索性)推论。大数据方法可以利用分类、聚类等方法分析对政治现象开展描述性分析,为理解政治现象或行为的状态、分布或趋势变化积累描述性知识,作为因果推论的前期准备。第五,相关性推论。基于数据挖掘考察政治现象之间的相关关系。以文本数据为例,譬如利用大数据方法在识别主题和情感倾向之后,通过可视化或者相关系数以理解不同主题之间、主题与情感之间的相关关系,或者比较不同群体之间在主题偏好、情感倾向或行为模式上的差异。第六,因果推论。对基于以上方法所测量的概念(变量)、相关关系,利用大数据方法与传统统计方法、小数据方法、实验方法、定性方法等相结合,构建、检验并解释政治现象间的因果关联。第七,预测性分析。考虑到社会科学日益兴起的预测性取向,通过大数据方法利用回归模型、决策树、神经网络等各类机器学习算法,在复杂社会系统中实时预测政治倾向、政府开支、政府决策等特定现象或趋势。目前政治科学研究越来越多地进行预测研究以响应政府或社会政策干预的需求,而大数据基于多主体、海量数据、时效性(时间序列)数据和多模态数据,可以有效地提升预测研究的效度和效率。与此同时,大数据方法基于可视化方式呈现相关或因果关系,这在促进知识传播方面很具优势。
伴随着大数据方法的应用,社会科学界逐步形成计算社会科学这一新兴学科,以充分利用社会现象的数字化记录,借助数据分析、模拟计算和社会实验以发现社会规律。计算社会科学汇集了社会科学应用大数据方法探求因果性知识的新范式,其促进因果推论的方法进展包括:其一,算法智能化趋势。计算社会科学为算法带来革命性进步。然而,在算法变得更准确和高效的同时,其复杂程度也不断增加,其开发和应用过程的智能化趋势逐步呈现。一些高度复杂的元算法可在研究者指明研究需要和标准的前提下,根据既有案例和算法库自行推荐和部署适用的算法。其二,大数据模拟技术的广泛使用。社会科学中模拟技术的使用有赖于社会系统参数的规模化、精确化、动态化收集。目前,既有的数据收集、参数处理和数据建模手段尚难以满足此类要求。然而,随着计算社会科学的不断发展,大数据模拟研究将日益强化。其三,移动互联网和VR/AR等虚拟现实技术在社会科学实验领域的广泛使用。社会科学长期使用实验法检验因果联系。但既有实验技术受到实验干预施加、控制实验环境等限制而不得不受制于有限的物质条件。基于大数据的实验方法将对实验的灵活性、即时性、丰富性、动态性和微观性提出更高要求。譬如,VR/AR技术有助于研究者通过设定虚拟实验环境来便利地开展实验研究。其四,社会科学知识生产与扩散模式的网络化趋势。新的智能研究工具、新的知识发布方式,以及计算设施的标准化、规模化建设,驱动着“众包式”“自助式”“平台式”知识生产模式,譬如众智“立宪”、比较政党“众包”研究等,也扩大了社会科学知识的潜在受众,在与受众互动中积累社科知识。
因果推论框架下大数据方法的创新
作为新兴研究方法,大数据方法从采集数据资料、创新分析方法、改造社科研究模式和再造学术-社会互动关系四个维度深刻地影响着研究范式、议题和方法的变革,推动着描述性或因果性理论和知识的生产。
第一,大数据方法的最直接贡献是为社会科学研究提供更全面、客观和内涵丰富的研究素材。这体现在如下方面:1.数据模态多元化。目前,社会科学研究中不仅可以处理结构化数据,而且越来越多地处理非结构化数据,而后者在传统社会科学研究中由于技术能力局限而被丢弃。2.“全量数据”而不是“样本数据”。大数据可以获得一个接近总量或全量的数据,相比抽样数据具有很大优势。如对某社会现象的观测可获取数万或数亿量级的数据量,会使研究者对该现象的理解更为全面和充分。3.“真实数据”而不是“设计的数据”。与传统的社会科学研究方法相比,大数据会获得更加真实和客观的行为数据。传统定量或定性研究所使用的数据采集方式强调人为设计,在理论先行和研究设计基础上的有目的、有选择、有裁剪地采集研究素材,这在一定程度上妨碍了社会科学研究理解“社会真实”的努力。大数据方法所获取的是社会主体的原始行为记录,如网络行为痕迹、或地理位置移动痕迹等,是不被设计的、可信的、来自于人们真实的行为记录。4.“大样本数据”为小概率事件分析提供可能。传统方法很难对社会中“小概率事件”进行系统研究,如政治科学研究社会运动、极端性政治行为或意识形态,通过抽样调查很难获得大量“小概率事件”的有效样本,因而无法做深入系统的经验分析。大数据方法可以通过扩大总样本规模而使得“小概率事件”的观测值达到一定量级,便于开展分析。5.数据蕴含丰富的时空维度信息(SpatialandTimeDynamics)。大数据方法蕴含丰富的时空信息,通过数据融合将虚拟网络空间与现实物理(地理)空间整合起来形成“厚数据”,有助于对社会现象在时空上的演变趋势或异质性特征的理解,发展时间或空间政治学理论。
第二,大数据方法对政治科学研究方法的创新。1.为研究者提供了更为丰富的方法工具箱,提升了政治科学对非结构化和结构化数据分析的综合能力。大数据方法提供了从数据抓取、数据清洗、检索分析、自然语言过程处理、分类或聚类分析、主题模型、情感分析、视频/影像分析、文本分析、社会网络分析、空间模型等研究方法,丰富了社会科学学者的工具箱。2.机器学习的广泛使用不仅提升了社会科学研究的效率,更为海量数据分析提供了有监督机器学习、无监督机器学习等模式选择,而机器学习所贡献的潜在狄利克雷分布(LDA)、决策树、朴素贝叶斯等新算法有效地推动了社会科学方法创新,而且基于机器学习的新兴回归模型如岭回归(RidgeRegression)、拉索回归(LassoRegression)促进了统计方法。3.为传统的定性-定量方法分野搭建了一个桥梁。大数据方法可以让人们有能力对非结构化数据(即定性资料)进行规范化、系统化分析,即定性资料的定量化分析;同时也可以让研究者对定量分析结果开展定性化解读或诠释。
第三,大数据方法还影响着社会科学研究模式的转变。1.相比调查或实验研究等,大数据方法采集数据(素材)的成本通常更低,但其产生的信息量却更大、时效性也更强。譬如,全国性调查研究的经济成本可能达到年均上百万,且由于人力、物力的巨大消耗,实施周期通常为一年或两年。而大数据方法获取数据并不需要如此巨额成本,其运用计算机在线不间断进行数据采集,数据记录的测量误差更低。2.驱动了政治科学对于强时效性知识的探索。大数据方法自动采集和存储时效性数据,允许研究者通过对及时性数据的分析来研究突发性事件(干预)对社会行为或偏好的短期、中长期影响,这对于分析和评估制度、政策或社会干预的影响,探究社会或经济波动的政治过程和后果,挖掘基于互联网的政治传播、信息扩散等因素对制度运行、政治行为的影响至关重要。3.推动着社会科学研究的跨学科趋势,这表现为数据采集平台化、算法开发普及化和社会科学研究(跨学科)问题导向三种趋势的持续互动和合作。
第四,大数据方法与互联网的无缝对接再造着学术影响的模式。传统上,社会科学所产生的知识对政策或社会的影响比较有限,非专业领域人士无兴趣也无专业素养来接受或传播社会学科知识。然而,进入大数据时代,学术界与外部环境的互动日益频繁,突出表现为社会科学知识的平民化扩散、日益强化的政策或社会影响力。基于大数据方法的很多研究在与互联网的无缝对接条件下,以可视化呈现向社会各界推介或传播专业性社会科学知识,降低了知识接受的专业门槛,对社会科学知识的普及具有很大贡献。传统上专业的模型和复杂的术语以可视化方式呈现,将专业化社会科学知识的受众扩大到社会各界,进而产生政策和社会影响力。因而,在这一新时代,社会科学研究与社会影响之间的互动模式产生了重大变革,研究者通过专业化研究对政策制定和实施提供了依据、产生了影响,企业亦希望借助于学术研究,能够对社会实践产生积极影响。这是新的时代环境所产生的知识需求。
大数据方法推动因素推论的方法路径
在大数据时代的背景下,社会科学研究者如何探索因果性命题仍然是重要议题。伴随着大数据方法在社会科学领域应用的逐步深入,大数据方法正日益走出探索性或相关性分析的窠巢,逐步构建出若干因果推论的方法路径。简言之,基于大数据方法开展因果推论不仅是可行的,而且应该是社会科学研究追求的目标。经过近年来大数据方法与传统社会科学研究方法的深度融合,逐步形成了基于大数据方法进行因果推论的四个代表性方法路径。
(一)大数据方法与统计分析的结合
大数据因果推论的第一个路径是将大数据方法和传统统计分析相结合,使得二者互补性地实现因果推论的研究目标。大数据方法发挥着海量非结构性数据获取、概念(变量)测量、探索性分析等功能,将高维、非结构化数据降维、结构化,帮助研究者回答“是什么(What)”描述性推论的问题,加深对研究对象之状态、分布、变化趋势的全面理解。此外,大数据方法还借助可视化、相关分析等方法开展社会现象的比较研究或社会现象间相关关系的探索等活动。统计分析则扮演着素材深加工的作用,利用各种线性或非线性统计模型在解决统计控制、内生性或选择性偏差等问题的情境下开展因果推论,回答“为什么(Why)”“怎么样(How)”等问题。
简单地概括,大数据方法与统计方法的结合可以视为测量模型和结构模型的结合。测量模型的目标是有效地测量理论上定义的概念(变量),而结构模型的目标是在统计控制意义上检验概念(变量)间关系。大数据方法帮助研究者基于海量数据测量抽象概念,而定量分析解决研究者关于概念(变量)间因果关系的检验或解释的问题。大数据方法所测量的概念(变量)既可以作为因变量、自变量或者混淆变量。以文本数据为例,大数据方法利用聚类分析、主题模型、情感分析等数据分析学从海量文本资料中自动挖掘出研究者关心的诸如文本主题或情感偏好等变量,然后利用统计模型估计文本主题与情感间的因果联系,或者考察文本之外的其他变量对上述变量的影响。大数据方法与统计分析的结合除了常用的两步法之外,罗伯茨(Roberts)等人提出结构主题模型(StructuralTopicModel)将上述两步进行有机整合,将测量模型和结构模型同时进行估计,既挖掘非结构化数据中蕴含的潜在概念,又有效地估计不同变量与元数据(MetaData)之间的因果联系。该方法被应用于比较政治和美国政治研究。当非结构化数据成为同时影响原因(自变量)和结果(因变量)的混淆变量时,即原因对结果的影响存在方法论上的内生性或选择性偏差时,研究者可以借鉴传统量化分析基于反事实框架开展因果推论。
大数据方法与时空模型的结合可以视为一种特例。伴随着移动互联网、可穿戴设备、导航类应用的普及,近年来依托于时空信息将虚拟空间数据与现实物理空间数据进行融合的趋势日趋凸显,提供了将大数据方法与时空模型整合的新机遇。考虑到社会科学理论的时空特性,时空因素在理论建构上作用甚大,更对理论的可推广性有重要影响。基于融合数据,研究者可以使用诸如时间序列模型、面板模型、空间模型等计量方法对大数据资料进行因果性分析,寻找经济波动、科技进步与政治发展的动态关系,挖掘社会现象之间的时间或空间依赖模式。
(二)大数据方法与小数据分析的结合
第二个路径是将大数据方法与小数据分析有效结合。该方法目前在社会科学界较为流行,将大数据(接近“总体数据”)与小数据(抽样数据)相结合,大数据方法在总体层面描述社会现象的特征、变化趋势和相关关系;然后在大数据中随机抽取小数据开展深度(结构化)调查,以小数据分析探究因果关系。大数据方法的优势在于利用海量数据的一系列特征,如通过全样本、高密度数据流或关联性数据来进行对社会现象更全面、精准和可预测的观察和分析。小数据分析的优势是在大数据中随机抽取样本进行深度调查或访谈,采集承载更多具有理论价值的更深、更厚数据。简言之,就是用小数据做因果分析,用大数据做描述或者相关的分析。当然,小数据分析也包括基于特定案例或比较案例的定性研究。
大数据方法与小数据分析并非互相排斥,而是存在二者互补与结合的发展前景。伴随着方法论讨论的逐步深入,越来越多的学者主张在社会科学研究中结合大数据和小数据分析。二者结合具有三方面方法论价值:1.功能互补性,大数据的优势在于描述性分析,而小数据方法借助统计分析或逻辑演绎在解释性分析上具有优势。2.二者方法论路径迥异,大数据是数据驱动,利用数据挖掘技术来获知数据中存在的模式,小数据分析是理论驱动,重在利用统计推论或逻辑推理来建构和检验理论。新一代社会科学研究完全可以同时从理论驱动和数据驱动两个角度展开,将数据挖掘与理论洞见更紧密地结合起来,提升研究效率和理论深度。3.技术方法互补和融合。小数据分析为大数据方法提供知识输入,如基于小数据的先验知识、训练集为大数据方法提供数据挖掘规则或参数,以提升大数据分析的效率和效度。因此,大数据与小数据分析结合可以同时推进描述性和因果性知识的积累。
大数据和小数据分析相结合开展因果推论时存在四种可能组合:1.大数据方法在因果推论中作为研究背景,仅承担描述性推论或相关性分析的功能,因果推论主要依赖小数据分析;2.将大数据方法纳入因果模型,以大数据测量所得变量加总(Aggregating)得到宏观层面之因素(变量),然后将之作为宏观因素(变量)纳入解释模型,应用多水平模型来考察特定宏观因素对个体行为或偏好的影响;3.第三种结合将大数据测量所得变量视为制度、政策或社会干预变量,以研究干预对个体行为或偏好的影响;4.无论将大数据测量所得变量作为情景变量还是干预变量,都可以将该变量与个体变量进行交互分析,以探讨特定情景或干预水平在不同社会群体中的异质性影响,加深对复杂因果关系的理解。
(三)大数据方法与实验研究的结合
大数据方法与实验分析的融合是另一种行之有效的路径。实验研究被认为是探索因果关系、挖掘因果机制的金标。大数据方法的蓬勃发展为实验研究的拓展创造了新条件。二者的融合本质上反映了观察性和实验性研究融合的趋势,不仅充分利用了大数据方法具备全量数据、时效性强和数据类型多元的优势,更丰富了实验研究的工具箱。大数据方法为自然实验、现场实验和调查实验提供了良好的应用场景,二者结合有两种典型路径:
第一种路径是大数据方法发挥观察性研究的功能,通过对海量数据的采集和挖掘,获得对研究对象之状态、特征或模式的描述性或相关关系的理解,进而设计实验检验变量间因果联系,从而提升研究的广度和深度。譬如金等研究者结合参与式观察和现场实验探讨了网络舆情监管的逻辑,通过两种研究方法的交叉验证得出一致结论从而强化了其理论主张的稳健性。
第二种路径将大数据方法直接应用于实验设计,拓展实验设计及操作化干预(原因)、随机化分配干预、控制威胁内部和外部效度之因素、测量和识别实验效应(结果)的工具箱。结合日益普及的互联网和廉价的通讯设备,随机分配干预变得更为便捷,譬如在平板电脑、智能手机中安排实验软件较传统方法更为有效;实验研究的干预施加(暴露)更具多样性,大数据方法可以通过文字、图像、视频、网络关系等非结构化信息向被试者施加干预,采取多元方式测量实验结果,如记录被试者对特定问题的答案、文本(言论)、行为和音像等资料;大数据方法推动了在线实验的兴起,即通过对海量网络用户开展大规模实验,既保障实验结果的外部效度,又保障实验场景的现实性,还记录着实验干预的短期和长期效应。譬如,邦德(Bond)等研究者在2010年对6100万Facebook用户实施了政治动员的随机控制实验,来比较线上竞选动员和面对面竞选动员对投票行为的影响。
(四)大数据模拟研究
计算机发明以来,社会和行为科学家开始采取计算机模拟或仿真(Simulation)方法研究社会与政治行为。模拟方法是在虚拟空间模拟真实世界过程、行为或系统运行以生产社会知识的过程。模拟方法首先要求研究者建立关于真实世界的数学(理论)模型,然后编制计算机程序,在给定参数和环境的条件下开展模拟分析,来检验理论模型或寻求特定公共问题的最优解决方案。模拟(仿真)方法充分利用了强大的计算能力和精致的数学建模,特别适用于探讨复杂系统中若干独立、互动性行为者(Agent)之间的互动过程及策略选择。
近年来,一些学者利用模拟方法探讨政治学经典问题,在涉及社会选择、集体行动、国际政治等领域取得了成果。根据约翰逊的总结,模拟方法在政治学中包括社会选择理论、微观模型、国际决策模拟、囚徒困境,以及更为广义的基于主体的建模(Agent-BasedModel)。基于主体建模和多主体建模(Multi-AgentsModel)是常用模拟方法,尤其适用于模拟复杂社会中行为主体间的合作、冲突等议题。该方法认为社会系统由独立且频繁互动的行为主体构成,每个主体遵循一定规则和目标与其他主体互动。通过行为模拟分析,研究者可以揭示影响个体或群体行为的关键社会政治因素,利用真实世界数据来预测未知行为。尽管模拟方法在政治学中颇具潜力,然而也存在若干重要局限,譬如理论建模的困境、交叉学科知识、海量数据处理、参数优化和对计算能力的高要求等。
大数据方法为模拟研究的兴盛创造了优良条件。这主要表现在大数据技术为开展大规模模拟提供了超级计算能力,利用机器学习高效、实时地挖掘真实世界数据和模拟数据,为海量数据处理和参数优化提供了新技术,譬如计算能力的爆发式增长为复杂随机系统的优化提供了可能;计算社会科学为模拟研究提供了跨学科知识体系和研究队伍,人工智能丰富了数学建模、参数优化和模拟演化等一系列智能化技术,深度学习有助于概念建模和模式发现,等等。此外,大数据在数据处理上的高速率特性为开展动态模拟提供了强大工具,而数据分析学促使研究者在真实世界中系统地检验模拟过程和预测结果,不仅丰富了模拟方法的工具包,更扩大了模拟研究的应用前景。
讨论与结论
现阶段政治科学引入大数据方法颇具积极意义。大数据方法为政治学研究便捷地提供海量数据,将半结构化、非结构化数据纳入分析;数据科学所擅长的数据采集、数据管理和机器学习等数据分析学为社会科学研究方法提供了新输入;为社会科学与计算机科学、信息科学等跨学科研究奠定了基础。当然,大数据方法也存在一系列限制因果推论的因素,如数据测量面临信度和效度问题,强调相关性而不是因果性的研究取向等。因而,全面认识大数据方法推动因果推论的效果,我们也有必要了解大数据方法应用中诸如数据偏差、数据质量、机器学习效度低、学术伦理等挑战。
学术界对大数据方法的关切集中在以下四方面:其一,数据代表性和数据质量。大数据所采集的数据主要来自互联网,只有连接互联网的群体才会在大数据中得以体现。因而,大数据所谓“全量数据”本质上是有偏数据,未上网群体难以被观测。大数据中不同社会个体存在不平等呈现的问题。网络空间更活跃或占用网络资源更丰富的人群会产生更多信息,因而有被高估的可能。此外,网络空间的伪信息(人造数据)越来越多,譬如虚假信息、谣言以及机器人数据等伪信息广泛存在,也威胁着大数据的质量。其二,大数据亦遭受来自方法层面的批评。机器学习尽管更具效率,但其测量信度和效度均值得关注。信度反映测量方法的质量、测量的结果是否相对稳定;效度是测量工具在多大程度上反映了概念的真实含义。拉泽尔(LazerD.)等人批评了谷歌在流行病预测过程存在的测量信度和效度问题,由于谷歌的测量算法不断调整且缺乏开放性,因而很难评估其信度和效度。大数据方法尽管重视采集客观数字痕迹以探讨真实社会行为,避免了选择性使用材料,然而,数字化行为记录大多反映人们的外显特征或行为,而影响行为之更深层次的价值观或心理因素难以被大数据方法获取。其三,大数据方法还面临可行性的批评。当前,数据开放的程度仍比较低,且数据获取和分析需要专门学习网络爬虫、机器学习等编程技术,具有较高的技术壁垒,由此造成很多研究者使用大数据方法的技术障碍。大数据方法还迫切要求算法公开以促进学术对话。大数据方法对处理海量数据的数据存储、管理和计算能力等软硬件设备要求比较高。其四,大数据方法还面临学术伦理挑战。大数据时代,便捷的数据获取及分析引起社会对个人隐私保护边界和限度的关注,数据权利已经成为公民权利的重要内涵。对个体的数字化存在或网络痕迹应给予合法保护和匿名使用,否则将涉及对个人隐私的侵犯。此外,大数据使大规模社会实验成为可能,尽管此类研究具有重要创新,但在现实社会开展大规模社会实验面临着学术伦理的限制。以上问题都迫切需要学术共同体探索应对策略。
尽管大数据方法存在以上局限,学术界仍然在将“数据驱动”与“理论驱动”相融合,且日益强化着其实现因果推论的方法论价值。作为新兴研究方法,大数据方法一方面在利用机器学习从海量、高维、非结构化数据中探索出反映社会现象的特定模式、关系或趋势上具有优势;另一方面又与传统定量或定性方法、实验设计、模拟方法相结合,在“理论驱动”指导下推动着因果性(解释性)研究在更大规模数据、更具时效性、更多样数据类型、更强学界-社会互动语境下得以推进。概言之,伴随着大数据方法在方法论层面日益成熟,方法技术层面日益多元化,大数据方法推进因果推论的功能逐步完善;在因果推论的数据获取、管理、概念测量、探索性分析、因果性分析和预测性分析等各环节均呈现出创新性。社会科学界逐步形成计算社会科学这一新兴学科,以充分利用社会现象或行为的数字化记录,借助数据分析、模拟计算和实验研究以发现社会规律,形成大数据方法与统计方法、小数据分析、实验研究和模拟方法相结合的多种生产和检验因果性知识的方法路径。
本文原载于《政治学研究》2018年第3期。为方便阅读,略去全部注释,并有删节和调整。
更多内容敬请点击浏览北京大学中国政治学研究中心官网:www.rccp.pku.edu.cn。
希望阅读更多文章请扫描中心二维码: