2. 华南师范大学 地理科学学院, 广州 510631;
3. 广州大学 地理科学学院/华南人文地理与城市发展研究中心, 广州 510006
2. School of Geographical Sciences, South China Normal University, Guangzhou 510631, China;
3. Centre for Human Geography and Urban Development in Southern China, School of Geographical Sciences, Guangzhou University, Guangzhou 510006, China
随着互联网时代的信息技术发展,云计算、物联网等技术在经济社会得到广泛运用,数据的存储和计算也变得高效而多样,海量数据的迅猛增长已经成为这个时代的重要特征之一。同时,大量的网络平台、智能终端设备等技术产物已在人类的生产生活中广泛普及,数据的生产与人类的出行、消费、交流等活动都有着紧密的联系。因此,“大数据”作为这个时代的产物,在一定程度上反映着人类社会的运行规律,Schonberger等的《“大数据”时代:生活、工作与思维方式的大变革》中指出大数据带来的信息风暴正在变革我们的生活、工作和思维,为人类的生活创造了前所未有的可量化的维度[1],且由于“大数据”的类型多、数量大、速度快、价值高的“4V”特征,一股“大数据”热潮已经深入到各个学科领域的研究和应用当中。带有地理信息的数据是“大数据”的重要组成部分,Thatcher等将大数据定义为关于空间信息的社会技术产物和感知项目,并认为80%的大数据都与空间信息有关[2],因此国内外地理学者都对“大数据”怀有浓厚兴趣并掀起研究热潮。国外地理学者关注大数据对地理研究本身的影响,如Ash等提出地理学正处于“计量转向”的过程中,空间大数据和机器学习的兴起促进了“数据驱动”(data-driven)的地理,使得定量研究的范围更广、内容更深、规模更大、效率更高[3];Leszczynski等讨论了“空间大数据”与空间主体的逻辑关系以及面临的问题[4]。此外,也有国外学者关注大数据在地理学研究的实际应用,如地理大数据在云计算的定位和运用[5]、利用电视剧场景和对话来研究政治地理领域的国家权力和社会关系[6]、探讨城市大数据在智慧城市规划、城市演变模拟和人类活动等方面的作用[7]等。总之,大数据往往被用来整合不同来源的资源和信息,并建立其相关关系。
“大数据”已对国内地理学研究产生了深刻影响。其中,人文地理学领域的反应最为强烈,城市地理、社会地理、行为地理、商业地理、旅游地理、交通地理等基于大数据的研究案例也纷纷呈现[8]。在关注对象上,甄峰等提到在大数据时代下人文地理研究应以大数据为核心构建框架,深入研究城市居民活动、企业空间布局、公共服务供给及城市治理等领域,同时注重面向空间规划的大数据应用、面向城市居民的个人行为优化、面向企业的优化决策、面向宏观政策与管理的大数据应用[9]。在研究方法上,人文地理学经历了“定性为主——定量方法的兴起——定性与定量相结合”的发展历程,随着“大数据”热潮的出现,基于个体记录的“大数据”为人文地理学研究提供了丰富的个体行为数据,例如微博数据、公交刷卡数据、出租车数据、手机通信数据等[10],这些数据不但使一些之前很难被量化的问题得到有效表达和分析,而且还可以通过地图及可视化的形式直接运用于质性研究。有学者总结,大数据已将信息时代人文地理学研究带进了以大数据挖掘为核心、GIS分析技术和数理模型为支撑、定性分析为辅助的科学模拟微观人类活动与情感和地理空间关系的新阶段[11]。同时,多名学者提到人文地理学应多借鉴地理学(自然地理学)、社会学、经济学、计算机科学、统计学等其他相关学科的理念和方法,不断完善大数据时代人文地理研究框架或体系[8-10]。当然,“大数据”热潮也为人文地理学带来一些新的担忧,大数据科研范式——“第四范式”的出现[12]可能使一些研究起源于数据,从而出现了为了数据去收集数据、去研究问题的现象;从数据本身来说,如何使用有效的数据分析方法、如何找到一个合适的时间段和尺度、如何保护数据的隐私等[10]都是“大数据”热潮担忧的问题。
以Big Data and Geography为主题,基于Web of Science进行简单的文献统计分析(图 1)可以发现,外文文献先于国内人文地理学注意到大数据的运用。正如图 1所示,2013年较之前相比文献数量几乎翻了一倍,而此时“大数据热潮”在国内人文地理研究中才开始显现,之后成逐年上升趋势,现已是人文地理研究中的热门话题。过去6年在城市地理、旅游地理、行为地理、经济地理、政治地理、人口地理等方向上都有诸多地理学者利用大数据研究人文地理相关现象、规律、特征、机制,或总结大数据相关的研究方法、分析模型、运行机制等。因此本文以2013年为起始点,对过去6年(2013—2018)国内人文地理学相关的8本主流期刊(地理学报、地理研究、地理科学、地理科学进展、地球信息科学学报、人文地理、旅游学刊、规划师)所发表的“大数据”与人文地理学研究的相关成果进行逐一鉴别、统计、梳理和分析,总结“大数据”热潮中人文地理学已有研究的研究内容、研究方法、研究中的不足以及可能发展的方向,审视“大数据”热潮下人文地理学研究进展,为人文地理学在未来更好地运用大数据、契合信息时代提供建议。
已有的“大数据”相关研究中,呈现出研究内容丰富、数据来源多样、研究方法以定量为主的特点。大多研究都利用大数据呈现城市特征、人类行为、经济规律、旅游现象、空间分布等内容,即利用大数据反映现象或规律,并挖掘背后的机制和缘由。研究方法包括数理模型、空间分析、文本分析、社会网络分析等,有的则结合定量定性方法、“大数据”与“小数据”,共同说明现象本质。以下从研究内容、研究方法两方面概述“大数据”在人文地理中的研究和运用。
2.1 研究内容甄峰等建构的大数据时代人文地理研究总体框架中,将人文地理学分为城市地理、经济地理、旅游地理、文化地理、军事地理、政治地理、交通地理、社会地理等八个分支学科[10]。通过近6年“大数据”已有研究的梳理发现,除军事地理外,其他分支都有若干研究涉及,其中大多数为城市地理和旅游地理的相关研究,而社会地理、文化地理、政治地理的相关研究较少,此外,还有新兴学科如网络信息技术地理的相关研究以及大数据相关的研究综述,研究内容覆盖面广,详见表 1。
智能移动终端和网络平台的发展使城市居民的空间移动信息被记录,形成无数个流动的个体大数据,例如手机信令数据、公交IC卡数据等,这些个体大数据使居民时空行为和城市空间的相关研究变得简便,近6年越来越多学者从大数据出发开展城市地理的相关研究,在“大数据”人文地理学研究中占比超过40%,是最热门的分支研究领域。经梳理发现,相关研究内容有:①通过互联网媒介信息研究城市风貌、城市意象。例如谢永俊等[13]利用包含有文本和地理位置信息的新浪微博大数据,通过文本分析对北京市热点区域进行主题挖掘及聚类分析,由此分析北京市的总体意象,以及不同区域的功能、联系及人群行为等,验证了社交媒体大数据用于分析提取城市意象的可行性;②城市结构相关的城市网络空间、城市功能区、城市体系、城市热点研究。例如黎智枫等[14]利用35个城市的豆瓣同城数据对城市网络进行测度,发现我国三大城市群在赛博空间(cyber space)中的多核心网络状、人口集聚、城市间联系等网络特征,为城市公共服务设施规划建设提供参考;③居民生活相关的职住关系、行为模式、社区住宅空间特征、就业中心体系测度。丁亮等[15]利用手机信令数据中的时空轨迹识别上海城区手机用户的工作地点,从就业密度视角和通勤联系视角测度就业中心的能级,从而发现就业岗位的集聚地、就业中心的等级体系、就业与通勤、职住关系的联系等空间结构与人地关系特征;④相关城市研究方法、城市边界识别方法等。许泽宁等[16]提出了一种通过POI密度分布来判别城市建成区边界的技术方法。陈世莉等[17]利用车辆GPS及兴趣点数据建立回归模型,提出一种城市功能区的识别方法。总之,相对于过去的“小数据”,“大数据”真正拓宽了城市地理的研究视野,使得该领域的研究能够关注到每一位个体、每一种行为及其映射出的人地关系、城市空间特征、群体行为特征,为城市规划及居民生活的优化改善提供指导。此外,“大数据”让城市风貌、城市意象等较抽象的城市属性得以量化统计分析,一定程度上增加了研究的说服力,更多基于“大数据”的城市研究方法被提出并实证,促进了城市地理在方法上的变革。
旅游地理相关研究同样为近6年“大数据”人文地理学研究中重要组成部分,这也契合了我国旅游产业于近年迅猛发展的态势,同时也得益于旅游大数据增长速度快、数据来源多样、数据特征较明显的特点。旅游地理的“大数据”相关研究内容包括:①旅游流的时空特征、网络结构、与其他信息流的耦合分析等。张妍妍等[18]利用网络游记和照片等文本图片数据提取旅游时空信息,通过社会网络分析探索西安旅游流网络结构的规模、中心性、内部关系等结构特征;②游客的时空行为、时间分布、游客量预测研究等。李君轶等[19]利用西安市游客的微博数据计算不同游客的时空轨迹信息,分析西安旅游发展“铁三角”的旅游流联系特征,并提出了一种基于大数据和社会感知计算的游客行为研究模型;③旅游城市的旅游热点、形象感知、品牌资产、设施布局等。李娟等[20]利用国外游客撰写的英文博客分析西藏旅游的关注热点,探讨旅游资源、旅游体验等在地域上的不均衡及地域之间的联系;④旅游数据本身的规律、数据质量分析、数据模型构建等。刘逸等[21]构建了基于网络大数据的旅游目的地情感评价模型,并对海量游客评论映射出的游客情感意象进行了实证研究,为旅游研究的理论推进和实践应用提供了科学依据。从以上研究内容来看,这些研究契合了旅游地理学的核心科学命题——旅游流动中的人地关系、空间尺度转换以及流动后果[22]等,同时与管理学、统计学的交叉研究有所增长。研究中使用的旅游大数据来源多样,包括我国综合旅游网站(携程网、马蜂窝、百度)、游客通过图文记录的旅游经历(新浪微博、网络博客、朋友圈)、地方旅游官方网站、与旅游出行相关的出租车数据等,这些大数据使得过去难以量化的旅游情感、旅游流时空特征变得“有迹可循”,学者能够从更多数据对象、以更多交叉研究方法把握旅游地理学研究对象的相关规律。
除城市地理和旅游地理相关研究外,“大数据”人文地理研究还关注了更加丰富的内容。信息时代“大数据”热潮的出现使得信息流的产生和获取变得更加迅速便捷,“流空间”相关的人文地理研究也变得丰富而深入,除了上文提到的城市人口流动空间、旅游流研究外,在交通地理领域,叶磊等[23]利用江苏省内交通信息网络数据分析省内流空间网络结构,从交通信息流的角度得出了城市联系网络“完整、有序与协调”的发展方向、“中心—外围”的空间格局及省域空间网络化效率与公平的相关讨论等;在新兴的信息空间研究领域,王宁宁等[24]建立了基于互联网信息流要素的信息空间测度方法,分析得出省份信息影响力的“东—中—西”三层递减态势、中东部省份的稳定“三角格局”、信息空间依然部分依赖于地域分布的结论。此外,在经济地理相关研究中,“大数据”热潮使一些诸如产业发展情况、商家口碑、消费行为等产业属性能够和空间分布格局联系起来[25-28],为企业的生产经营活动、产业结构发展以及区域经济结构提供更多战略参考。新文化地理学的研究主要受到西方“文化和空间转向”的影响,基于女性主义、新马克思主义、后殖民主义以及后结构主义等后现代的研究视角,大量研究都采用质性的研究方法。同时,新文化地理学也经常被诟病缺乏科学性和脱离社会实践。然而,在大数据的影响下,相关研究不再停留于定性研究层面,研究者通过微博、新闻、网购等媒介信息传播的大量语义信息挖掘出文化价值、文化认知等信息[29, 30]。同时,也有学者为方便地理“大数据”的获取,致力于网络地理信息的获取、文本语义的识别[31, 32]等。总之,这些基于大数据的研究都在方法论上给予了传统研究新的养分,让研究结果更具有“落地性”。
2.2 研究方法“大数据”热潮下,量化研究必然会有所增长,而数理统计等研究方法也被广泛运用于人文地理学的研究中。经统计,近6年的人文地理学大数据相关研究中,定量研究超过九成,定性研究以及传统的“小数据”运用较少,差距悬殊。“大数据”类型丰富,因此在数据获取方法上也多种多样,地理学者常用“网络爬虫”方法,制定挖掘规则以爬取网络上的地理信息,例如王曙等[32]构建了表达地理要素变化的语义知识库,设计网络爬虫以实现网页文本中地理要素名称、位置、时间和属性等的高效获取;此外,百度迁徙、百度指数、新浪微博、大众点评等知名网站数据共享平台也是人文地理研究中常用的数据获取来源。“大数据”的运用让研究能够关注更多个体信息,例如车辆GPS数据、手机信令数据的运用使得人口分布、时空行为、城市功能等相关研究变得更加简便,有学者甚至利用qq群聊天记录、微信朋友圈[33, 34]等个体或小群体生产的文本研究具有某种特征的个体或小群体的时空行为,研究尺度更加微观。“大数据”的出现不仅仅是数据源本身的多样化,其所包含的社会经济信息也必然促使社会学、经济学、统计学、计算机科学等相关研究的理论方法与人文地理学研究相结合。近6年的研究中,地理学者也屡次将数理统计方法、计算机算法等数据处理方法用于地理大数据的整合与分析,例如黎智枫等[14]引用经济学中的“基尼系数”来描述城市群中网络点度的集聚和分散的情况,由此分析赛博空间中城市网络的群集性特征;廖伟华等[26]利用关联规则算法——Apriori算法构造空间频繁项集,分析城市服务业之间的空间关联规则规律。
首先,丰富的数据来源与数据处理方法在一定程度上证明了大数据的科学性和可用性,但如何解决“把冗杂的数据落实到空间坐标上”、解决大规模数据的“样本采集偏差与代表性”等“大数据”问题,仍需相对应的、与时俱进的数据分析方法[10]。近6年同样有地理学者针对研究问题和相应的“大数据”特点来构建分析模型及其架构。如李君轶等[19]基于社会感知计算,建立了以推理机为核心的包括现实世界、游客活动和旅游管理的四位一体的游客行为社会感知模型,在大数据的支持下可以更方便地刻画游客时空行为规律,为未来的游客行为研究提供新视角;钟炜菁等[35]结合手机信令数据特点和城市人口空间变化特点,构建了“人口—时间—行为”关系的人口空间动态分析框架,分析上海市人口分布和活动的动态特征。随着研究数据维度的增加和研究角度的扩大,此类分析模型和框架正在不断完善,人文地理相关的数据分析方法一方面契合研究问题不断深入,另一方面也契合“大数据”特点而不断发展。
其次,大数据的采集方法和传统随机抽样有很大不同。传统的抽样方式是针对特定群体的特点研究问题的,可认为是一种主动的数据采集方式;随机抽样是目前被认为是消除主观偏倚(subjective bias)最有效的方式,因而小量的样本具有较高的代表性(representative)。而大数据恰恰相反,它是一种被动的数据采集方式。尽管大数据地理学使用的数据量往往大于传统的实证主义及后实证主义地理学,但这并不能保证数据的精确性,相比之下,这恰恰说明了大数据的“混杂性”[1]。由于它是新型信息和通讯技术使用过程中的一种副产品,因而并非针对某个特定的现象或者问题所设计[36, 37]。大数据的代表性也是难以解决的问题。通常我们会认为大数据就是总体,但在现实情况中大数据往往接近总体而并非总体。这主要源于大数据的数据量会受到新通讯技术使用者的影响。例如使用手机人群的分布具有非常高的异质性和选择性,有人使用手机发微博和微信的频率非常高,有人却很少发甚至不发。再如虽然利用出租车行驶轨迹数据研究城市交通热点区域的空间交互网络[38],确实能够从一定程度上反映人们的出行规律,但使用出租车出行的群体并非使用交通工具出行的主要群体,在经济社会日益发达的时代,乘坐出租车的群体可能具备某种共同特征,所以出租车轨迹信息等此类单一数据源的代表性和说服力有待斟酌。实际上,这种代表性的缺陷很难控制和克服。
最后,大量新型定量研究方法的出现并不意味着传统人文地理定性研究方法的消失。近6年相关研究也不乏利用问卷调查法、实验法、访谈法、假设检验法等定性或定性定量相结合的方法来分析问题。如吴丹贤等[39]通过问卷调查获取居民活动信息,以分析社区的居住—商业空间关系;吕兴洋等[40]利用实验、出声思维、访谈等多种方法,结合词频统计、同位素示踪等分析手段解析了在线信息搜索对于旅游者感知形象演化及目的地选择决策的影响。同时,GIS与遥感依然是将人类活动与地理空间相联系的常用分析手段,并随着大数据的增长发挥更重大的作用。如李云等[41]等利用夜景遥感数据测算城市月平均辐射亮度,以了解城市整体夜景特征和地域差别,利用GIS进行城市要素的数据存储和空间分析。然而,甄峰等提到“大数据”时代下对数理模型的过多追求可能会忽视其本身所要追求与反映的知识[9],因此在“大数据”热潮下人文地理学研究相关理论运用就显得尤为重要。近6年的研究中,除了流空间理论构成赛博空间和场所空间的空间分析新框架外,极少有其他理论方法被运用在大数据人文地理研究中,使得现象背后的机制或成因难以解释。因此,“大数据”热潮下的人文地理研究应注重理论与数据、定性与定量相结合的方法运用。
3 挑战及可能的发展方向从认识论的角度来讲,数据驱动型的科学与传统科学研究(这里主要指以抽样为基础的定量研究)具有很大差别。Kelling等[42]曾指出,传统科学大都基于或围绕假设(理论)展开,而大数据是基于数据本身而产生的科学范式。这就是说,在没有假设的情况下,大数据通过算法及机器学习来发现数据之间有意义的关联而并不一定要确定事物之间的因果关系。尽管Anderson[43]曾提到,大数据的发展有可能会导致假设(理论)导向性的研究范式的终结,然而对于这个问题的回答涉及到长久以来更深层次的哲学思考,即因果关系和自由意志,我们不展开讨论。站在认识论的角度上,我们更感兴趣的问题是,第一,在实际运用中,相关性分析是否能够直接运用于基于地理事件的决策?从目前大数据中算法及机器学习的发展来看,决策仍然不能完全脱离人的判断。这是由于数据导向型的科学大多被用于指导性质的知识挖掘技术,而这种技术是用来补充传统的知识导向型科学的不足而并非其替代品[44]。即便是使用可视化方式来处理的质性数据,也需要人的直观判断而不能仅仅依靠于数据本身。因此,我们接下来想要探讨的是,在“大数据”热潮下,是否真如Kelling所言,国内的地理研究产生了一种新的范式?2004年,宋长青等[45]提出“数据采集、方法论建设已成为地理研究中的关键环节”;2015年,甄锋指出人文地理学者应当重视数据与知识的思考,但数据仅仅是服务于理论的工具[10]。从近6年的研究来看,虽然人文地理学者注重大数据的采集、筛选、建模、分析等,也有部分研究利用大数据总结数据间的联系和规律,但大多研究还是从具体问题、现象、需求出发,将大数据作为工具去研究与分析,鲜有从数据本身出发去研究问题,从该意义而言,人文地理学研究可能暂时还没有产生新的研究范式。大数据仅是对现有研究方法的补充而非替代。但不可否认的是,“大数据”在人文地理研究中发挥着越来越重要的作用,并且近年来人文地理学者对于数据的分析可能多于对知识的思考。
同时,“大数据”可能难以解释现象背后的机制,例如,研究城市服务业之间的空间关联,经过数据的采集、分析和总结后,得出空间关联规律[26],但造成这些规律的经济社会因素是什么,以及影响因素怎样导致了这种关联规律等问题是“大数据”无法解释的。此外,近6年已有研究中对城市地理和旅游地理的研究占大多数,人文地理学者应继续结合“大数据”进行相关话题的研究,同时人文地理学的其他分支领域也可以更好地契合“大数据”热潮,透过更多视角运用大数据方法。更重要的是,未来对大数据的应用应该打破不同地理研究领域的界限(降低人文地理学作为一个整体的碎片化和割裂化程度),促进自然和人文地理学两大分支的融合。这是基于大数据的混杂性可以在同一时间获取更多样化的数据,可以使用算法和机器学习的手段来对其进行处理,从而发现之前较少关注的不同地理尺度的不同性质数据之间的关联性。
“大数据”热潮降低了人文地理对传统方法的使用,已有研究发现出资机构更加倾向于支持关于大数据的研究,即使这种支持以牺牲质性研究为代价[46, 47]。对大数据的研究基于特定的方法论和认识论,而对地理现象的解读应当基于多种的方法论和认识论。例如,20世纪70年代以来,以法国空间哲学家为代表的“社会文化”及“空间”转向思潮颠覆了地理学对于空间的认识和研究,空间不再被看作是静止的、物理的而被认为是“流动的”和“可生产的”。这种基于结构主义和后结构主义的地理学视角是理解地理空间多尺度反身性特点的重要手段。所以,“大数据”如何更好地运用到传统质性研究上是人文地理学的挑战之一。“大数据”本身不足以研究全面的数字地理,大数据的空间性需要定性和定量方法交叉结合的新型方法论[48]。因此,大数据“热潮”下,传统的质性研究方法往往基于不同的认识论和方法论维持了学科的多样性,因此人文地理学者应给予定性研究和以定量为基础的大数据研究同等重视。
在近年的研究中,人文地理学者对数据的选择也存在不足,许多研究利用相对单一的数据源探索普遍规律;而在数据筛选层面,大多研究都会通过一定规则剔除无效、重复、与研究无关的数据,这些规则的科学性及筛选过程中研究者的主观性是数据筛选的问题所在,例如在餐饮消费者行为研究中,研究者会对网络评论内容进行人工归类,提取餐饮消费者网络评论要素[49],这一研究过程深受研究者自身认知习惯的影响,在归类过程中可能有一定的主观性。因此“大数据”热潮下的人文地理研究,除了把握“大数据”的分析方法外,也要注重多源大数据的结合,增强大数据在研究问题中的科学性,注重大数据筛选的规则。
在未来的研究中,人文地理学者可能会注重构建多种大数据结合的分析框架,以突显数据的“全面性”。例如微博签到数据可能忽略一部分较少使用微博的社会群体,如儿童、老年人、贫困人群等,出租车数据则忽略了自驾车、公交地铁出行的群体,利用多种大数据以覆盖更多的群体,更全面更科学地说明现象本质。同时,由于“大数据”的多类型、大数量的特点,相关研究的空间尺度和时间尺度可能进一步扩大;例如唐佳等[50]以西安为案例地,基于游客生成的大规模微博签到数据研究国内游客的日内时间分布模式,在未来的研究中可能扩大空间尺度,进行省内或省内外游客的对比分析;冯娜等[51]以美国和加拿大的15个旅游网站作为研究样本,探讨我国城市外向在线旅游信息流与入境旅游流之间的耦合关系,在未来可进行连续观测记录,分析其长时间的变化和影响因素。值得注意的是,以上研究都是基于数据的挖掘。大数据客观的记录了人的行为在地理空间的异质性,并非是为了某个特定的研究问题所收集,它是在生活中形成的,被信息技术所记录的“自然数据”。数据挖掘是数据使用的前提,通过什么样的方式从海量的数据中甄别有用的信息,将是未来构建多种大数据结合的分析框架的前提条件。
4 思考和讨论由于信息技术的发展,数据获取渠道的多样化和丰富性已经将社会中每个个体置于巨量的数据环境之中。在这个大背景下,数据本身似乎没有那么重要,而如何使用数据将会重构地理空间和社会系统。讨论大数据和地理学之间的关系需要从不同的角度来解读大数据和地理学,因为这关系到我们如何认识世界。首先需要注意的是,大数据本身就是一种话语权(discourse)体系,在这种话语权体系内,数据会嵌入整个社会系统。如何保证人文地理学内部的多样性,避免陷入过度依赖大数据,需要我们用更加批判的角度来审视大数据,更需要大数据和传统人文地理学的小数据继续对话和交流。从某种程度上来说,大数据和小数据配合使用会推动对数据解析的深度。传统数据科学已经有上百年历史,基于传统数据科学的方法随着学科的发展相对成熟,这意味着传统数据科学的容错率较高。而大数据是相对新的概念,这就要求在使用新的方法时保持怀疑的态度。在大数据的话语权体系下,大数据往往被看作一个整体,从而导致地理和空间重构过程的复杂性往往会被忽视。大数据并不是一个内部统一的整体,相反,它是技术、信息和资源的集合体(assemblage),并且在分析该集合体时需要根据话语权、目标和实践来确定内部边界[44]。人文地理学在“转向”过程中,“人”的重要性日益凸显,人类社会远比数字世界复杂,完全依赖数据去做决定,无疑会走向教条主义,只有把大数据和小数据有机结合,人文地理学才能走得更远。
其次,在大数据的背景下,单一维度的单一数据有时会需要和其他数据配合使用才能够更好的分析和解决问题。研究数据之间的关联会更加重要,如何从海量多维度的数据面板中找到和确定数据间的相关关系将是大数据时代人文地理学所面对的最大挑战。然而,在分析数据间的关联性时要把它们放置于一个统一的维度内,这就要求数据信息必须是一个统一和差异的结合体。如研究人们的出行规律,“出行”是共性的部分,而年龄、性别、职业等信息是差异性的部分。从这个意义上而言,大数据并没有突破传统的科学范式,相关性只是研究的直观结果,或许可以直接运用于现实生活,但在学术层面,研究者仍然需要找出同一个框架内数据间的因果关系。在微观层面的研究中,确定因果关系的难点在于样本本身的主观性难以被客观数据所反映,微观研究更多地把“人”作为研究对象——人的行为具有不确定性,因而由人的行为所构建的社会过程(social process)亦是动态的(dynamics),解构这种社会过程则需要在微观尺度上通过小数据来进行。
最后,尽管大数据可以采集到传统数据科学难以收集的信息,例如交通和社交媒体网络信息,但这些数据绝大多数情况下被私人公司所垄断,开放性和可获取性较低,进而导致获取和掌握数据的高度不平等。这种不平等会导致社会其他领域例如资本、信息和媒体及学术机构所获取信息的不平等。这种不平等也会体现在不同的尺度,如大数据的研究可能更需要不同领域研究者的合作,这会使个体研究者处于不利地位。再如研究机构也会由于获取资源的不平等性加剧分化。更重要的是,大数据的使用者会通过标识(identity)来识别身份(identity),从而产生大量社会问题,如个人隐私。身份记录使得场景立体化和动态化,高度的信息化和大数据产生了高度的流动性(mobility),通过智能手机几乎可以完全识别和跟踪手机使用者的时空坐标,让使用者毫无隐私可言。同时,我们也应该看到大数据应用于公共服务的潜力,政府可以基于地理和空间角度的大数据来为居民提供更多便利化和人性化的服务。如根据上文中谈到的通过城市职住空间关系来分析交通需求,再如通过调整红绿灯的时间间隔来缓解人流和车流对于道路的压力。对于整个社会而言,如何利用大数据提供一个更好公共服务体系将会是政府管理者和学者同时需要思考的问题。
[1] |
维克托·迈尔·舍恩伯格, 肯尼思·库克耶.大数据时代: 生活、工作与思维方式的大变革[M].盛杨燕, 周涛, 译.杭州: 浙江人民出版社, 2013: 2-23. [Viktor Mayer-Schönberger, Kenneth Cukier. Big Data: A Revolution that will Transform How We Live, Work, and Think[M]. Sheng Yangyan, Zhou Tao, trans. Hangzhou: Zhejiang People Press, 2013: 2-23.]
|
[2] |
Thatcher J. Living on fumes:Digital footprints, data fumes, and the limitations of spatial big data[J]. International Journal of Communication, 2014, 8(1): 1765-1783. |
[3] |
Ash J, Kitchin R, Leszczynski A. Digital turn, digital geographies?[J]. Progress in Human Geography, 2016, 42(1): 25-43. |
[4] |
Leszczynski A, Crampton J. Introduction:Spatial big data and everyday life[J]. Big Data & Society, 2016, 3(2): 1-6. |
[5] |
Amoore L. Cloud geographies:Computing, data, sovereignty[J]. Progress in Human Geography, 2016, 42(1): 4-24. |
[6] |
Meehan K, Shaw I G R, Marston S A. Political geographies of the object[J]. Political Geography, 2013, 33(1): 1-10. |
[7] |
Batty M. Big data, smart cities and city planning[J]. Dialogues in Human Geography, 2013, 3(3): 274-279. DOI:10.1177/2043820613513390 |
[8] |
吴志峰, 柴彦威, 党安荣, 等. 地理学碰上"大数据":热反应与冷思考[J]. 地理研究, 2015, 34(12): 2207-2221. [Wu Zhifeng, Chai Yanwei, Dang Anrong, et al. Geography interact with big data:Dialogue and reflection[J]. Geographical Research, 2015, 34(12): 2207-2221.] |
[9] |
甄峰, 秦萧, 王波. 大数据时代的人文地理研究与应用实践[J]. 人文地理, 2014, 29(3): 1-6. [Zhen Feng, Qin Xiao, Wang Bo. Human geography research and practical application in big data era[J]. Human Geography, 2014, 29(3): 1-6.] |
[10] |
甄峰, 王波. "大数据"热潮下人文地理学研究的再思考[J]. 地理研究, 2015, 34(5): 803-811. [Zhen Feng, Wang Bo. Rethinking human geography in the age of big data[J]. Geographical Research, 2015, 34(5): 803-811.] |
[11] |
甄峰, 秦萧, 席广亮. 信息时代的地理学与人文地理学创新[J]. 地理科学, 2015, 35(1): 11-18. [Zhen Feng, Qin Xiao, Xi Guangliang. The innovation of geography and human geography in the information era[J]. Scientia Geographica Sinica, 2015, 35(1): 11-18.] |
[12] |
Hey T, Tansley S, Tolle K. The Fourth Pparadigm:Data-intensive Scientific Discovery[M]. Redmond and Washington: Microsoft Research, 2009: 165-172.
|
[13] |
谢永俊, 彭霞, 黄舟, 等. 基于微博数据的北京市热点区域意象感知[J]. 地理科学进展, 2017, 36(9): 1099-1110. [Xie Yongjun, Peng Xia, Huang Zhou, et al. Image perception of Beijing's regional hotspots based on microblog data[J]. Progress in Geography, 2017, 36(9): 1099-1110.] |
[14] |
黎智枫, 赵渺希. 赛博空间视角下中国三大城市群网络特征——基于豆瓣跨城活动数据[J]. 人文地理, 2016, 31(6): 102-108. [Li Zhifeng, Zhao Miaoxi. City networks in cyberspace:Using doubanevent to measure the cross-city activities in urban agglomeration of China[J]. Human Geography, 2016, 31(6): 102-108.] |
[15] |
丁亮, 钮心毅, 宋小冬. 上海中心城就业中心体系测度——基于手机信令数据的研究[J]. 地理学报, 2016, 71(3): 484-499. [Ding Liang, Niu Xinyi, Song Xiaodong. Measuring the employment center system in Shanghai central city:A study using mobile phone signaling data[J]. Acta Geographica Sinica, 2016, 71(3): 484-499.] |
[16] |
许泽宁, 高晓路. 基于电子地图兴趣点的城市建成区边界识别方法[J]. 地理学报, 2016, 71(6): 928-939. [Xu Zening, Gao Xiaolu. A novel method for identifying the boundary of urban built-up areas with POI data[J]. Acta Geographica Sinica, 2016, 71(6): 928-939.] |
[17] |
陈世莉, 陶海燕, 李旭亮, 等. 基于潜在语义信息的城市功能区识别——广州市浮动车GPS时空数据挖掘[J]. 地理学报, 2016, 71(3): 471-483. [Chen Shili, Tao Haiyan, Li Xuliang, et al. Discovering urban functional regions using latent semantic information:Spatiotemporal data mining of floating cars GPS data of Guangzhou[J]. Acta Geographica Sinica, 2016, 71(3): 471-483.] |
[18] |
张妍妍, 李君轶, 杨敏. 基于旅游数字足迹的西安旅游流网络结构研究[J]. 人文地理, 2014, 29(4): 111-118. [Zhang Yanyan, Li Junyi, Yang Min. The tourism flow network structure of Xi'an based on tourism digital footprint[J]. Human Geography, 2014, 29(4): 111-118. DOI:10.3969/j.issn.2095-0446.2014.04.084] |
[19] |
李君轶, 唐佳, 冯娜. 基于社会感知计算的游客时空行为研究[J]. 地理科学, 2015, 35(7): 814-821. [Li Junyi, Tang Jia, Feng Na. Tourists' spatio-temporal behavior based on socially aware computing[J]. Scientia Geographica Sinica, 2015, 35(7): 814-821.] |
[20] |
李娟, 褚玉杰, 赵振斌, 等. 基于共现聚类分析的西藏入境旅游热点研究[J]. 旅游学刊, 2015, 30(3): 35-43. [Li Juan, Chu Yujie, Zhao Zhenbin, et al. Tibetan tourism hotspots:Co-word cluster analysis of English blogs[J]. Tourism Tribune, 2015, 30(3): 35-43. DOI:10.3969/j.issn.1002-5006.2015.03.004] |
[21] |
刘逸, 保继刚, 朱毅玲. 基于大数据的旅游目的地情感评价方法探究[J]. 地理研究, 2017, 36(6): 1091-1105. [Liu Yi, Bao Jigang, Zhu Yiling. Exploring emotion methods of tourism destination evaluation:A big-data approach[J]. Geographical Research, 2017, 36(6): 1091-1105.] |
[22] |
保继刚, 张捷, 徐红罡, 等. 中国旅游地理研究:在他乡与故乡之间[J]. 地理研究, 2017, 36(5): 803-823. [Bao Jigang, Zhang Jie, Xu Honggang, et al. Tourism geography in China:Between hometown and alien land[J]. Geographical Research, 2017, 36(5): 803-823.] |
[23] |
叶磊, 段学军, 欧向军. 基于交通信息流的江苏省流空间网络结构研究[J]. 地理科学, 2015, 35(10): 1230-1237. [Ye Lei, Duan Xuejun, Ou Xiangjun. The urban network structure of Jiangsu province based on the traffic and information flow[J]. Scientia Geographica Sinica, 2015, 35(10): 1230-1237.] |
[24] |
王宁宁, 陈锐, 赵宇. 基于信息流的互联网信息空间网络分析[J]. 地理研究, 2016, 35(1): 137-147. [Wang Ningning, Chen Rui, Zhao Yu. Analysis of the provincial information space network basted on the internet information flow[J]. Geographical Research, 2016, 35(1): 137-147. DOI:10.3969/j.issn.1004-9479.2016.01.015] |
[25] |
秦萧, 甄峰, 朱寿佳, 等. 基于网络口碑度的南京城区餐饮业空间分布格局研究——以大众点评网为例[J]. 地理科学, 2014, 34(7): 810-817. [Qin Xiao, Zhen Feng, Zhu Shoujia, et al. Spatial pattern of catering industry in Nanjing urban area based on the degree of public praise from internet:A case study of Dianping.com[J]. Scientia Geographica Sinica, 2014, 34(7): 810-817.] |
[26] |
廖伟华, 聂鑫. 基于大数据的城市服务业空间关联分析[J]. 地理科学, 2017, 37(9): 1310-1317. [Liao Weihua, Nie Xin. Spatial association analysis for urban service based on big data[J]. Scientia Geographica Sinica, 2017, 37(9): 1310-1317.] |
[27] |
史坤博, 杨永春, 白硕, 等. 成都市体验性网络团购市场发展的空间特征[J]. 地理研究, 2016, 35(1): 108-122. [Shi Kunbo, Yang Yongchun, Bai Shuo, et al. Spatial characteristics of the experiential online group-buying market in Chengdu[J]. Geographical Research, 2016, 35(1): 108-122. DOI:10.3969/j.issn.1003-2363.2016.01.020] |
[28] |
刘炜, 邓冬玮. 城市消费行为对商业网点发展的影响研究[J]. 规划师, 2017, 33(1): 73-79. [Liu Wei, Deng Dongwei. Influence of consumption behavior on commercial network development[J]. Planners, 2017, 33(1): 73-79. DOI:10.3969/j.issn.1006-0022.2017.01.011] |
[29] |
杨微石, 郭旦怀, 逯燕玲, 等. 基于大数据的文化遗产认知分析方法——以北京旧城中轴线为例[J]. 地理科学进展, 2017, 36(9): 1111-1118. [Yang Weishi, Guo Danhuai, Lu Yanling, et al. Analyzing perception of cultural heritage sites based on big data:A case study of Beijing Central Axis[J]. Progress in Geography, 2017, 36(9): 1111-1118.] |
[30] |
李仁杰, 傅学庆, 张军海. 网络店铺中地域文化商品价值取向的文本挖掘——蔚县剪纸的实证研究[J]. 地理研究, 2013, 32(8): 1541-1554. [Li Renjie, Fu Xueqing, Zhang Junhai. Text mining of the value orientation of regional culture goods selling in online shops:A case study of Yuxian Paper-cuts[J]. Geographical Research, 2013, 32(8): 1541-1554.] |
[31] |
余丽, 陆锋, 张恒才. 网络文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015, 17(2): 127-134. [Yu Li, Lu Feng, Zhang Hengcai. Extracting geographic information from web texts:Status and development[J]. Journal of Geo-information Science, 2015, 17(2): 127-134.] |
[32] |
王曙, 吉雷静, 张雪英, 等. 面向网页文本的地理要素变化检测[J]. 地球信息科学学报, 2013, 15(5): 625-634. [Wang Shu, Ji Leijing, Zhang Xueying, et al. Change detection of geographic features based on web pages[J]. Journal of Geo-information Science, 2013, 15(5): 625-634.] |
[33] |
张高军, 李君轶, 毕丽芳, 等. 旅游同步虚拟社区信息交互特征探析——以QQ群为例[J]. 旅游学刊, 2013, 28(2): 119-126. [Zhang Gaojun, Li Junyi, Bi Lifang, et al. An analysis on information exchange characteristic about tourism synchronous virtual community:A case study of QQ group[J]. Tourism Tribune, 2013, 28(2): 119-126. DOI:10.3969/j.issn.1002-5006.2013.02.013] |
[34] |
苟思远, 李钢, 张可心, 等. 基于自媒体平台的"旅游者"时空行为研究——以W教授的微信"朋友圈"为例[J]. 旅游学刊, 2016, 31(8): 71-80. [Gou Siyuan, Li Gang, Zhang Kexin, et al. Space-time behavior of "tourists" based on self-media platform:A case study of professor W's wechat moments[J]. Tourism Tribune, 2016, 31(8): 71-80. DOI:10.3969/j.issn.1002-5006.2016.08.012] |
[35] |
钟炜菁, 王德, 谢栋灿, 等. 上海市人口分布与空间活动的动态特征研究——基于手机信令数据的探索[J]. 地理研究, 2017, 36(5): 972-984. [Zhong Weijing, Wang De, Xie Dongcan, et al. Dynamic characteristics of Shanghai's population distribution using cell phone signaling data[J]. Geographical Research, 2017, 36(5): 972-984.] |
[36] |
Laney D. 3D data management: Controlling data volume, velocity and variety[EB/OL]. (2001-02-06)[2019-05-16]. https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-ManagementControlling-Data-Volume-Velocity-and-Variety.pdf.
|
[37] |
Rob K, Lauriault T P. Small data in the era of big data[J]. GeoJournal, 2015, 80(4): 463-475. DOI:10.1007/s10708-014-9601-7 |
[38] |
秦昆, 周勍, 徐源泉, 等. 城市交通热点区域的空间交互网络分析[J]. 地理科学进展, 2017, 36(9): 1149-1157. [Qin Kun, Zhou Qing, Xu Yuanquan, et al. Spatial interaction network analysis of urban traffic hotspots[J]. Progress in Geography, 2017, 36(9): 1149-1157.] |
[39] |
吴丹贤, 周素红. 基于日常购物行为的广州社区居住-商业空间匹配关系[J]. 地理科学, 2017, 37(2): 228-235. [Wu Danxian, Zhou Suhong. The matching pattern of housing-shopping space based on residents' daily shopping behaviors:A case study of communities in Guangzhou, China[J]. Scientia Geographica Sinica, 2017, 37(2): 228-235.] |
[40] |
吕兴洋, 刘丽娟, 林爽. 在线信息搜索对旅游者感知形象及决策的影响研究[J]. 人文地理, 2015, 30(5): 111-116. [Lv Xingyang, Liu Lijuan, Lin Shuang. The influence of online information search on tourists' perceived image and decision making[J]. Human Geography, 2015, 30(5): 111-116.] |
[41] |
李云, 赵渺希, 徐勇, 等. 基于互联网媒介图像信息的多尺度城市夜景意象研究[J]. 规划师, 2017, 33(9): 105-112. [Li Yun, Zhao Miaoxi, Xu yong, et al. Space image of multi-scalar urban nightscape represented by photo landscape on the internet[J]. Planners, 2017, 33(9): 105-112. DOI:10.3969/j.issn.1006-0022.2017.09.017] |
[42] |
Kelling S, Hochachka W, Fink D, et al. Data-intensive science:A new paradigm for biodiversity studies[J]. BioScience, 2009, 59(7): 613-620. DOI:10.1525/bio.2009.59.7.12 |
[43] |
Anderson C. The end of theory: The data deluge makes the scientific method obsolete[J/OL]. Wired, 2018-10-09. (2008-10-09)[2019-05-16]. http://www.uvm.edu/pdodds/files/papers/others/2008/anderson2008a.pdf.
|
[44] |
Graham M, Shelton T. Geography and the future of big data, big data and the future of geography[J]. Dialogues in Human Geography, 2013, 3(3): 255-261. DOI:10.1177/2043820613513121 |
[45] |
宋长青, 冷疏影. 国家自然科学基金资助下的中国人文地理学发展[J]. 地理学报, 2004(S1): 8-10. [Song Changqing, Leng Shuying. Features of recent human geography researches granted by national natural science foundation of china[J]. Acta Geographica Sinica, 2004(S1): 8-10.] |
[46] |
Sawyer S. Data wealth, data poverty, science and cyber-infrastructure[J]. Prometheus:Critical Studies in Innovation, 2008, 26(4): 355-371. |
[47] |
Kitchin R. Big data and human geography:Opportunities, challenges and risks[J]. Dialogues in Human Geography, 2013, 3(3): 262. DOI:10.1177/2043820613513388 |
[48] |
Delyser D, Sui D. Crossing the qualitative-quantitative divide Ⅱ:Inventive approaches to big data, mobile methods, and rhythmanalysis[J]. Progress in Human Geography, 2013, 37(2): 293-305. DOI:10.1177/0309132512444063 |
[49] |
吴丽云, 陈方英. 基于网络评论内容分析的餐饮消费者行为研究[J]. 人文地理, 2015, 30(5): 147-152. [Wu Liyun, Chen Fangying. Research on catering consumer behavior based on the content analysis of network evaluation[J]. Human Geography, 2015, 30(5): 147-152.] |
[50] |
唐佳, 李君轶. 基于微博大数据的西安国内游客日内时间分布模式研究[J]. 人文地理, 2016, 31(3): 151-160. [Tang Jia, Li Junyi. A study on the temporal distribution pattern of domestic tourists in Xi'an by hours based on the microblog big data[J]. Human Geography, 2016, 31(3): 151-160. DOI:10.3969/j.issn.1673-6974.2016.03.127] |
[51] |
冯娜, 李君轶. 外向在线旅游信息流与入境旅游流的耦合分析——以美加入境旅游流为例[J]. 旅游学刊, 2014, 29(4): 79-86. [Feng Na, Li Junyi. A couple analysis of the extraversion online tourism information and inbound tourist flow:A case of the American and Canadian inbound tourist flow[J]. Tourism Tribune, 2014, 29(4): 79-86. DOI:10.3969/j.issn.1002-5006.2014.04.009] |