• beat365手机中文官方网站
  • 信息门户
  • OA

专家讲座

讲坛纪要‖ 王京:数据视域下的人文研究反思

2021年11月02日 
阅读:

IMG_256

20211028日晚1900,由beat365官方网站主办,beat365官方网站社会学系承办的beat365手机中文官方网站青年民俗学学者网络讲坛(第四季·总第十八讲)“数字人文与民俗学发展”第二讲在腾讯会议平台成功举办。此次讲坛有幸邀请到中国科学院计算机网络信息中心王京博士为我们主讲“数据视域下的人文研究反思”,beat365官方网站社会学系陈洪东博士与谈,孟令法博士主持,校内外近50名师生共同参与。

此次讲座王京博士从以下四个板块围绕主题进行讲述:一是大数据视域下的人文社科研究背景初探;二是数据驱动的人文社科研究理论与实践浅析;三是知识图谱与数据驱动的人文社科研究实践;四是应用及实践案例。通过这几个板块探讨了大数据驱动下的人文研究及其发展。

4(43)

一、大数据视域下的人文社科研究背景初探

王京博士首先讲述了大数据视域下的人文社科研究的时代背景与现实意义。随着机器学习、云计算、其他相关技术的逐步成熟,以及大数据生命全流程技术的不断丰富,可以通过大数据采集、大数据处理、大数据存储、大数据分析等方式,为实现以海量异构数据为主要数据类型的人文社科研究与应用实践提供了可能性。学术界通常用“4V”来概括大数据的基本特征,即数据的体量大(Volume)、数据的种类繁多(Variety)、数据的生成和高速处理Velocity)以及价值密度低(Value,着重解释了高速处理与价值密度低。高速处理是指伴随着数据数量和类型的增加,直接影响数据的处理速度;价值密度低背后蕴藏着巨大的潜在价值,即有用数据在总数据中所占的比例,而大数据背后的有效信息挖掘和趋势预测将是大数据发展的主要方向。然而,随着大数据技术的不断精进,IBM提出用“5V”来描述大数据的特征,即在原有“4V”上,增加了“真实性”Veracity,它强调了数据的准确性和可信赖度,即数据的质量。基于前述内容,王京博士还向我们分享了大数据在医疗行业、社会生活及灾害方面的应用案例。

随后,王京博士讲述了大数据驱动下人文社科研究的缘起与发展脉络。从宏观层面讲,人文社科研究受大数据的驱动逐步从定性研究向定量研究转型;从微观层面讲,人文社科积累了多种量化研究方法,促使数字人文、社会计算等新兴研究范式的出现。最后,王京博士对人文社科与大数据计算技术的研究边界进行了探讨。她认为,大数据驱动的人文社科概念、边界及应用场景具有变化性和不确定性,具体表现为以下三个方面:计算机技术促进了人文社科研究领域研究主体和内容的转向、本领域多学科协作决定了人文社科发展的多样性和融合性及人文社科领域自身也具有数字特征和研究需求深刻影响领域的发展走向,但数字数据目前还不是研究的核心数据。总之,人文社科研究结合大数据应用是优势与短板并存、机遇与挑战并存的。

6(47)

二、数据驱动的人文社科研究理论与实践浅析

在理论层面,王京博士着重向我们分享了Michel等于2011年发表在《科学》杂志上的论文《Quantitative analysis of culture using millions of digitized books》和Schich等于2014年发表在《科学》杂志上的《Quantitative social science: a network framework of cultural history》,并由此指出,数字背后不仅反映着语言学和文化现象,还能呈现欧洲文化中心的空间变迁。

通过这两篇论文可知,数字可以应用到人文社科研究领域的诸多方面,例如通过词频和时间轴预测文化现象关注度的变化趋势;发现词汇出现频次以编纂词典;统计词汇以研究语法的演变过程;对发明、名人、时间等出现频率的分析研究群体记忆的更迭速率与人物的名望等。总的来说,这类可被称之为文化组学(Culturomics)的内容分析,将成为人文学科中的一种新证据,与古生物化石一样,挑战在于对这些证据的正确解释。

在实践层面,王京博士向我们介绍了马克思普朗克科学史研究所(MPIWG)主持的LoGaRTLocal Gazetteers Research Tools,地方志研究工具项目实践)、麻省理工学院数字人文研究机构(HyperStudio)主办的Chronos Timeline(时间线项目研究)及艺术和人文研究委员会(the Arts and Humanities Research Council)资助的The Digital Panopticon(数字全景显示器/监狱项目)等三个具有代表性的数字人文实践。可以说,数字人文研究类型丰富,涉及学科也极为多样,既可以致力于资源的数字化,也可以有选择性的进行资源的可视化呈现,因而大数据在人文领域具有广阔的发展前景,但这些实践也反映了一些实际问题,特别是数据来源比较纯粹,重点在公开的史料、典籍、地方志或各领域专门的数据库等有限数据集,利用到的关键词大多为“地名”“时间”“专有名词”等。

上述理论研究与项目实践说明,人文科学与大数据科学可以很好地融合发展,但仍须突破一定条件,如高数字化程度、几个至多个核心指标的选择、有效的关系模型以及与政治、历史事件等的互文性阐释。总之,要激发数据技术在人文领域的应用潜力,拓宽人文科学方法口径,方能逐步实现人文研究与大数据科学的深度结合。

22

三、知识图谱与数据驱动的人文社科研究实践

知识图谱是大数据分析中的重要应用,其为互联网上大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维,给我们提供了更多思考和分析问题的方式。传统的机器学习都是通过大量的样本习得知识,在大数据红利渐渐消失的情况下,逐渐遇到发展瓶颈,而通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力,将成为新时代下的必然趋势。因此,将知识图谱技术和应用迁移到人文社科研究中是十分重要和必要的。

关于知识图谱到底是什么,王京博士通过举例百度搜索某一知名人士的人名就会出现该人的图片、简介和相关社会关系网络等信息,向我们揭示了知识图谱的本质,即一种用来描绘真实世界客观存在的实体、概念及它们之间关联关系的语义网络,而其架构主要包括自身的逻辑结构与体系架构,前者还可分为模式层和数据层(主要由一系列事实组成,而知识将以事实为单位进行存储),其构建过程则包括知识抽取、知识融合、知识表示与知识推理。

知识图谱的应用主要集中在智能搜索、深度问答、社交网络(社区发现)以及隐性关联发现(路径发现),而其类型包括通用知识图谱和领域知识图谱两种。通用知识图谱也可根据其覆盖范围分为开放域通用知识图谱和垂直行业知识图谱,并主要应用于智能搜索等领域,例如百度、谷歌等搜索引擎,因而适用范围面是相当广泛的。领域知识图谱面向特定领域构建知识网络,能够将知识网络赋能医疗、教育、科技、人文等以知识密集型领域为代表的特定领域,故在领域知识图谱中,实体与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员。王京博士强调,知识图谱直接改变了利用大规模数据的方式,未来知识图谱使机器语言认知和智能化分析成为可能。因此,作为人文社科的研究者,应积极探索人文社科领域知识图谱的构建。

32

四、知识图谱的应用及实践案例

在我国,现已构建的知识图谱主要有通用领域中文知识图谱《大词林》、中国知网情感词典(HowNet)、中文通用百科知识图谱(CN-DBpedia)、唐宋文学编年地图以及中国历代人物传记资料库(CBDB)等。现阶段运用知识图谱开展人文研究的主要途径是利用现有通用知识图谱、现有图谱分析工具和基于研究内容来构建图谱的。

王京博士向我们着重介绍了CiteSpaceGephi等图谱分析工具,并列举了她用这些工具研究少数民族非遗的案例。与此同时,她还强调了图谱构建对相关问题的解决——首先,海量结构/非结构化数据的图结构呈现,完成了目标数据的体系化梳理;其次,能很好获取碎片化信息并存储,从而形成初步资源池;最后,面向专业人员的开放性图谱构建功能,为海量无序信息中的高价值信息挖掘与可视化呈现提供可能。

39

五、互动与总结

在互动与总结环节,孟令法博士首先对王京博士的精彩讲座表示衷心的感谢,总结了王京博士的研究内容,并发表了自己的感想。他认为数字人文发展在我们现有研究中是一个新兴领域,但对于现在的诸多人文研究学者来说,数据的统计、分析与处理的技术还相当薄弱,需要跨学科、多学科协作与沟通。

随后,陈洪东博士首先对能听到王京博士的精彩演讲表示荣幸,他认为此次讲座内容十分丰富,专业性很强,诸多地方值得学习,同时也提出了他的思考。他认为我们生活在当代这样一个信息化社会,如何通过认识大数据去更好地认识、构建和影响现实世界,则是一个极为重要的问题,并由此举列了以消费数据、健康码及导航图等为代表的例子,来说明大数据对于我们生活方式的影响。陈洪东博士十分认可大数据的影响力,但也提出反思,指出大数据是否也能很好地应用到民俗学的发展中?怎样在数据的使用中体现民俗研究的人文关怀和思想深度?而由面对面收集的一手资料与间接获得的二手数据,哪种更加可靠,也需要我们科学评定。

对于陈洪东博士的与谈,孟令法博士表示认同,并提出如何使数据应用到人文领域时是有温度的、有人文关怀的,将是未来大数据与人文社科融合发展的一个重要问题。然而,目前的民俗研究还没有比较系统的数据库,由此孟令法博士向王京博士咨询了中科院的人文数据库情况。对此,王京博士答道,数据库的建设对人文社科的发展十分重要。目前各个院所已经在申报数据的建设。据她了解,目前中科院是有一个数据库建设工程,包括中国多个科研院所的大部分科研数据,但目前还没有系统地存储、整理及运用,而这却也是未来数据库良好发挥作用的一个关键点。

来自梧州学院文学与传媒学院的何华湘教授在交流中指出,数据驱动人文研究已成不可逆转的趋势,数据思维很可能会成为人类认知于行为的底层逻辑之一,期待国内有更多适合人文社科领域的数据库和数据分析工具出现。随后,一位校外听众问道,在图谱分析中,大圈作为一个泛大众的领域,中等的圈作为一个中等的领域,小点可作为小众或边缘研究领域,那么未来的研究趋势是淹没在泛大众的研究当中还是边缘的领域中呢?另外一位校外听众则提问道,知识图谱在政府公共服务领域运用如何?对此,王京老师答道,这三个“圈”并不是互斥的,而是互相加强的。数据的架构是相通的,只不过是应用的领域和面向的群体有所差别,因而这三个领域都有很好的发展前景。对于第二位听众的提问,王京博士认为,大数据属于技术层面的问题,知识图谱只是着一技术的一种可视化体现,通过这样一个技术可以实现很多应用场景,比如交通、医疗等领域。因此,政府部门在这方面的使用亦是较为普遍的。

通过本次讲座,王京博士对数据视域下的人文研究进行了深刻反思和探讨。通过理论、方法与实际案例的研究,为我们呈现了数字人文、知识图谱以及相关应用实践的现状和未来的可能走向。于此,再次感谢王京博士的精彩讲述,感谢参与本次讲座的校内外老师和同学们的大力支持。

上一条:工作坊纪要 || 孟令法:“越界—虚构化行为”:图像叙事与仪式空间的构合
下一条:“法学研究与法学学术论文写作”讲座在beat365官方网站成功举行

关闭