首页 >> 图书情报学 >> 本网首发
大数据技术与传统文献学的现代转型
2021-10-25 11:18 来源:《中国社会科学》2021年第2期 作者:李飞跃 字号
2021-10-25 11:18
来源:《中国社会科学》2021年第2期 作者:李飞跃

内容摘要:人机之间的互动与互补,将促进科学与人文之间的知识重构与认知升级,在一个更高层面带来新的确定性,实现意义重置和世界重建。

关键词:

作者简介:

  一、文献生产的创革

  (一)通过分词、标引、词向量等技术实现原始文献的碎片化与颗粒化。古代汉语分词是将汉字序列切分成单独的词并按照一定规范重新组合成词序列。古籍通过分词、标引、抽取等方式,生成各种新的知识单元,产生新的知识形态如语义网络与知识图谱。

  当典籍根据语义标注的粒度被划分为篇章、段落、句子、词组、词等不同的簇,文本即可作为词汇的集合进入计算分析和知识生产的过程。在空间向量模型中,文本最终会被表示为向量,向量空间模型的应用可将文本以多维和高维模式呈现。

  词汇标注、词性标注和音韵标注,目的是表征传统文献用词的隐藏状态。通过对人物、事件、地名、职官、称谓等实体标引,可以对文本内容的微观结构重加组织。

  (二)通过建词表、定格式、序编码等实现传统文献知识的标准化。原生文献在经过数据化处理后以集合、向量、概率等替代物形态呈现,所有知识都被数字化编码,碎片化与数字同一性增加了知识单元之间的关联,形成一个超大而密集的文献网络,研究者可以便捷地获取位于任何一个序列中的文本与知识集合。

  电子文献的标准化及行业编码、国家标准的制订(包括电子格式、文本字符、图像格式、音声标准、索引工具等对象的标准化)将极大促进文献的传播、使用与研究。

  古籍预处理技术的标准化将推动自动化标引的发展。基于文献自身特点或相互关系而形成的多种元数据标准,包括字符、图像、格式等标准规范的确立,将极大促进数据、库、平台之间的融通。统一化的文本编码可由通用数字语言实现文本互通,最终形成一个巨大的“宏文本”。

  (三)基于检索、算法、模型等实现传统文献与知识的重新关联与结构化。检索一体技术让我们从文档和数据库中获取的知识条块化,事实上是不同知识碎片的整合与单元重组。文献碎片化、知识颗粒化,基于检索、算法和模型生成超越原生文献结构的知识单元(语义单位)。深度学习模型可利用已有文献信息,自动提取、学习特征,发掘其内在的文本与知识关联。语义技术和关联数据可深度揭示知识内容,形成多层次、立体化的知识网络,也将使大规模分工协作与聚合分析成为可能。

  各类传统文献基于超文本链接和各种相关性产生关联,借助宏观的大型数据库、知识库、数据平台以及微观的分词、标引、词表及词向量等数据技术方法,通过数理逻辑、语义关系、分类聚类等知识联接形成新的文献单位。根据不同需求和研究目的进行多维度的文献特征提取及相似度计算,能在任意样本空间上实现文本聚类,析出各种文本集或知识本体。知识图谱作为融概念、实体、属性和关系于一体的知识库,可实现传统文献的语义检索、全面整理与深度揭示,也可将它们联结为更大的结构化知识。

  二、文本形态的新变

  (一)数据库作为一种“宏文本”。数据库收录的数字化文本,文本性质并没有改变。每个数据库都可以看作一种独立文本,不同的文本基于知识、逻辑、功能等被联结成为巨大文本,是别集、总集、类书、丛书等传统文献形态的革新。单一、直接的文本阅读锐减,取而代之的是数据库形态的庞大的文本集合。

  检索界限消失后,古籍数据库可以最大程度地“一站式”获取所需文献资料。关系型智能化的数据库作为一种文本,其形态与功能较纸本时代有质的提升。

  (二)历史文本的空间化与可视化。可视化能够包含多重变量,具有可读性与可理解性。地理信息系统(GIS)技术显著地促进了传统文献的图表化、可视化,以动态的数字化地图和知识图谱体系,改变和丰富了传统的文本形态和使用功能。

  “一图胜千言”,文本内部蕴含的信息也具有可视化潜力。通过发现古代汉语文本特定的词频模式(如高频词、异常词频),可以借助文档相似性比较、主题探测、趋势发现等探索文本中特定的隐含语义关系,将难以理解的抽象数据空间转化成具体直观的视觉空间。

  (三)异质同构与传统文献的跨文本融合。与传统纸质文本不同,数据文本不仅提供多对象聚合,还提供实体链接和交叉检索,最大程度地为构建叙述场景提供便利。未来的文献形态远不止于文本、图形、图像,还包括音频、视频及增强现实、虚拟现实等。动态、关联、立体,是未来文献的基本特征。

  超文本打破了传统文献的线性平面结构,超链接和知识图谱使得阅读路径更加灵活自由。融合多媒体和超文本检索技术,实现跨时空、跨语种、跨媒介的检索,德里达所说的“万物皆文本”正在实现。

  三、知识获取的拓展

  (一)知识的关联。文献作为一种语言和知识系统,字、词、句之间皆可构成特定的复杂网络关系。知识超越简单的时空排序、内容关联和页码顺序,通过关键词、类别、主题、命名实体、函数、图表等实现跨文本甚至跨媒介关联,通过界面或网络联结呈现。知识网络让研究者能直观发现在词频统计之外的知识内部的更深层关系,如整体网络特征、核心人物功能与不同时期人物关系的演化模式。共被引分析通过引文之间的共现,可实现基于知识的聚合,解释知识的主题结构和新颖度。

  在大数据知识关联中,人们更关注的是知识信息的网络结构与流动转化。随着更多要素和变量纳入,知识会呈现不同的形态、性能与趋势。在更为宏阔的视域下,知识获取已非直接来自单个文本,亦非来自文本本身。

  (二)知识的计量。通过对知识本体、要素及关系的刻画与计量,尽量精准把握知识的特征、规律与趋势。文献学关注的作者归属、文体分类、主题异同、语义辨析等问题,正是统计分析学之所长。

  文献学的统计方法和数据模型不仅要从已知事实推及未知事实,还要借助定性和定量的描述性公式和算法进行通式建构。人们利用文本挖掘工具,从词频、意象、词汇、语义网络、字向量、情绪等维度,分析作品的常见意象、典型形象、情感倾向等。

  文体的发展伴随着“变体”与“破体”,也就是说文体虽然代表着一些共性特征,但又始终与特征的变异并存。

  主观文本(长文本)一般会有情感基调和情感走向,对情感词汇标引,可揭示语篇层面上的情感流动。对不同时代或群体的情感用词统计聚类,可自动生成“情感辞典”。通过数字转化及语义网络分析,人们将对文献与文本含义的丰富度产生前所未有的认识。

  情感计算的本质是对语言评价义的挖掘,可利用情感词之间的相似度和语义场分析情感倾向。把每段文本按照情感强度标记分类,然后进行机器学习,再对新的文本进行测试,可以发现不同情感强度的具体表征。

  (三)主题模型提取。主题是基于概率分布的词语,主题模型是用一些特定的词语分布来刻画主题。共词分析通过分层聚类揭示词与词之间的关系,进而分析它们所代表的主题与结构。

  模式识别是计算机擅长的领域,计算机可根据不同文献设置参数,提取所需主题。目前智能媒体中使用的自动摘要技术,已能自动抽取关键信息,根据需求灵活控制摘要长度,并用于内容理解、智能写作等,为主题分析带来了新的契机。一些计算机专家正致力于开发主题模型工具套件,让主题提取变成简单的命令录入,从而降低应用门槛。

  大数据技术易于弥补传统史料存在方式的不足,帮助发现知识因规模庞大而被遮蔽的变化弧线与一般规律。

  四、传统文献学的现代转型

  (一)革新传统文献学的实践路径。目录、版本、典藏、校勘、标点、索引、辨伪、辑佚等传统文献学的主要研究内容和工作,都极大得益于计算机网络、语料库和技术工具,研究效能将得到较大提升。

  大数据时代的远读即如同传统文献学中的目录,“远读也可以看作是数字文本的可视化目录。它描述了文档集合的全局特征,让研究人员对超大数据集有了整体认知”。

  文献版本的分类除传统的标准外,还增添了信息技术层面的标准。依据文献数据碎片化、标准化和结构化的程度不同,文档集、数据库也具有了版本意义。

  数字文献在典藏和流传上具有天然优势,重要文献的扫描、保存和开源共享正是大数据技术和数字人文兴起的基础。语料库、数据库及文本工具箱已成为当今文献研究的新基础设施,大数据技术正助力传统文献学实现突破性发展。

  (二)增强传统文献研究的整体性。传统文献是平面和静止的简单形态,而数字化文献是文本类型及结构复杂、数据表征及性能多样的知识系统。这一知识系统的各要素都有自己的目标和行为、自主性和主动性,存在非线性相互作用,并随时空变化而不断有新的结构、功能或状态出现。大数据时代的庞大数据集合,使得之前由因果律主导的演绎法和注重实验的归纳法不免捉襟见肘。人们不再满足于简单地寻求孤立事实或线性因果,转而致力于万物相关性的发现与解释。

  对海量文献进行整体分析和远读,才能更有效地对某一类典籍及其蕴含的历史信息达到整体把握。我们在一定程度上应放弃对局部或细节真实的追求,转而追求对概率和趋势的认知。

  随着样本量的增加和标准变化,以往建立在抽样或抽象基础上的结论可能发生改变。借助计算机实现实体名词自动抽取,建立表征术语、文本、文人间关联性的文本网络,利用复杂网络或社会网络分析的手段深入挖掘其间的关系和模式,将成为大数据时代的文本细读。

  (三)促进传统文献研究的实证化。大数据技术可以用科学的方法来解决那些感性和偶然提出的问题,如关于文学研究中的文体学和风格学问题。机器学习、数据挖掘、复杂网络分析等计算机研究领域中也存在大量经典算法可以帮助总结文体模式、分析文体演化。通过用词、句式、声律、用典、态度、情感甚至段落过渡、篇章组织等多重要素的复合定量分析,文献学研究的客观性和精密性就变得明显,文献学学科的科学性也会显著增强。

  汉儒、清儒以“实事求是”相标榜的实证精神是古典文献学的优秀传统,大数据技术将极大地推动实证方法在学术研究中的应用。大数据利用信息消减不确定性,语料库和检索技术的发展使定量证据激增,极大提升了学术研究的实证性与科学性。

  (四)催生新的研究范式。大数据技术进一步缩小了定性研究与定量研究之间的鸿沟,在经典理论和实践经验之间架设了一座桥梁,有可能发现和提出新的重要理论。

  计算模型扩展了审视维度,利用大数据技术协作构建庞大的新型文献数据库和知识库,有望绘制出古代物质、精神世界的隐性结构,从而完成传统学科不可想象也因而从未被纳入学科范畴的目标。在大数据基础上,除了涌现的“计算机+”的跨学科交叉研究,还催生了一些具有学理特征的研究门类。

  在大数据时代,传统文献学正面临着前所未有的大转型。随着电子化、数字化尤其大数据技术应用于人文研究,更具方法论和本体论的信息科学的出现已是不争的事实。

  余论

  大数据技术是一场知识革命与思维革新,促进了传统文献学的转型与拓展。通过改变知识的切分、标引、聚类与呈现方式,大数据技术可以让原本庞大的文献及其间蕴含的知识变得更加浩瀚无穷,同时也为学者提供更多差异化、整体性、趋势性研究的可能。资料、检索和认知边界的同时拓展,正在使传统文献学实现“轮廓重绘”。

  需要指出的是,大数据技术在传统文献研究中也存在着局限和问题。数据资源不可能全部获得,“用数据说话”不等同于数据即是客观事实。数据量大不一定等于有用的信息多,大量的含偏差数据会引起语义整体性的忽视与破坏。

  同时,也需警惕技术方法的局限性和负面影响。检索生成数据较容易,原因的分析则较难。大数据抵消了少数个体的特殊性,减损了读者对文本信息进行深度理解的意愿。研究者对分析工具的认识不足而误用、统计方法单一、缺乏有机模型和统一理论的支持、机器学习算法的黑箱问题等,可能导致结果的误差或结果可解释性的匮乏。

  因此,我们应充分认识到大数据技术并未改变知识的本质或人追求知识的本质,它依然只是一种认识世界的工具和方法,是人的延伸,不能也不会替代人。其开放性虽然拓展了传统量化分析方法的空间,但如何避免以抽象运算取代解释性理解,如何注意弥补大数据在数据信度、主体呈现和因果解释等方面的缺陷,却同时变得紧迫。

  但也应该看到,随着数量和维度的增多,知识的高度语境特异性反而可以让研究者有条件更多关注审美、情感、意义等层面的问题,发挥人文经典通约性和稳定性的共情能力,让我们成为“我们”。同时,人机之间的互动与互补,也将促进科学与人文之间的知识重构与认知升级,在一个更高层面带来新的确定性,实现意义重置和世界重建。这也是人类对自我局限的一次突破和面临世界巨变的一次调整。

  (作者单位:清华大学人文学院。《中国社会科学》2021年第2期。中国社会科学网 闫琪/摘)

作者简介

姓名:李飞跃 工作单位:

转载请注明来源:中国社会科学网 (责编:闫琪)
W020180116412817190956.jpg

中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
百度