Digital Humanities & Large Language Models: Practice and Research in Semantic Retrieval of Ancient Documents

  • Haoxian WANG ,
  • Ziming ZHOU ,
  • Feifei DING ,
  • Chengfu WEI
Expand
  • Peking University Library, Beijing 100871

Received date: 2024-06-21

  Online published: 2025-01-13

Abstract

[Purpose/Significance] Against the backdrop of the increasing popularity of artificial intelligence technology, particularly large language models, this paper aims to explore their applications in the field of digital humanities, with a particular focus on the retrieval of ancient documents. Through the practice and exploration of the ancient document retrieval platform at Peking University Library, this study not only introduces new perspectives and methods to the field of digital humanities, but also promotes academic research and cultural heritage. It also provides practical references for other university libraries, which is an important guide. [Method/Process] The article begins with an overview of the origins and development of the digital humanities, emphasizing its central role in humanities research. The paper then examines the current state of the arts in large language models and analyzes their potential and advantages for identifying and classifying ancient documents, semantic understanding and parsing, and information extraction and association. Through the analysis of practical case studies, this paper constructs a fundamental semantic retrieval model, the core architecture of which consists of two critical components. First, the construction phase of the retrieval engine involves meticulous pre-processing of the ancient document information to generate basic metadata. Using large-scale models, these metadata are subjected to in-depth processing and enhancement to create auxiliary search fields and enriched text. In addition, the text processed by the model and the original text are transformed into semantic vectors, which are then stored in an efficient vector engine for rapid retrieval. Second, the search and sort component is another core part of the model. This part accurately processes the user's search terms through large models to generate extended content and, in conjunction with the search terms, creates accurate semantic vectors. Utilizing the previously constructed vector engine, the model can efficiently retrieve relevant documents and intelligently sort the search results based on specific algorithms, ensuring that users can quickly obtain the most relevant and valuable information. Taking the ancient document system collection data of Peking University Library as the research object, the paper processes over 250,000 records, primarily consisting of ancient books and rubbings, as well as over 10 million metadata items. Using the gradio framework on a server equipped with two NVIDIA RTX 4090 24G graphics cards, a semantic retrieval platform was created to effectively manage and retrieve these vast amounts of data. [Results/Conclusions] The main strengths and contributions of the study lie in the standardized metadata organization, the metadata extension supported by large models, the support for natural language search terms, the fault-tolerant search mechanisms, and the efficient retrieval capabilities of the vector engine. However, there are shortcomings, such as the accuracy of results generated by large models and insufficient comprehensive analysis of user search data. Future efforts will be devoted to improving these issues to increase the effectiveness of the research.

Cite this article

Haoxian WANG , Ziming ZHOU , Feifei DING , Chengfu WEI . Digital Humanities & Large Language Models: Practice and Research in Semantic Retrieval of Ancient Documents[J]. Journal of Library and Information Science in Agriculture, 2024 , 36(9) : 89 -101 . DOI: 10.13998/j.cnki.issn1002-1248.24-0615

0 引言

近年来,人工智能的热潮在全球范围内持续升温,其技术前沿取得了令人瞩目的重大突破。尤其是生成式AI技术的飞速发展,以及AI从单一模式向多模态的转型,都在不断拓宽人工智能的边界和应用领域。如今,AI技术已经渗透到智慧教育、自动驾驶、智能医疗等多个行业中,成为推动这些行业创新和发展的核心动力。2017年,国务院印发了《新一代人工智能发展规划》[1]。这一规划深刻洞察了人工智能的战略价值,明确指出我们要紧抓人工智能发展的历史机遇,努力构筑中国在人工智能领域的先发优势,进而加快建设创新型国家和世界科技强国。2024年7月,工业和信息化部、中央网信办、国家发展改革委、国家标准委等四部门联合印发《国家人工智能产业综合标准化体系建设指南(2024版)》[2]。这一指南指出人工智能是引领新一轮科技革命和产业变革的基础性和战略性技术,伴随以大模型为代表的新技术加速迭代,人工智能产业呈现出创新技术群体突破、行业应用融合发展、国际合作深度协同等新特点,亟须完善人工智能产业标准体系。
2022年11月30日,OpenAI发布的ChatGPT模型,是自然语言处理领域取得的重大突破,是人工智能发展历程中的一个重要里程碑。ChatGPT的核心技术根基在于大型语言模型(LLM)的精湛应用。这类大语言模型不仅具备生成自然流畅文本的能力,更在深层次上捕捉并理解文本的语义内涵,从而游刃有余地处理各种自然语言任务,包括但不限于文本翻译、自动摘要生成等。
数字人文[3](Digital Humanities)首次于2001年提出,也被称为人文计算[4],它标志着现代计算机和网络技术深入融合于传统人文研究与教学领域的新篇章。作为一个新兴的跨学科研究领域,数字人文致力于运用数字工具和计算机技术来探索与理解人类丰富的文化遗产。数字人文的实践在全球范围内已取得了显著的成果,特别是在人文数据库和数据集的建设方面。诸如中国历代人物传记库(CBDB)、谷歌数字图书馆项目等,这些项目不仅极大地丰富了人文研究的资源基础,还促进了全球范围内学术研究的交流与合作。古籍、拓片、古画等珍贵的历史文献是人文研究的重要材料。在数字化的基础上,这些资料得以通过数据库检索系统进行高效、便捷地访问。研究人员能够迅速定位到所需文献,进行深入的分析和研究。因此,古文献的检索成为了数字人文研究的基础和不可或缺的组成部分,为人文领域的研究工作提供了强有力的支持。
数字人文领域正展现出由数据技术驱动的结构化、可视技术赋能的可视化、VR/AR技术实现的拟实化,以及机器学习技术引领的智慧化等显著趋势[5]。这些趋势凸显了人工智能技术与数字人文研究的深度契合。因此,本文旨在深入探究大语言模型在数字人文领域,特别是古文献检索中的应用,以及它如何推动该领域进入新的境界。我们期望通过这一研究,为数字人文领域带来新的视角和方法,进一步推动其在学术研究和文化传承中的重要作用,同时,我们精心设计的基于大语言模型的语义检索模型及其平台,不仅代表了技术创新的前沿,更为兄弟院校图书馆提供了宝贵的参考蓝本。这一成果不仅具有实践指导意义,更在行业内树立了标杆,展现了其在推动图书馆数字化转型、优化信息检索效率与精确度方面的引领价值。

1 数字人文与古文献检索

1.1 数字人文的概念与研究内容

一般认为,数字人文起源于人文计算(Humanities Computing)[6],也有部分学者质疑这个说法,辨析了两个概念的关系和差异[7],强调使用者在明了数字人文一词的实质意义的基础上,这两个词可以做同义词看待。1949年意大利神父罗伯托·布萨(Roberto Busa)开始借助IBM公司的计算机技术处理神学家阿奎那(Thomas Aquinas)的全集,半自动地生成其中中世纪拉丁文字词的索引。这是首次将计算机技术应用于人文学领域,也是数字人文领域的开端。运用Web of Science核心数据集合,对数字人文领域文献进行计量学分析[8],将数字人文研究分为3个阶段,萌芽期(2003年以前),聚焦于数字化项目建设,起步期(2003—2008年),强调数字工具的建设;发展期(2009年之后),关注软件、编码与数字平台的影响下,人文研究对象逐步数字化,丰富人文学科研究的方法与手段。
因此,何为数字人文?“跨界与融合:全球视野下的数字人文”一文中结合已有论文进行讨论,数字人文的定义难以界定,数字人文至少包含4个层面的内容:人文数据库或数据集的建设;认为数字工具的开发试用;创新人文研究方法和研究范式;人文领域的创造性破坏与建设。这与上文中文献计量方法分析得出各研究阶段内容不谋而合。
综上所述,数字人文作为一门新兴的交叉学科,自20世纪中叶起,其研究领域和深度不断扩展,已逐渐发展成为人文学科与数字技术深度结合的典范。该学科综合了人文学科的深厚底蕴与现代信息技术的先进手段,通过构建网络基础设施、运用数据收集与分析技术以及算法模型等,极大地拓宽了人文研究的视野和深度。数字人文的核心在于利用数字技术对人文学科资料进行全面、系统地收集、整理、分析和研究,从而推动人文科学研究的数字化、智能化和精细化发展。这一领域的研究不仅具有重要的学术价值,也为人类文化的传承、保护和创新提供了有力的支持。

1.2 传统古文献检索方法的局限性和挑战

古文献检索是研究古代文献内容、结构、语言、历史价值等方面的基础,因其文献的多样性和复杂性而面临显著挑战。当前,尽管以关键词检索为核心的数据库检索和全文索引(如solr)等技术手段为古文献的检索提供了一定便利,但由于古文献本身的特殊性以及跨学科知识体系的复杂性,这些技术在实际应用中仍表现出显著的局限性。尤其在深入理解和分析古文献的语义关系以及满足多样化读者需求方面,现有技术尚无法全面达成预期目标。因此,持续研发和完善古文献检索技术,对于保护和利用这些珍贵文化遗产具有至关重要的学术意义。
(1)古文献的特点与分类。古文献作为人文研究的重要基石,其多样性和复杂性为学者提供了丰富的历史和文化信息。这些文献不仅涵盖了古籍、碑刻、拓片等传统形式,还包含了现代数字化[9]处理的版本,每种形式都承载着独特的学术价值。然而,这种多样性也带来了检索工作的巨大挑战。对古文献进行人工描述组织并建立索引显著提高了文献的可访问性,但因为存在文献组织描述存在一定的局限性和命名不规范问题[10],更是增加了检索的难度和不确定性。
(2)传统古文献检索的技术手段。为了应对古文献检索的挑战,学者们不断探索和应用各种技术手段。基于关键词检索的方法,通过匹配检索词与文献元数据,实现检索目的。这一方法主要包括基于关系型数据库的检索和全文搜索引擎。例如,高校古文献系统,它是由“高校古籍著录系统”和“学苑汲古”两部分组成,其中“学苑汲古”是发布系统。“学苑汲古”是该资源库的发布和服务平台,具有对古文献的简单检索、高级检索、二次检索、索引、浏览等功能。“高校古文献系统”即利用关系型数据库技术[11],对古文献元数据建立索引表,用户检索时先搜索索引表,再映射至原始数据。然而,随着数据量和检索点的增加,索引表的构建与维护需消耗大量资源。
在传统基于关系型数据库的基础上,引入全文索引技术如solr等。全文搜索引擎虽能在全文范围内(如古文献元数据的所有字段)进行关键词匹配,解决索引表增长问题,但在处理复杂查询和语义关系时亦显力不从心。因此,尽管这些技术在一定程度上提高了检索效率,但受限于检索词的单一性和语义理解的局限性,难以满足深度检索和精确分析的需求。
(3)古文献检索面临的主要挑战。在现有技术背景下,古文献检索面临多重挑战。首先,文献的多样性和复杂性导致组织描述困难,缺乏统一的著录标准和规范,且依赖编目员知识体系,导致检索结果的不准确和不完整。其次,古文献数字化程度低,存在避讳字、异体字、通假字、字迹模糊、排版混乱[12]等问题,主要依赖编目员著录的元数据,导致检索全面性受限。再者,随着古文献数量的增加和数字化技术的快速发展,如何提高检索效率成为亟待解决的问题。最后,古文献的语言特点和知识体系的复杂性,如词汇、语法、修辞的时代特征,以及古今异义词、一词多义等现象,为文献的深入理解和语义分析带来了挑战。

1.3 古文献检索对数字人文研究的相互促进作用

在数字人文研究的广阔领域中,古文献检索扮演着至关重要的角色。这一过程不仅是对古代文献的深入挖掘和整理,更是对古代知识、文化和学术传统的重新解读和传承。而数字人文的相关技术,如关联数据[13]、GIS、可视化、自然语言处理等技术,为古文献检索提供了强大的技术支持,使得这一过程更加高效、精准和深入。
人文学者在进行古文献研究时,往往需要借助各种研究、检索工具来辅助他们的工作。随着数字人文技术的发展,人文学者对这些工具提出了更高的要求。他们希望这些工具能够尽可能以“辨章学术、考镜源流”“会通观”等文献整理学术传统为导向[14],帮助他们更好地理解和把握古文献的学术价值和文化内涵。通过对古文献的深入检索和分析,研究者可以揭示出古代社会的知识、文化和学术传统,为现代学术研究提供重要的参考和借鉴。
而数字人文技术为古文献检索提供了新的可能,如语义检索等技术的应用,使得检索结果更加精准、全面。这些技术的应用不仅提高了检索效率,还推动了古文献研究的深入发展。传统的关键词检索方式往往只能检索到与关键词相关的文本信息,而无法深入理解文本的含义和上下文关系。而语义检索技术则能够基于自然语言处理技术对文本进行深层次的语义分析,从而更准确地捕捉文本中的信息。在古文献检索中,语义检索技术能够帮助研究者更好地理解文本的含义和背景,发现新的研究线索和观点。这种技术的应用不仅提高了检索的精准度,还推动了古文献研究的深入发展。

2 大语言模型在古文献检索中的应用

大语言模型是深度学习领域的一种先进模型,通过大量文本数据的训练,能够生成和理解自然语言文本,并处理多样化的自然语言处理任务,可以被用于聊天机器人、互动系统、智能问答、机器翻译、文本生成、自动摘要、情感分析以及观点挖掘等多种场景。并且,大语言模型在古文献识别与分类、语义理解与解析以及信息抽取与关联等方面具有深入的应用潜力和显著优势。

2.1 大语言模型在古文献识别与分类中的应用

大语言模型在古文献识别与分类中的应用主要包括高精度识别、特征学习与表达、上下文感知的识别与分类。
在高精度识别方面,基于Transformer架构的模型通过大规模语料库的预训练,具有丰富语言特征的积累和知识。古文献中的手写字体和印章往往具有极高的艺术价值和历史价值,但同时也是识别的难点使用多模态大模型[15]和OCR技术可以精确地识别古文献中的手写体、印章、古文字等内容,并通过使用特定领域的语料库进行微调,针对某一时期、字体的古文献[16]进行高精度的识别。
在特征学习与表达方面,大语言模型在大规模语料库的训练过程中会学习到语法、语义、上下文等方面的语言特征。通过训练所得的语言特征可以用来表达古文献的特点和属性。通过语料库的训练和特征学习,大语言模型可以自动提取古文献的独特特征,并基于这些特征进行分类和标注。例如,AI太炎[17]通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果,具有较强的古典文献释读能力。这种方式不仅可以提高识别的准确性,还可以为后续的文献分析和挖掘提供有价值的特征表示。
在上下文感知的识别与分类方面,大语言模型的长期记忆机制使得其有强大的上下文感知能力。在古文献的识别和分类中,大模型可以利用上下文信息来辅助识别和分类。例如,荀子大模型对《四库全书》进行自动分类[18],其系列模型在古籍自动分类任务中表现出明显优势,其中Xunzi-Baichuan2-7B大语言模型的整体分类值达到96.90%。在识别古文字时,大模型可以根据上下文、周围的文字、符号和图像[19]等多方位信息推断当前文字的含义和类别。这种上下文感知的能力使得大模型能够更加准确地识别和理解古文献中复杂的结构和内容。

2.2 大语言模型在古文献语义理解与解析中的应用

古文献的语义理解与解析是人文研究的核心内容之一。大语言模型在这一领域的应用,不仅限于简单的语义分析,还能提供更深入的理解和解析,对于增强语义理解和提高检索准确性具有重要意义。
深度解析古文献中的语义信息。古文献中的语义信息往往复杂而丰富,需要借助先进的技术手段进行深度解析。大语言模型通过预训练学习到的大量语言知识如语言特点和语义结构等,可以被用来深度解析古文献中的语义信息,分析文献中的句子结构、段落关系、篇章结构等,从而更深入地理解文献的含义和意图。并对其理解能力进行评估和探讨大语言模型表现出了巨大的潜力但也有很大的提升空间[20]。在古文献语义理解的基础上,大模型可以生成与原文本语义相似的新文本,如摘要、关键词等,可以用于补充古文献元数据、作为检索结果的展示,提高检索效率和检索结果的可读性。于跨语言的古文献翻译与对照研究,大语言模型同样发挥着重要作用。通过训练多语言模型,如支持古典文献学多语种Sentence-RoBERTa模型[21],可以跨语言语义理解和识别古希腊语、拉丁语和英语等语言中的相同句子,实现不同语言之间的自动翻译和对照。这不仅有助于消除语言障碍,促进不同文化之间的交流与理解,还能够为跨文化的古文献研究提供新的视角和方法。

2.3 大语言模型在古文献信息抽取与关联中的应用

古文献信息抽取与关联是古文献研究的重要环节之一。大语言模型在这一领域的应用,有助于实现古文献的结构化信息自动抽取、关联分析并生成知识图谱。
古文献中包含了大量的人名、地名、时间等关键信息,这些信息对于理解古文献的内容和背景具有重要意义。大语言模型通过命名实体识别、关系抽取等技术手段,能够自动抽取古文献中的关键信息,并为其添加相应的标签和属性。例如,“吾与点”古籍智能处理系统[22],通过使用深度学习的预训练语言模型BERT,并利用10亿字的古汉语语料进行增量训练,实现了自动句读、命名实体识别等基本的古籍整理功能,自动关系识别等高级功能,也在陆续地开放、测试。此外,大语言模型还能够建立古文献之间的关联网络,通过训练模型学习古文献之间的引用关系、主题关联等特征,大语言模型能够自动发现古文献之间的内在联系和联系脉络。基于古文献之间的关联关系网络,可以进一步构建古文献的知识图谱。通过构建知识图谱有助于揭示古文献之间的知识结构和历史脉络,发现其中的规律和趋势,为后续的文献研究和知识挖掘提供有力支持。

3 大语言模型在古文献检索中的实践案例

在本文的实验中,采用了高校古文献系统中北大馆的馆藏数据作为处理对象,这些数据主要涵盖了古籍和拓片两大独特的载体形式。在元数据的设计上,参照了FOLIO对实例(Instance)元数据的规范,并结合国家图书馆对于古籍和拓片元数据的标准,进行了细致的整理与规范化,运用了QWEN1.5系列模型、BGE等先进模型,并结合Weaviate向量引擎构建并实现了一个基础语义检索模型,并对这一实践结果进行了深入的讨论,以期对古籍和拓片的数字化检索与利用提供有价值的参考与启示。

3.1 元数据组织

对元数据进行组织和处理是古文献检索的重要准备步骤之一,在本文的实践中参考新一代图书馆服务平台FOLIO对实例元数据设计、国家图书馆古籍元数据规范、国家图书馆拓片元数据规范等内容进行参考进行字段组织。本文的实践采用DC标准对元数据进行组织,古籍和拓片的主要元素如表1所示。古文献的元数据由多个元素组成,每个元素都包含一个字段标识和相应的字段内容,并以单行的形式存储于数据库中。每份古文献都包含多条这样的数据结构,这种设计从底层架构上支持了元数据元素的扩展性。
表1 古文献元数据核心字段

Table 1 Core metadata fields of ancient documents

类别 元素标识 元素名称 dc名称
古籍 title 题名 title
creator 主要责任者 creator
contributor 其他责任者 contributor
date 日期 date
publisher 出版者 publisher
description 附注 description
relation 相关资源 relation
subject 主题 subject
coverage 时空范围 coverage
language 语种 language
source 来源 source
rights 权限 rights
type 类型 type
format 格式 format
identifier 标识符 identifier
edition 版本类型 edition
physical description 载体形态 physical_description
provenance 收藏历史 provenance
ancient book preservation 文献保护 ancient_book_preservation
location 馆藏信息 location
copy 其他复本信息 copy
拓片 title 题名,题,題名 title
creator 主要责任者 creator
contributor 其他责任者 contributor
date 日期 date
description 附注 description
relation 相关资源 relation
subject 主题 subject
coverage 时空范围 coverage
language 语种 language
source 来源 source
rights 权限 rights
type 类型 type
format 格式 format
identifier 标识符 identifier
edition 版本类型 edition
physical description 载体形态 physical_description
provenance 收藏历史 provenance
ancient book preservation 文献保护 ancient_book_preservation
location 馆藏信息 location
copy 其他复本信息 copy
place of object 金石所在地 place_of_object
materials of object 金石材质 materials_of_object
handwriting 书刻特征 handwriting
full text 录文 full_text

3.2 基本语义检索模型构建

语义检索模型的核心架构由两大关键部分构成。首先,是检索引擎的构建环节,它涉及对古文献信息的细致预处理,生成基础元数据,并依托大型模型对这些元数据进行深度处理与补充,进而生成辅助检索字段和丰富文本。此外,对模型处理后的文本与原始文本进行语义向量转化,并将这些向量存入高效的向量引擎中。其次,检索与排序部分则是模型的另一核心。该部分通过大模型对用户的检索词进行精准处理,生成扩展内容,并结合检索词生成精确的语义向量。利用先前构建的向量引擎,模型能够高效检索相关文档,并根据一定的算法对检索结果进行智能排序,确保用户能够迅速获取最相关、最有价值的信息。整个模型的基本运作流程如图1所示。语义检索模型的核心技术点包括:大模型处理元数据或检索词、生成语义向量,以及依赖向量引擎进行快速检索。
图1 基本语义检索模型示意图

Fig.1 Schematic diagram of the basic semantic retrieval model

3.3 大模型处理元数据或检索词

大语言模型在处理和分析古文献元数据时,通过运用模型自身训练所得的知识,模型能够智能地添加相关字段,为元数据提供宝贵的补充信息。这些补充信息不仅丰富了元数据的语义内容,使检索过程更为便捷,同时也为检索结果的展示提供了辅助,如繁简字转换、多语种自动翻译等。同样能够对检索词进行内容的扩展,支持用户以自然语言的形式描述检索需求,并根据这些需求推荐相关的检索词。更为出色的是,模型还具备纠错功能,能够纠正用户输入的检索词错误,确保检索结果的准确性。模型的处理过程为,针对不同类型输入(元数据、检索词、纠错内容)构造提示语作为模型的输入,调取模型API或本地部署大模型进行结果输出并保存。在表2中,我们展示了这3种输入类型的具体示例。
表2 大语言模型处理元数据、检索词示例

Table 2 Examples of large language model processing metadata and search terms

prompt 提示语 大模型处理后json 主要参考点

请扩展以下元数据,要求:

1、提供繁简对照

2、提取命名实体并对其内容进行扩展,如人物、时间、地点的介绍内容

3、自动提取关键词

4、推荐相关图书

5、以json格式输出

元数据:

正題名及説明:道光條約:8卷

主要責任者:汪毅[等]編纂

出版:民國初期[1912-1927]外交部印刷所

版本類別:鉛印本

外觀形態:綫裝,25.7cm

一般附注:書尾有版權葉。

一般附注:4冊

主題詞:條約,外交,國際關係,清代

古籍語種:漢文

典藏號:X/387.087/3107a:1

館藏信息:北京大學圖書館

服務範圍:館內閱覽

{ "正题名及说明": { "繁体": "道光條約: 8卷", "简体": "道光条约: 8卷", "内容简介": "该书记录了清代道光年间中国与外国缔结的重要条约,涵盖了外交关系、国际交往及相关法律条文,是研究清代外交史的重要文献。" },

"主要责任者": { "繁体": "汪毅[等]編纂", "简体": "汪毅[等]编纂" },

"出版信息": {

"出版时间": { "繁体": "民國初期[1912-1927]", "简体": "民国初期[1912-1927]" },

"出版机构": { "繁体": "外交部印刷所", "简体": "外交部印刷所" }

},

"版本類別": {"繁体": "鉛印本", "简体": "铅印本" },

"外觀形態": { "繁体": "綫裝,25.7cm", "简体": "线装,25.7cm" },

"一般附注": [ { "繁体": "書尾有版權葉。", "简体": "书尾有版权页。"},

{ "繁体": "共4冊。","简体": "共4册。" }],

"主題詞": [ "條約", "外交", "國際關係", "清代" ],

"古籍語種": { "繁体": "漢文", "简体": "汉文" },

"道光皇帝与年号说明": {

"道光皇帝": { "姓名": "爱新觉罗·旻宁", "统治时间": "1820年-1850年", "简介": "道光皇帝是清朝的第八位皇帝,他在位期间,清朝国力逐渐衰落,面临着内忧外患的局面。" },

"道光年号": { "起始年份": "1821年", "结束年份": "1850年", "简介": "道光年号共使用了30年,这一时期清朝经历了鸦片战争等重大事件,标志着清朝开始进入半殖民地半封建社会。" } },

"自动抽取关键词": [ "道光条约", "清代外交史", "条约缔结", "外交关系", "国际交往", "法律条文", "道光皇帝", "爱新觉罗·旻宁", "清朝第八位皇帝", "国力衰落", "内忧外患", "道光年号", "鸦片战争", "半殖民地半封建社会"],

"推荐图书": [

{ "书名": "鸦片战争", "作者": "蓝诗玲", "简介": "该书站在一个更加广阔的视域来考察中英鸦片战争,旨在让读者跨出地域的限制,认真反思这场世界冲突的种种罪恶和矛盾。" },

{ "书名": "中国近代史", "作者": "陈恭禄", "简介": "这本书对中国近代史进行了深入的剖析,涵盖了从鸦片战争到辛亥革命的重要历史事件,对《南京条约》及其影响也有所涉及。" }] }

1、繁简体的转换

2、json格式数据的生成

3、内容简介的扩展

4、道光皇帝、道光年号的介绍

5、自动关键词

6、相关书目推荐

请语义理解检索词,并以json格式给出相关检索词要求中英对照

检索词:近代条约

{"近代条约相关检索词":["南京条约","虎门条约","望夏条约","马关条约","辛丑条约","割地","赔款","五口通商","协定关税","最惠国待遇","通商口岸","1842年条约","19世纪条约","鸦片战争后条约","甲午中日战争后条约","义和团运动后条约","半殖民地半封建社会","主权丧失","赔款数目庞大","社会经济发展影响","中英条约","中美条约","中日条约","十一国条约","不平等条约","和约","战败条约","南京(条约签订地点)","广东虎门(条约签订地点)","日本马关(条约签订地点)","北京(条约签订地点)"]} 扩展检索词的含义,在名称、关键词、签订时间与背景、影响、相关国家、类型、签订地点等方面的扩展

请语义理解检索词,并以json格式给出相关检索词

检索词:我想检索一些古文献,主要是写河北高阳县的,包括历史演变,或者河北高阳县名人

{"检索词":[{"简体":"河北高阳县","繁体":"河北高陽縣"},{"简体":"高阳县志","繁体":"高陽縣志"},{"简体":"高阳县历史","繁体":"高陽縣歷史"},{"简体":"高阳县历史演变","繁体":"高陽縣歷史演變"},{"简体":"颛顼","繁体":"顓頊"},{"简体":"孙承宗(高阳)","繁体":"孫承宗(高陽)"},{"简体":"李鸿藻(高阳)","繁体":"李鴻藻(高陽)"},{"简体":"高阳名人","繁体":"高陽名人"},{"简体":"高阳名人传记","繁体":"高陽名人傳記"},{"简体":"高阳名人著作","繁体":"高陽名人著作"},{"简体":"高阳纺织业","繁体":"高陽紡織業"},{"简体":"高阳戏曲文化","繁体":"高陽戲曲文化"},{"简体":"高阳古迹","繁体":"高陽古迹"},{"简体":"高阳民俗","繁体":"高陽民俗"},{"简体":"高阳八才旧里","繁体":"高陽八才舊里"},{"简体":"高阳古代诗词","繁体":"高陽古代詩詞"},{"简体":"高阳古代碑刻","繁体":"高陽古代碑刻"},{"简体":"高阳古代建筑","繁体":"高陽古代建築"}]}

1、自然语言的处理

2、高阳历史沿革中运用颛顼为名的提示

3、人物提示

4、繁简对应

请协助检查检索词:

光徐皇帝

{"name":"光徐皇帝","related_real_figures":[{"name":"光武帝","dynasty":"东汉","reign_period":"公元25年-57年"},{"name":"光绪帝","dynasty":"清朝","reign_period":"1875年-1908年"}],"note":"如果'光徐皇帝'确实指代某个历史人物,请进一步核实相关资料。"} 纠错和扩展功能

3.4 语义向量的生成

检索的核心在于匹配用户查询与古文献相关信息的深层含义。传统文本匹配技术,如Jaccard、Levenshtein、Simhash、TF-idf、Bm25、VSM等算法,主要依赖于统计学原理,侧重于通过词汇的重合程度来评估两段文本的表面相似度。然而,这种基于字面相似度的度量方法存在局限性,因为它无法捕捉到文本之间可能存在的深层语义联系。语义搜索技术超越了传统的字面相似度度量方法,能够深入理解文本背后的含义,并通过计算语义相似度来提供更为准确和相关的搜索结果。
语义向量的生成是语义检索的基础作为一种高效的文本表征方式,通过将文本内容映射至向量空间中的点或向量,实现了文本数据在连续且多维空间中的结构化表达。这一过程中,语义上相近或相似的文本在向量空间中呈现出相互接近的特性,示意图参考图2,同种颜色的向量点语义是相似的,不同颜色的点之间语义差异较大。
图2 语义空间示意图

Fig.2 Schematic diagram of semantic space

Embedding模型,即嵌入向量模型,利用复杂的神经网络架构深入挖掘数据内部隐藏的规律与丰富的语义信息。这些模型通过训练过程将文本数据转换为高维空间中的向量表示,从而实现了对文本深层语义的精准捕捉与表达。如图3所示的基本示意图,直观地展示了Embedding模型如何将文本转换为向量的核心过程。
图3 Embedding模型示意图

Fig.3 Embedding model schematic diagram

常用的Embedding模型包括Word2vec、Nomic Embed、OpenAI Embedding Models、Bert、BGE等。本次实验中运用了智源发布的开源可商用中英文语义向量模型BGE(BAAI General Embedding),将输入文本转化为80维的浮点向量。

3.5 依赖向量引擎进行快速检索

在先前论述的框架内,我们已成功地将检索关键词与古文献的元数据转化为高维向量形式,接下来,面对如何有效存储并高效检索这些富含语义信息的高维向量数据,我们引入了向量引擎这一关键技术工具。向量引擎,作为一种专为高维向量数据设计的数据库系统,不仅集成了标准的CRUD(创建、读取、更新、删除)操作功能,还创新性地融入了元数据过滤机制与水平扩展能力,确保了数据管理的灵活性与可扩展性。其核心优势在于够依据向量间的距离度量或相似性评分,实现对数据集的快速且精确的相似性搜索与检索。其中,业界广泛认可的向量数据库包括Weaviate、Milvus、Qdrant、Pinecone、AWS向量引擎、Faiss、Proxima、Vearch等,它们各自承载着独特的技术特性和应用场景适应性。本次实验,我们本地搭建了Weaviate作为向量数据库,它使用神经网络将实体和关系映射到高维空间,支持自然语言处理、图查询和模型训练等功能。

3.6 应用讨论分析

本次实验高校古文献系统中北大馆的馆藏数据作为处理对象,共计25万余书目,主要包含古籍和拓片,1 000余万条元数据项,依靠gradio架构在搭载两块英伟RTX409024G显卡的服务器上建立语义检索平台,界面效果如图4所示。
图4 检索界面图

Fig.4 Search interface

在本次深入的实验与实践探索中,其优势与贡献不仅彰显了技术层面的突破性进展,更在数字人文研究领域的进步,为古文献检索开启新境界。主要优势和贡献如下。
(1)规范化的元数据组织。通过制定统一的元数据标准和规范,实现了数据资源的结构化、标准化管理。这不仅提高了数据的可访问性和可理解性,还为后续的数据分析、检索坚实基础。规范化的元数据组织还促进了跨平台、跨系统的数据共享与互操作,极大地提升了古文献资源的利用效率和价值。
(2)大模型支持的元数据扩展。古文献的著录相对于现代文献,尤其是新书的著录,无论是从字段数量,还是从内容角度来讲都是相对简单的。借助大语言模型的语义能力,能够自动学习和理解海量数据的内在规律与特征,从而实现对元数据的动态扩展与智能化标注。这种能力使得系统能够随着数据量的增长而不断优化,保持对新兴概念、趋势的敏感度,为用户提供更加丰富、准确的检索结果。
(3)自然语言化的检索词支持与检索词容错机制。对于传统全文引擎需要大量的布尔检索式来表达的需求,允许用户使用日常语言进行信息检索,极大地降低了检索门槛,提高了用户体验,提高了用户的检索效率。系统能够准确理解用户的查询意图,即使在存在语法错误或歧义、输入不完整、模糊、有误的情况下,也能通过上下文分析、语义推理、纠正、同义词替换等手段,提升了检索的鲁棒性和容错性,提供贴近用户需求的检索结果。
(4)向量引擎高效检索。通过整合高效的向量索引策略、优化的检索算法以及GPU的强大并行处理能力,向量引擎不仅实现了百万级别的查询处理能力(QPS),而且在保证这种高速处理能力的同时,还能将查询延迟控制在毫秒级别,这对于提升数据检索的效率和实时性具有重要意义。并且,向量数据库相较于传统的数据库检索机制,在处理大规模数据集时展现出了更为显著的扩展性优势。随着数据量的不断增长,传统数据库的查询性能往往会受到较大影响,而向量数据库则能够保持较为稳定的查询效率,不会因数据规模的增加而显著下降。这一特性使得向量数据库在处理海量、高维数据时更具优势。
当然在本次实验中也存在一定的不足,主要体现在3个方面:第一,对模型的充分评估和不同模型之间比较方面,当前实验缺乏对多种模型(如不同深度学习架构、传统信息检索算法等)之间的全面比较和评估,为了更科学地验证所提方法的有效性,后续需要增加对不同模型的对比实验,从性能、效率、可解释性等多个维度进行综合评估,以选择最优方案;第二,大语言模型具有一定的幻觉,AIGC生成的内容可能有误,基于大模型的扩展字段可能对检索造成一定的干扰,可以通过RAG(检索增强)的方式,对生成内容进行限制以提升数据的质量;第三,系统完成初步开发,尚缺少读者的使用数据,尚未充分利用用户检索词的反馈信息来优化检索模型和结果。引入用户行为分析技术,如点击率预测、停留时间分析等,以捕捉用户的真实兴趣和偏好,建立反馈机制,允许用户对检索结果进行评分或提供反馈,以便系统能够基于这些反馈自动调整检索策略和模型参数,实现检索效果的持续优化。

4 总结与展望

在人工智能技术,尤其是大语言模型持续升温的背景下,本文深入探讨了数字人文与大语言模型在古文献检索领域的创新应用与未来发展趋势。随着数字人文的兴起,古文献这一承载着丰富历史与文化遗产的宝贵资源,正逐步走向数字化、智能化的检索与研究新阶段。大语言模型,作为人工智能领域的重要技术突破,凭借其强大的自然语言处理能力和深度学习机制,为古文献检索带来了前所未有的变革。
文章首先回顾了数字人文的起源与发展,强调了其在人文学科研究中的重要地位。随后,本文详细讨论了大模型的发展现状,以及其在古文献识别与分类、语义理解与解析以及信息抽取与关联等方面具有深入的应用潜力和显著优势。通过实践案例分析讨论,本文构建了基本语义检索模型,展示了大语言模型在古文献元数据组织、快速检索及个性化推荐等方面的具体应用成果,并搭建古文献语义检索平台,其主要优势和贡献在于规范化的元数据组织、大模型支持的元数据扩展、自然语言化的检索词支持、容错的检索机制、向量引擎高效检索等。
研究存在一定的不足,主要包括对不同模型之间的比较和充分评估、大模型生成结果存在幻觉、对读者检索数据处理分析不够全面等方面。针对本文研究的不足,展望未来数字人文与大语言模型在古文献检索领域的挑战和发展方向。随着技术的不断进步,对模型的适应性进行评估,运用多模态模型处理图像数据、跨领域知识融合、基于RAG的智能问答系统等新兴技术将逐渐成熟并应用于实践,进一步推动古文献检索技术的创新发展。同时,加强国际合作与交流,共同构建全球性的古文献数字化资源库与服务平台,为兄弟院校图书馆提供了宝贵的参考蓝本。
1
国务院关于印发新一代人工智能发展规划的通知[EB/OL]. [2024-06-02].

2
四部门关于印发国家人工智能产业综合标准化体系建设指南( 2024版)的通知[EB/OL]. [2024-07-03].

3
丘东江. 图情小百科[M]. 北京: 中国学术期刊(光盘版)电子杂志社, 2023.

QIU D J. Encyclopedia of library and information[M]. Beijing: China Academic Journals (CD Edition) Electronic Magazine, 2023.

4
VANDEGRIFT M. What is digital humanities and what's it doing in the library?[J]. The library with the lead pipe, 2012: 29-43.

5
刘炜, 叶鹰. 数字人文的技术体系与理论结构探讨[J]. 中国图书馆学报, 2017, 43(5): 32-41.

LIU W, YE Y. Exploring technical system and theoretical structure of digital humanities[J]. Journal of library science in China, 2017, 43(5): 32-41.

6
朱本军, 聂华. 跨界与融合: 全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述[J]. 大学图书馆学报, 2016, 34(5): 16-21.

ZHU B J, NIE H. Crossing boundaries and engaging communities: Digital humanities in a global perspective - Conference review of the 1st Peking University digital humanities forum[J]. Journal of academic libraries, 2016, 34(5): 16-21.

7
黄水清. 人文计算与数字人文: 概念、问题、范式及关键环节[J]. 图书馆建设, 2019(5): 68-78.

HUANG S Q. Humanity computing and digital humanities: Concept, problem, paradigm and key step[J]. Library development, 2019(5): 68-78.

8
柯平, 宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报, 2016, 42(6): 13-30.

KE P, GONG P. The evolution path and hot topics of digital humanities research[J]. Journal of library science in China, 2016, 42(6): 13-30.

9
李国新. 中国古籍资源数字化的进展与任务[J]. 大学图书馆学报, 2002, 20(1): 21-26, 41-91.

LI G X. The development and task of Chinese ancient book resources digitization[J]. Journal of academic libraries, 2002, 20(1): 21-26, 41-91.

10
颜艳萍. 数字人文背景下图书馆古籍数字化新实践——以云南省图书馆古籍数据库建设为例[J]. 图书馆学刊, 2020, 42(7): 39-43.

YAN Y P. New practice of digitalization of ancient books in library under the background of digital humanities - Taking the construction of ancient books database in Yunnan library as an example[J]. Journal of library science, 2020, 42(7): 39-43.

11
姚伯岳. “高校古文献资源库”检索功能综述[C]//中国索引学会第三次全国会员代表大会暨学术论坛论文集. 北京: 北京大学图书馆, 2008: 9.

YAO B Y. A review of the search functions of "University Ancient Document Resources Library"[C]//Proceedings of the Third National Members' Congress and Academic Forum of China Society of Indexers. Beijing: Peking University Library, 2008: 9.

12
郭伟玲, 戴艳清. 论古籍数字化的检索问题[J]. 图书馆理论与实践, 2011(10): 13-16.

GUO W L, DAI Y Q. On the digital retrieval of ancient books[J]. Library theory and practice, 2011(10): 13-16.

13
魏晓萍. 数字人文背景下数字化古籍的深度开发利用[J]. 农业图书情报学刊, 2018, 30(9): 106-110.

WEI X P. Deep development and utilization of digital ancient books under the background of digital humanities[J]. Journal of library and information sciences in agriculture, 2018, 30(9): 106-110.

14
卢彤, 李明杰. 中文古籍数字化成果辅助人文学术研究功能的调查[J]. 图书与情报, 2019(1): 70-79.

LU T, LI M J. Investigation on functions of digital productions of Chinese ancient books in assisting humanities research[J]. Library & information, 2019(1): 70-79.

15
FENG H, WANG Z J, TANG J Q, et al. UniDoc: A universal large multimodal model for simultaneous text detection, recognition, spotting and understanding[J/OL]. arXiv: 2308.11592, 2023.

16
TANG M L, XIE S M, LIU X R. Ancient character recognition: A novel image dataset of Shui manuscript characters and classification model[J]. Chinese journal of electronics, 2023, 32(1): 64-75.

17
李绅, 胡韧奋, 王立军. 古汉语大语言模型的构建及应用研究[J]. 语言战略研究, 2024, 9(5): 22-33.

LI S, HU R F, WANG L J. Construction and application of ancient Chinese large language model[J]. Chinese journal of language policy and planning, 2024, 9(5): 22-33.

18
黄水清, 王晓光, 夏翠娟, 等. 推进新时代古籍工作,加快创新智能化发展[J].农业图书情报学报, 2022, 34(5):4-20.

HUANG S Q, WANG X G, XIA C J, et al. Advancing the work on ancient classics in the new era and accelerating innovative and intelligent development[J]. Journal of library and information science in agriculture, 2022, 34(5): 4-20.

19
DUAN S, WANG J, SU Q. Restoring ancient ideograph: A multimodal multitask neural network approach[C]//Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Torino, Italia: ELRA, ICCL, 2024: 14005-14015.

20
YI X, SUN M, LI R, LI W. Can large language model comprehend ancient Chinese? A preliminary test on ACLUE[C]//Proceedings of the Ancient Language Processing Workshop, Varna, Bulgaria: INCOMA Ltd., 2023: 80-87.

21
RIEMENSCHNEIDER F, FRANK A. Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient Greek Literature[C]//Proceedings of the Ancient Language Processing Workshop, Varna, Bulgaria: INCOMA Ltd., 2023: 30-38.

22
“吾与点”古籍智能处理系统[EB/OL]. [2024-06-26].

Outlines

/