Empowered Digital Reading Promotion of Historical Documents with Generative AI

  • TAN Miao ,
  • DAI Mengfei
Expand
  • Shanghai Library, Shanghai 200031

Received date: 2025-02-22

  Online published: 2025-06-25

Abstract

[Purpose/Significance] With the growing demand for intelligent cultural services, libraries are seeking innovative approaches to enhance access to and engagement with historical literature. Generative AI presents promising opportunities for transforming digital reading services, particularly in processing, interpreting, and promoting complex historical documents. This study investigates the integration of generative AI into library-based historical literature promotion, aiming to address persistent access limitations, foster more interactive user experiences, and optimize the depth and breadth of reading engagement. [Method/Process] This research adopts a multi-method approach combining literature review, comparative platform observation, and empirical implementation practice. The study focuses primarily on Shanghai Library's historical digital collections and AI-enabled services. It develops a structured three-layered implementation framework encompassing the data layer, application layer, and service layer-each mapped to corresponding technical and operational phases of digital reading promotion. Within this architecture, a six-step service pathway is articulated: demand analysis, activity planning, content mining, multimodal interaction, content review, and intelligent recommendation. Extensive practical experimentation is conducted across these stages. Key innovations include the application of Retrieval-Augmented Generation (RAG) to support complex historical document Q&A; the use of multimodal creative tools (e.g., Midjourney) to generate engaging visual materials; implementation of voice-based AI interactions to improve accessibility for diverse user groups; and the deployment of dynamic content management modules for librarians to curate and monitor AI-generated materials. Additionally, backend tools such as user profiling dashboards, personalized push notification systems, and topic-based knowledge repositories are developed and tested to enhance librarians' ability to deliver targeted and data-driven reading promotions. [Results/Conclusions] The findings demonstrate that generative AI significantly enhances the efficiency, precision, and user engagement levels of historical literature services. AI-driven methods substantially improve OCR accuracy, streamline metadata generation, facilitate both visual and semantic content creation, and enable real-time interactive services via natural language interfaces. These advancements contribute to a more immersive and responsive digital reading experience. However, several challenges persist, including limited availability of domain-specific training data, the ongoing risk of AI-generated content inaccuracies (hallucinations), and unresolved intellectual property considerations. The study emphasizes the importance of developing domain-specific large language models, establishing expert-assisted validation mechanisms, and formulating clear legal and ethical guidelines for AI-generated content in the library context. While the prototype platform developed in this research exhibits notable gains in user engagement and librarian workflow support, its long-term sustainability hinges on fostering cross-institutional resource collaboration, advancing supportive policy frameworks, and embedding robust ethical safeguards. Future research directions include the exploration of adaptive AI training systems incorporating user feedback loops, integration of cross-library data resources, and the enhancement of multilingual AI capabilities to better serve diverse and global user communities.

Cite this article

TAN Miao , DAI Mengfei . Empowered Digital Reading Promotion of Historical Documents with Generative AI[J]. Journal of Library and Information Science in Agriculture, 2025 , 37(4) : 83 -93 . DOI: 10.13998/j.cnki.issn1002-1248.25-0217

0 引言

图书馆作为人类文化知识的保护者与传承者拥有丰富的历史文献馆藏。这些历史文献是中华优秀传统文化最直接的载体,是整个民族的文化遗产,应当被阅读被研究。但这些珍贵的历史文献由于独特的古代藏书楼思想、原生性保护问题的限制以及专业编目和研究人员的短缺,导致公众难以接触和了解这些文献[1]。虽然近年来图书馆数字化建设工程能在一定程度上缓解历史文献原生性保护与流通借阅之间的矛盾,但文字阅读理解不易、背景知识要求高、数字化缺少知识挖掘等现实困境仍容易让读者对历史文献望而却步[2]。这就更需要馆员在整理、了解馆藏历史文献的基础上,充分挖掘并揭示历史文献特色,以人民群众喜闻乐见的形式进行阅读推广,让书写在历史文献里的文字活起来。
2022年以ChatGPT为代表的生成式AI(Generative Artificial Intelligence,GenAI)工具迅速发展,各类应用层出不穷,带来了人工智能应用的新浪潮。生成式AI以其数据处理快、内容自动生成、多语言处理、逻辑推理性强的特质吸引力众多行业和领域的注意。这一信息技术的突破也为图书馆服务带来更多机遇。2022年以来,关于生成式AI在图书馆的应用研究论文大量出现,但大多集中于AI赋能图书馆智慧服务[3]、知识服务[4]、资源管理[5]等方面的应用理论构建,在阅读推广,尤其是在历史文献阅读推广的相关研究相对较少。本文以上海图书馆历史文献为例,分析生成式AI在历史文献数字阅读推广中的应用路径及可能存在风险,并提出针对性的风险治理策略,以期为人工智能赋能图书馆阅读推广的发展提供借鉴。

1 历史文献数字阅读推广研究现状

1.1 历史文献数字阅读推广的定义

历史文献从广义上讲是指所有对过去历史知识和信息的记录,包含古往今来的所有著作和文献[6]。本文提出的历史文献是基于上海图书馆历史文献的工作实际,指1949年以前出版的各类文献资料,包含古籍和近代文献。从营销学角度来看,数字阅读推广是以促进数字阅读行为、提高数字阅读素养、改进数字阅读服务等为目的,基于用户需求,借助多种方式或手段向读者传递数字阅读服务等相关信息,从而引起读者的阅读兴趣、激发阅读欲望,推动阅读行为发生的营销行为[7]。从“资源生命周期”视角来看,古籍阅读推广应覆盖从古籍保存、文献修复、数字化加工到知识化服务的全过程,引导读者从浅层阅读迈向深层阅读[8]。基于此,笔者认为历史文献数字阅读推广指依托各类数字技术手段实现历史文献数字化服务、基于用户需求传递各类历史文献阅读服务相关信息,从而促进历史文献阅读行为,提升用户历史文化素养,改进历史文献阅读服务水平的营销行为,主要由历史文献整理与数字化加工、资源内容揭示、文献阅读答疑、文献服务信息传递等阅读实践活动组成。

1.2 国内外生成式AI在历史文献服务中的应用现状

近年来,生成式人工智能(AI)在历史文献的数字化、解读与传播方面展现出显著潜力。国内外多个项目已将自然语言处理、计算机视觉与深度学习等技术引入历史文献服务,推动了该领域的创新发展。
国外方面,哈佛大学图书馆推出的Collections Explorer平台结合自然语言处理和语义图谱技术,支持用户用自然语言查询馆藏内容,提升了文献资源的可发现性,但该项目在处理复杂查询时,系统对用户意图的理解仍可能存在偏差,影响搜索结果的相关性[9]。牛津大学则与DeepMind、威尼斯卡福斯卡里大学等大学合作开发了首个专为古希腊铭文设计的深度神经网络Ithaca模型。项目基于Transformer架构,利用AI对古代铭文进行补全文字,并可推断其时间与地理背景,辅助学术研究,但该模型仍需专家参与校验,以确保修复结果的准确性[10]。由奥地利因斯布鲁克大学开发的手写文本识别平台Transkribus则依托深度学习模型进行字符识别与布局分析,被广泛应用于手写文献的自动识别和转写项目中,是欧洲文化遗产领域的重要工具之一[11]。新加坡国家图书馆在2023年底推出ChatBook项目则基于生成式大语言模型构建语义问答系统,让读者通过自然语言与特定书籍“对话”。首个原型以《七百年:新加坡历史》一书为核心知识源,结合馆藏资源生成回应内容,增强了互动性和使用体验[12]
国内方面,北京大学与字节跳动联合研制的“识典古籍”平台采用光学字符识别(OCR)和命名实体识别技术,结合生成式AI提供术语注释、文本摘要与语义问答功能,支持古籍的结构化解读与公众访问[13]。北京大学开发的“吾与点”平台则基于预训练语言模型,支持古籍文本的实体、词性与关系标注,提升了古籍知识要素的自动提取能力[14]。上海图书馆的“索引君”项目结合大语言模型与检索增强生成(RAG)架构,将语义检索与自然语言生成结合,支持用户以口语化问题提问并获得可追溯出处的文献答案,提升了专业用户与公众的互动式检索体验[15]。国家图书馆打造的“《永乐大典》VR全景文化典籍”项目则将虚拟现实技术引入传统文化典籍的阅读推广服务中,实现了古籍经典的活化再现[16]
生成式AI在历史文献领域中基本具备了实现识别、理解、生成与交互等多种功能的能力,但各实践项目中均存在语料训练不足、无法处理复杂指令、生成内容失真等问题。图书馆可结合自身业务场景与服务对象的多样需求,建设以读者为中心的智能服务平台,进一步拓展历史文献的数字阅读空间。

1.3 生成式AI在数字阅读推广中的研究现状

随着生成式人工智能技术的迅速发展,图书馆界开始关注其在数字阅读推广中的应用潜力。相关研究逐步从概念探讨走向应用实践,围绕生成式AI如何嵌入阅读推广体系、重塑服务路径、优化读者体验等方面展开了多角度探索。当前研究主要聚焦于以下几个维度:阅读推广机制、服务模式构建以及特定人群的服务创新。
生成式AI赋能图书馆阅读推广机制研究则主要从3个方面展开:一是一是聚焦AI在策划、推介与读者互动等环节的嵌入,重构传统阅读推广流程,提升服务响应效率[17];二是强调生成式AI在解决荐读内容同质化、提升个性化推荐能力方面的应用价值,推动服务模式的转型升级[18];三是探索以虚拟馆员等形式拓展服务边界,增强阅读推广过程中的智能化支持与用户体验[19]
在生成式AI赋能图书馆数字阅读推广模式研究方面,现有研究主要聚焦于3类路径:一是以资源整合、检索优化、沉浸式体验与服务智能化为核心,构建了智慧阅读推广模式,明确了AI在各环节中的应用路径[20];二是结合用户需求与使用场景,探索精细化、个性化的场景化推广模式[21];三是从战略到实施层面,提出规范化管理体系,为系统化落地提供支撑[22]
生成式AI赋能特定群体阅读推广研究则聚焦青少年读者。在儿童数字阅读推广领域,研究指出生成式AI能够根据儿童的年龄、兴趣等特征,提供个性化的阅读内容和互动体验,激发儿童的阅读兴趣[23]。在绘本数字阅读推广领域,研究强调生成式AI通过多模态内容生成,丰富绘本阅读形式,提升阅读吸引力[24]
学界对生成式AI赋能图书馆数字阅读推广的研究已取得初步进展,主要集中于具体功能的应用与实践探索,但这些研究多局限于单一功能或场景,理论体系构建不够深入,尚未形成成熟的理论模型和实践框架。

2 生成式AI在历史文献数字阅读推广的应用框架分析

结合上文提到的历史文献阅读推广的诸多难点,笔者认为在数智时代图书馆利用生成式AI进行近代文献推广时,应从首先解决历史文献的可获得性问题,从文献本身出发,涵盖历史文献的数字化(数据层)、历史文献数字阅读平台的搭建(应用层),以及历史文献数字阅读推广服务(服务层)3个层面着手,如图1所示。
图1 生成式AI在历史文献数字阅读推广中的应用架构

Fig.1 The application framework of Generative AI in the digital promotion of historical documents

具体而言,数据层指对历史文献进行数字阅读推广前所需要的基础数据,包括已数字化的历史文献、描述数字化历史文献的元数据,以及结构化的知识图谱等。数据层面的筹备是实现历史文献数字阅读推广的基础和前提。应用层则为保障已数字化加工的各类历史文献数据可供读者方便、快捷使用的服务平台,可集合各类新技术、新工具,例如ChatGPT、Midjourney、豆包、DeepSeek等各类生成式AI工具,是实现历史文献数字阅读服务的主战场。服务层则指借助生成式AI实现历史文献数字阅读推广过程及结果,包括提供活动创意、优化流程管理、整合活动资源等。

2.1 生成式AI赋能历史文献数字化

历史文献的数字化是数字阅读推广的基础。在数字人文时代,文献数字化不仅仅是文献载体形式的单一转化,更是文献内容的知识组织。然而受历史文献本身图像质量退化严重、版式复杂、字体风格差异大等客观原因,以及缺乏高质量、大规模标注的中文数据集等技术限制的影响,现有主流OCR技术难以识别历史文献,后期需要大量的专业人士进行人工校对,数字化成本大幅增加[25]。因此,图书馆的历史文献数字化加工上大多停留在图像扫描和基础元数据标引著录阶段,未能实现对文献内容的深度挖掘和知识结构化组织。图书馆员在历史文献阅读推广的自主性,推广内容的广度和深度上也因此大幅受限。
生成式AI,尤其是基于深度学习的大语言模型AI,为历史文献的数字化提供了新的机遇。借助弱监督的预训练,文本识别引擎可以不断生成标注数据,从而提升单字识别精度[26]。同时生成式AI的自注意力(Self-Attention)机制在对图像进行文字特征提取时可关注图像全局,结合上下文进行字形推测,显著提升对复杂文本、不规则文本的处理效果[27],从而有效减少人工干预。同时,经过持续训练,生成式AI能够基于历史文献的版式和结构特征,自动适应竖排、繁体、右至左等复杂排版格式,进一步提高识别准确性。
借助自然语言处理技术和深度学习,生成式AI能够从海量非结构化的历史文献中自动提取文献中的人名、地名、时间、历史事件等知识要素,揭示不同要素之间的语义联系。结合知识图谱技术,可大大优化文献的知识组织结构。此外,生成式AI的多模态处理能力,能够将历史文献中包含的插图、地图、手写注释等非文本信息与文本结合起来,提供更加全面的文献分析,进一步丰富研究资源。这都为历史文献阅读推广提供了系统化的数据支持,使馆员能够快速提取文献中的关键内容,策划丰富的推广活动。
然而,受算法及算力的影响,ChatGPT、Kimi、豆包等通用生成式AI工具仅适合小批量的近代文献数字化。若要针对所有馆藏历史文献进行大规模的OCR,仍需要依靠经过大量中文古籍语料训练的领域大模型。在实体提取方面,通用生成式AI虽然可以快速提取基本的知识要素,但在处理涉及复杂背景或特定历史语境的实体时,仍存在标引错误、提取不全的问题。在关系构建方面,生成式AI也可能因缺乏领域知识,导致语义理解偏差,进而影响知识图谱的完整性和准确性。因此,需要大量结合领域知识的人工干预和精细化调整,才能进一步提升生成式AI在文献数字化和知识组织中的准确度和可靠性,从而为历史文献阅读推广提供更高效、系统化的技术支持。

2.2 构建生成式AI赋能的历史文献数字阅读平台

数字阅读平台是实现历史文献数字化成果转化为面向读者的具体服务形态的关键载体。平台的核心在于构建一个具备智能响应、个性化推荐和多样化交互功能的数字阅读平台,使文献内容更加可读、可理解、可运用,为后续的推广工作提供基础支撑。

2.2.1 平台前端功能模块

在搭建数字阅读平台时必须坚持面向读者的原则,尽可能地让平台围绕“易用”“实用”“可持续”来设计平台功能,通过技术手段实现历史文献资源的结构清晰、内容易懂、灵活使用。为实现这一目标,平台在功能上可围绕以下关键模块展开。
在文献阅览方面,文本平台首先具备文本识别和文本还原的能力。历史文献的版本价值是古籍研究中的重要部分,因此在设计阅读平台时应同时呈现文献原图与已OCR识别的文段。为增强可读性,平台可参考Transkribus提供的“原文-识别稿-修订稿”对照方式,帮助用户理解原始内容。其次,平台需引入多模态展示与多样化的可视化功能。对于文献数字化中已识别著录的人名、地名、事件、时间、物品等客体标签,系统应能建立标签网络,并根据这些信息构建时间轴、人物关系图、地理分布图、图谱导航、主题阅读路径等多种可视化界面,增强历史脉络的可视程度,从而提升历史文献阅读体验的多样性,引导用户深入探索相关内容。最后,平台还应搭载简繁切换、版本对比、古今翻译、用户批注等辅助性功能,提升读者的阅读便捷性。
在AI工具集成方面,平台首先可以集成多种大语言模型,借助检索增强生成(Retrieval Augmented Generation,RAG)框架,开发智能问答系统,方便读者通过自然语言检索出更多的文献,并获得简洁明了的回复及已标注的文献出处。同时,通过RAG框架,生成式AI还可以快速总结单篇或多篇文献主旨,筛选所需文献并获得文献内容简介,降低了文献单篇阅读的时间成本。其次,平台可引入Midjourney、可灵等图像生成模型,扩展多模态创作功能。读者可基于特定文献内容生成辅助图像,用于还原历史场景、构建可视化叙事,从而进一步提升阅读的沉浸感与参与感,拓展数字文献的使用边界。同时,平台可结合语音识别与文本生成技术,提供语音交互服务。用户可通过语音输入与AI虚拟馆员进行交流,获得推荐指引或内容讲解。这不仅提升了交互的便捷性,也为视障群体提供了平等的接入方式,拓展了平台的服务覆盖范围。最后,平台设立个性化推荐功能模块。生成式AI能够详细分析用户的阅读行为,如搜索的关键词、浏览路径、阅读时长、知识挖掘深度等,快速描绘读者的用户画像,从而推荐相关人物、事件、或主题资料,以为读者提供个性化的阅读体验。

2.2.2 平台后台功能模块

除了面向读者的服务界面外,平台的后台也应具备为馆员提供服务支持的能力,帮助其高效开展历史文献阅读推广工作。后台功能设计应注重实用性与操作简洁性,围绕数据分析、内容策划、审核把控与资源推送等环节进行有序布局,构建起服务策划与前端应用之间的支持闭环。
首先,平台应提供用户分析与行为统计功能,帮助馆员掌握读者画像与使用路径。系统可展示用户的基本特征、检索关键词、停留时间及操作路径等,并借助生成式AI对数据进行归类分析,识别读者兴趣热点和潜在服务空白,为选题与分众推广提供支持。
其次,平台可设置主题化的阅读推广知识库。知识库可以是生成式AI按历史主题归集馆藏资源,形成“主题+代表文献+关键词+时间线+导语素材”等组合包,也可以是历史阅推素材的累积,供馆员直接选用。借助AI生成技术,系统还可根据输入主题自动生成推荐语、导语文案或专题草案,辅助馆员高效策划、快速成型。
在内容发布前,平台应设置必要的审核机制,确保所有推送内容的准确性与合规性。系统可通过关键词提示、逻辑校验和引用检查实现基础的自动筛查。结合生成式AI的上下文理解能力,可进一步识别语义偏误、逻辑断裂或概念混淆等问题,提升自动审核的准确度。同时,平台可引入“原文对照”机制,将生成内容与原始文献数据自动关联,以便核查语境一致性。对外传播内容可设置“专家复审流程”,通过AI生成的初审报告辅助人工审阅,提高效率与专业性。
最后,平台应配备内容发布与管理功能,用于完成资源的上线配置与投放策略设定。图书馆员可根据推广计划选择发布方式(如专题页推荐、首页置顶、弹窗提示等),并设定推送对象、展示周期和优先级。平台则可结合AI推荐算法,根据用户反馈动态优化推送策略,实现“人+AI”协同驱动的推荐管理。系统可同步记录用户的互动路径、点击频率与二次访问行为,为后续活动评估与内容调整提供参考依据。
通过以上功能整合,平台不仅可以为数字文献提供基础访问工具,更能成为推动历史知识传播与阅读推广的重要载体。结合“生成式AI+历史文献资源+读者特征”的模式,图书馆可以形成一套适配度高、服务导向明确的数字阅读支持体系。

2.3 生成式AI驱动的推广活动实施路径

在平台架构基础上,图书馆可依托生成式AI技术构建“营销需求分析-活动策划-内容挖掘-多模态设计-内容审核-智能推送”六步走的推广路径,以提升历史文献推广的效率与影响力。

2.3.1 路径说明

营销需求分析。生成式AI可辅助图书馆从多维度了解用户需求。对于专业读者,可通过提示词引导AI抓取公开学术信息,快速生成学者研究方向、成果等画像;对于普通读者,系统则可基于借阅记录、检索行为等行为数据自动分析阅读偏好、生成兴趣标签,为选题提供依据。
活动策划设计。生成式AI可根据设定主题生成完整的策划方案,包括目标人群、内容结构与实施建议,为馆员提供思路参考,提升策划效率。AI还可协助撰写宣传文案与说明材料,减少重复劳动。
内容智能挖掘。结合RAG架构与语义生成能力,平台可帮助馆员快速获取所需文献并生成摘要、要点总结,减轻人工筛选负担。AI还能对历史术语、古文字、繁体内容等进行语言转化,降低读者理解难度。
多模态互动设计。AI可生成图像素材、模拟展品,提供语音交互入口、构建图谱式阅读路径,拓展互动体验,提升活动参与度。
内容审核机制。为保障生成内容的正确性与传播安全,平台应设置多层次内容审核机制。一方面,可通过关键词识别、引用路径追溯与语义逻辑检测对初步内容进行系统校验;另一方面,应建立“原文对照机制”,将生成内容与数字文献原文片段自动关联,供馆员快速核对语境与来源。平台还可接入图书馆自建知识库或专业术语体系作为支撑基础。对高传播敏感度内容,建议引入“专家复审机制”,由历史文献领域的专业人员进行人工审核,以保障推广内容的专业性、准确性与史实可信度。
定向内容推送。依托用户画像系统,平台可实现个性化资源推荐。不同读者可收到内容匹配度更高的推送,如历史人物专栏、专题期刊导读等,提高推广触达率。

2.3.2 应用实践:以“近代电影类期刊”为主题的推广项目设计

为验证六步走推广路径的可行性与实用性,笔者以“从近代期刊看上海电影发展史”为主题,结合上海图书馆《全国报刊索引》数据库“索引君”与ChatGPT等AI工具,设计并测试了完整的推广流程。
在营销需求分析阶段,笔者通过ChatGPT了解新加坡国立大学与南洋理工大学在中文研究方面的师资分布与研究方向。系统在短时间内输出了主要研究领域、涉及教师数量等关键信息,为判断该主题的受众基础与研究价值提供了可靠依据。若结合更多数据字段,如科研项目、代表著作等,AI生成的学术画像将更具参考意义。
在活动策划设计阶段,笔者向ChatGPT输入“从近代期刊看上海电影发展史”作为主题,要求生成展览策划方案。AI输出了展览框架,内容分为四大阶段:早期上海电影(1905—1925)、黄金时期(1925—1937年)、战争阶段(1937—1945年)和战后复苏(1945—1949年),并为每一阶段提供了代表性期刊名称、历史背景与展示方式建议。此外,方案还设计了“电影与期刊对话墙”“广告设计体验”等互动环节,增强展览的观赏性与参与性。AI输出的方案逻辑清晰,内容全面,便于馆员在此基础上进行调整和落地。
在内容挖掘整理方面,笔者借助《全国报刊索引》平台上线的“索引君”智能助手,测试了文献数据与语义问答功能。以“上海电影发展阶段”为关键词,系统快速返回五个阶段的划分,分别为“萌芽期”“初步发展期”“中断与重启期”“拓荒期”和“进一步发展期”,并标注了相关参考文献,包括《上海电影事业发达史》《中国电影四十年》《国片年谱》等。笔者进一步使用“单篇问答”功能对《上海电影事业发达史》进行内容解析,获得了各阶段的关键事件、代表电影及出版单位信息。该结果不仅提升了馆员获取内容的效率,也为ChatGPT生成的策划案补充了更丰富的细节与史料支撑。
在多模态设计方面,笔者通过可灵AI,通过提示词指导可灵根据文献信息生成期刊封面仿图、以及电影明星动图等,增强视觉吸引力。同时,豆包的语音交互功能,设计了知识问答等环节,进一步丰富用户的参与路径。
在内容审核中,笔者首先通过设置提示链(Chain-of-Thought Prompting),引导生成式AI对文中涉及的历史事件、人物及文献引用内容进行自查,并生成对应出处链接。其次,针对生成文本中的史实性段落,笔者结合数据库原文进行了人工核对,确保信息的准确性与上下文一致性。最后,笔者邀请历史学专业人士对展览所涉及的文案内容进行二次审读,进一步提升内容的权威性与专业性。
在智能推送环节,根据前期生成的用户画像,笔者向关注“电影”“期刊”“近代城市文化”等方向的研究人员定向推送了新闻信,介绍活动信息与资源内容。推荐内容不仅包含了展览导语、重要期刊封面展示、推荐清单,也还包括生成式AI生成的“导读摘要”与二创动图,实现精准匹配与持续激活。
整体来看,生成式AI在历史文献推广中不仅可以支持内容策划与资料挖掘,更在智能推荐、交互引导、视觉传播等多个层面提供有力支撑,为图书馆在有限资源条件下组织高质量推广活动提供了新思路与新工具。
在生成式AI的助力下,历史文献的数字阅读推广可以更加灵活多样,活动策划的人力、物力、时间成本也大幅降低。未来,在生成式AI的赋能下,历史文献数字阅读推广甚至有希望突破以专业人士为主的单向推广模式,实现以专业人士为支撑的,全民参与共创的协作模式。甚至,随着大语言模型和人工智能的进一步发展,实现以AI为主导的全自动化推广。

3 潜在风险及治理策略

生成式AI等智能技术的兴起对图书馆历史文献阅读推广的赋能作用毋庸置疑。然而在实际应用过程中,领域大模型的缺乏,AI幻觉带来的内容可信度问题,知识产权相关法律法规的缺位等诸多问题,都限制了生成式AI在近代文献阅读推广中的大规模常态化应用。图书馆界、应积极应对,在享受生成式AI红利的同时,主动联合外部力量,寻求应对之道。

3.1 统一数据标准,推动产业合作与数据共享,提升领域大模型建设效率

生成式AI在助力近代文献数字化加工与知识服务中展现出重要价值,但其应用仍受制于领域模型建设不足。当前,大模型多以通用语料为基础进行训练,历史文献领域语料覆盖率较低,导致模型在处理近代文献复杂语境和提取隐性知识时效果有限。现有历史文献数据库因制作方不同,制作年代不同,存在建库标准不一致,加工精度不统一等问题,制约了领域大模型的底层数据的建设。为此,一是要加大学科融合力度,推动文献学、历史学、语言学、计算机科学、信息资源管理、人工智能等多学科协作,保障历史文献数字化过程中的数据质量与信息完整度,为训练高质量的领域大模型奠定数据基础。二是加强产业合作。一方面可以联合现有历史文献数据库供应商及主要图书馆,根据现有历史文献数据库数字化加工的实际情况,共同探讨制定统一的建库标准;另一方面,图书馆可借助古联、汉王、识典等商用古籍大模型的强大计算能力和训练经验,根据历史文献知识服务的现实需求,与商业公司共同制定历史文献领域模型的微调方法,结合有监督学习与反馈优化,针对近代文献特性定向训练。同时结合知识图谱技术,提升模型对历史文献背景知识的语义推理能力,在开放合作中提升领域模型的技术水平。三是推动数据共享与开放,推动数据共享与开放合作,统一建库标准,促进已加工文献数据库的开放与互通,以增强模型的训练资源和计算能力,为生成式AI在历史文献领域的应用提供更全面的支持。

3.2 多措并举应对AI幻觉,保障内容准确性

生成式AI在历史文献阅读推广中的应用潜力巨大,但由于历史文献语料有限,AI算法的不可解释性和不透明性,以及生成式AI基于概率模型生成文本的特性,容易产生“AI幻觉”现象,即生成与文献不符的错误信息或虚构偏离历史事实、有悖伦理道德的有害信息。为此,图书馆在应用生成式AI进行历史文献阅读推广时应从以下3方面入手降低AI幻觉,提升内容可信度。一是扩充领域语料库并结合知识图谱优化模型,通过系统化整理历史文献,提升模型对语义和背景信息的理解能力,确保生成内容更加贴合历史事实;二是优化提示词设计,采用明确化、专业化、模板化提示,并通过多回合交互逐步引导模型生成内容,减少偏差,特别是在回答复杂问题时能显著提升准确性;三是引入专家校验机制,由领域专家对生成内容进行严格核查,重点发现语义错误和虚构内容,确保输出内容的正确性与可靠性。专家审核不仅是控制生成式AI错误传播的最后一道关卡,还能通过反馈不断优化模型微调方向和语料库建设,强化AI在特定领域的表现。

3.3 完善法规建设,保障知识产权

生成式AI在历史文献阅读推广中的应用涉及多方面的知识产权问题,亟需完善法规建设。首先,历史文献垂直领域的大模型版权归属问题尚未厘清,模型训练过程中整合多来源数据可能引发争议。其次,作为训练语料的历史文献也存在侵权风险。尽管大部分历史文献因年代久远已进入公有版权领域,但部分近代文献仍存在版权归属难以界定的情况,其使用需制定规范以保障相关权益人的合法权利。最后,生成式AI辅助馆员进行历史文献推广时创作的内容和物料,其版权归属也需明确界定。为此,应联合各界推动适用于智能时代的新型版权法建设,特别是在AI生成内容的版权归属方面提供明确的法律框架。同时,图书馆界也应加强探索,制定适用于历史文献的AIGC使用规范,引导馆员合法合规使用AI工具。此外,通过多方协作,结合学术界、法律界和技术界的共同努力,在技术创新与版权保护之间寻求平衡,为历史文献的数字化和知识传播提供更加稳固的法律保障。
1
陈立. 历史文献的阅读推广与可持续发展[J]. 国家图书馆学刊, 2015, 24(1): 46-51.

CHEN L. On reading promotion and sustainable development of historical documents[J]. Journal of the national library of China, 2015, 24(1): 46-51.

2
傅宝珍. 知识服务背景下古籍VR阅读推广研究[J]. 图书馆工作与研究, 2022(1): 108-115.

FU B Z. Reseach on VR reading promotion of ancient books under the background of knowledge service[J]. Library work and study, 2022(1): 108-115.

3
杨俊, 谭丰隆, 陈婧. 从ChatGPT到“LibGPT”: 生成式人工智能驱动的新一代图书馆[J]. 图书情报工作, 2024, 68(9): 3-12.

YANG J, TAN F L, CHEN J. From chat GPT to "lib GPT": Generative artificial intelligence-driven new generation libraries[J]. Library and information service, 2024, 68(9): 3-12.

4
赵瑞雪,黄永文,马玮璐,等.ChatGPT对图书馆智能知识服务的启示与思考[J].农业图书情报学报,2023,35(1):29-38.

ZHAO R X, HUANG Y W, MA W L, et al. Insights and reflections of the impact of ChatGPT on intelligent knowledge services in libraries[J]. Journal of library and information science in agriculture, 2023, 35(1): 29-38.

5
安子栋, 敬卿, 郝志超, 等. 基于生成式AI技术的图书馆文献资源管理创新策略[J]. 图书馆工作与研究, 2023(S1): 9-16.

AN Z D, JING Q, HAO Z C, et al. Innovative strategies of library literature resources management based on generative AI technology[J]. Library work and study, 2023(S1): 9-16.

6
黄爱平. 历史文献学学科基础理论与教材编写的思考[J]. 文献, 2013(1): 3-10.

HUANG A P. Reflections on the basic theory of historical philology and the compilation of teaching materials[J]. The documentation, 2013(1): 3-10.

7
茆意宏. 数字阅读推广的概念、机制与模式[J]. 图书情报知识, 2020, 37(2): 51-59.

MAO Y H. Conception, mechanism and pattern of digital reading promotion[J]. Documentation, information & knowledge, 2020, 37(2): 51-59.

8
周笑盈. 虚拟现实技术在古籍智慧化阅读推广中的应用与实践[J]. 农业图书情报学报, 2022, 34(8): 79-91.

ZHOU X Y. Application and practice of virtual reality technology in the intelligent reading promotion of ancient books[J]. Journal of library and information science in agriculture, 2022, 34(8): 79-91.

9
Library Harvard. At Harvard Library, building a tool that understands[EB/OL]. [2025-03-16].

10
ASSAEL Y, SOMMERSCHIELD T, SHILLINGFORD B, et al. Restoring and attributing ancient texts using deep neural networks[J]. Nature, 2022, 603(7900): 280-283.

11
NOCKELS J, GOODING P, AMES S, et al. Understanding the application of handwritten text recognition technology in heritage contexts: A systematic review of Transkribus in published research[J]. Archival science, 2022, 22(3): 367-392.

12
International Federation of Library Associations and Institutions. Using innovative technologies to reimagine libraries and archives services in the National Library Board Singapore[EB/OL]. [2025-03-16].

13
北京大学数字人文研究中心. 吾与点古籍智能处理平台[EB/OL]. [2025-03-16].

14
北京文点益度科技有限公司. 吾与点智能数据平台-智能数据处理解决方案 | 吾与点智能数据平台[EB/OL]. [2025-03-16].

15
全国报刊索引平台[EB/OL]. [2025-03-16].

16
周笑盈. 国家图书馆“《永乐大典》VR全景文化典籍”实践探索: 虚拟现实赋能图书馆沉浸式阅读推广的创新路径[J]. 国家图书馆学刊, 2022, 31(6): 80-89.

ZHOU X Y. Practical exploration of "VR panoramic cultural classics of the Yongle canon" in the national library of China: Innovative path of immersive reading promotion enabled by virtual reality in libraries[J]. Journal of the national library of China, 2022, 31(6): 80-89.

17
吴若航, 茆意宏. 生成式人工智能变革图书馆阅读推广研究[J]. 图书与情报, 2023(6): 62-69.

WU R H, MAO Y H. Research on the transformation of library reading promotion from the perspective of generative artificial intelligence[J]. Library & information, 2023(6): 62-69.

18
李鹏, 宋西贵. AIGC技术赋能图书馆阅读推广工作的创新应用[J]. 农业图书情报学报, 2023, 35(12): 84-93.

LI P, SONG X G. AIGC technology enables innovative applications in library reading promotion[J]. Journal of library and information science in agriculture, 2023, 35(12): 84-93.

19
刘琼, 刘桂锋, 王鹏. AIGC赋能图书馆阅读推广智慧服务的框架和应用研究[J]. 图书馆学研究, 2024(2): 108-118, 107.

LIU Q, LIU G F, WANG P. Research on the intelligent service framework and application of reading promotion in AIGC empowered libraries[J]. Research on library science, 2024(2): 108-118, 107.

20
肖鹏, 邓默言, 苏洁, 朱海缘. 阅读推广标准化建设研究报告(2023年版)[J]. 农业图书情报学报, 2023, 35(10): 34-47.

XIAO P, DENG M Y, SU J, et al. Report on the standardization of reading promotion (2023 Edition)[J]. Journal of library and information science in agriculture, 2023, 35(10): 34-47.

21
皇甫娟. AI赋能的图书馆数字阅读推广场景化服务模式研究[J]. 图书馆界, 2022(5): 6-10.

HUANGFU J. Research on scenario service mode of library digital reading promotion enabled by AI[J]. Library world, 2022(5): 6-10.

22
刘琼, 周云峰, 苏文成, 等. AIGC环境下阅读推广规范化管理体系研究[J]. 农业图书情报学报, 2023, 35(10): 48-57.

LIU Q, ZHOU Y F, SU W C, et al. Standardized management system for reading promotion under AIGC technology environment[J]. Journal of library and information science in agriculture, 2023, 35(10): 48-57.

23
陈柳红. 人工智能阅读器对儿童阅读效果的实证研究: 以比巴为例[J]. 山东图书馆学刊, 2021(4): 68-71.

CHEN L H. An empirical study of artificial intelligence readers in children’s reading: Taking Biba as an example[J]. The library journal of Shandong, 2021(4): 68-71.

24
宫平. 人工智能在图书馆绘本阅读领域的应用模式探索[J]. 图书馆学研究, 2020(2): 88-92, 101.

GONG P. The application mode of artificial intelligence in the field of picture book reading in library[J]. Research on library science, 2020(2): 88-92, 101.

25
王军, 刘成林, 金连文, 等. 系列笔谈之四: 智能时代古籍OCR技术[J]. 数字人文, 2022(3): 95-125.

WANG J, LIU C L, JIN L W, et al. Series of essays IV: OCR technology of ancient book in the era of intelligence[J]. Digital humanities, 2022(3): 95-125.

26
XIE Z C, HUANG Y X, JIN L W, et al. Weakly supervised precise segmentation for historical document images[J]. Neurocomputing, 2019, 350: 271-281.

27
HU W Y, CAI X C, HOU J, et al. GTC: Guided training of CTC towards efficient and accurate scene text recognition[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 11005-11012.

Outlines

/