Analysis of Progress in Data Mining of Scientific Literature Using Large Language Models

  • CAI Yiran 1, 2 ,
  • HU Zhengyin , 1, 2 ,
  • LIU Chunjiang 1, 2
Expand
  • 1. National Science Library (Chengdu), Chinese Academy of Sciences, Chengdu 610299
  • 2. Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190

Received date: 2025-01-06

  Online published: 2025-05-20

Abstract

[Purpose/Significance] Scientific literature contains rich domain knowledge and scientific data, which can provide high-quality data support for AI-driven scientific research (AI4S). This paper systematically reviews the methods, tools, and applications of arge language models (LLMs) in scientific literature data mining, and discusses their research directions and development trends. It addresses critical shortcomings in interdisciplinary knowledge extraction and provides practical insights to enhance AI4S workflows, thereby aligning AI capabilities with domain-specific scientific needs. [Method/Process] This study employs a systematic literature review and case analysis to formulate a tripartite framework: 1) Methodological dimension: Textual knowledge mining uses dynamic prompts, few-shot learning, and domain-adaptive pre-training (such as MagBERT and MatSciBERT) to improve entity recognition. Scientific data extraction uses chain-of-thought prompting and knowledge graphs (such as ChatExtract and SynAsk) to parse experimental datasets. Chart decoding uses neural networks to extract numerical values and semantic patterns from visual elements. 2) Tool dimension: This explores the core functionalities of notable AI tools, including data mining platforms (such as LitU, SciAIEngine) and knowledge generation systems (such as Agent Laboratory, VirSci), with a focus on multimodal processing and automation. 3) Application dimension: LLMs produce high-quality datasets to tackle the issue of data scarcity. They facilitate tasks such as predicting material properties and diagnosing medical conditions. The scientific credibility of these datasets is ensured through a process of "LLMs + expert validation". [Results/Conclusions] The findings indicate that LLMs significantly improve the automation of scientific literature mining. Methodologically, this research introduces dynamic prompt learning frameworks and domain adaptation fine-tuning technologies to address the shortcomings of traditional rule-driven approaches. In terms of tools, cross-modal parsing tools and interactive analysis platforms have been developed to facilitate end-to-end data mining and knowledge generation. In terms of applications, the study has accelerated the transition of scientific literature from single-modal to multimodal formats, thereby supporting the creation of high-quality scientific datasets, vertical domain-specific models, and knowledge service platforms. However, significant challenges remain, including insufficient depth of domain knowledge embedding, the low efficiency of multimodal data collaboration, and a lack of model interpretability. Future research should focus on developing interpretable LLMs with knowledge graph integration, improving cross-modal alignment techniques, and integrating "human-in-the-loop" systems to enhance reliability. It is also imperative to establish standardized data governance and intellectual property frameworks to promote the ethical utilization of scientific literature data. Such advances will facilitate a shift from efficiency optimization to knowledge generation in AI4S.

Cite this article

CAI Yiran , HU Zhengyin , LIU Chunjiang . Analysis of Progress in Data Mining of Scientific Literature Using Large Language Models[J]. Journal of Library and Information Science in Agriculture, 2025 , 37(2) : 4 -22 . DOI: 10.13998/j.cnki.issn1002-1248.25-0116

0 引言

在大语言模型(LLMs)引领的人工智能新时代,各学科领域产生的科技文献、科学数据等科技信息资源呈现爆炸式的增长;人工智能驱动的科学研究(AI4S)通过数据与知识的深度融合,正在重塑全球科研范式,推动科研模式向智能化、平台化转变[1,2]。科技文献作为权威的科技信息资源,蕴含大量“可信、专业、规范”的领域知识和科学数据[3]。科技文献数据经过深度加工和严格同行评议,具有高度的可信度、专业性、逻辑性和规范性[4,5];其涵盖科学问题、科学原理、实验方案以及算法模型、反应方程式、科研图表、实验结果等多样化信息,是高质量的科学数据和重要的科技创新要素[6, 7]。同时,科技文献数据可为LLMs提供优质数据资源,支持模型在科学问题发现、提出科学假设以及结论推理等方面的能力提升[8]。然而,科技文献数据具有显著的异构性、多模态性与复杂性,如何有效利用LLMs,从海量科技文献中高效地实现细粒度数据挖掘、综合性知识生成及跨学科知识发现等科技文献数据挖掘与应用,不仅是科技文献数据挖掘的迫切需求,也是推动LLMs发展的重要课题。
为此,本文从方法、工具与应用3个维度,系统分析LLMs如何赋能科技文献中文本知识挖掘、科学数据挖掘、图表信息挖掘等细粒度数据挖掘,以及文献综述生成、合成数据生成等综合性知识生成的关键方法技术与AI工具,并进一步剖析科技文献数据挖掘赋能LLMs的典型应用场景。本文尝试揭示LLMs与科技文献数据挖掘的双向赋能机制,论文整体逻辑框架如图1所示。
图1 大语言模型赋能科技文献数据挖掘进展分析整体框架图

Fig.1 Analysis framework of the progress in data mining of scientific literature using large language models

1 LLMs赋能科技文献数据挖掘的方法技术

1.1 基于LLMs的科技文献细粒度数据挖掘

科技文献数据挖掘的对象主要包括文本知识、科学数据与图表信息等要素[9-11],如图2所示。
图2 科技文献数据挖掘的对象

Fig.2 The object of data mining in scientific literature

传统挖掘方法主要包括基于规则的方法、基于统计特征的方法、基于深度学习的方法。前两者依赖专家经验构建领域词典或语法规则,存在效率较低、跨学科迁移能力较弱的问题;后者虽能通过Transformer捕捉局部语义关联,但由于模型参数有限,在处理跨模态数据融合、数据语义关联等任务时仍面临挑战[12]。相比之下,LLMs依托千亿级参数的Transformer架构[13],可高效、精准地从科技文献中识别、挖掘领域知识、科学数据与图表信息等细粒度、多模态数据;而且LLMs还可以通过少样本学习、思维链提示等将碎片化的科技文献内容转化为结构化证据链数据,实现从文档级元数据到实体级知识单元的深度挖掘,快速适配不同领域的任务[14,15]

1.1.1 面向文本知识的挖掘

文本知识挖掘通过分析科技文献的篇章结构和语义特征,从中抽取出研究问题、研究方法、研究结果、研究结论等领域知识,是科技文献数据挖掘的经典任务[16]。LLMs可有效提升科技文献文本知识挖掘的效度与精度。一是,提升知识挖掘的准确性与效率。例如,VLLM统一建模框架[17]采用多任务联合学习机制,实现文本分类、实体识别及关系抽取等文本知识挖掘任务的高效标注,支持动态上下文建模。文献[18]提出了一种基于大语言模型的“实体-关系”联合抽取框架,利用动态提示词技术,可在低资源条件下实现实体和关系精准提取,准确率与召回率均超过95%。二是,扩展领域应用能力。针对专业学科领域的数据特性与知识需求,LLMs通过结合领域知识突破通用模型局限,实现多领域知识的精准挖掘。聚合物知识自动提取系统[19]通过构建全文语义解析网络,实现从摘要、实验到结果的全文本知识挖掘,可精准抽取包括聚合物属性在内的领域专业知识。MagBERT模型[20]通过镁冶金文献的领域自适应预训练,极大提升专业数据抽取准确率。MatSciBERT[21]和SSuieBERT[22]通过注入学科先验知识以及大规模领域文献预训练,提升模型对专业术语与少样本数据的泛化能力。文献[23]提出了一种基于LLMs的中医医案实体抽取方法,其采用领域自适应提示词技术,可实现中医领域诊断知识的自动化抽取与结构化组织。三是,方法体系的协同创新。文献[24]利用提示工程自动生成高质量标注数据,结合“人在回路”的人机协同机制,用于中文科技领域预训练语料库以及科技知识图谱构建等任务,有效缓解了传统人工标注效率低、质量参差不齐的问题。ChatIE框架[25]将零样本信息抽取任务转化为多轮问答,用于领域文本信息抽取。基于ChatGPT构建的MOF问答机器人[26],通过提示工程实现金属有机框架的自动化文本挖掘与预测,平均精度达95%以上。文本挖掘评测框架[27]通过设计上下文学习、少样本、思维链等提示指令,系统性验证LLMs在文本分类、信息抽取、文本推理和文本生成等任务中的挖掘能力。
综上,LLMs在各类科技文献文本知识挖掘任务中展现出准确率提升、效率高、学科领域覆盖广等优势。但面对前沿交叉学科中新兴概念的快速涌现以及非标准格式文本等解析需求,LLMs仍受知识更新滞后与领域知识嵌入深度的制约。未来,应构建人机协同新范式,结合实时更新的领域知识图谱与提示工程技术,整合多模态数据,进一步提升LLMs在科技文献文本知识挖掘方面的智能化水平。

1.1.2 面向科学数据的挖掘

科学数据以实验观测记录、数学公式、算法模型、分子式、反应方程式、数值参数等形式分布于科技文献中,其异构性表达和领域专业性特征对传统挖掘方法提出挑战[28]。基于LLMs的科学数据挖掘呈现多领域突破态势。在化学与材料科学领域,ChatExtract模型[29]通过两轮提示工程实现晶体参数的精准挖掘;第一阶段使用相关性提示识别含数据语句,第二阶段定制化提示精准提取晶体参数,并兼容多种LLMs以减少模型幻觉。DARWINBase模型[30]依赖于开源LLM,结合来自公共数据集和文献的科学知识,并通过SciQ数据集的指令和问答数据进行精细微调[31]。A-Lab自主实验室[32]整合LLMs实现从假设生成到实验验证的闭环,加速新材料研发。文献[33]提出了一种基于LLMs的化学反应路径解析框架,可自动识别有机合成文本中的反应物、催化剂及产物角色,构建标准化反应数据库。SynAsk系统[34]使用LLMs与思维链结合,并集成知识库与化学工具链,可精准挖掘先导化合物。在医学领域,大语言模型在电子健康记录处理中的优势得到验证[35]。Autodive标注工具[36]采用主动学习机制,利用LLMs预标注与人工校验的混合工作流,提高领域科学数据的标注效率。BioBERT[37]等模型在处理蛋白质序列与临床文本时,结合临床证据对LLMs输出数据进行协同过滤,以保证数据质量,支持疾病预后预测[38]。在生态环境领域,CCU-Llama[39]从科技文献中挖掘碳捕获与利用领域的相关信息,生成可视化知识图谱,以促进知识传播和推动技术创新。自动化科学知识提取和建模(ASKEM)项目[40]整合材料、气候、生物等多领域数据,通过LLMs自动化提取科学假设、实验参数与模拟条件,支撑多学科复杂知识建模,以支持在快速变化的任务和科学领域中进行专家知识和数据驱动的决策。
综上,LLMs可显著提升各学科领域科技文献中科学数据的抽取挖掘效率,推动其应用从单一领域数据处理向跨领域数据挖掘发展,从基础数据标注向深度语义关联和知识发现转变。然而,不同学科领域科学数据的异构表达、实验条件的隐式描述以及跨段落的数据关联等问题,使得LLMs在复杂科学数据挖掘中仍需依赖专家的补充和校验,需要构建人机协作的工作模式。

1.1.3 面向图表信息的挖掘

科研图表作为科技文献中呈现复杂数据和研究成果的重要载体,具有信息高度浓缩、多模态呈现、专业性强等特征。传统图表解析主要依赖光学字符识别(Optical Character Recognition,OCR)与人工标注,难以应对复杂图表结构与跨模态语义关联。
利用LLMs的自动化解析和语义理解能力,可有效解决上述问题。在图表定位与区域识别方面,几何对象聚类算法[41]通过分析图表元素的拓扑关系实现区域识别,基于深度学习的像素级分割法[42]可显著提升细粒度数据的识别能力。针对科技文献中图表异构性问题,融合上述方法,结合跨模态大模型的语义对齐能力,将文献内容与图表格式进行智能匹配,可以提升定位任务的精准率和召回率。例如,ChartDetective[43]通过集成LLMs,从矢量图底层实现高精度科学数据的提取。在数据重构技术方面,基于神经网络的逆向工程技术[44]已逐步成熟,CRAFT-CRNN联合框架[45]通过坐标轴校准、数据序列分离等算法,从条形图等可视化元素中解构原始数据。在图表语义深度解析方面,ChartOCR[46]结合深度学习和基于规则的方法从图表图像中提取数据,通过关键点检测与语义对比学习的协同机制,实现单元格级干扰数据精准过滤。文献[47-49]报道了一种多粒度语义建模框架,通过构建文本组件与图形元素的关联网络,将图表数据转化为动态可操作的结构化知识库。在学科领域,大语言模型与可视化引擎深度耦合,实现从自然语言指令到端到端生成,推动科技文献知识库智能化构建[50]。在材料科学领域,基于LLMs的Optical Table-SQA系统[51]通过领域知识注入和表格语义增强技术,建立材料属性跨模态关联,加速新型光学材料发现。在信息资源管理领域,基于LLMs深度解析的图表检索系统[52]可自动构建多维度特征索引,支持语义级相似性匹配和可视化探索,为学术资源的知识发现提供新范式。
综上,LLMs可以显著提升科技文献图表信息挖掘的精度与效度,其不仅可从图表中精准提取数据,还可以结合上下文挖掘数据之间的语义关联。但面对复杂科研图表信息挖掘,LLMs通用能力仍存在较大不足。特别在专业领域的特殊多模态图表类型,如材料表征图、化学反应路径图等,LLMs的解析精度明显下降,往往需要结合领域高质量图表数据集进行专门微调,才能达到实用化水平。未来,多模态大模型与跨模态知识图谱增强,将是提升LLMs科研图表信息挖掘能力的重要方向。

1.2 基于LLMs的科技文献综合性知识生成

1.2.1 LLMs辅助文献综述

随着科技文献数量的指数级增长,LLMs通过检索增强生成(Retrieval-Augmented Generation,RAG)等技术[53]优化结果质量,将传统文献综述中耗时的核心观点提取、多源信息整合等环节自动化处理,并提升文献综述的效率与质量。一是,通过构建模块化流程突破效率瓶颈。例如AutoSurvey系统[54]利用LLMs解析文献中的复杂内容,准确识别关键信息,构建“检索、大纲生成、并行撰写和评估迭代”4个流程,结合少样本提示技术优化输出质量,有效应对信息量大、复杂度高的挑战。Web of Science Research Assistant[55]基于AI Agent技术,整合LLMs与权威学术数据库,通过引导式任务和上下文可视化优化检索体验,自动生成包含研究脉络、研究空白、核心结论等多维度的结构化综述,助力科研人员高效获取文献综述、期刊等资源。此外,LLMs还可通过智能化编写查询方法进行文献检索,分类并总结现有文献,生成层次结构化概览,从而帮助研究人员快速了解领域研究进展,更有效地进行文献综述[56, 57]。二是,通过多层质量控制策略减少“幻觉”现象[58]。例如,上海图书馆利用百度文心一言等模型[59]设计结构化提示模板,辅助标引人员高效提取文献核心要点,且生成内容经人工评估具有较高的可读性和准确性。星火科研助手[6]则聚焦写作环节,提供语法纠错、语句润色、文献引用建议等功能,帮助研究人员优化论文结构与表达。SurveyForge[60]进一步引入大纲启发式生成和记忆驱动优化,在提纲质量和引用准确性上超越人工方法。
综上,LLMs可显著提升文献综述效率,其不仅能生成文献综述的初稿,还能绘制论文脉络图以可视化逻辑结构。但也面临多重挑战。首先,模型可能因训练数据偏差导致信息遗漏或引用错误,需要研究人员基于专业知识和经验进行人工校验以保障严谨性[61];其次,LLMs对新兴领域或高度专业化主题的适应性有限,仍需补充领域知识以增强分析深度。未来,LLMs辅助文献综述将向“LLMs辅助生成+专家校验”的协同模式发展,既发挥LLMs在语义解析与跨文本关联挖掘上的优势,又通过专家介入确保内容的科学性与可信度。

1.2.2 LLMs辅助合成数据生成

合成数据(Synthetic Data)是一种由算法生成、模拟现实情境的新兴数据,已被广泛应用于LLMs训练、测试及验证等[62]。在科技文献数据挖掘方面,合成数据已从简单的数据补充工具演变为知识发现的关键支撑,其应用贯穿垂直领域知识增强、模型性能优化等环节,展现出多维度的创新价值。在垂直领域知识增强方面,有机太阳能电池知识图谱[63]除了包括原始科技文献数据外,还包含LLMs生成的“材料特性问答对、因果证据链、实验参数模拟模板、能级排布示意图”等多模态合成数据,支持生成更精准有效的科学实验方案。MedSyn项目[64]整合医疗知识图谱和大语言模型,通过生成合成数据集,提高预测任务的准确率。表格推荐系统[65]通过合成数据集来提升推荐效率。在模型性能优化方面,文献[66]结合真实数据和合成数据,提升LLMs的鲁棒性和语境敏感性。针对低资源语言和垂直领域的数据稀缺问题,LLMs可生成补充数据,用于提升模型训练效果[67,68]
总之,合成数据已成为科技文献数据的重要延伸,LLMs与科技文献合成数据双向赋能过程如图3所示。一方面,LLMs赋能科技文献数据挖掘,将科技文献非结构化内容转化为结构化信息,经语义增强后生成高价值密度的合成数据;另一方面,合成数据经筛选与标注、质量评估后形成训练数据,进而服务LLMs的迭代优化,实现知识与逻辑增强,而优化后的LLMs又能反哺生成质量更优的合成数据。然而,LLMs虽具备根据科技文献内容生成合成数据的能力,但难以完全保证合成数据的科学性、逻辑一致性。未来,可形成“LLMs生成+专家校验”的人在回路协同机制,可通过AGORABENCH[69]等评估框架评估不同语言模型生成合成数据的质量,确保科技文献合成数据的质量。综上,本文对LLMs赋能科技文献数据挖掘的关键方法技术总结如下,详见表1
图3 科技文献合成数据与LLMs双向赋能框架

Fig.3 Bidirectional empowerment framework of scientific literature synthetic data and large language models

表1 基于大语言模型的科技文献数据挖掘和知识生成方法技术

Table 1 Methods of data mining and knowledge discovery in scientific literature using large language models

类别 功能 方法技术​
数据挖掘 文本知识挖掘

上下文学习[17,27,50]、少样本提示[19,21,22,26]、零样本提示[24,25]、思维链提示[27]

工具调用与API集成[18,70]、GraphRAG[24]、微调[18,26]、预训练[18,20-22]、RAG[71]

科学数据挖掘 思维链提示[29,34]、GraphRAG[39]、微调[30,72]、主动学习[36,39,40,70]、自动推理与规划[32,34]
图表信息挖掘 上下文学习[50]、预训练[46,47,50]、卷积循环神经网络[44,45]、深度神经网络[46]、注意力机制[44]
知识生成 文献综述生成 少样本提示[54]、RAG[18,53,54,58]、微调[18,71]
合成数据生成 上下文学习[26,68]、少样本提示[26,73]、GraphRAG[63,64]、自动推理与规划[32,34]、微调[26,33]

*注:GraphRAG即基于图的检索增强生成(Graph-Based Retrieval-Augmented Generation)

2 LLMs赋能科技文献数据挖掘的软件工具

基于LLMs的科技文献AI工具可分为数据挖掘工具和知识生成工具两大类。数据挖掘工具聚焦对科技文献中文本知识、科学数据、图表信息等细粒度数据挖掘与组织。例如,LitAI[74]利用生成式AI增强文献中的多模态、多样化信息检索,通过上下文学习和提示工程来抽取科技文献中的文本、数字和表格等多模态元素,实现精确的数据挖掘。GOT-OCR2.0[75]基于端到端模型,改进传统的多个流程的复杂方式,处理多模态文档,包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多种光学字符。olmOCR[76]作为开源Python工具包,利用视觉语言模型将PDF文档转换为线性化纯文本,同时保留章节、表格、列表、方程式等结构化内容。TableGPT2[77]从复杂的数据集中同时提取、整合并处理文本和表格数据,将结构化数据作为独立模态进行训练并生成报告,辅助研究人员快速获取洞察。科技文献知识AI引擎(SciAIEngine)[78]基于科技文献大数据与深度学习技术,通过自动提取科技文献中文本挖掘的关键知识构建AI组件,实现科技文献的高效解析与智能应用。
基于LLMs的知识生成工具通过生成式技术将挖掘所得知识转化为可行动的科研洞察,辅助研究人员完成文献综述、假设提出,支撑从文献分析到科学发现的闭环。例如,基于LLMs的多智能体系统VirSci[79]模拟科学研究中团队合作的过程,以生成新颖的科学想法,推动科学发现,效果超过传统单智能体系统。Agent Laboratory[80]接受人类提供的研究想法,基于文献综述、实验和报告撰写3个阶段,产生全面的研究输出,加速科学发现、降低成本并提高研究质量。科技文献大模型——星火科研助手[7]基于科技文献资源,引入成果调研、论文研读和学术写作等科研助手功能。机器写作框架OmniThink[81]通过模拟人类的迭代扩展和反思过程,有效提升生成文章的知识密度,挖掘不同研究之间的潜在联系。ChatMOF[82]利用GPT-4从文本输入中提取关键信息,用于预测和生成金属有机框架。代表性工具详见表2
表2 大语言模型赋能科技文献数据挖掘的典型工具

Table 2 Typical tools for data mining in scientific literature using large language models

类型 功能 工具名称 方法技术 应用场景
数据挖掘 文本知识挖掘 LitAI[74]

OCR、上下文学习、

少样本提示、思维链提示

文本抽取和结构化、文本质量增强

文本分类、纠正语法错误、参考文献管理

GOT-OCR2.0[75]

注意力机制、上下文学习

多阶段预训练、指令微调

文本识别、文档数字化
SciAIEngine[78] 自然语言处理、少样本提示、提示工程

语步识别、命名实体识别

科技文献挖掘、深度聚类等

MDocAgent[83]

OCR、RAG

上下文学习、GraphRAG

多模态数据融合、文本识别和抽取、文档问答
LongDocURL[84] 特征融合、RAG、OCR 长文档解析、文档问答
科学数据挖掘 LitAI[74]

OCR、上下文学习

少样本提示、思维链提示

科学数据抽取
MinerU

上下文学习、多模态融合

基于人类反馈的强化学习

多模态科学数据挖掘

数字公式识别、方程式分子结构式挖掘

TableGPT2[85] 注意力机制、神经网络架构 表格数据理解、数据管理、数据计算分析
GOT-OCR2.0[75]

注意力机制、上下文学习

多阶段预训练、指令微调

数字公式识别、方程式分子结构式挖掘
olmOCR[76] OCR、文档锚定、微调、思维链提示 数字公式识别、方程式分子结构式挖掘
图表信息挖掘 LitAI[74]

OCR、上下文学习

少样本提示、思维链提示

图注抽取与解释、图像数据与文本数据关联

图表语义增强

olmOCR[76] OCR、微调、思维链提示 表格识别、提取图表中的关键数据点
知识生成 文献综述生成 Agent Laboratory[80] 思维链提示、基于Transformer架构

文献综述、实验设计与分析

代码生成、结果解释、报告撰写

Web of Science研究助手 上下文学习、思维链提示 文献综述、期刊推荐、数据可视化
SciAIEngine[78] 自然语言处理、少样本提示、提示工程 文本标题生成、结构化自动综述
Deep Research 自然语言处理、端到端强化学习 文献综述、论文润色、生成报告
AutoSurvey[54] RAG、提示工程、词嵌入

初始检索与大纲生成、子章节起草

整合与优化、评估与迭代

知识发现 VirSci[79]

RAG、多任务学习

模型微调、GraphRAG

主题讨论、新颖性评估、摘要生成

知识库构建、多智能体协作

星火科研助手[6]

预训练、有监督微调

基于人类反馈的强化学习

成果调研、综述生成、领域更新追踪

论文研读、多文档问答、研究方向推荐

基于LLMs的科技文献数据挖掘工具已基本形成从数据挖掘到知识生成完整的科研支持体系,可显著提升科研洞察的效率和深度。但仍需突破两大关键问题:一是将人工智能技术与知识图谱相结合,整合科技文献背后跨学科、跨领域、跨模态的知识[86],强化文本、数据、图表间的语义关联;二是构建可解释性框架,确保生成内容的逻辑严谨性与学术可信度。

3 科技文献数据挖掘赋能LLMs的应用场景

LLMs与科技文献数据挖掘双向赋能[87]。科技文献数据挖掘已突破传统文献服务的边界,通过从篇章级到段落级的精细化内容解析,挖掘出领域知识与科学数据,可为LLMs提供专业化知识语料和高质量科学数据,进一步拓展科技文献的应用范围。

3.1 支撑构建垂直大模型

通用大模型基于海量多源数据训练形成基础认知能力,而垂直大模型则通过融合领域知识库与专业数据实现能力提升。研究人员通过整合生物医学实体库、材料物性数据库等结构化知识资源,开发医疗诊断大语言模型[88]、海洋监测大语言模型[89]等专业工具。这类模型采用知识嵌入策略,基于来自科技文献的领域知识和科学数据等高质量数据进行预训练或微调,显著增强任务针对性并减少生成内容的“幻觉”现象。国家科技图书文献中心构建的新型、智能化知识发现服务体系[90],通过智能综述生成、知识脉络可视化等功能重构科研知识体系,提高科研效率。中国科学院自动化研究所构建的脑科学关联知识图谱[91],则整合多尺度神经数据与认知功能映射,为脑科学研究提供多维框架。Euretos平台[92]通过整合生物分子数据库、文献和专利,提供高准确率预测模型。ORKG[93]语义知识图谱也推动学术交流向知识驱动范式转型。这类实践采用多模态融合策略,通过语义关联和跨模态对齐,增强知识表征的深度与关联性,既能继承通用模型的语义推理能力,又能精准解析领域术语与复杂逻辑关系。
科技文献数据如何有效支撑垂直大模型面临一系列技术瓶颈,主要表现为静态知识表示体系与学科动态发展间的适配性不足,以及跨领域知识交互中的语义失配问题。未来研究可聚焦于多源异构数据的语义统一描述,构建层次化的领域知识图谱及垂直大模型,探究跨模态、跨领域数据的语义对齐与知识融合机制。

3.2 支撑开发面向AI4S的高质量数据集

面向AI4S的高质量数据集构建,本质是通过数据驱动和知识引导的双向路径,将人可读的科学知识体系转化为机器可计算的结构化资源。通过多模态数据融合构建基础知识库,结合“人在回路”的协同机制优化标注质量,可显著提高领域适配性和数据集构建质量[94]。例如,通过细粒度数据挖掘,ChemDataExtractor[95]利用化学实体识别和关系抽取,提取化学数据、实验条件和化合物性质,丰富领域知识库。EnzChemRED[96]通过提取酶的功能数据,构建高质量的训练数据集和基准数据集。有监督材料文本挖掘数据集构建法[97],在材料科学领域降低大规模数据处理的成本,确保数据的高质量获取。催化领域基准数据集[98]通过统一标注框架实现跨源异构数据的语义对齐,支撑催化反应规律的深度挖掘。LLM4Mat-Bench项目[99]进一步证明,多样化材料表示数据能够增强模型对晶体结构、能带特性等跨任务属性的泛化能力。此类高质量数据集需严格遵循FAIR原则,建立动态更新机制以匹配快速迭代的科研需求,如罗氏制药发布的抑制剂数据集[100]通过持续补充实验数据,显著提升机器学习模型预测分子结合亲和力的精度。
科技文献数据支撑构建面向AI4S的高质量数据集还面临若干挑战。一是基础学科数据采集依赖人工标注的现象普遍存在,自动化工具在复杂科研场景中的语义理解能力不足,导致数据集完整性和一致性难以保障;二是跨领域数据孤岛问题显著,多源异构数据在术语体系、格式标准、质量层级上的差异,造成整合困难;三是数据治理体系与AI4S科研范式的适配性不足,在数据隐私保护、知识产权分配、共享权限管理等方面缺乏动态平衡机制。未来应聚焦研发领域自适应的智能标注技术,结合小样本学习与主动学习算法,降低人工干预成本并提升标注效率;构建知识图谱引导的跨模态质量融合框架,通过统一语义建模实现多源数据的特征空间精准对齐,破解数据孤岛壁垒;打造高质量基础数据库、高价值密度产品库与智能适配AI-Ready数据库[101],建立全生命周期的数据质量评估体系,为AI4S驱动的科研范式变革奠定数据基底[102]

3.3 支持AI驱动的科学发现

科学研究范式的演进正经历第五次革命性跨越,传统范式呈现出显著的递进性与局限性:经验科学依赖实验归纳,但受限于主观性[103];理论科学强调逻辑推导和数学建模[104],但难以处理复杂系统;计算科学以计算模拟为核心,但受限于模型简化导致结论片面[105];数据密集型科学依托算力和算法,从海量数据中发现知识[106],但仍需结合因果建模、可解释AI等提升科学发现的可信度和理论深度。在此基础上,AI4S新范式融合数据驱动与模型驱动的优势,通过生成式AI突破传统线性研究路径,推动科研由“自动化”向“模型化”“智能化”发展[107]。科技文献数据挖掘作为关键赋能手段,正从基础检索工具升级为知识涌现引擎[2],通过促进领域知识关联和学科交叉融合,提出前瞻性选题,助力创新性研究方向的发现[108]
如今,LLMs的应用已超越工具属性,在语义关联推理、实验自动化与多模态知识融合等领域展现出巨大潜力。具体来看,图情学者更聚焦于两个方面:一是,知识服务的智能化发展。中国科学院文献情报中心研发的SciAIEngine[109],通过两阶段文本挖掘和半监督学习,构建细粒度循证关系数据库,支持从海量文献中自动提炼跨学科隐性关联。AI+智慧知识服务的生态体系架构[110],借用户学术画像与AI技术打造智能随身科研助理服务平台,提供主动、精准与及时的科技大数据知识服务。二是,科学数据的生态化融合。基于文献的知识发现(Literature-Based Discovery,LBD)方法[5],也通过分析文献数据,发现跨学科领域的知识传递和隐性关联,促进科学发现。中国科学院文献情报中心充分发挥学科优势,与领域内的科学家紧密协作,PubScholar平台[109]汇聚大量权威可靠的科技文献数据及专业领域知识,使材料、生物、医学等学科在语义引擎支持下实现交叉创新。艾伦人工智能研究所构建的科技文献知识库[111],利用异构图结构组织超过2.8亿个节点的数据,以支持算法分析与科学发现。相较而言,自然科学学者更侧重于AI驱动的具体研究场景革新。基于LLMs的AI材料科学家MatPilot[112],从生物材料科学论文中构建本体知识图谱,通过人机协作框架,高效地验证科学假设,以增强材料科学研究的效率和创造力。MagBERT[20]等模型引入MagNER增强信息的提取能力,在镁材料研究中自动识别非结构化文本中的潜在变量关系,生成可验证的科学假设。中国科学技术大学团队[113]汇总多篇文献中的实验数据,通过可解释AI算法,在催化基础研究中取得重大突破,解决氧化物包裹金属催化剂的难题。利用GPT-4快速开发用于材料科学仪器的控制软件[114],为材料科学的合成和表征研究提供加速途径。
总之,在AI4S科研范式下,科技文献已不仅是静态的知识载体,更是驱动科学发现智能体的重要组成部分。科技文献数据挖掘赋能LLMs应用场景小结详见表3
表3 科技文献数据挖掘赋能LLMs的应用场景

Table 3 Application scenarios of using large language models for data mining in scientific literature

类型 场景 核心技术 典型案例
支撑构建通用大模型与垂直大模型 通用大模型 自监督学习、指令微调、迁移学习、RAG、基于人类反馈的强化学习、领域知识注入、提示工程 PubScholar[108]集成科技资源、ORKG[93]结构化描述科技文献
垂直领域大模型 星火科研助手[6]、Web of Science研究助手、材料科学文本挖掘和信息抽取的语言模型MatSciBERT[21]、医疗诊断模型HuaTuo[88]、面向海洋科学的大语言模型OceanGPT[89]、脑科学关联知识图谱[91]、公共生命科学数据语义整合知识库Euretos[92]
支撑开发高质量数据集 AI4S科技文献数据库

主动学习、RAG、提示工程

多智能体协作、领域知识注入

酶化学关系抽取数据集EnzChemRED[96]、催化科学数据集Catalysis Hub[100]、材料科学数据集LLM4Mat-Bench[99]
支持AI驱动科学发现 假设生成

上下文学习、思维链提示

基于文献的发现、人机协作

科技文献知识驱动的AI引擎SciAIEngine[78]、预测和生成金属有机框架的人工智能系统ChatMOF[82]
实验验证 人工智能材料科学家MatPilot[112]
决策支持 公共生命科学数据语义整合知识库Euretos[92]

4 总结与展望

在AI4S快速发展的背景下,LLMs与科技文献数据挖掘正形成深度协同的双向赋能体系。一方面,LLMs通过动态提示学习、领域适配微调等前沿技术,实现了科技文献数据挖掘的范式升级。在方法层面,LLMs不仅提升科技文献数据挖掘的精度与效度,还能辅助生成高质量问答对、实验方案模板等合成数据;在工具层面,构建了从数据标注到知识生成的全流程智能化工具链;在应用层面,推动科技文献服务从单维检索向多模态知识生成转变,显著提升了科技文献服务AI4S的能级。另一方面,科技文献作为AI4S的核心知识底座,为LLMs提供了专业化、高质量的领域知识语料,进而为AI4S所需的查询循证、态势感知、假设生成、推理预测、生成启示和知识发现等提供高价值领域知识语料与科学数据支撑[115]。这种双向赋能机制正在重塑科技文献知识服务的范式。
尽管利用LLMs深度挖掘科技文献资源能够获取数据价值,有效推动AI4S应用的发展,但仍面临如下关键挑战:一是领域知识表征缺乏统一的标准化方案,制约专业领域深层知识的充分挖掘,对跨学科语义互操作性构成障碍;二是多源异构数据治理与隐私保护的矛盾,LLMs数据训练商[116]对科技文献数据的使用,缺少明晰的标准协议;三是跨模态推理效率不足,科技文献中对文本、公式与图像间语义关联处理依然存在一定逻辑偏差;四是知识生成的可解释性不强,推理过程透明度不高,在引证关系验证、结论一致性分析等环节易产生“幻觉”现象,影响可信度。
展望未来,LLMs赋能的科技文献数据挖掘可围绕以下方向深化:一是构建基于领域知识图谱的语义增强框架,通过统一元数据与语义本体,推动科技文献标准化建设,解决跨学科语义互操作障碍,提升对专业领域深层知识的挖掘能力;二是设计分级分类数据治理体系,建立完善的数据使用协议与知识产权保护规则,在平衡数据流通与隐私安全的基础上[117],为创新主体提供可持续的权益保障;三是制定细粒度知识抽取和多来源知识融合策略,构建文本、图像及结构化数据的融合处理框架,增强跨模态推理的鲁棒性与一致性,为复杂科研场景提供高效支持;四是借助提示工程、RAG及领域适配微调等技术,强化知识生成可解释性与适配性,开发透明推理工具以抑制“幻觉”现象。同时,通过结合人工标注与大模型生成双路径,构建垂直领域高质量的合成数据集,突破AI-Ready数据稀缺瓶颈,进一步提升LLMs在科技文献数据分析中的可信度与跨领域适应能力。这些方向的协同推进,将促使科技文献数据挖掘从效率优化转向知识发现,为AI4S提供更坚实的知识底座与方法论支撑。
1
王飞跃, 缪青海. 人工智能驱动的科学研究新范式: 从AI4S到智能科学[J]. 中国科学院院刊, 2023, 38(4): 536-540.

WANG F Y, MIAO Q H. Novel paradigm for AI-driven scientific research: From AI4S to intelligent science[J]. Bulletin of Chinese academy of sciences, 2023, 38(4): 536-540.

2
李国杰. 智能化科研(AI4R): 第五科研范式[J]. 中国科学院院刊, 2024, 39(1): 1-9.

LI G J. AI4R: The fifth scientific research paradigm[J]. Bulletin of Chinese academy of sciences, 2024, 39(1): 1-9.

3
罗威, 谭玉珊. 基于内容的科技文献大数据挖掘与应用[J]. 情报理论与实践, 2021, 44(6): 154-157.

LUO W, TAN Y S. Content-based data mining and application of scientific and technical literature big data[J]. Information studies: Theory & application, 2021, 44(6): 154-157.

4
熊泽润, 宋立荣. 科学数据出版中同行评议的问题思考[J]. 中国科技资源导刊, 2022, 54(5): 21-29.

XIONG Z R, SONG L R. Thinking about peer review in scientific data publishing[J]. China science & technology resources review, 2022, 54(5): 21-29.

5
代冰, 胡正银. 基于文献的知识发现新近研究综述[J]. 数据分析与知识发现, 2021, 5(4): 1-12.

DAI B, HU Z Y. Review of studies on literature-based discovery[J]. Data analysis and knowledge discovery, 2021, 5(4): 1-12.

6
钱力, 张智雄, 伍大勇, 等. 科技文献大模型: 方法、框架与应用[J]. 中国图书馆学报, 2024, 50(6): 45-58.

QIAN L, ZHANG Z X, WU D Y, et al. The large language model for scientific literature: Method, framework, and application[J]. Journal of library science in China, 2024, 50(6): 45-58.

7
支凤稳, 赵梦凡, 彭兆祺. 开放科学环境下科学数据与科技文献关联模式研究[J]. 数字图书馆论坛, 2023(10): 52-61.

ZHI F W, ZHAO M F, PENG Z Q. Relevance pattern of scientific data and scientific literature in open science environment[J]. Digital library forum, 2023(10): 52-61.

8
李泽宇, 刘伟. 基于大语言模型全流程微调的叙词表等级关系构建研究[J]. 情报理论与实践, 2025, 48(4): 152-162.

LI Z Y, LIU W. Research on the construction of hierarchical relationships in thesaurus based on the full-process fine-tuning of large language model[J]. Information studies: Theory & application, 2025, 48(4): 152-162.

9
曾建勋. “十四五”期间我国科技情报事业的发展思考[J]. 情报理论与实践, 2021, 44(1): 1-7.

ZENG J X. Reflection on the development of China's scientific and technical information industry during the "14th Five-Year Plan" period[J]. Information studies: Theory & application, 2021, 44(1): 1-7.

10
TSAI C W, LAI C F, CHAO H C, et al. Big data analytics: A survey[J]. Journal of big data, 2015, 2(1): 21.

11
赵冬晓, 王效岳, 白如江, 等. 面向情报研究的文本语义挖掘方法述评[J]. 现代图书情报技术, 2016(10): 13-24.

ZHAO D X, WANG X Y, BAI R J, et al. Semantic text mining methodologies for intelligence analysis[J]. New technology of library and information service, 2016(10): 13-24.

12
车万翔, 窦志成, 冯岩松, 等. 大模型时代的自然语言处理: 挑战、机遇与发展[J]. 中国科学: 信息科学, 2023, 53(9): 1645-1687.

CHE W X, DOU Z C, FENG Y S, et al. Towards a comprehensive understanding of the impact of large language models on natural language processing: Challenges, opportunities and future directions[J]. Scientia sinica (informationis), 2023, 53(9): 1645-1687.

13
张智雄, 于改红, 刘熠, 等. ChatGPT对文献情报工作的影响[J]. 数据分析与知识发现, 2023, 7(3): 36-42.

ZHANG Z X, YU G H, LIU Y, et al. The influence of ChatGPT on library & information services[J]. Data analysis and knowledge discovery, 2023, 7(3): 36-42.

14
刘熠, 张智雄, 王宇飞, 等. 基于语步识别的科技文献结构化自动综合工具构建[J]. 数据分析与知识发现, 2024, 8(2): 65-73.

LIU Y, ZHANG Z X, WANG Y F, et al. Constructing automatic structured synthesis tool for sci-tech literature based on move recognition[J]. Data analysis and knowledge discovery, 2024, 8(2): 65-73.

15
常志军, 钱力, 吴垚葶, 等. 面向主题场景的科技文献AI数据体系建设: 技术框架研究与实践[J]. 农业图书情报学报, 2024, 36(9): 4-17.

CHANG Z J, QIAN L, WU Y T, et al. Construction of a scientific literature AI data system for the thematic scenario: Technical framework research and practice[J]. Journal of library and information science in agriculture, 2024, 36(9): 4-17.

16
梁爽, 刘小平. 基于文本挖掘的科技文献主题演化研究进展[J]. 图书情报工作, 2022, 66(13): 138-149.

LIANG S, LIU X P. Research progress on topic evolution of scientific and technical literatures based on text mining[J]. Library and information service, 2022, 66(13): 138-149.

17
JIANG M. Very large language model as a unified methodology of text mining[J/OL]. arXiv preprint arXiv:2212.09271, 2022.

18
HUANG Q, SUN Y B, XING Z C, et al. API entity and relation joint extraction from text via dynamic prompt-tuned language model[J]. ACM transactions on software engineering and methodology, 2024, 33(1): 1-25.

19
GUPTA S, MAHMOOD A, SHETTY P, et al. Data extraction from polymer literature using large language models[J]. Communications materials, 2024, 5: 269.

20
KUMAR S, JAAFREH R, SINGH N, et al. Introducing MagBERT: A language model for magnesium textual data mining and analysis[J]. Journal of magnesium and alloys, 2024, 12(8): 3216-3228.

21
GUPTA T, ZAKI M, ANOOP KRISHNAN N M, et al. MatSciBERT: A materials domain language model for text mining and information extraction[J]. NPJ computational materials, 2022, 8: 102.

22
LIU Y F, LI S Y, DENG Y, et al. SSuieBERT: Domain adaptation model for Chinese space science text mining and information extraction[J]. Electronics, 2024, 13(15): 2949.

23
李盼飞, 杨小康, 白逸晨, 等. 基于大语言模型的中医医案命名实体抽取研究[J]. 中国中医药图书情报杂志, 2024, 48(2): 108-113.

LI P F, YANG X K, BAI Y C, et al. Study on named entity extraction in TCM medical records based on large language models[J]. Chinese journal of library and information science for traditional Chinese medicine, 2024, 48(2): 108-113.

24
杨冬菊, 黄俊涛. 基于大语言模型的中文科技文献标注方法[J]. 计算机工程, 2024, 50(9): 113-120.

YANG D J, HUANG J T. Chinese scientific literature annotation method based on large language model[J]. Computer engineering, 2024, 50(9): 113-120.

25
WEI X, CUI X Y, CHENG N, et al. ChatIE: Zero-shot information extraction via chatting with ChatGPT[J/OL]. e-printsarXiv, arXiv: 2302.10205., 2023.

26
ZHENG Z L, ZHANG O F, BORGS C, et al. ChatGPT chemistry assistant for text mining and the prediction of MOF synthesis[J]. Journal of the American chemical society, 2023, 145(32): 18048-18062.

27
陆伟, 刘寅鹏, 石湘, 等. 大模型驱动的学术文本挖掘: 推理端指令策略构建及能力评测[J]. 情报学报, 2024, 43(8): 946-959.

LU W, LIU Y P, SHI X, et al. Large language model-driven academic text mining: Construction and evaluation of inference-end prompting strategy[J]. Journal of the China society for scientific and technical information, 2024, 43(8): 946-959.

28
杨金庆, 吴乐艳, 魏雨晗, 等. 科技文献新兴话题识别研究进展[J]. 情报学进展, 2020, 13(00): 202-234.

YANG J Q, WU L Y, WEI Y H, et al. Research progress on the identification of emerging topics in scientific and technological literature[J]. Advances in information science, 2020, 13(00): 202-234.

29
POLAK M P, MORGAN D. Extracting accurate materials data from research papers with conversational language models and prompt engineering[J]. Nature communications, 2024, 15: 1569.

30
XIE T, WAN Y W, HUANG W, et al. DARWIN series: Domain specific large language models for natural science[J/OL]. arXiv preprint arXiv:2308.13565, 2023.

31
杨帅, 刘建军, 金帆, 等. 人工智能与大数据在材料科学中的融合: 新范式与科学发现[J]. 科学通报, 2024, 69(32): 4730-4747.

YANG S, LIU J J, JIN F, et al. Integration of artificial intelligence and big data in materials science: New paradigms and scientific discoveries[J]. Chinese science bulletin, 2024, 69(32): 4730-4747.

32
SZYMANSKI N J, RENDY B, FEI Y X, et al. An autonomous laboratory for the accelerated synthesis of novel materials[J]. Nature, 2023, 624(7990): 86-91.

33
AI Q X, MENG F W, SHI J L, et al. Extracting structured data from organic synthesis procedures using a fine-tuned large language model[J]. Digital discovery, 2024, 3(9): 1822-1831.

34
ZHANG C H, LIN Q H, ZHU B W, et al. SynAsk: Unleashing the power of large language models in organic synthesis[J]. Chemical science, 2025, 16(1): 43-56.

35
GAO Y J, MYERS S, CHEN S, et al. When raw data prevails: Are large language model embeddings effective in numerical data representation for medical machine learning applications?[J/OL]. arXiv preprint arXiv:2408.11854, 2024.

36
DU Y, WANG L D, HUANG M Y, et al. Autodive: An integrated onsite scientific literature annotation tool[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations). Toronto, Canada. Stroudsburg, PA, USA: ACL, 2023: 76-85.

37
ZHANG Y, CHEN X S, JIN B W, et al. A comprehensive survey of scientific large language models and their applications in scientific discovery[J/OL]. arXiv preprint arXiv:2406.10833, 2024.

38
JETHANI N, JONES S, GENES N, et al. Evaluating ChatGPT in information extraction: A case study of extracting cognitive exam dates and scores[J/OL]. medRxiv, 2023.

39
JAMI H C, SINGH P R, KUMAR A, et al. CCU-llama: A knowledge extraction LLM for carbon capture and utilization by mining scientific literature data[J]. Industrial & engineering chemistry research, 2024, 63(41): 17585-17598.

40
Automating scientific knowledge extraction and modeling (ASKEM)[EB/OL]. [2025-01-14].

41
于丰畅, 程齐凯, 陆伟. 基于几何对象聚类的学术文献图表定位研究[J]. 数据分析与知识发现, 2021, 5(1): 140-149.

YU F C, CHENG Q K, LU W. Locating academic literature figures and tables with geometric object clustering[J]. Data analysis and knowledge discovery, 2021, 5(1): 140-149.

42
于丰畅, 陆伟. 一种学术文献图表位置标注数据集构建方法[J]. 数据分析与知识发现, 2020, 4(6): 35-42.

YU F C, LU W. Constructing data set for location annotations of academic literature figures and tables[J]. Data analysis and knowledge discovery, 2020, 4(6): 35-42.

43
MASSON D, MALACRIA S, VOGEL D, et al. ChartDetective: Easy and accurate interactive data extraction from complex vector charts[C]//Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. Hamburg Germany. ACM, 2023: 1-17.

44
ZHOU F F, ZHAO Y, CHEN W J, et al. Reverse-engineering bar charts using neural networks[J]. Journal of visualization, 2021, 24(2): 419-435.

45
黄梓航, 陈令羽, 蒋秉川. 基于文本解析的栅格类图表知识抽取方法[J]. 地理空间信息, 2023, 21(10): 23-27.

HUANG Z H, CHEN L Y, JIANG B C. Knowledge extraction method for raster chart based on text parsing[J]. Geospatial information, 2023, 21(10): 23-27.

46
LUO J Y, LI Z K, WANG J P, et al. ChartOCR: Data extraction from charts images via a deep hybrid framework[C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV). January 3-8, 2021, Waikoloa, HI, USA. IEEE, 2021: 1916-1924.

47
琚江舟, 毛云麟, 吴震, 等. 多粒度单元格对比的文本和表格数值问答模型[J/OL]. 软件学报, 2024: 1-21.

JU J Z, MAO Y L, WU Z, et al. Text and table numerical question answering model for multi-granularity cell comparison[J/OL]. Journal of software, 2024: 1-21.

48
容姿, 丁一, 李依泽, 等. 图表大数据解析方法综述[J]. 计算机辅助设计与图形学学报, 2025, 37(2): 216-228.

RONG Z, DING Y, LI Y Z, et al. Review of parsing methods for big data in chart[J]. Journal of computer-aided design & computer graphics, 2025, 37(2): 216-228.

49
WU A Y, WANG Y, SHU X H, et al. AI4VIS: Survey on artificial intelligence approaches for data visualization[J]. IEEE transactions on visualization and computer graphics, 2022, 28(12): 5049-5070.

50
MISHRA P, KUMAR S, CHAUBE M K. Evaginating scientific charts: Recovering direct and derived information encodings from chart images[J]. Journal of visualization, 2022, 25(2): 343-359.

51
ZHAO J Y, HUANG S, COLE J M. OpticalBERT and OpticalTable-SQA: Text- and table-based language models for the optical-materials domain[J]. Journal of chemical information and modeling, 2023, 63(7): 1961-1981.

52
黎颖, 吴清锋, 刘佳桐, 等. 引导性权重驱动的图表问答重定位关系网络[J]. 中国图象图形学报, 2023, 28(2): 510-521.

LI Y, WU Q F, LIU J T, et al. Leading weight-driven re-position relation network for figure question answering[J]. Journal of image and graphics, 2023, 28(2): 510-521.

53
LUO R, SASTIMOGLU Z, FAISAL A I, et al. Evaluating the efficacy of large language models for systematic review and meta-analysis screening[J/OL]. medRxiv, 2024.

54
WANG Y, GUO Q, YAO W, et al. AutoSurvey: Large language models can automatically write surveys[J]. Advances in neural information processing systems, 2024, 37: 115119-115145.

55
周莉. 生成式人工智能对学术期刊的变革与赋能研究[J]. 黄冈师范学院学报, 2024, 44(6): 57-60.

ZHOU L. The reform and empowerment of generative artificial intelligence to academic journals[J]. Journal of Huanggang normal university, 2024, 44(6): 57-60.

56
WANG S, SCELLS H, KOOPMAN B, et al. Can ChatGPT write a good Boolean query for systematic review literature search? [C]//Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2023: 1426-1436.

57
ANTU S A, CHEN H, RICHARDS C K. Using LLM (large language model) to improve efficiency in literature review for undergraduate research[J]. LLM@AIED, 2023: 8-16.

58
WU S C, MA X, LUO D H, et al. Automated review generation method based on large language models[J/OL]. arXiv preprint arXiv:2407.20906, 2024.

59
姜鹏, 任龑, 朱蓓琳. 大语言模型在分类标引工作中的应用探索[J]. 农业图书情报学报, 2024, 36(5): 32-42.

JIANG P, REN Y, ZHU B L. Exploration and practice of classification indexing combined with large language models[J]. Journal of library and information science in agriculture, 2024, 36(5): 32-42.

60
YAN X C, FENG S Y, YUAN J K, et al. SurveyForge: On the outline heuristics, memory-driven generation, and multi-dimensional evaluation for automated survey writing[J/OL]. arXiv preprint arXiv:2503.04629, 2025.

61
LUO Z M, YANG Z L, XU Z X, et al. LLM4SR: A survey on large language models for scientific research[J/OL]. arXiv preprint arXiv:2501.04306, 2025.

62
马畅, 田永红, 郑晓莉, 等. 基于知识蒸馏的神经机器翻译综述[J]. 计算机科学与探索, 2024, 18(7): 1725-1747.

MA C, TIAN Y H, ZHENG X L, et al. Survey of neural machine translation based on knowledge distillation[J]. Journal of frontiers of computer science and technology, 2024, 18(7): 1725-1747.

63
陈文杰, 胡正银, 石栖, 等. 融合知识图谱与大语言模型的科技文献复杂知识对象抽取研究[J/OL]. 现代情报, 2024: 1-20.

CHEN W J, HU Z Y, SHI X, et al. Research on scientific and technological literature complex knowledge object extraction fusing knowledge graph and large language model[J/OL]. Journal of modern information, 2024: 1-20.

64
KUMICHEV G, BLINOV P, KUZKINA Y, et al. MedSyn: LLM-based synthetic medical text generation framework[M]//Machine Learning and Knowledge Discovery in Databases. Applied Data Science Track. Cham: Springer Nature Switzerland, 2024: 215-230.

65
YANG D Y, MONAIKUL N, DING A, et al. Enhancing table representations with LLM-powered synthetic data generation[J/OL]. arXiv preprint arXiv:2411.03356, 2024.

66
ZHEZHERAU A, YANOCKIN A. Hybrid training approaches for LLMs: Leveraging real and synthetic data to enhance model performance in domain-specific applications[J/OL]. arXiv preprint arXiv:2410.09168, 2024.

67
GUO X, CHEN Y Q. Generative AI for synthetic data generation: Methods, challenges and the future[J/OL]. arXiv preprint arXiv:2403.04190, 2024.

68
LONG L, WANG R, XIAO R X, et al. On LLMs-driven synthetic data generation, curation, and evaluation: A survey[J/OL]. arXiv preprint arXiv:2406.15126, 2024.

69
KIM S, SUK J, YUE X, et al. Evaluating language models as synthetic data generators[J/OL]. arXiv preprint arXiv:2412.03679, 2024.

70
GOUGHERTY A V, CLIPP H L. Testing the reliability of an AI-based large language model to extract ecological information from the scientific literature[J]. NPJ biodiversity, 2024, 3: 13.

71
ZHANG J J, BAI Y S, LV X, et al. LongCite: Enabling LLMs to generate fine-grained citations in long-context QA[J/OL]. arXiv preprint arXiv:2409.02897, 2024.

72
ZHANG W, WANG Q G, KONG X T, et al. Fine-tuning large language models for chemical text mining[J]. Chemical science, 2024, 15(27): 10600-10611.

73
XIAO T, ZHU J B. Foundations of large language models[J/OL]. arXiv preprint arXiv:2501.09223, 2025.

74
MEDISETTI G, COMPSON Z, FAN H, et al. LitAI: Enhancing multimodal literature understanding and mining with generative AI[J]. Proceedings IEEE conference on multimedia information processing and retrieval, 2024, 2024: 471-476.

75
WEI H R, LIU C L, CHEN J Y, et al. General OCR theory: Towards OCR-2.0 via a unified end-to-end model[J/OL]. arXiv preprint arXiv:2409.01704, 2024.

76
POZNANSKI J, BORCHARDT J, DUNKELBERGER J, et al. olmOCR: Unlocking trillions of tokens in PDFs with vision language models[J/OL]. arXiv preprint arXiv:2502.18443, 2025.

77
SU A F, WANG A W, YE C, et al. TableGPT2: A large multimodal model with tabular data integration[J/OL]. arXiv preprint arXiv:2411.02059, 2024.

78
张智雄, 刘欢, 于改红. 构建基于科技文献知识的人工智能引擎[J]. 农业图书情报学报, 2021, 33(1): 17-31.

ZHANG Z X, LIU H, YU G H. Building an artificial intelligence engine based on scientific and technological literature knowledge[J]. Journal of library and information science in agriculture, 2021, 33(1): 17-31.

79
SU H, CHEN R, TANG S, et al. Two heads are better than one: A multi-agent system has the potential to improve scientific idea generation[J/OL]. arXiv preprint arXiv:2410. 09403v2, 2024.

80
SCHMIDGALL S, SU Y S, WANG Z, et al. Agent laboratory: Using LLM agents as research assistants[J/OL]. arXiv preprint arXiv:2501.04227, 2025.

81
XI Z K, YIN W B, FANG J Z, et al. OmniThink: Expanding knowledge boundaries in machine writing through thinking[J/OL]. arXiv preprint arXiv:2501.09751, 2025.

82
KANG Y, KIM J. ChatMOF: An artificial intelligence system for predicting and generating metal-organic frameworks using large language models[J]. Nature communications, 2024, 15: 4705.

83
HAN S W, XIA P, ZHANG R Y, et al. MDocAgent: A multi-modal multi-agent framework for document understanding[J/OL]. arXiv preprint arXiv:2503.13964, 2025.

84
DENG C, YUAN J L, BU P, et al. LongDocURL: A comprehensive multimodal long document benchmark integrating understanding, reasoning, and locating[J/OL]. arXiv preprint arXiv:2412.18424, 2024.

85
ZHA L Y, ZHOU J L, LI L Y, et al. TableGPT: Towards unifying tables, nature language and commands into one GPT[J/OL]. arXiv preprint arXiv:2307.08674, 2023.

86
王译婧, 徐海静. 人工智能助力多模态档案资源开发的实现路径[J]. 山西档案, 2025(4): 120-126, 137.

WANG Y J, XU H J. Implementation paths for AI-assisted development of multimodal archival resources[J]. Shanxi archives, 2025(4): 120-126, 137.

87
王飞跃, 王雨桐. 数字科学家与平行科学: AI4S和S4AI的本源与目标[J]. 中国科学院院刊, 2024, 39(1): 27-33.

WANG F Y, WANG Y T. Digital scientists and parallel sciences: The origin and goal of AI for science and science for AI[J]. Bulletin of Chinese academy of sciences, 2024, 39(1): 27-33.

88
WANG H C, LIU C, XI N W, et al. HuaTuo: Tuning LLaMA model with Chinese medical knowledge[J/OL]. arXiv preprint arXiv:2304.06975, 2023.

89
BI Z, ZHANG N Y, XUE Y D, et al. OceanGPT: A large language model for ocean science tasks[J/OL]. arXiv preprint arXiv:2310.02031, 2023.

90
鲜国建, 罗婷婷, 赵瑞雪, 等. 从人工密集型到计算密集型: NSTL数据库建设模式转型之路[J]. 数字图书馆论坛, 2020(7): 52-59.

XIAN G J, LUO T T, ZHAO R X, et al. Research and practice of the NSTL database construction mode transformation: From labor intensive to computing intensive[J]. Digital library forum, 2020(7): 52-59.

91
王婷, 何松泽, 杨川. 知识图谱相关方法在脑科学领域的应用综述[J]. 计算机技术与发展, 2022, 32(11): 1-7.

WANG T, HE S Z, YANG C. An application review of knowledge graph related methods in field of human brain science[J]. Computer technology and development, 2022, 32(11): 1-7.

92
MALAS T B, VLIETSTRA W J, KUDRIN R, et al. Drug prioritization using the semantic properties of a knowledge graph[J]. Scientific reports, 2019, 9: 6281.

93
JARADEH M Y, OELEN A, PRINZ M, et al. Open research knowledge graph: A system walkthrough[M]//Digital Libraries for Open Knowledge. Cham: Springer International Publishing, 2019: 348-351.

94
萧文科, 宋驰, 陈士林, 等. 中医药大语言模型的关键技术与构建策略[J]. 中草药, 2024, 55(17): 5747-5756.

XIAO W K, SONG C, CHEN S L, et al. Key technologies and construction strategies of large language models for traditional Chinese medicine[J]. Chinese traditional and herbal drugs, 2024, 55(17): 5747-5756.

95
SWAIN M C, COLE J M. ChemDataExtractor: A toolkit for automated extraction of chemical information from the scientific literature[J]. Journal of chemical information and modeling, 2016, 56(10): 1894-1904.

96
LAI P T, COUDERT E, AIMO L, et al. EnzChemRED, a rich enzyme chemistry relation extraction dataset[J]. Scientific data, 2024, 11: 982.

97
LIU Y, LIU D-H, GE X-Y, et al. A high-quality dataset construction method for text mining in materials science[J]. Acta physica sinica, 2023, 72(7): 070701.

98
ZHANG Y, WANG C, SOUKASEUM M, et al. Unleashing the power of knowledge extraction from scientific literature in catalysis[J]. Journal of chemical information and modeling, 2022, 62(14): 3316-3330.

99
RUBUNGO A N, LI K M, HATTRICK-SIMPERS J, et al. LLM4Mat-bench: Benchmarking large language models for materials property prediction[J/OL]. arXiv preprint arXiv:2411.00177, 2024.

100
TOSSTORFF A, RUDOLPH M G, COLE J C, et al. A high quality, industrial data set for binding affinity prediction: Performance comparison in different early drug discovery scenarios[J]. Journal of computer-aided molecular design, 2022, 36(10): 753-765.

101
孟小峰. 科学数据智能: 人工智能在科学发现中的机遇与挑战[J]. 中国科学基金, 2021, 35(3): 419-425.

MENG X F. Scientific data intelligence: AI for scientific discovery[J]. Bulletin of national natural science foundation of China, 2021, 35(3): 419-425.

102
高瑜蔚, 胡良霖, 朱艳华, 等. 国家基础学科公共科学数据中心建设与发展实践[J]. 科学通报, 2024, 69(24): 3578-3588.

GAO E G, HU L L, ZHU Y H, et al. Construction and practice of national basic science data center[J]. Chinese science bulletin, 2024, 69(24): 3578-3588.

103
邓仲华, 李志芳. 科学研究范式的演化: 大数据时代的科学研究第四范式[J]. 情报资料工作, 2013, 34(4): 19-23.

DENG Z H, LI Z F. The evolution of scientific research paradigm: The fourth paradigm of scientific research in the era of big data[J]. Information and documentation services, 2013, 34(4): 19-23.

104
包为民, 祁振强. 航天装备体系化仿真发展的思考[J]. 系统仿真学报, 2024, 36(6): 1257-1272.

BAO W M, QI Z Q. Thinking of aerospace equipment systematization simulation technology development[J]. Journal of system simulation, 2024, 36(6): 1257-1272.

105
李正风. 当代科学的新变化与科学学的新趋向[J]. 世界科学, 2024(8): 41-44.

LI Z F. New changes in contemporary science and new trends in science of science[J]. World science, 2024(8): 41-44.

106
The Fourth Paradigm: Data-Intensive Scientific Discovery[M]. Redmond, WA: Microsoft Research, 2009.

107
余江, 张越, 周易. 人工智能驱动的科研新范式及学科应用研究[J]. 中国科学院院刊, 2025, 40(2): 362-370.

YU J, ZHANG Y, ZHOU Y. A new scientific research paradigm driven by AI and its applications in academic disciplines[J]. Bulletin of Chinese academy of sciences, 2025, 40(2): 362-370.

108
于改红, 谢靖, 张智雄, 等. 基于DIKIW的智能情报服务理论及系统框架研究与实践[J/OL]. 情报理论与实践, 2025: 1-11.

YU G H, XIE J, ZHANG Z X, et al. Research and practice of intelligent information service theory and system framework based on DIKIW[J/OL]. Information studies: Theory & application, 2025: 1-11.

109
张智雄. 在开放科学和AI时代塑造新型学术交流模式[J]. 中国科技期刊研究, 2024, 35(5): 561-567.

ZHANG Z X. Shaping new models of scholarly communication in the era of open science and AI[J]. Chinese journal of scientific and technical periodicals, 2024, 35(5): 561-567.

110
钱力, 刘细文, 张智雄, 等. AI+智慧知识服务生态体系研究设计与应用实践: 以中国科学院文献情报中心智慧服务平台建设为例[J]. 图书情报工作, 2021, 65(15): 78-90.

QIAN L, LIU X W, ZHANG Z X, et al. Design and application of ecological system of intelligent knowledge service based on AI: An example of building of intelligent service platform of national science library, CAS[J]. Library and information service, 2021, 65(15): 78-90.

111
AMMAR W, GROENEVELD D, BHAGAVATULA C, et al. Construction of the literature graph in semantic scholar[J/OL]. arXiv preprint arXiv:1805.02262, 2018.

112
NI Z Q, LI Y H, HU K J, et al. MatPilot: An LLM-enabled AI materials scientist under the framework of human-machine collaboration[J/OL]. arXiv preprint arXiv:2411.08063, 2024.

113
WANG T R, HU J Y, OUYANG R H, et al. Nature of metal-support interaction for metal catalysts on oxide supports[J]. Science, 2024, 386(6724): 915-920.

114
FÉBBA D, EGBO K, CALLAHAN W A, et al. From text to test: AI-generated control software for materials science instruments[J]. Digital discovery, 2025, 4(1): 35-45.

115
周力虹. 面向驱动AI4S的科学数据聚合: 需求、挑战与实现路径[J]. 农业图书情报学报, 2023, 35(10): 13-15.

ZHOU L H. Scientific data aggregation for driving AI4S: Requirements, challenges and implementation paths[J]. Journal of library and information science in agriculture, 2023, 35(10): 13-15.

116
叶悦. AI大模型时代出版内容数据保护的理据与进路[J]. 出版与印刷, 2025(1): 27-36.

YE Y. The rationale and approach for data protection of published contents in the era of AI big models[J]. Publishing & printing, 2025(1): 27-36.

117
QU Y Y, DING M, SUN N, et al. The frontier of data erasure: Machine unlearning for large language models[J/OL]. arXiv preprint arXiv:2403.15779, 2024.

Outlines

/