Construction of a Scientific Literature AI Data System for the Thematic Scenario: Technical Framework Research and Practice

  • Zhijun CHANG 1, 2, 3 ,
  • Li QIAN , 1, 2, 3 ,
  • Yaoting WU 1, 2 ,
  • Yunpeng QU 1, 2 ,
  • Yue GONG 1, 2 ,
  • Zhixiong ZHANG 1, 2, 3
Expand
  • 1. Documentation and Information Center, National Science Library, Chinese Academy of Sciences, Beijing 100190
  • 2. Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190
  • 3. Key Laboratory of New Publishing and Knowledge Services for Scholarly Journals, Beijing 100190

Received date: 2024-07-26

  Online published: 2025-01-13

Abstract

[urpose/Significance] Artificial intelligence is empowering scientific research and has become a major driver of scientific discovery. High-quality data resources for thematic scenarios are the key to training high-performance AI models. Given the complexity of scientific and technological (S&T) literature data and the limitations of its direct use for large-scale model training, there is a urgent need to build a systematic data construction technology framework to process, refine and curate S&T literature resources, and ultimately build a high-quality training corpus for AI applications. Some experts have conducted a number of studies, but there is still a lack of research on S&T literature AI data system for thematic scenarios. [Method/Process] This article proposes a "3+5 technical framework" plan for the construction of an AI data system for themed scenarios. Focusing on the whole process of AI data system construction, it refined and designed three levels of data content and five stages of data governance. The three-level data structure inclueds the multi-type basic database, the multi-model deconstruction database and fine-grained semantic mining knowledge base. The five-level construction stages are multi-channel data source scanning, multi-type basic data construction, multi-modal deconstruction data construction, fine-grained semantic mining knowledge construction and multi-scenario data application. Taking big data technology and intelligent mining technology as the key elements of data governance, the system architecture and functions of the data governance tool chain are described in detail. The core components of the tool chain are multi-source data aggregation tool, multi-format data parsing tool, data cleaning tool, associated file identification and acquisition tool, data fusion tool, multi-modal deconstruction and reorganization tool, and fine-grained knowledge identification tool. Working together, these tools ensure the efficiency and integrity of the design process from raw data to the AI data system. [Results/Conclusions] To verify the effectiveness of the proposed technical framework, this study has built a knowledge base in the field of rice breeding. The AI data system for thematic scenario of rice intelligent breeding includes a multi-type basic knowledge layer, a multi-modal deconstruction and recombination knowledge layer and a fine-grained semantic mining knowledge layer. The basic knowledge layer includes general scientific papers and patent data; the multi-modal knowledge layer includes the multi-modal data deconstruction of the paper content; the domain semantic mining knowledge layer focuses on the professional knowledge in rice intelligent breeding, such as rice variety validation data, phenotypic characteristics data, and rice lineage network. The results showed that the framework can effectively process S&T literature data and build a high-quality domain knowledge base, providing data support for the application of AI models in rice breeding research, verifying the effectiveness and practicality of the framework.

Cite this article

Zhijun CHANG , Li QIAN , Yaoting WU , Yunpeng QU , Yue GONG , Zhixiong ZHANG . Construction of a Scientific Literature AI Data System for the Thematic Scenario: Technical Framework Research and Practice[J]. Journal of Library and Information Science in Agriculture, 2024 , 36(9) : 4 -17 . DOI: 10.13998/j.cnki.issn1002-1248.24-0755

0 引言

近年来,大语言模型(Large Language Models,LLMs)的发展及领域应用取得了显著成就,成为行业发展提质增效的新引擎,其赋能能力在很大程度上取决于算力、模型和数据三大核心要素[1,2]。尤其在面向主题场景的AI赋能科学研究方面,高质量的数据资源对于训练出高性能的AI模型至关重要[3]。科技文献数据作为AI数据体系的关键数据资源,蕴含着丰富的科学知识和学者智慧,为主题场景下大语言模型的训练、有监督微调、智能体构建以及Prompt工程设计提供了高价值语料数据。科技文献数据具有其独特的结构和特点,例如包含大量的专业术语[4]、复杂的公式和图表,以及丰富的语义知识等[5]。鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统的数据建设技术框架,对原始数据进行一系列的加工与提炼,最终形成高质量的AI数据体系。
目前,面向主题场景的科技文献AI数据体系建设主要面临以下挑战:①多来源数据异构性高[6]。科技文献数据来源多样,涉及PDF、HTML、XML、TXT等存储格式,增加了数据整合和处理的难度。②多模态知识提取难度大。从非结构化或半结构化的科技文献中准确提取知识要素,仍存在技术上的挑战,如抽取全文文本、插图、表格、公式等知识对象,以及文本与插图、文本与表格、文本与公式的关联。③细粒度知识揭示力度不足。科技文献中蕴含着学者的丰富智慧,显式地表征细粒度知识要素,揭示领域本体知识,能大幅提升智能服务水平,从而更好地支持下游任务。④多层次数据质量控制复杂。面向主题场景的科技文献数据具有多层次特点,使得确保数据处理链条的准确性、一致性和完整性等质量评估指标变得更加复杂,给数据质量控制带来了更大挑战。

1 国内外研究现状

面向主题场景的科技文献AI数据体系建设,其核心在于构建高质量的训练语料库。将海量、异构的科技文献转化为结构化、机器可读且富含语义信息的知识资源,以支撑主题场景下大模型训练、应用智能体建设等。

1.1 国外研究现状

国外在科技文献数据建设及智能服务领域起步较早,知名数据厂商和学者开展了多方面的深入研究。研究重点多集中于高效数据采集与清洗、多模态知识提取、语义知识揭示,以及标准化的数据质量控制等方面。在数据采集方面,一些知名机构通常在构建了大型科技文献数据库后,提供便捷的API接口供研究者使用[7,8]。设计期刊数据的定向网络采集工具,可以从公开网站上高效采集科技文献数据[9,10]。在数据清洗方面,文本标记化、去除噪声、词形还原等数据清洗技术也有较多的研究[11]。在多模态知识提取领域,一些研究工作利用深度学习模型,例如卷积神经网络(CNN)和循环神经网络(RNN),来处理文本和图像信息,如研发基于CNN、CNN-LSTM等模型[12,13]的自动化编码器-解码器框架进行知识提取、使用新型深度神经模型来进行数学表达式识别[14]、使用图神经网络模型来分析文献的文档布局分析并完成表格提取[15]。在细粒度知识揭示方面,主要研究工作致力于科技文献语义知识挖掘,如概念之间的关系、研究领域的演化趋势、关键技术的识别等[16],如基于知识图谱技术实现细粒度知识揭示[17]。一些研究构建了特定领域的科技文献知识图谱,如生物医学知识图谱[18]、计算机科学知识图谱等[19]。而在数据质量控制方面,国际研究机构和组织制定了一系列数据质量标准和评估方法,以保障科技文献数据的质量,如JATS 1.4(Journal Article Tag Suite)是一种广泛采用的元数据标准[20]。也有学者研发特定工具来规范数据,如MetaEnhance工具面向电子论文和学位论文的7个关键领域,使用AI技术自动检测、更正和规范化学术元数据[21]

1.2 国内研究现状

国内研究更侧重于中文科技文献特有的处理方法,研究工作涉及数据清洗技术、细粒度知识提取方法,以及知识图谱构建和数据质量控制等。在数据清洗过程中,由于中文科技文献的特殊性,国内学者通常会重点关注中文分词、词性标注等问题[22]。在多模态知识提取方面,通常使用深度学习的方法来开展研究,但缺乏系统性研究,如使用基于表格检索和机器学习的二阶段方法自动抽取PDF格式学术文献中的表格及其描述性或解释性相关文本,并识别其主要内容[23];或使用YOLOv5-ECA-BiFPN方法完成图表的自动识别和提取[24]。在细粒度知识揭示方面,研究集中在细粒度知识组织和文献解构识别,如基于粒度理论构建了多粒度知识组织模型并提出科技文献多粒度知识组织流程[25];或使用图卷积神经网络和对抗生成网络实现对科技文献结构功能的自动识别[26]。除了中文知识图谱[27]的构建,一些学者还探索了如何将知识图谱技术应用于研究热点分析[28]、知识抽取[29]、知识发现[30]等领域。在数据组织标准方面,国家科技图书文献中心(NSTL)建设的“统一文献元数据标准3.1”[31]。也有学者系统梳理了科技文献挖掘分析与服务的层级体系、内容体系,并探讨了标准体系的多维度特征,提出了优化策略[32]
综上所述,国内外学者围绕科技文献数据资源建设及应用已开展了丰富研究,并在数据处理、知识抽取和知识表示等方面取得了显著成效。然而,面向主题场景的科技文献AI数据体系的研究相对缺乏。为此,本文提出了一套面向主题场景的科技文献数据建设技术框架,建设“多类型基础数据库、多模态解构重组数据库以及细粒度语义挖掘知识库”3个层面数据体系,驱动主题场景下新科研范式的演化。

2 面向主题场景的科技文献AI数据体系技术框架

2.1 面向主题场景的科技文献AI数据体系

目前,面向主题场景的科技文献AI数据体系(以下简称AI数据体系)尚无明确的定义。本文从数据建设的角度,探讨其基本特征。该AI数据体系是利用数据治理技术,遵循数据组织规范,服务于科学研究,并以科技文献为基础建成的层次化知识库。它将海量、多模态、非结构化的科技文献数据转化为机器可读、可理解、可溯源的知识,为科学研究提供智能化的信息获取、知识发现、研究辅助等服务,进而助力“加速科学研究的进程”的目标。本文所探讨的AI数据体系包括“多类型原始数据库、多模态解构重组数据库以及细粒度语义挖掘数据库”3个层次,具体如图1所示。
图1 面向主题场景的科技文献AI数据体系层次

Fig.1 Data structure of scientific literature AI data system for thematic scenario

2.1.1 多类型基础数据库

多类型基础数据库是AI数据体系的第一层。该层包括经数据治理形成的论文、科研主体、专利、行业标准、科技报告、专业网站、会议、科技期刊、图书著作、基金项目、行业资讯、获奖数据等多类型基础数据库。这些多源异构的数据类型彼此互补,共同构成了一个全面的科技知识体系。例如,论文数据提供了最新的研究成果,专利数据反映了技术的创新方向,行业标准规范了技术发展,科技报告则提供了更深入的分析和解读,而基金项目数据则揭示了科研的资助情况和研究热点。只有整合这些多类型的数据,才能全面、深入地理解科技领域的现状和发展趋势,为AI训练提供坚实的数据基础。
构建科技文献基础数据库的前置工作是建立“科技文献数据可信来源目录”,以确保多类型科技文献数据来源的可靠性与全面性,从而为AI数据体系建设提供坚实的数据基础。例如,论文来源须覆盖“全球重要影响力期刊论文、会议论文、预印本论文、全球硕士博士论文”等重要来源;专利来源应覆盖“全球重要国家/组织的发明专利、实用新型、外观设计”等重要专利类型;图书来源须覆盖国内外出版社出版的自然科学、社会科学等类型;科技资讯数据须覆盖全球重要科研机构官网、行业网站、国家权威机构发布的资讯等。各类型数据都应建立相应的可信数据来源目录。

2.1.2 多模态解构重组数据库

多模态解构重组数据库是AI 数据体系的第二层。多模态解构重组数据是在多类型基础数据库的基础上,经过进一步加工处理后生成的。传统的科技文献分析多关注文本信息,对全文中图像、公式、表格等蕴含丰富知识的多模态信息利用不足。而多模态数据能够突破传统文本分析的局限,实现对科技文献更全面、深入地理解和利用。
基于论文、专利、图书等文献类型的全文文件(例如PDF),利用多模态语义分割算法,可以从原本难以被有效利用的文档中识别并提取文本、图像、公式、表格等多模态信息。更重要的是,通过匹配技术能够保留多模态信息与其上下文之间的关联和引用信息,例如文本所在的段落和图像、表格、公式的解释性信息和引用关系等,实现对科技文献更全面、更精细的知识获取和利用。

2.1.3 细粒度语义挖掘知识库

细粒度语义挖掘知识库是AI 数据体系的第三层。细粒度语义挖掘知识库通过对多模态解构重组数据进行深度挖掘而构建。其重要性在于提供更精细、深层次的知识表示,支持更专业的知识检索、推理和发现,语义挖掘知识库是数智赋能科学研究的核心阶段。细粒度语义挖掘知识库通常包含知识分类(如中图法分类、国民经济分类等)、实体(例如研究对象、方法)、关系(例如方法与对象之间的关联等)、属性(例如方法的优缺点等)以及语义信息(例如实体的定义、实验步骤、设备等),并通过知识融合和索引存储等步骤构建符合数据组织规范的知识库,为主题场景应用提供知识支撑。
运用自然语言处理技术(例如命名实体识别、关系抽取、文本分类) 从科技文献中提取关键信息;利用知识图谱技术构建知识之间的关联,形成结构化的知识表示;借助生成式模型挖掘隐藏的语义知识和关联。细粒度知识库为大模型训练提供高质量的结构化知识,显著提升模型的推理和理解能力。同时,它也为智能体构建提供丰富的专业知识,支持智能体进行更复杂的决策和行动。

2.2 技术框架整体设计

本文针对AI数据体系的构建,提出“3+5技术框架”。该框架的核心在于围绕3个层级的数据库建设,并通过5个阶段的实施来最终实现。3个层级的数据库分别为:多类型基础数据库、多模态解构重组数据库以及细粒度语义挖掘知识库。5个建设阶段依次为:多渠道数据来源扫描、多类型基础数据建设、多模态解构重组数据建设、细粒度语义挖掘知识建设以及多场景数据应用。技术框架如图2所示。
图2 面向主题场景的科技文献AI数据体系技术框架图

Fig.2 Technique structure of scientific literature AI data system for thematic scenario

2.2.1 多渠道数据来源扫描阶段

多渠道数据来源扫描是指围绕AI数据体系涉及的数据类型,开展全球数据可信来源扫描,形成论文、科研主体、产权专利等不同数据类型的可信数据来源目录。实现手段包括:制定数据源评估标准,利用专业数据库、搜索引擎、机构网站和开放数据平台等多渠道识别潜在数据源,并根据评估标准,筛选出可信数据来源,构建包含数据源详细信息的目录,以及建立动态更新机制,确保数据源的有效性和及时性。如建成的科技期刊论文的目录应包括:Science、PNAS、Cell、Nature、Annual Reviews、AGU、SPIE、PMC、DOAJ、IEEE、AIP、APS、ACS、SCI、SSCI、CPCI、BKCI、ESCI、A&HCI以及Elsevier、Wiley、Taylor & Francis、Springer Nature、CSCD等国内外知名的综合性与特色数据库。

2.2.2 多类型基础数据库建设阶段

多类型基础数据库建设是指通过一系列数据治理过程对相关主题领域的科技文献进行汇聚、清洗、融合、关联,构建多类型科技文献基础数据库。该过程涵盖5个关键步骤:首先,通过开放采集、商业采购以及自主建设等多渠道汇聚科技文献数据,确保数据来源的全面性;其次,利用数据清洗工具对原始数据进行格式规范化、字段缺失值填充和文件去重等处理,保障数据质量,提升数据的一致性。接着,运用数据文本解析工具从文献中抽取关键信息,如标题、作者、摘要、关键词等,并将这些信息结构化存储,以便于后续的检索和分析。同时,考虑到科技文献中Supporting等附件的重要性,使用专门的提取工具处理这些补充材料,确保数据的完整性;最后,通过多来源融合工具将不同来源、不同版本以及相关联的文献进行整合,消除数据冗余和冲突,构建一个完整的、一致的分布式数据库,为后续的深度知识挖掘和AI模型训练奠定坚实基础。

2.2.3 多模态解构重组数据库建设阶段

多模态解构重组数据库建设阶段的目标是将多类型基础数据中的科技文献进行解构,提取并组织其中的多模态信息,并将其转化为可供机器学习模型处理的向量化表示。研发多模态解构重组工具,对科技文献中的多模态信息进行识别和提取,同时,识别并记录知识对象间的关联关系,保留上下文信息。研发向量化特征提取工具,将文本、图片、表格、公式等多模态信息转化为向量表示,并存储于向量化库中,以支撑深度学习模型训练和知识挖掘。

2.2.4 细粒度语义挖掘知识库建设阶段

细粒度语义挖掘知识库的构建是指根据主题场景的知识需求,依赖于一系列智能工具,用以从多模态解构重组数据中提取、分析和组织知识。研发实体识别工具,用于识别科技文献中的关键实体,如研究对象、方法、材料等;研发分类标注工具,用于标记文本中的语义角色,例如识别实验步骤、实验条件等;研发关系挖掘工具,用于发现实体之间的关系,例如研究方法与研究对象之间的关系、不同技术之间的关联等;研发观点识别工具,用于提取科技文献中的观点和结论,例如对某种方法的评价、对未来研究方向的展望等;研发实验参数识别工具,用于从文本和表格中提取实验参数和数据;研发语料库构建工具,用于构建领域特定的语料库,支持模型训练和知识挖掘;以及实验过程识别工具,用于从文本中识别和提取实验过程的描述。这些工具协同工作,将非结构化的科技文献转化为结构化的知识表示,最终形成细粒度的语义挖掘知识库。

2.2.5 主题场景数据应用阶段

主题场景数据应用阶段旨在充分利用已构建的科技文献数据体系,赋能多种下游应用。常见应用包括:大语言模型训练、主题场景知识图谱构建以及知识检索支撑等。多层级数据体系为大语言模型训练提供丰富的语料,支持文本大语言模型、多模态大语言模型的训练,并可用于有监督微调(SFT)和Prompt工程。在主题场景知识图谱构建方面,通过图像实体类型标注、图片关系类型标注以及知识对象联系语义消歧等技术,构建结构化的领域知识图谱,为智能服务提供必要的知识背景和推理支撑。此外,AI数据体系也支持语义检索,结合高效的检索结果获取机制,确保模型能够快速访问和利用AI数据体系中数据,从而提升智能化服务水平。为了支持多场景应用的便捷性和可扩展性,AI数据体系通过构建统一的数据服务平台和开放API接口,为不同应用场景提供标准化数据访问服务。同时,平台提供灵活的查询和分析工具,方便用户根据自身需求定制化访问和利用多层级数据。

2.3 数据治理工具链

本文基于AI数据体系技术框架,提炼出了一套首尾贯通的数据治理工具链,如图3所示。该工具链对多源异构的科技文献数据资源进行一系列处理,包括数据汇聚、解析、清洗、融合、多模态解构重组以及细粒度语义挖掘,最终构建支撑多场景数据应用的科技文献数据体系。该工具链的核心组件包含7个关键工具:多来源数据汇聚工具、多格式数据解析工具、数据清洗工具、关联文件识别与获取工具、数据融合工具、多模态解构重组工具以及细粒度知识识别工具。这些工具的协同运作,确保了从原始数据到AI数据体系的构建过程的高效性和完整性。
图3 面向主题场景的科技文献AI数据体系建设工具链设计

Fig.3 Design of a tool chain of scientific literature AI data system for thematic scenario

2.3.1 多来源数据汇聚工具

多来源数据汇聚工具实现对多来源异构的科技文献的稳定、持续地采集并存储到本地化。关键技术包括采用分布式多节点采集,支撑采集能力弹性扩展;涉及动态IP 与智能验证技术防止采集防封堵;融合静态页面加载与模拟人类行为加载技术提升工具鲁棒性;对获取页面的内容知识解析采用自学习进化策略,通过模型训练策略,实现对不同内容结构中关键全文链接、DOI、期刊信息的智能提取。为了保证数据质量,工具在汇聚过程中应进行重复数据检测和元数据完整性校验。此外,工具支持灵活的采集策略配置和管理,例如设置采集频率、优先级、黑名单/白名单等,并具备完善的系统监控和日志记录功能,以监控采集性能和方便问题排查。

2.3.2 多格式数据解析工具

数据文本解析工具旨在高效地处理来自不同数据源(包括XML、HTML、TXT 和数据库) 的数据,并执行ETL (抽取、转换、加载) 过程。为了实现高效的数据抽取和转换,攻关核心技术包括多任务并行计算、数据重跑机制以及半自动化配置解析策略等。对于XML和HTML数据,工具利用XPath和CSS选择器精确定位和提取关键信息,并结合正则表达式处理复杂的文本模式。对于数据库数据,则采用SQL 查询语言提取结构化数据,并进行必要的数据类型转换。此外,为了适应不同格式的数据,该工具还支持用户自定义解析规则,例如基于正则表达式或特定分隔符的文本解析。通常提取的数据按照规范转换为统一的结构化格式,例如JSON或CSV,以便于后续的数据处理和分析。为了确保ETL过程的稳定性和可追踪性,该工具还提供了错误处理和日志记录功能,记录处理过程中的异常情况和关键步骤。

2.3.3 数据清洗工具

数据清洗工具旨在提升数据质量,为后续的知识挖掘和应用提供可靠的数据基础。其核心功能包括缺失值过滤、异常值识别、重复数据判断和数据对齐。在缺失值处理方面,可采用统计方法或机器学习模型进行填充或删除;异常值识别则基于统计分析或异常检测模型;重复数据判断通过比较关键属性识别重复记录;数据对齐则统一不同数据源的数据格式和标准。通过这些功能,数据清洗工具有效地解决了数据质量问题,确保数据的准确性、完整性、一致性和有效性,为构建高质量的科技文献AI数据体系提供重要保障。

2.3.4 关联文件识别与获取工具

关联文件识别与获取工具旨在补充科技文献信息,通过识别和获取与原文相关的补充材料,例如Supporting Documents、原始文档和实验数据等,从而提升数据的完整性和价值。其核心功能包括原文文件获取、实验数据获取和Supporting文件获取。关键技术包括:基于文献元数据(如DOI、PMID)的关联文件检索、基于网页结构分析的关联文件链接提取,以及文件格式识别和转换。通过这些技术,该工具能够自动识别并获取与科技文献相关的各种补充材料,并将其与原文关联存储,为后续的知识挖掘和应用提供更丰富的上下文信息。

2.3.5 数据融合工具

数据融合工具旨在整合来自不同来源的异构数据,消除数据冗余和冲突,构建结构统一、内容一致且全面的科技文献数据体系。其核心功能包括数据组织规范、字段融合、版本控制和实体消歧。关键技术包括:基于本体的知识表示和推理、用于实体消歧的相似度计算和聚类算法,以及用于版本控制的数据溯源和冲突解决机制。通过这些技术,数据融合工具实现将不同来源的数据进行语义对齐和整合,形成高质量的知识表示,并有效管理数据的版本和演变,为后续的知识挖掘和应用提供一致可靠的数据源。

2.3.6 多模态解构重组工具

多模态解构重组工具旨在将科技文献中的不同模态信息(例如文本、图像、表格、公式等)进行解构、提取和重组,以便更好地理解和利用文献内容。其核心功能是将PDF文档拆解为独立的文本、图像、表格和公式等元素,并保留它们之间的结构和语义关系。关键技术包括:基于PyMuPDF和PDFMiner的PDF 解析和图片提取、利用OCR技术识别全文中的文表格与公式、运用Grobid 识别和提取科技文献的文本信息,以及对提取的多模态信息进行内容向量化表示。通过这些技术,该工具能够将复杂的科技文献转换为多模态、结构化的、机器可读的格式,为后续的知识挖掘、多模态分析和应用提供基础。

2.3.7 细粒度知识识别工具

细粒度知识识别工具旨在从科技文献中提取关键的细粒度知识,为知识图谱构建、知识推理以及其他下游应用提供基础。其目标是从文本数据中识别和提取语义知识要素,从而将海量科技文献转化为可供机器理解和利用的知识资源。该工具的核心功能包括:科技文献分类,用于将文献划分到不同的学科领域;关键短语识别,用于提取文献中的核心概念和关键词;命名实体识别,用于识别文献中提及的特定实体,例如人名、机构名、地名、化合物名称等;文本综述,用于自动生成文献的摘要或概括性描述;关系识别,用于识别文献中不同实体之间的关系,例如研究者与研究机构之间的隶属关系、化合物与疾病之间的治疗关系等;以及话题识别,用于发现文献中讨论的核心话题和主题。为实现这些功能,该工具可采用多种关键技术,包括深度学习模型(例如卷积神经网络、循环神经网络、Transformer等)、预训练语言模型(例如BERT、RoBERTa等)以及生成式大语言模型。这些模型经过海量科技文献数据的训练,能够有效地理解和分析科技文献的语义信息,并从中提取出关键的细粒度知识。通过这些技术手段,细粒度知识识别工具能够将复杂的科技文献内容转化为结构化的知识表示,为构建科技文献AI数据体系、支持更深入的知识挖掘和应用提供强有力的技术支撑。

3 应用实践

面向水稻智能育种模型训练需求,基于本文提出的技术框架,构建了以论文、专利为主要知识载体的3层级结构的AI数据体系,以支持该主题下大模型的训练、有监督微调(Supervised Fine-Tuning,SFT)以及基于提示学习(Prompt-Based Learning)的训练。水稻智能育种主题场景下的AI数据体系包括多类型基础知识层、多模态解构重组知识层和细粒度语义挖掘知识层。基础知识层包含通用的科技论文、专利数据;多模态知识层包括将论文内容多模态化地解构数据;领域语义挖掘知识层则聚焦于水稻智能育种领域的专业知识,例如水稻品种审定数据、表型特征数据以及水稻谱系网络等。层次化AI知识体系能够更好地满足不同类型和不同阶段的大模型训练需求,有效提升模型在特定任务上的性能。通过数据治理工具链,将多源异构的数据转化为结构化的知识表示。本研究建设的水稻育种的AI 数据体系,已构建知识服务系统并研发了基于水稻表型的预测模型,为领域知识服务和辅助智能科研提供了重要支点。

3.1 水稻智能育种科技文献基础数据库

(1)科技论文基础数据库。数据范围主要基于已确定的核心期刊列表和领域关键词,涵盖研究论文、综述论文、会议论文等类型。水稻育种是交叉领域,涉及植物学、农学、遗传学、生物化学等多个学科。通过多渠道数据获取,对所收集的论文数据进行系统化的处理,包括数据汇聚、解析、清洗、关联文件识别与补充,以及数据融合等处理。最终,该数据库共收录约21 万篇科技论文,其中开放获取的论文12万篇,占总数57.1%。为水稻育种领域科学研究提供了高质量的科技文献基础。
(2)专利基础数据库。数据范围基于国际专利分类号(IPC)筛选A01H 的方法,经过数据汇聚、解析、清洗、关联文件识别与补充以及数据融合等处理,形成专利基础数据库,共13万篇,其中发明专利占80%以上,数据内容包括专利著录项、插图以及全文。

3.2 水稻智能育种多模态解构重组数据库

基于已构建的水稻育种领域基础数据库,开展多模态解构重组处理。建成科技论文多模态解构重组数据总计约18万篇,抽取多模态知识对象包括文本、图像、表格和公式等信息。解构重组数据包含以下字段:title(题名)、authors(作者)、keywords(关键词)和paragraphs(文章信息)。其中,paragraphs字段包含段落信息,每个段落信息由paragraph_idx(段落流水号)、head(段落标题)、paragraph(段落内容)以及type(段落属性,例如文本、图像、表格、公式)构成。图4展示了部分字段的组织形式。
图4 论文多模态知识对象解构重组数据样例

Fig.4 Sample of deconstruction data of multi-model knowledge objects in articles

建成专利多模态解构重组数据约11万篇,涵盖文本和图像两种模态信息。专利多模态数据包含以下字段:title(题名)、applicant(申请人)、abstract(摘要)、paragraphs(专利信息)和drawing(图片附件)。图5展示了部分字段的组织形式。
图5 专利多模态知识对象解构重组数据样例

Fig.5 Sample of deconstruction data of multi-model knowledge objects in patents

3.3 水稻智能育种语义挖掘知识库

(1)水稻品种审定数据建设。水稻品种审定数据是与水稻新品种的审定、登记及推广相关的系统化数据集,其建设方式主要包括开放数据采集、商业数据采购以及基于科技文献的多模态数据知识抽取。数据字段涵盖品种类型、适种地区、审定年份、品种来源、产量表现、栽培要点、特性描述、适宜范围、亲本组合及分布情况等多维信息。在本文提出的技术框架支持下,经过系统化数据治理,构建了约1.5万条数据记录的水稻品种数据库,为水稻品种研究、推广应用及相关领域的深入分析提供了高质量的数据支撑。
(2)水稻表型特征数据建设。水稻的表型特征涵盖形态、生理、生态及农艺性状等多个方面,是衡量水稻品种优劣和环境适应性的核心指标。这些特征包括生育期、株高、穗长、每穗总粒数、千粒重、整精米率、垩白度、胶稠度、直链淀粉含量等多维度信息。通过整合多模态数据及水稻品种数据,开展语义知识挖掘,利用生成式大语言模型实现表型特征语义的精准提取与结构化处理。建成了包含约90 万条数据记录的水稻表型特征数据库,为水稻品种分析、育种研究等提供了重要的数据支撑。
(3)水稻谱系数据建设。水稻谱系数据建设对于品种改良和遗传育种至关重要,它提供了宝贵的家族分析路径。本研究通过两种途径构建水稻谱系数据集:①基于品种审定信息提取谱系信息,确保数据来源的权威性和可靠性;②利用大模型语义理解技术,对科技文献多模态解构重组数据进行语义挖掘,提取水稻品种间的谱系关系。建成包含父本、母本和子代的谱系关系网络,数据量1 140 条。水稻谱系数据为深入研究水稻遗传特性、指导育种实践提供了可验证的数据支撑。该数据集的建立有助于加速水稻品种改良进程,提升育种效率。水稻谱系数据组织结构如图6所示。
图6 水稻谱系关系数据样例

Fig.6 Data sample of rice pedigree relationship

本研究构建的水稻育种的AI 数据体系,是面向智能育种需求场景实施的数据资源建设,支持水稻知识服务系统,并研制了基于水稻表型数据的预测模型。由于预测模型的具体细节将在另一篇文章中详细阐述,本文不再赘述。

4 总结

本文围绕面向主题场景的科技文献AI 数据体系建设的总体目标,提出了一套涵盖“多类型基础数据库、多模态解构重组数据库以及细粒度语义挖掘知识库”多层面知识的“3+5技术框架”,将AI 数据体系的建设过程划分为5个关键阶段,并详细阐述了每个阶段的核心目标与作用。进而从技术实施维度出发,本文提炼出7 个数据治理工具,系统说明了每个工具的实现目标、主要功能及关键技术。这套工具链贯穿科技文献AI数据体系建设的全流程,为科学文献数据治理和知识体系构建提供了全面支撑。然后,以水稻育种领域为例,基于论文和专利数据,构建了涵盖基础数据库、多模态解构重组数据和细粒度语义挖掘知识库的科技文献AI 数据体系。实践证明,该AI 数据体系有效支撑了主题数据建设,为科研人员提供了数据赋能科研的有效路径。同时,本文也存在一些不足之处,例如,缺乏对多层次数据质量的关联分析,尚未建立完整的质量评估体系来衡量数据的可用性和可靠性,这也是我们未来工作的重点所在。
1
张智雄, 曾建勋, 夏翠娟, 等. 回应AIGC的信息资源管理学人思考[J]. 农业图书情报学报, 2023, 35(1): 4-28.

ZHANG Z X, ZENG J X, XIA C J, et al. Information resource management researchers' thinking about the opportunities and challenges of AIGC[J]. Journal of library and information science in agriculture, 2023, 35(1): 4-28.

2
马海群, 廉龙颖. 信息资源管理领域ChatGPT的研究图景——一项系统性文献综述[J]. 图书情报工作, 2024, 68(19): 114-127.

MA H Q, LIAN L Y. Research landscape of ChatGPT in the field of information resources management: A systematic literature review[J]. Library and information service, 2024, 68(19): 114-127.

3
孙坦, 张智雄, 周力虹, 等. 人工智能驱动的第五科研范式(AI4S)变革与观察[J]. 农业图书情报学报, 2023, 35(10): 4-32.

SUN T, ZHANG Z X, ZHOU L H, et al. The transformation and observations of AI for science(AI4S) driven by artificial intelligence[J]. Journal of library and information science in agriculture, 2023, 35(10): 4-32.

4
张敏, 李唯, 范青. 基于语义信息的术语加权算法提升科技文献检索的准确性[J/OL]. 图书馆杂志, 2024: 1-18.

ZHANG M, LI W, FAN Q. Improving the accuracy of scientific literature retrieval through term weighting algorithms based on semantic information[J/OL]. Library journal, 2024: 1-18.

5
张智雄, 刘欢, 于改红. 构建基于科技文献知识的人工智能引擎[J]. 农业图书情报学报, 2021, 33(1): 17-31.

ZHANG Z X, LIU H, YU G H. Building an artificial intelligence engine based on scientific and technological literature knowledge[J]. Journal of library and information science in agriculture, 2021, 33(1): 17-31.

6
曾建勋. 科技文献数据生产要素价值释放策略思考[J]. 图书情报知识, 2024: 1-10.

ZENG J X. Strategies for releasing the value of scientific and technologicalliterature data production factors[J/OL]. Documentation,information & knowledge, 2024: 1-10.

7
Clarivate developer portal[EB/OL]. [2024-07-10].

8
Elsevier developer portal[EB/OL]. [2024-07-10].

9
ADILA N. Implementation of web scraping for journal data collection on the SINTA website[J]. Sinkron, 2022, 7(4): 2478-2485.

10
MUTLU M A, ULKU E E, YILDIZ K. A web scraping app for smart literature search of the keywords[J]. PeerJ computer science, 2024, 10: e2384.

11
SINGH I, SATYAM, SEMWAL A, et al. Text processing and analysis pipeline for scientific literature[C]//2024 International Conference on Advances in Computing, Communication and Applied Informatics (ACCAI). Piscataway, New Jersey: IEEE, 2024: 1-5.

12
CHEN J, LING M, LI R, et al. VIS30K: A collection of figures and tables from IEEE visualization conference publications[C]//IEEE Transactions on Visualization and Computer Graphics. Piscataway, New Jersey: IEEE, 2021: 3826-3833.

13
MISHRA P, KUMAR S, CHAUBE M K. Evaginating scientific charts: Recovering direct and derived information encodings from chart images[J]. Journal of visualization, 2022, 25(2): 343-359.

14
MIRKAZEMY A, ADIBI P, EHSANI S M S, et al. Mathematical expression recognition using a new deep neural model[J]. Neural networks, 2023, 167: 865-874.

15
GEMELLI A, VIVOLI E, MARINAI S. Graph neural networks and representation embedding for table extraction in PDF documents[C]//2022 26th International Conference on Pattern Recognition (ICPR). Piscataway, New Jersey: IEEE, 2022: 1719-1726.

16
CAMMARANO A, VARRIALE V, MICHELINO F, et al. A framework for investigating the adoption of key technologies: Presentation of the methodology and explorative analysis of emerging practices[J]. IEEE transactions on engineering management, 2024, 71: 3843-3866.

17
VERMA S, BHATIA R, HARIT S, et al. Scholarly knowledge graphs through structuring scholarly communication: A review[J]. Complex & intelligent systems, 2023, 9(1): 1059-1095.

18
DIAZ GONZALEZ A D, HUGHES K S, YUE S H, et al. Applying BioBERT to extract germline gene-disease associations for building a knowledge graph from the biomedical literature[C]//2023 the 7th International Conference on Information System and Data Mining (ICISDM). New York: ACM, 2023: 37-42.

19
DESSÍ D, OSBORNE F, REFORGIATO RECUPERO D, et al. CS-KG: A large-scale knowledge graph of research entities and claims in computer science[M]//SATTLER U, HOGAN A, KEET M, et al, eds. Lecture Notes in Computer Science. Cham: Springer International Publishing, 2022: 678-696.

20
Journal article tag suite[EB/OL]. [2024-07-10].

21
CHOUDHURY M H, SALSABIL L, JAYANETTI H R, et al. MetaEnhance: Metadata quality improvement for electronic theses and dissertations of university libraries[C]//2023 ACM/IEEE Joint Conference on Digital Libraries (JCDL). Piscataway, New Jersey: IEEE, 2023: 61-65.

22
袁里驰. 基于BiLSTM-CRF的中文分词和词性标注联合方法[J]. 中南大学学报(自然科学版), 2023, 54(8): 3145-3153.

YUAN L C. A joint method for Chinese word segmentation and part-of-speech tagging based on BiLSTM-CRF[J]. Journal of central south university (science and technology), 2023, 54(8): 3145-3153.

23
黄佳妮, 于丰畅. 基于表格检索和机器学习二阶段的文献表格相关文本自动识别[J]. 数字图书馆论坛, 2022(11): 34-42.

HUANG J N, YU F C. Automatic recognition of table-related text in literature based on table retrieval and machine learning two-stage method[J]. Digital library forum, 2022(11): 34-42.

24
李英群, 李亚菲, 裴雷, 等. 基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法研究[J]. 数据分析与知识发现, 2023, 7(11): 158-171.

LI Y Q, LI Y F, PEI L, et al. Identifying and extracting figures and tables from academic literature based on YOLOv5-ECA-BiFPN[J]. Data analysis and knowledge discovery, 2023, 7(11): 158-171.

25
赵冠壹, 韩松花. 科技文献的多粒度知识组织研究[J]. 情报科学, 2023, 41(8): 134-138, 161.

ZHAO G Y, HAN S H. Multi-granularity knowledge organization of sci-tech literature[J]. Information science, 2023, 41(8): 134-138, 161.

26
刘昊坦, 刘家伟, 张帆, 等. 科技文献的多层次结构功能识别[J]. 信息资源管理学报, 2024, 14(3): 90-103.

LIU H T, LIU J W, ZHANG F, et al. Multi-level functional structure recognition of scientific literature[J]. Journal of information resources management, 2024, 14(3): 90-103.

27
任亮, 杜薇薇, 刘伟利. 面向科技文献知识元的知识图谱构建研究[J]. 情报科学, 2022, 40(9): 26-31.

REN L, DU W W, LIU W L. The construction of knowledge graph for knowledge elements of scientific literature[J]. Information science, 2022, 40(9): 26-31.

28
刘成山, 杜怡然, 汪圳. 基于细粒度知识图谱的科技文献主题发现与热点分析[J]. 情报理论与实践, 2024, 47(5): 131-138.

LIU C S, DU Y R, WANG Z. Topic discovery and hotspot analysis of scientific literature based on fine-gained knowledge graph[J]. Information studies: Theory & application, 2024, 47(5): 131-138.

29
陈文杰, 胡正银, 石栖, 等. 融合知识图谱与大语言模型的科技文献复杂知识对象抽取研究[J]. 现代情报, 2024: 1-20.

CHEN W J, HU Z Y, SHI X, et al. Research on scientific and technological literature complexknowledge object extraction fusing knowledge graph and largelanguage[J/OL]. Journal of modern information, 2024: 1-20.

30
范昊, 郑小川, 热孜亚·艾海提, 等. 基于知识图谱的标准文献多维知识发现研究[J]. 情报理论与实践, 2023, 46(9): 175-184.

FAN H, ZHENG X C, REZIYA A, et al. Research on multidimensional knowledge discovery of standards based on knowledge graph[J]. Information studies: Theory & application, 2023, 46(9): 175-184.

31
元数据注册系统[EB/OL]. [2024-07-10].

32
曹晓丽, 李涵昱, 张智雄. 科技文献挖掘分析与服务标准体系建设研究[J]. 中国科技期刊研究, 2024, 35(10): 1374-1383.

CAO X L, LI H Y, ZHANG Z X. Construction of a standard system for mining, analysis, and service of scientific literature[J]. Chinese journal of scientific and technical periodicals, 2024, 35(10): 1374-1383.

Outlines

/