DeepSeek赋能领域知识图谱低成本构建研究

  • 史忠艳 1 ,
  • 雷洁 1 ,
  • 孙坦 1, 2 ,
  • 赵瑞雪 1, 3 ,
  • 李娇 1 ,
  • 黄永文 1 ,
  • 鲜国建 , 1, 2
展开
  • 1. 中国农业科学院农业信息研究所,北京 100081
  • 2. 农业农村部 农业大数据重点实验室,北京 100081
  • 3. 国家新闻出版署 农业融合出版知识挖掘与知识服务重点实验室,北京 100081
鲜国建,博士,研究员,研究方向为大数据融汇治理与知识图谱。Email:

史忠艳,硕士研究生,研究方向为知识图谱

雷洁,博士,助理研究员,研究方向为信息资源管理、知识组织

孙坦,博士,研究馆员(二级),研究方向为数字信息描述与组织

赵瑞雪,博士,研究员,研究方向为农业信息管理系统

李娇,博士,副研究员,研究方向为知识图谱与知识服务

黄永文,博士,研究员,研究方向为知识组织与知识服务

收稿日期: 2025-01-22

  网络出版日期: 2025-05-30

基金资助

国家社会科学基金一般项目“多模态科技资源的语义组织与关联发现服务研究”(22BTQ079)

中国科协青年人才托举工程项目“面向科研论文的科学论证语义识别与解析研究”(2022QNRC001)

Research on DeepSeek-Empowered Low-Cost Construction of Domain-Specific Knowledge Graphs

  • SHI Zhongyan 1 ,
  • LEI Jie 1 ,
  • SUN Tan 1, 2 ,
  • ² 1, 3 ,
  • ZHAO Ruixue 1 ,
  • LI Jiao 1 ,
  • HUANG Yongwen , 1, 2
Expand
  • 1. Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081
  • 2. Key Laboratory of Agricultural Big Data, Ministry of Agriculture and Rural Affairs, Beijing 100081
  • 3. Key Laboratory of Knowledge Mining and Knowledge Services in Agricultural Converging Publishing, National Press and Publication Administration, Beijing 100081

Received date: 2025-01-22

  Online published: 2025-05-30

摘要

[目的/意义] 在以DeepSeek为代表的开源大语言模型驱动知识工程范式变革的背景下,本研究针对传统领域知识图谱构建中存在的专家规则依赖度高、人工标注成本大、多源数据处理效率低等瓶颈问题,提出基于DeepSeek的领域知识图谱低成本构建方法。 [方法/过程] 通过构建本体建模、数据融合、智能抽取的方法框架,基于领域认知特征设计本体模型,构建多源异构数据融合方法实现数据结构统一表征,创新性地将DeepSeek与知识抽取相结合,提出语义理解增强、提示工程的领域知识抽取技术体系。 [结果/结论] 以生猪全产业链领域知识图谱构建为实证对象,定义产业链结构、21类核心实体及其属性关系,实现面向智慧养殖的生猪产业知识建模。实验表明,DeepSeek-R1在零样本学习条件下,对生猪疫病防治场景的实体识别F1值达0.92。本研究为领域知识图谱构建提供了“机器初筛——人工精校”协同范式,验证了大语言模型在垂直领域的知识抽取潜力,对推动DeepSeek赋能知识图谱低成本构建具有研究价值与实践参考。

本文引用格式

史忠艳 , 雷洁 , 孙坦 , 赵瑞雪 , 李娇 , 黄永文 , 鲜国建 . DeepSeek赋能领域知识图谱低成本构建研究[J]. 农业图书情报学报, 2025 : 1 -14 . DOI: 10.13998/j.cnki.issn1002-1248.25-0218

Abstract

[Purpose/Significance] In recent years, large language models (LLMs) have achieved revolutionary breakthroughs in semantic understanding and generation capabilities through massive text pre-training. This has injected brand-new impetus into the field of knowledge engineering. As a structured knowledge carrier, the knowledge graph has unique advantages in integrating heterogeneous data from multiple sources and constructing an industrial knowledge system. In the context of a paradigm shift in the field of knowledge engineering driven by the emergence of open-source LLMs such as DeepSeek, this study proposes a cost-effective method for constructing domain knowledge graphs based on DeepSeek. We aim to address the limitations of traditional domain knowledge graphs, such as high dependence on expert rules, the high cost of manual annotation, and inefficient processing of multi-source data. [Methods/Processes] We proposed the semantic understanding-enhanced, cue-engineered domain knowledge extraction technology system, constructed on the methodological framework of manually constructing ontology modelling. In order to process the acquired data, the ETL\MinerU and other tools were used, and the DeepSeek-R1application programming interface was then invoked for intelligent extraction. The ontology model was designed based on domain cognitive features and the multi-source heterogeneous data fusion method was used to achieve the unified characterization of the data structure. Furthermore, the DeepSeek and knowledge extraction were combined. Our system provides a cost-effective reusable technical paradigm for constructing domain knowledge graphs, as well as efficient knowledge extraction, leveraging the advanced powerful textual reasoning ability of the DeepSeek model. [Results/Conclusions] In this study, we take the construction of a domain knowledge map of the entire pig industrial chain as an empirical object. We define the structure of the industrial chain, identify 21 types of core entities and describe their attribute relationships. We achieve the knowledge modelling of the pig industry with a focus on smart farming. The methodology developed in this research was also employed to process and extract knowledge from online and offline resource data. Preliminary experiments demonstrate that DeepSeek-R1 exhibits an F1 value of 0.92 when recognizing the attributes of 161 diseases and 11 types of entities in pig disease control scenarios under zero-sample learning conditions. These experiments also ascertain the reusability of the methodology for other links in the chain. Concurrently, the constructed knowledge map of the entire industrial chain of pigs will be utilized for the design and validation of intelligent application scenarios, with the objective of promoting the intelligent information processing in the pig industry. This study proposes a synergistic paradigm for constructing domain knowledge graphs using DeepSeek, a method that combines deep learning with manual calibration for efficient knowledge extraction and ensure accuracy. This approach ensures the efficiency of knowledge extraction and verifies the knowledge extraction potential of LLMs in vertical domains. The study's findings contribute to the extant literature and offer a practical reference for the promotion of DeepSeek-enabled cost-effective construction of knowledge graphs.

0 引言

大语言模型[1]是近年来人工智能领域的重大突破,它通过分析海量文本数据进行训练,支持理解复杂语义关系、根据上下文生成文本、解答专业领域问题,推动了自然语言处理领域研究范式的转变,在知识抽取、文本分类、语义推理等复杂零样本任务中展示出了显著优势。尽管表现卓越,大语言模型在处理知识密集型任务和复杂知识推理时难以避免产生幻觉和事实性错误。知识图谱作为一种基于语义信息网络的数据模型,为海量、多源、异构、动态的数据表达、组织、管理及利用提供了更为有效的方法,帮助解决领域内信息杂乱无序带来的问题以及实现下游智能分析、智能查询和智能问答等服务[2-4]。知识图谱以结构化的三元组形式存储大量事实知识。传统的领域知识图谱构建仍具有较大挑战,存在有领域本体建模数据整合和标准化难题、语料标注面临高成本和一致性挑战,知识抽取受限于技术准确性和自动化水平等。
知识图谱与大模型的协同演化呈现出双向赋能的特征。一方面,大模型凭借其深层次语义理解能力与少样本迁移学习特性,通过自动化实体关系抽取、上下文感知推理等技术手段,有效突破了传统领域知识图谱构建中存在的知识覆盖不全、隐性关联挖掘不足等瓶颈[5];另一方面,知识图谱通过提供结构化的知识体系与可验证的推理路径,为大型语言模型注入了符号逻辑的约束机制,在增强问答系统事实准确性的同时,通过知识嵌入与动态检索技术,显著抑制了生成式模型固有的幻觉现象,并弥补了其在复杂规划任务中的时序推理短板[6]。特别地,2025年开年,深度求索(DeepSeek)公司推出的DeepSeek-R1凭借超越ChatGpt-4的复杂推理能力,为各行各业赋能,引发了全球的关注,推动了知识服务从“静态存储”向“智能推理”的范式转变。在大语言模型的推动下,知识图谱焕发出新的生产力。
目前,知识图谱相关研究多集中于特定领域或行业,具有更高的专业性和准确性,可以满足领域或行业的需求,支持智能化应用。知识图谱在教育[7]、医学[8]、金融经济[9]和军事工业[10]等领域研究广泛,但对农业领域的研究相对滞后。农业农村部印发的《农业农村部关于大力发展智慧农业的指导意见》和《全国智慧农业行动计划(2024—2028年)》中提出,要全方位提升智慧农业应用水平,推进畜牧养殖智慧化,培育一批智慧农场,推进全产业链数字化改造[11]。中国农业全产业链还处于起步阶段,存在有传统模式层级过多,信息不对称,风险规避能力弱,与消费者终端需求关联较少,大数据和信息资源整合还有待深入等问题,亟需从成熟行业研究中寻找延伸途径,实现中国农业产业化升级。
因此,本文将从通用领域知识图谱构建研究出发,探讨DeepSeek-R1赋能知识图谱构建可行性,以生猪全产业链为例进行实践检验,并对知识图谱的应用场景进行展望。

1 研究现状

领域知识图谱理念源于通用知识图谱,知识图谱概念由谷歌于2012年正式提出,本质上是一种基于图模型的关联网络知识表达,旨在将世界万物之间的关联关系的逻辑显式地表示出来,是语义搜索、智能问答、决策支持等智能服务的基础技术之一[4]。领域知识图谱作为知识图谱的一个分支,对领域知识表示和知识获取层面都更为细化,质量要求更加苛刻,对专家参与的依赖度更高,自动化程度较低,在知识应用层面则表现出更为优异的推理链条和智能化应用复杂性[12]。领域知识图谱构建技术基于通用知识图谱构建技术,具体分为本体构建、知识抽取、知识融合、知识推理、知识存储可视化,核心环节在于对异构数据源的整合与加工,其核心流程是通过自动化提取与语义解析技术从非结构化文档中捕获关键数据元素,并运用图数据库对知识实体及其关联进行可视化表征[13]。作为知识工程的基础环节,知识抽取技术的选型与实施效果直接决定了知识图谱的完备性与准确性,知识抽取先后经历了三大技术路线:基于专家经验的传统规则和模板、基于统计机器学习的方法以及基于深度学习的技术[14]。上述采用的知识抽取方法一定程度上解决了数据复杂的问题,但是其泛化能力受限于训练数据的单一领域性,在针对数据来源不同、结构不同的情况下,存在着对数据标注要求高、模型训练耗时长、知识更新困难等问题[15],依赖于大量人工高质量标注数据、无法满足特殊领域可解释性需求等,如何高效的整合处理数据资源成为难题。
随着大语言模型不断取得进展,基于DeepSeek、ChatGPT、Qwen等大语言模型对自然语言较好的理解和推理能力,在知识抽取、文本分类、语义推理方面展现了优势,为领域知识图谱构建提供了新的解决方案。在文化领域,已有研究利用生成式大语言模型结合提示工程模版,成功识别出了非遗领域陶瓷工艺实体及实体间关系[16]。在金融财会领域,有学者利用大语言模型GPT-4o进行自动化知识抽取,构建中国会计准则知识图谱[17]。在农业领域,已有基于DeepSeek-v2进行知识抽取的研究,对《中国小麦品种志》内的种质数据抽取准确率较高,降低了人工参与的数据提取工作成本[18]。上述方法不依赖任何人工标注数据,利用大模型强大的语义推理能力,自动化地完成知识抽取任务,降低了数据标注成本[19]。这一技术突破为领域知识图谱的构建提供了新范式,基于大语言模型的抽取框架展现出对多环节异构数据的高效整合能力,可以显著提升在处理文本中的多谓词嵌套句与隐性因果关系时的语义解析精度。
综上所述,大语言模型在各领域自然语言处理任务中均展现出了优势,为知识图谱构建提供了重要的技术支持。但从整体上看关于大语言模型与知识组织的融合研究还不多,特别地,围绕DeepSeek-R1大模型技术与知识图谱构建的研究更少,部分领域的相关研究还有许多亟待解决的问题。

2 基于DeepSeek的知识图谱构建流程框架

2.1 构建目标与流程设计

知识图谱的构建流程涉及领域本体建模、知识获取、知识抽取与识别、知识存储与应用多个步骤。利用大语言模型零样本或少样本学习的信息提取能力,可以直接从非结构化文本中提取实体和关系,有效提升了知识图谱构建的效率和质量。目前大语言模型赋能知识图谱构建的方式主要是对构建环节中的知识抽取与识别进行增强。本研究旨在探讨DeepSeek-R1模型在知识图谱构建中零样本知识抽取效能,评估其数据处理能力和实体识别准确率,为领域知识图谱构建提供低成本、可复用的技术范式。基于DeepSeek的知识图谱构建流程如图1所示,主要分为4个框架:领域本体建模、多学科多来源数据获取、零样本知识抽取与识别、知识存储与应用。
图1 基于DeepSeeK-R1的知识图谱构建流程

Fig.1 Knowledge graph construction workflow based on DeepSeek-R1

2.2 本体建模

本体是同一领域内的不同主体之间进行交流的语义基础[4],本体的核心目标是通过定义一组领域内的概念和类别,以及它们之间的关系来组织信息和知识。本体被广泛应用于知识图谱领域。对于特定领域知识图谱本体构建方法而言,通常有自顶向下和自底向上两种逻辑思维模型。然而,本体的设计与维护需要大量的精力。大语言模型与本体的融合创造了一种强大的协同效应。大语言模型强大的语义理解能力可以帮助增强扩展本体,极大地减少了本体更新和维护所需要付出的人工和时间成本。本体可以为大语言模型提供必要的语境,消解语义歧义,同时可以与大语言模型进行结合,融合结构化与非结构化知识,对目标领域实现更为全面的理解。但是,本体建模环节中人工参与仍不可或缺,需要对领域有深入的理解,涉及识别关键概念及其关系,需要监督引导,确保生成内容的准确性和相关性。
对于领域本体,目前的构建方法主要有人工构建、复用已有本体以及自动化。本文为明确某领域的专业术语、关系及其领域公理,实现一定程度的领域知识复用,采用人工构建方法,设计本体步骤主要为定义领域和范围,收集相关信息来源,将与领域相关的内容编纂整理成为语料库,根据现有的行业标准、分类法则等进行概念关系构建。

2.3 数据获取处理

知识图谱数据层构建根据来源可分为网络资源和纸质资源,其中包含了结构化数据、半结构化数据和非结构化数据。根据领域本体获取数据的类型特点,本文针对网络资源和纸质资源分别设计了数据获取处理方法,为利用大语言模型进行知识抽取做准备。
对于网络资源,本文基于Kettle和Jsoup集成,实现半结构化数据网站数据采集,将多个字段解析。Kettle作为一款ETL(Extract-Transform-Load),即数据抽取、转换、装载的工具,通过Java语言编写,可以从不同的数据源获取数据并对数据进行处理。知识图谱数据层是构建环节的重中之重,面对生猪全产业链的复杂、多源异构数据,通过Kettle使用Jsoup库来连接并解析指定URL的网页内容,可以大大提高数据获取和处理的效率。本文基于Jsoup利用Kettle构建了采集并解析网站HTML信息的工作流,实现了网页数据采集的自动化管理。
对于纸质资源,多途径获取电子版后,本文基于MinerU进行PDF文档内容提取。作为一体化的文档提取工具,MinerU的主要技术方法基于多模块文档解析,利用PDF-Extract-Kit3中的各种开源模型,达到对复杂布局和公式的高质量识别结果。MinerU具有支持广泛的文档类型、适应多样化的文档布局、过滤无关内容、识别页面多元素、精确分割段落和合并跨页内容的特点[20],便于快速精准处理书籍等电子文档,获取结构化数据和图片数据集。

2.4 零样本知识抽取

知识抽取是知识图谱构建的基础,旨在从非结构化或半结构化文本数据中定位实体并识别实体间的语义联系,提高知识抽取的效率和质量直接影响知识图谱的构建以及后续智能知识服务应用。传统的知识抽取相关研究多集中于监督或半监督式学习,需要利用标注数据训练模型来学习实体的特征和上下文关系。在面对大量且多样化的信息时,存在需要大量人工数据标注和依赖专家制定高质量标注指南等困境。为了解决这一困境,零样本学习技术的思想被提出,利用已有的知识来推理未知场景或领域下的数据。与此同时,大语言模型具备强大的语义理解能力,可以从大量的无标注文本中捕捉丰富的上下文信息,为零样本知识抽取提供了强有力的解决办法,显著提升了知识抽取的效率。根据本文内容可知,目前基于大语言模型的小样本或零样本知识抽取实验结果优异,证明了此方法的可行性。

2.4.1 DeepSeek

在零样本知识抽取任务中,模型选择需兼顾领域知识理解、推理精准度与工程部署可行性。DeepSeek-R1作为首个完全基于强化学习(RL)训练的大模型,摒弃传统监督微调对标注数据的依赖,使其在复杂逻辑推理任务中表现出色,模型通过自我反思机制修正识别错误,强化学习驱动,支持长链推理,并提供详细的推理步骤。其次,DeepSeek-R1作为一个深度推理模型,设计MoE架构模拟人类分工协作,由多个专精于特定任务的“专家”模型组成,通过门控网络调度,确保每个数据得到专业的处理,显著提高了资源利用率和推理速度,在自然语言处理、图像识别等场景中展现出巨大潜力。并且DeepSeek-R1提示词写作技巧与通用模型不同,摒弃传统结构化提示词的角色、任务、步骤等设定,直接表达目标并提供上下文信息和关键细节可以使其快速推理和创作,同时其支持128k tokens长上下文窗口,可以较优进行长文本处理与知识关联。最重要的是,DeepSeek-R1在成本效益与本地部署上较其他大模型具有优势,通过其提供的API服务可以获取模型回答,这种方式无须在本地部署模型,降低了部署成本,提高了灵活性。
基于上述指标,本文以DeepSeek-R1作为知识抽取工具,通过调用其API接口进行对领域关键实体属性信息进行抽取,进行零样本无标注的低成本构建实验。首先,将源数据文本按照段落或标题进行截断,整理归纳相关内容,提高信息提取的准确性;其次,结合源数据和领域本体模型特点,进行知识要素划分,确定提取信息维度,进行提示词设计。

2.4.2 提示词

在DeepSeek等国产大模型推动下,人机交互模式从传统的“匹配预测”依赖人工预设的规则库与知识图谱,向“提示词响应”过渡[21]。提示词(Prompt)是用户输入给大语言模型的指令或信息,帮助模型理解任务类型并生成响应,需要明确指令、上下文、输入具体数据和输出格式。提示词作为人机语义交互的核心载体,连接了人类意图和AI理解,为人工智能提供必要的背景信息,明确指定需要完成的任务,影响输出的形式和内容,引导人工智能唤起如理解复杂文本、总结信息、生成内容、逻辑推理等能力,使人与机器的对话更贴近现实世界的语言交互习惯,降低了技术使用门槛,极大地促进了普通用户与复杂大模型系统之间的流畅交互。
提示词目前存在五大框架,RTF框架、ROSES框架、SAGE框架、CoT模式[22]与CoD模式[23]表1为5个框架的相关特点。
表1 提示词框架

Table 1 Prompt frames

框架 介绍 关键字段
RTF框架 最简单的入门框架,适用于通用任务,快速问答、信息查询等

角色(ROLE):指定大模型角色,明确专业背景和承担角色

任务(TASK):定义具体任务或要解决的问题

格式(FORMAT):指定输出格式

ROSES框架 将交互细分为5个核心部分,进行目的明确的交流,较RTF框架细化了其任务描述部分,适合需要明确角色和目标的交互,强调场景和解决方案,如咨询服务、问题解决等

角色(Role):指定大模型的角色

目标(Objective):描述要实现的目标或想要大模型完成的任务

场景(Scenario):提供与请求相关的背景信息或上下文

预期解决方案(Expected Solution):定义期望的结果

步骤(Steps):询问实现解决方案所需的具体步骤或操作

SAGE框架 用于明确优化与人工智能模型的交互工程,适用于需要详细情况和行动的复杂任务

情况(Situation):描述任务执行的上下文或背景

行动(Action):明确需要进行的操作或步骤

目标(Goal):指出任务完成后应达到的目的或效果

预期 (Expectation):对输出结果的具体要求,包括格式、时间限制等

CoT模式 CoT模式称为思维链模式,让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程可以显著提升大模型的性能

指令(Instruction):用于描述问题并且告知大模型的输出格式

逻辑依据(Rationale):CoT的中间推理过程,可以包含问题的解决方案、中间推理步骤以及与问题相关的任何外部知识

示例(Exemplars):以少样本的方式为大模型提供输入输出对的基本格式

CoD模式 由Salesforce、麻省理工学院和哥伦比亚大学的研究人员推出的一种提示方法,使用递归的方式来创建越来越好的输出提示,生成的文章摘要更加密集且适合理解。适用于总结性、长输出格式内容场景

指令(Instruction):明确大语言模型进行的任务和目的

步骤(Steps):设置执行任务步骤,并定义相关实体

指南(Guide):确定输出细节以及格式

DeepSeek采用的MoE架构,可以根据任务类型自动组合专家模块,利用简单的提示词可以获得大量的结果。目前大语言模型输出结果的质量参差不齐,与提供的信息数量和完善度密切相关。当前通用大语言模型在开放域信息抽取中展现出强大潜力,但其在垂直领域的应用面临困境。领域知识图谱与提示词工程的深度融合路径研究具有广阔前景,在知识抽取环节中,首先大语言模型隐含的知识需要与领域本体对齐,因此在设计领域知识图谱知识抽取提示词时,要根据领域本体模型设计构建抽取字段类别;其次,非结构化文本中含有多种同义词,应避免实体消歧困难,提示词中应给予消歧指南;最后,自由文本描述难以自动生成关系明确的知识图谱三元组,常需二次整理或生成,应在提示词中规定输出格式。例如,用户需要提取疫病信息,可以根据本体设计模型将疫病知识要素划分为3个核心维度:①疾病本体特征。包含疾病中文名称、别名、英文名称、病原类别,构建疾病的基础身份识别体系。②病理传播特征。涵盖病原体信息、传播途径、易感时期,揭示疾病发生发展的生物学规律。③防治知识特征。整合典型临床症状、治疗措施、预防策略,形成完整的疾病应对知识链。通过划分知识要素,确保字段覆盖疫病预防知识需求。在提示词设计中,规定症状描述的术语统一,提升后续自然语言处理的准确度以及确保知识图谱疫病症状实体消歧。具体地,在提示词框架设计中规定了数据输出格式,CSV格式的选择既保证机器可读性,便于导入数据库,又保留人工可编辑性,支持后续准确度校验。通过调用DeepSeek-R1的API接口,以设计的提示词为约束,要求其从所提供的疫病描述信息中提取出相关字段。基于该思路所构建的知识抽取任务的提示词流程如图2所示。
图2 DeepSeek及提示词框架图

Fig.2 ​DeepSeek and prompt engineering framework diagram

3 领域知识图谱构建实例分析

本文主要以智慧养殖为方向,围绕生猪饲料喂养、兽药施用、品种选育、疫病防控、养殖环境等环节,采集相关数据资源,建立丰富的语料知识库,以构建生猪全产业链知识图谱为实证对象,进行分析。

3.1 本体层构建

针对本文所研究的生猪全产业链,基于自顶向下构建多层次领域本体模型,在预先严格定义的知识规范和结构下抽取信息,确保知识的准确性。同时从数据出发,结合信息抽取中发现的新实体和实体关系类型,自底向上对领域本体模型进行迭代优化,在原有知识结构非必要调整的情况下,补全语料,尽可能满足智慧养殖定义生猪全产业链知识体系的本体构建需求。针对这一需求,本体设计出的实体、属性以及关系,如图3所示。生猪全产业链本体划分为上、中、下游:产业链上游是主要是养殖投入品以及养殖准备,如饲料、兽药、品种类型等;中游是养殖的核心环节,如生长环境、生猪疾病等,为生猪产业提供具体的智慧养殖场景,包括品种选育、疫病防控等;下游是屠宰加工,设计生猪从养殖到屠宰的过程以及加工品的种类,如屠宰方式、加工产品类型等。
图3 生猪全产业链本体模型概要

Fig.3 ​Ontology model framework for the entire swine industry chain

3.2 知识抽取设计

3.2.1 数据获取与实验设计

聚焦生猪全产业链中疫病防治场景,基于DeepSeek-R1进行零样本知识抽取方法的验证分析。本实验所需要的生猪疫病相关语料数据主要是从“猪病通”网站和机械工业出版社出版的《图解猪病鉴别诊断预防》图书等收集整理。对于不同类型的数据源格式,采用多样化的处理方法来进行数据整合,获得的161种疾病信息及789张猪病插图数据。结合生猪全产业链本体模型中疫病防治相关实体关系,设计如下提示词:“请帮我从以下文字中提取生猪疾病的相关实体,比如疾病类别(猪的病毒性传染病、产科病、寄生虫病、内科病、外科病、细菌性传染病、营养缺乏和代谢病、中毒病)、疾病中文名称、疾病中文别名、英文名称、病原、病原类别、症状、传播途径、易感时期、治疗措施、预防措施等,其中类似发热发烧这样的同义词统一,以csv格式输出”。通过调用DeepSeek-R1的API接口进行零样本知识抽取,部分抽取结果如图4所示。
图4 DeepSeek知识抽取结果(部分)

Fig.4 DeepSeek knowledge extraction results (partial)

3.2.2 实验与结果分析

针对上文讨论的基于DeepSeek-R1进行的零样本知识抽取结果,本研究采用精确度(Precision)、召回率(Recall)和F1分数指标3个普遍使用的经典评价指标来衡量DeepSeek-R1模型的性能。以下是3个评价指标的计算公式,包含TP、FP、FN三个参数,其中TP指的是模型正确识别为实体的实例,FP指的是模型错误识别为实体的实例,FN则表示实际存在的实体但未被模型识别为实体的实例。
(1)精确度(Precision)。精确度表示模型正确识别的实体数量占所有被识别为实体的数量比例,计算公式为:
P = T P ( T P + F P )
(2)召回率(Recall)。召回率表示模型正确识别的实体数量占所有实际存在实体的数量比例,计算公式为:
R = T P ( T P + F N )
(3)F1分数。F1分数表示精确度和召回率的调和平均数,用于综合考虑模型的精确度和召回率,其数值越高,说明模型在精确度和召回率方面表现越好。计算公式为:
F 1 = 2 P R P + R
具体地,本研究根据提示词设计的疾病类别、中文名称、中文别名、英文名称、病原、病原类别、症状、传播途径、易感时期、治疗措施以及预防措施这11个字段对照信息源逐一进行人工校验,分别记录TP、FP、FN值,再计算得出PRF1值。
由实验结果表2图5所示,除病原、病原类别、治疗措施以外,其他字段识别及抽取结果的去准确率P值和F1均达到0.9以上,并且全部字段的召回率R值均接近1.0,达到了较为不错的实验结果。特别地,大模型对生猪疾病的中文名称、中文别名、英文名称抽取结果的P值达到1.0,精确地识别出了所有信息。
表2 各字段识别及抽取结果

Table 2 ​Field-wise recognition and extraction results

字段名称 P R F1
疾病类别 0.99 0.96 0.97
中文名称 1.00 0.96 0.98
中文别名 1.00 0.97 0.99
英文名称 1.00 0.95 0.97
病原 0.72 0.95 0.82
病原类别 0.61 0.94 0.74
症状 0.93 0.95 0.94
传播途径 0.97 0.96 0.97
易感时期 0.93 0.95 0.94
治疗措施 0.77 0.94 0.85
预防措施 0.95 0.95 0.95
图5 各字段识别及抽取结果数据透视图

Fig.5 Pivot chart of identification and extraction results by field

实验结果表明,基于DeepSeek-R1的生猪疾病零样本知识抽取在整体准确性方面展现出较高潜力,但仍存在若干关键性技术瓶颈。首先,实验通过每批10种疾病信息输入的迭代测试进行,采用结构较为规范的文本数据输入,但召回率仍未全覆盖,经人工复核确认7种典型病症(包括仔猪副伤寒、急性猪丹毒、慢性猪丹毒、急性猪巴氏杆菌病、慢性猪巴氏杆菌病、慢性仔猪副伤寒及猪胎衣不下)的显著漏检现象。推测其成因可能涉及输入序列的token长度离散度较大导致的注意力机制偏移,以及疾病命名相似度超过预设阈值引发的特征混淆。其次,针对生猪疾病病原和病原类别字段的识别精确度较低。通过人工校验发现系统表现出明显的过度生成倾向:数据源中62种未明确病原的疾病,模型仍尝试从上下文提取非相关因素作为病原、病原类别解释,比如将猪蹄裂的病原和病原类别错误归因为“饲料能量过低、地面过于粗糙、微量元素不平衡、钙磷失调、猪疥螨感染、维生素缺乏”和“营养和环境因素”,而非标注为“无”。同样,对于治疗措施这一字段,模型存在临床实践认知偏差,将暂无特效药的病毒性传染病中的预防性“疫苗接种”误判为治疗措施手段,这种知识迁移表明系统在目标字段信息缺失时,容易采用幻觉知识进行不当补全而非维持合理空值。
综合实验误差分析表明,当前DeepSeek-R1尚未完全克服生成式模型固有的“幻觉”缺陷,在信息缺失场景下易产生非事实性填充行为。针对当前模型的局限性,未来研究应着重通过算法优化与架构升级来抑制模型的“幻觉”现象,而现阶段也可通过提高输入数据结构化程度和增强领域知识约束双重路径进行可靠性优化。综上所述,本研究提出的知识抽取框架不仅在保持核心字段准确率的基础上,显著降低了知识获取的时间成本与人力投入,将语义适配较小调整后,可扩展应用于生猪全产业链及其他领域的知识结构化工作,构建“机器初筛——人工精校”的协同工作范式。尽管在复杂语义推理场景仍需持续优化,但其在效率与成本的综合优势已充分验证了DeepSeek作为领域知识工程辅助工具的技术可行性。

3.3 图谱可视化及应用

结合3.2零样本抽取获得数据进行人工校验后,构建的知识图谱在生猪养殖中具有以下场景应用的可能性。

3.3.1 知识问答与科学普及

本研究对生猪全产业链知识图谱的构建,支撑了生猪品种选育、疫病防控、饲喂管理、屠宰加工等环节,广大从业人员可以方便地查询面向养殖的所需信息。疫病防控作为生猪养殖中最为重要的一环,知识图谱可以为疾病识别、预防治疗、施用兽药、鉴别诊断、控制传播等提供知识问答与科学普及应用支持。图6展示了生猪常见疾病信息的查询,针对猪支原体肺炎这一实体进行查询,可以清楚了解到患病猪只图片,以及疾病的类别为“猪的细菌性传染病”,病症有“腹式呼吸、肺突变、生长缓慢、持续性咳嗽”,传播途径为“接触传播”,病原为猪肺炎支原体,同猪病支原体与滑液支原体病的病原类别相同为“支原体”,并且该疾病多发生于哺乳及断奶仔猪等信息。具体地,可以系统地查看节点属性,进一步了解到猪支原体肺炎疾病的别名、英文名以及治疗措施和预防措施。知识问答与科学普及这一应用场景,可以广泛地为生猪业内业外人员进行养殖技术支持,缓解专家指导压力,通过图文一体的数据融合模型,更好的进行知识推理。
图6 猪支原体肺炎疾病节点

Fig.6 ​Disease node: porcine enzootic pneumonia

3.3.2 智能诊断与辅助治疗

生猪养殖环节中加强对技术人员、管理者、饲养员的疫病专业知识培训,对提高其诊断与治疗的能力十分重要。利用知识图谱中的疾病关联信息和多个病症信息,可以协助养殖人员锁定猪只所患疾病,并及时采取隔离、疫苗接种等多种措施。图7为通过Cypher语句对同时具有“发热”“呼吸困难”“抽搐”3个症状的疾病信息进行查询,得到疾病信息为猪瘟,可以在早期采用疫苗接种、净化种猪、消毒等措施进行预防。之后可以进一步查询猪瘟疾病对应的所有症状,进行患病可能性推断,在养殖过程中及时进行决策。这种功能有助于兽医和养殖人员快速准确地诊断疾病情况和发病规律,为早期病症进行治疗和预防。
图7 通过多个症状锁定疾病

Fig.7 ​Multi-symptom correlation for disease diagnosis

3.3.3 疫病防控与精准推送

生猪疫病对肉产品价格、食品安全等具有极强影响,养殖户或企业应提高对易发疫病的精准把控。基于知识图谱中的“传播途径”这一实体,后续结合养殖猪场的地理位置,可以追踪疫情源头并模拟传播路径,例如“空气传播”“接触传播”等,快速划定隔离带,对生猪传染性疫病进行防控。同时该知识图谱可以梳理病原与易感时期的关系,进行分阶段的标准化消毒、免疫流程的精准推送,比如针对“寒冷季节”和“接触传播”两个节点之间的关系查询,得到图8结果,说明该时期易患猪咽炎病,可以向养殖人员推送“避免饲喂粗硬饲料;防寒保暖;定期消毒”的预防措施以及对已患病猪只进行“抗生素或磺胺类药(青霉素);局部消毒(高锰酸钾冲洗);封闭疗法”的治疗措施。
图8 寒冷季节接触传播疾病查询

Fig.8 Enquiry about cold season contact transmission diseases

4 结论与展望

大语言模型凭借在自然语言处理、复杂推理任务以及跨领域应用中的卓越表现,为知识图谱构建开辟了全新的研究路径与思路。本文针对领域知识图谱构建过程中依赖人工标注数据集、专家编写标注规则以及自动化程度较低的困境,创新性地提出利用DeepSeek-R1进行领域知识图谱低成本构建。以生猪全产业链为例,设计本体模型,对多源异构数据进行零样本知识抽取,展望基于该图谱的智能应用场景,从理论和实践层面均验证了DeepSeek在垂直领域知识工程中的可行性。该研究构建了利用大语言模型进行低成本知识抽取的工作流程,为领域知识体系的数字化建设提供了切实可行的实施方案,同时也展现出良好的可迁移性,能够为其他领域的知识图谱构建提供参考与借鉴。尽管本研究取得了一定进展,但仍存在依赖人工建模、数据维度缺乏、大语言模型应用中语义偏差等技术局限,未来研究需改进本体建模方法、整合动态数据并优化大语言模型知识约束机制,进一步提高知识图谱构建的质量和应用效果。
1
秦小林, 古徐, 李弟诚, 等. 大语言模型综述与展望[J]. 计算机应用, 2025, 45(3): 685-696.

QIN X L, GU X, LI D C, et al. Survey and prospect of large language models[J]. Journal of computer applications, 2025, 45(3): 685-696.

2
王萌, 王昊奋, 李博涵, 等. 新一代知识图谱关键技术综述[J]. 计算机研究与发展, 2022, 59(9): 1947-1965.

WANG M, WANG H F, LI B H, et al. Survey on key technologies of new generation knowledge graph[J]. Journal of computer research and development, 2022, 59(9): 1947-1965.

3
徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4): 589-606.

XU Z L, SHENG Y P, HE L R, et al. Review on knowledge graph techniques[J]. Journal of university of electronic science and technology of China, 2016, 45(4): 589-606.

4
刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.

LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques[J]. Journal of computer research and development, 2016, 53(3): 582-600.

5
车万翔, 窦志成, 冯岩松, 等. 大模型时代的自然语言处理: 挑战、机遇与发展[J]. 中国科学: 信息科学, 2023, 53(9): 1645-1687.

CHE W X, DOU Z C, FENG Y S, et al. Towards a comprehensive understanding of the impact of large language models on natural language processing: Challenges, opportunities and future directions[J]. Scientia sinica (informationis), 2023, 53(9): 1645-1687.

6
XU D R, LI X H, ZHANG Z H, et al. Harnessing large language models for knowledge graph question answering via adaptive multi-aspect retrieval-augmentation[J/OL]. arXiv, 2024.

7
李晓理, 刘春芳, 耿劭坤. 知识图谱与大语言模型协同共生模式及其教育应用综述[J/OL]. 计算机工程与应用, 2025: 1-15.

LI X L, LIU C F, GENG S K. A survey of the collaborative symbiosis mode between knowledge graph and large language model and its education application[J/OL]. Computer engineering and applications, 2025: 1-15.

8
韩普, 陈文祺, 叶东宇. 面向中文电子病历的多模态知识图谱构建方法研究[J]. 图书情报工作, 2024, 68(23): 30-40.

HAN P, CHEN W Q, YE D Y. Research on multimodal knowledge graph construction method for Chinese electronic medical record[J]. Library and information service, 2024, 68(23): 30-40.

9
毛瑞彬, 朱菁, 李爱文, 等. 基于自然语言处理的产业链知识图谱构建[J]. 情报学报, 2022, 41(3): 287-299.

MAO R B, ZHU J, LI A W, et al. Construction of knowledge graph of industry chain based on natural language processing[J]. Journal of the China society for scientific and technical information, 2022, 41(3): 287-299.

10
姚奕, 陈朝阳, 杜晓明, 等. 多模态知识图谱构建技术及其在军事领域的应用综述[J]. 计算机工程与应用, 2024, 60(22): 18-37.

YAO Y, CHEN Z Y, DU X M, et al. Survey of multimodal knowledge graph construction technology and its application in military field[J]. Computer engineering and applications, 2024, 60(22): 18-37.

11
陈怡然, 熊竹青, 周脚根, 等. 畜禽养殖业数据应用展望和问题分析[J]. 中国科学院院刊, 2024, 39(11): 1982-1993.

CHEN Y R, XIONG Z Q, ZHOU J G, et al. Prospect and problem analysis of industry data application in livestock and poultry breeding[J]. Bulletin of Chinese academy of sciences, 2024, 39(11): 1982-1993.

12
刘烨宸, 李华昱. 领域知识图谱研究综述[J]. 计算机系统应用, 2020, 29(6): 1-12.

LIU Y C, LI H Y. Survey on domain knowledge graph research[J]. Computer systems & applications, 2020, 29(6): 1-12.

13
NGUYEN H L, VU D T, JUNG J J. Knowledge graph fusion for smart systems: A Survey[J]. Information fusion, 2020, 61: 56-70.

14
张才科, 李小龙, 郑胜, 等. 基于大语言模型的知识图谱构建及应用研究[J]. 计算机科学与探索, 2024, 18(10): 2656-2667.

ZHANG C K, LI X L, ZHENG S, et al. Research on construction and application of knowledge graph based on large language model[J]. Journal of frontiers of computer science and technology, 2024, 18(10): 2656-2667.

15
ZHAO W X, ZHOU K, LI J, et al. A Survey of Large Language Models[J/OL]. arXiv, 2025.

16
周正达, 王昊, 汪琳, 等. ChatKG: 一种基于大语言模型和提示工程的非遗知识图谱构建框架: 以中国非遗陶瓷制作工艺为例[J/OL]. 图书馆杂志, 2025: 1-30.

ZHOU Z D, WANG H, WANG L, et al. ChatKG: A framework for constructing intangible cultural heritage knowledge graphs based on large language model and prompt engineering: A case study of Chinese intangible cultural heritage ceramics craft[J/OL]. Library journal, 2025: 1-30.

17
陈宋生, 王明. 基于大语言模型的财会知识图谱构建及应用展望[J]. 会计之友, 2025(5): 152-161.

CHEN S S, WANG M. Construction and application prospect of accounting knowledge map based on large language model[J]. Friends of accounting, 2025(5): 152-161.

18
韦一金, 陈彦清, 王秀东, 等. 基于大语言模型的《中国小麦品种志》信息提取[J]. 数据与计算发展前沿(中英文), 2025, 7(1): 175-185.

WEI Y J, CHEN Y Q, WANG X D, et al. Information extraction from Chinese wheat varieties journal based on large language model[J]. Frontiers of data & computing, 2025, 7(1): 175-185.

19
皮乾坤, 卢记仓, 祝涛杰, 等. 一种基于大语言模型增强的零样本知识抽取方法[J/OL]. 计算机科学, 2025: 1-11.

PI Q K, LU J C, ZHU T J, et al. A zero-shot knowledge extraction method based on large language model enhanced[J/OL]. Computer science, 2025: 1-11.

20
WANG B, XU C, ZHAO X M, et al. MinerU: An open-source solution for precise document content extraction[J/OL]. arXiv, 2024.

21
张文杰. 提示词治理: DeepSeek等国产大模型内容生成的人机协同模式[J/OL]. 苏州大学学报(哲学社会科学版), 2025: 1-12.

ZHANG W J. Prompt governance: A study on human-machine collaboration models for content generation in the era of large language models baesd on DeepSeek[J/OL]. Journal of Soochow university (philosophy & social science edition), 2025: 1-12.

22
SUN J, PAN Y T, YAN X H. Improving intermediate reasoning in zero-shot chain-of-thought for large language models with filter supervisor-self correction[J]. Neurocomputing, 2025, 620: 129219.

23
ADAMS G, FABBRI A R, LADHAK F, et al. From sparse to dense: GPT-4 summarization with chain of density prompting[J]. Proceedings of the conference on empirical methods in natural language processing conference on empirical methods in natural language processing, 2023, 2023(4th New Frontier Summarization Workshop): 68-74.

文章导航

/