DIS Agent: New Paradigm of S&T Documentation and Information Service for the Fifteenth Five-Year Plan

  • Xiwen LIU 1, 2 ,
  • Yun FU 1 ,
  • Huanan WEI 1, 2
Expand
  • 1. National Science Library, Chinese Academy of Sciences, Beijing 100190
  • 2. Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100049

Received date: 2024-10-19

  Online published: 2025-01-23

Abstract

[Purpose/Significance] Every transformation and development in scientific and technological (S&T) documentation and information services has revolved around the application of advanced information technologies. Currently, cutting-edge AI technologies such as large-scale models and agents are driving a new wave of paradigm shifts in scientific research. Information institutions should consider how the paradigm of S&T documentation and information services should evolve to lay a strategic foundation for the development of the "15th Five-Year Plan" development. [Method/Process] This study uses objective induction and theoretical reasoning methods. It starts with the three driving modes of AI empowering scientific research and combines them with the essence of information work. The study concludes and summarizes that AI empowers S&T documentation and information services in two main areas: information infrastructure (data production, information organization, and knowledge representation) and information generation (intelligence computation). Agents integrated with large-scale modelling technologies demonstrate exceptional, even scientist-level, data understanding capabilities, suggesting that they are already capable of enabling information generation. [Results/Conclusions] Building and deploying DIS agents is an inevitable choice for information institutions as they prepare for the "15th Five-Year Plan". Driven by DIS agents, S&T documentation and information services will achieve higher levels of automation and intelligence, freeing information professionals from tedious basic data processing tasks and allowing them to focus on generating high-value information and supporting decision making. In the ecosystem of S&T documentation and information services driven by DIS agents, clusters of agents form the core and work together both internally and externally: Internally, DIS agents achieve a high level of automation in four core functions: data production, information organization, knowledge representation, and intelligence computation through the integration of planning tools, basic data and infrastructure resources. Externally, through interactions between agents, information experts, and specific intelligence scenarios, a new working paradigm emerges: "human and multi-agent collaboration". In the future, when planning and designing the implementation of DIS agents, it is essential to focus on both the technical adaptability at the current R&D stage and the potential security risks in future application stages. This ensures the efficient and secure use of DIS agents in S&T documentation and information services.

Cite this article

Xiwen LIU , Yun FU , Huanan WEI . DIS Agent: New Paradigm of S&T Documentation and Information Service for the Fifteenth Five-Year Plan[J]. Journal of Library and Information Science in Agriculture, 2024 , 36(12) : 20 -34 . DOI: 10.13998/j.cnki.issn1002-1248.24-0666

0 引言

未来发展选择可以从过去的历史中找寻演变逻辑与灵感。纵观情报学发展历程和变革驱动因素可知,其格局的变化通常是由新信息技术的采纳和旧信息技术的淘汰所驱动的[1]。2024年以来,GPT-4o[2]、LLaMA[3]等大模型(Large Language Models,LLMs)以远超人类能力进化的速度和规模分析处理大量数据,具备了达到与人类相当水平的推理和规划能力的潜力[4]。人工智能(Artificial Intelligence,AI)即将成为“执行科学发现的自主研究人员”[5]
作为当前最先进的AI技术之一,大模型和Agent一直以来被认为是实现通用人工智能(Artificial General Intelligence,AGI)的关键技术[6,7],融合了大模型的智能体更是呈现出自主性、具身性和互联性等关键特征[4],能够承担许多由人类执行的分析、创造和决策职责[8-10],提高了广泛情境中的复杂交互和认知决策[11-13]。将融合大模型的Agent应用于解决科学问题,即科学智能体,正在以革命性的方式改变和颠覆几乎所有科学领域的知识发现模式[14]。对时代的认识不能犯错误,错过时代转变机遇将遭受历史性的降维打击[15],文献情报工作亟待采纳智能体。
未来的发展路线都是建立在已有知识的基础之上[16],不同时代背景下的发展理念和技术生产力水平,塑造出文献情报工作鲜明的阶段特征[17]。正确判断并合理选择文献情报工作未来的发展道路,需要全局掌握其来时路、清醒认知脚下路。本文通过梳理总结中国及中国科学院文献情报工作的阶段特征、剖析变革驱动要素,揭示科技情报工作发展转型的核心驱动力量。以AI为立足点,认知其赋能科技情报工作的方式,理解当前AI带来的科技情报工作范式变革,结合前期大量的思考认知积累[17-21],分析判断文献情报机构未来的工作模式选择。

1 中国科技情报工作的特征和变革驱动要素

1.1 中国科技情报工作发展历程

学者们从情报学研究对象、情报技术、情报服务、情报工作等多个不同视角对中国科技情报工作的发展阶段进行研究划分[22-24]。从情报工作视角开展的研究,尽管阶段划分之间存在差异,但都认为中国科技情报事业的开端是1956年,即中国科学院科学情报研究所(中国第一个综合性科技情报机构)成立[25]。近70年历程,中国科技情报事业所面临的需求和技术能力都在变迁,科技情报工作的目标定位和发展特点也在逐步变化。中国科技情报工作可以划分为4个阶段[26]:第一阶段是1956至1978年,逐渐建立国家、省、市级的体系化的科技情报机构,主要工作目标是获取国外的科技资料,来支撑中国科技战略规划的制定;第二阶段是1979至1991年,面对科技情报工作现代化问题,发展计算机情报检索技术和系统[27];第三阶段是1992至2014年,致力于建设电子图书馆、网络图书馆、数字图书馆[28],使得科技文献和知识广泛流动,以知识服务支撑科技决策,增强政府决策的科学性和战略性;第四阶段是2015年后,科技情报机构开始明确将拓展智库功能作为发展目标(表1)。
表1 中国科技情报工作的发展历程26

Table 1 The development history of China S&T documentation and information service

发展阶段

1956—1978年

第一阶段

1979—1991年

第二阶段

1992—2014年

第三阶段

2015年至今

第四阶段

目标定位

获取国外科技资料

支撑中国战略规划

检索作为核心问题

建立联机检索体系

建设数字图书馆

知识服务支撑决策

建设数据资源体系

情报工作智库化转型

发展特点

建立科技情报机构

形成全国情报系统

电子计算机规范应用

科技情报工作现代化

接入世界互联网络

文献知识广泛流动

数据要素驱动

AI技术应用

1.2 中国科学院文献情报工作的发展

中国科学院文献情报系统由院级文献情报中心和研究所所级图书馆组成,采用全院协同的工作模式。中国科学院文献情报工作的开端始于1950年设立的院图书管理处、1956年设立的科学情报研究所、1956年设立的中国科学情报大学[29],1958年科学情报研究所划转科技部、中国科学情报大学并入中国科学技术大学。1977年中国科学院决定科技情报工作由图书馆承担,不另设科技情报所[30]
中国科学院文献情报中心的发展可以划分为4个阶段:1950—1978年,文献保障服务为主的阶段;1979—2005年,发展信息服务、情报服务的创新阶段;2006—2015年,发展数字服务和知识服务的转型阶段;2016年至今,拓展智能和智库服务的变革阶段(图1)。
图1 中国科学院文献情报工作发展历程

Fig.1 The history of CAS’s S&T documentation and information service

(1)文献保障服务阶段。科技文献服务、图书馆咨询服务(1950—1978年)。从1950年到1978年,中国科学院文献情报中心经历了从无到有的建设,发展成拥有完善服务体系的自然科学图书馆。图书馆服务的主要特征是文献保障,核心能力体现在印本馆藏的建设和参考咨询服务上,建立了一个全面覆盖多学科、多类型、多语言的馆藏体系,编制专题目录、联合目录和文献索引等,构建了较为完整的全国性检索刊物体系[31],围绕科研和管理需求,开展专题文献、文摘、参考咨询等工作。
(2)信息化发展创新阶段。科技信息与科技情报服务(1979—2005年)。1978年12月,中国科学院文献情报中心确立图书情报一体化体制[30],率先在图书馆启动计算机应用研发,设立国际联机检索服务终端[31]。2001年组织建设国家科学数字图书馆(CSDL)。数字图书馆主要特征是信息化文献服务和科技信息服务,服务的核心能力,既包含传统的印本馆藏、书目数据库和全文数据库建设,也包括信息服务系统建设,提供个性化的系统门户、虚拟阅览室和网络资源导航,并通过科学计量分析等方式为用户提供服务。
(3)数字化知识服务转型阶段。数字化信息服务与知识服务(2006—2015年)。2006年,中国科学院文献情报系统,按照数字化发展逻辑,提升整体科技情报服务能力,面向一线科研人员开展科技情报研究、信息专报、信息平台与工具建设等工作,文献情报服务从传统图书馆服务向知识服务转化。2006—2015年间中国科学院文献情报工作实施知识服务转型,围绕用科研工作流建设和提供数字化文献情报服务[32]。科技情工作的核心能力是采集数字化文献和网络信息,构建集成检索平台、文献数据库和学科服务网络,提供学科服务、情报服务和集成系统服务,包括情报分析报告、专利分析报告、研发信息平台或工具等。
(4)智能化和智库服务拓展阶段。智能化服务与智库研究(2016年至今)。2015年,国家发布《关于加强中国特色新型智库建设的意见》,中国科技情报机构开始向智库化转型[26]。“十四五”期间,中国科学院文献情报中心建立科技信息大数据体系,发展科技创新知识服务,聚焦科技情报大数据平台,开展数据型文献情报服务[29]。将智能化作为其核心特征,以数据要素、技术要素为重要驱动力,融合文献数据库、学术信息内容、科研信息等多种资源,建立信息集成能力、计量评价工具和情报研究能力,满足用户对于知识服务、态势分析、学术评价等的核心需求。

1.3 驱动中国科技情报工作变革的要素——情报需求与信息技术

中国科技情报工作是伴随适应把握国外科技动态的需求和科技决策服务需求而生,致力于满足不断变化的科技和社会需求,同时,技术发展也不断引领着科技情报工作的变革与突破。纵观中国科技情报工作的发展历程和特征,信息技术发展和应用是主要的演进脉络与驱动要素,智能技术采纳一直是科技情报行业从业人员长期追求的期望,如自动信息采集、机器翻译、多源信息融汇、结构化情报分析等。在需求和技术的双力驱动下(图2),科技情报工作从“对内服务”到“向外服务”,从“现场服务”到“远程服务”,从“文献提供服务”到“情报分析服务”,从“情报分析服务”到“决策情报支撑服务”,从“情报服务”到“智库研究”等,其服务模式和服务内容均已发生巨大变化。中国科学院科技情报工作的长期发展中,采纳信息技术逐步叠加,形成了以信息技术为核心的科技情报布局,满足多层次、多目标的科技情报服务需求。
图2 中国科学院文献情报工作的需求拉动与技术驱动

Fig.2 Demand-driven and technology-driven CAS's development of S&T documentation and information service

1.3.1 需求拉动,形成了“文献保障-信息检索-知识服务-智库研究”的多元叠加型情报需求

从情报工作生命周期的视角看,学者一致认为“情报流程始于需求分解、终于情报需求满足,既受决策驱动,又以支持决策为目标”[33],情报工作的起点是情报需求,基于情报需求的服务场景,情报工作人员以提供政策性的、可选的建议或解决方案为产出目标[19]。情报需求的来源和层次十分多样,可以来自国家战略层面、组织发展层面和个人发展层面等,也可以来源于政府、企业、高校等不同类型的社会主体。
20世纪50年代中期,由于中国对国外科技动态和成果的把握不力,直接影响到中国科技和经济的发展。国家对科技情报工作的需求,直接导致了1956年建立综合性的科技情报机构,开始搜集、研究和报道国内外的科技状况和成就,为全国的科学工作服务。随后50年建立了覆盖全国、省、市各个级别的科技情报研究所以及各个行业的情报研究所,基本上形成多层次的科技情报工作系统,保证了科技情报事业发展过程中,为科研创新服务、为经济建设服务、为管理决策服务等需求和目标的落实[34]
1978年,面对国内检索刊物体系受到破坏,急需恢复和进一步发展以支撑科技决策的需求,根据科学技术发展规划,制定了《关于建立健全我国科技文献情报检索刊物体系的方案(草案)》和《1979—1985年全国科技文献检索刊物编译出版规划》,支持中国开始有计划,有组织,有领导地统一建立中国的检索刊物体系。至此,中国科技检索刊物向体系化方向跨出了一大步,开始走向系统建设阶段[34]
2006年,中共中央、国务院召开全国科学技术大会,制定《国家中长期科学和技术发展规划纲要(2006—2020年)》,明确提出了用15年时间把中国建设成为创新型国家的战略目标,并提出发展国家科技创新体系的战略决策。面对国家科研创新的需求,科技情报工作向知识服务的方向演化,建设检索平台和服务网络,为科研一线服务。
2015年,在中国特色新型智库建设政策的指示下,中国科技工作进入新发展阶段,也为科技情报工作的发展带来了新的契机。面对管理决策和科研创新需求,中国的科技情报工作发展在延续传统信息服务工作的基础上,拓展以知识组织、知识挖掘为主的智能服务,进一步向人与智能相结合的、以智能计算、智力开发为主的智能服务升华[34]
当前,随着社会对知识和智能服务需求的增加,图书馆和情报机构的工作对象从传统的图书、文献扩展到了数据、信息、知识、情报、思想的全链条,驱动着文献情报工作向更深层次、更广范围、更加智能的方向发展。可以说,科技情报工作应国家科技战略发展的需要而诞生,随着国家科技战略发展和社会经济发展的需要而调整和变革[34]

1.3.2 技术驱动,形成了“信息检索-大数据集成-数据挖掘分析-情报推断与生成”的替代型模式

科技情报事业的发展受到信息技术和情报技术这两大关键技术动力的推动。科技情报领域始终位于信息技术应用的前沿,情报服务模式的形成和优化在很大程度上会受到信息技术和情报技术发展的影响。信息技术的广泛使用、文献工作的持续标准化、情报存储和分析技术的开发,情报传播平台的建设、信息组织和管理技术的发展,不断推动着情报内容和情报方法的革新,促进服务模式的转变[34]。在信息技术革命的冲击下,科技情报工作经历几大变革,努力创建新型科技情报工作范式。
在中国科技情报工作开创初期,科技情报工作以文献为基础,基于科技文献的外部和内部特征,向用户提供检索和利用服务。改革开放后,计算机技术开始出现和应用,中国开始建立论文数据库、专利数据库,打开了联机检索时代的序幕[35]。1994年,中国接入互联网络,网络技术的应用,全面应用数字化技术,形成了以检索技术为核心的情报信息获取,主动推送满足用户需求的“经过加工、提炼与处理之后的情报”。
21世纪,云计算、大数据、AI等新一代信息技术快速发展,促使情报工作开始向智能服务转型,情报工作者以智能化手段加工信息、激活知识、运用情报[36]。在互联网新技术和大数据时代的推动下,获取不同来源、不同形式、多个维度的全量数据成为可能,情报研究工作积极探索整合数据分析、智能算法与决策支持等技术,以构建全面利用数据资源并实现智能化的情报服务环境[19]。当前,技术发展带来的影响体现在情报需求分析、数据采集、加工处理和分析挖掘等的方方面面,基于AI的理念,智能化检索等技术为情报用户精准提供情报资源,可视化技术和智能推送技术使情报推送和发布更为便捷[35]
新一代信息技术应用形成了众多的工具、方法、平台等,而新工具与方法应用必然推动图情领域理论范式的演化[29]。2022年11月,美国OpenAI公司发布了生成式AI聊天工具ChatGPT,以人类反馈指导的强化学习算法框架为基础[37],具有出色的自然语言处理、数据分析、推理推断等能力。以ChatGPT模型为代表的生成式大语言模型技术的出现对各个领域产生了根本性的影响,智能体(AI Agent)已成为AI赋能专业流程的基础形式[38]。以数据驱动为基础的科技情报领域迎来了重要变革[39],情报智能体将直接影响科技情报领域中的信息组织管理、信息检索查询、情报研究分析、科技监测评估等核心职能和主体业务[19]

2 “十五五”期间中国科技情报工作的战略选择——智能体赋能

生成式AI技术深刻影响几乎所有领域科学研究,正在改变科学研究的过程与模式,科学研究智能体已经展现了巨大的发展潜力[40]。中国科技情报工作已经走过了手工检索工具、计算机检索系统、数字图书馆服务系统、知识集成和知识分析平台等阶段,正朝着知识与情报生成方向迈进。信息技术已经从替代信息采集、信息组织、信息检索,走向替代情报分析、情报生成的情报研究智能化阶段。面向“十五五”时期,中国科技情报工作亟待充分利用大模型等生成式AI技术,搭建情报智能体生态,优化重组已有科技情报工作流程,将智能体与信息采集、信息组织、信息存储、信息检索、信息分析等工作深度融合,以智能体赋能科技情报工作,形成科技情报智能体生态,提升科技情报工作的效率。

2.1 AI赋能科学研究已经改变当代科学研究范式

科学研究的两个中心目标是科学理解和科学发现,形成科学见解和理论的基础是收集、转换和理解数据[41]。近些年来,大数据、AI、高性能计算、混合云等信息技术迅猛发展,为加速数据密集型科学范式下的知识发现创造了条件[42]。尤其是AlphaFold2[43]成功解决了长达50年的蛋白质折叠难题,强有力地证明了AI在解决极具挑战性的科学问题方面拥有巨大潜能。毋庸置疑,AI是数智时代科学研究的利器,充分理解其赋能科学研究的驱动方式不仅必要、而且必需。
理解AI赋能科学研究的驱动方式,首先应该清楚AI的能力特征。根据智能程度和计算特征,业界一般将AI的发展分为4个阶段:计算智能、感知智能、认知智能、自主意识。其中,①计算智能,强调海量数据的存储和高效精准处理,这一阶段为后续发展奠定庞大的数据资源和强劲的计算资源;②感知智能,让机器拥有类人的视觉、听觉和触觉等感官能力,能够识别和理解输入的图像、声音、文字等信息,初步具备与外界交互的能力;③认知智能,这是AI发展的较高阶段,大模型等技术正在加速这一目标的实现速度。让机器具备类人的思考能力,即理解复杂概念、推理分析预测、自主决策行动等能力;④自主意识,则是AI的终极目标,机器真正具有自主意识并产生智慧,目前尚且遥远。
理解AI技术赋能科学研究的驱动方式,还应该清楚现阶段AI能够解决的科学问题边界。科学发现的假设空间是巨大和复杂的,图灵挑战发起人北野宏明将科学探索认知空间表示为图3左侧形式[44]。其中,红色区域表示当前人类已知的科学知识。黄色区域表示基于当前已经积累的知识生成的假设空间,能够根据已有知识对其进行一致性测试和实验验证的人类可发现知识。伴随着假设的复杂性和实验验证的自动化水平,不断扩展假设空间的边界,这就构成了以人为中心的人机协同探索知识区域(蓝色)。当假设空间的范围不断变大,直至超出人类的理解认知能力和现有的知识发现模型,则需要依托借助更智能的工具或发展形成新的科学研究范式(绿色区域,边界无限且不可定义)。为了探索和发现这3个区域的知识,需要使用与之匹配的科学研究模式。
图3 AI赋能科学研究的3种驱动方式

Fig.3 Three driving modes of AI driving scientific research

理解AI赋能科学研究的驱动方式,还应该清楚现阶段的科学研究模式。基于本文作者先前的研究结果,数智环境下的科学研究主要遵循3种研究模式[18]:数据驱动知识发现、模型驱动知识发现以及数据与模型协同驱动知识发现,如图3右侧所示。其中,模型驱动知识发现主要是指面对基本科学原理已知的科学问题,变量或维数的增加造成计算复杂度呈指数级增长,AI通过高效解决高维数据计算发现知识。数据驱动知识发现主要是指通过对数据的分析寻找科学规律并解决实际问题,主要用于在缺乏明确原理的场景中解决具体问题。数据与模型协同驱动知识发现则适用于原理模型已有部分探索,但尚有部分并不十分清晰时,可通过原理产生模拟仿真数据,基于数据挖掘出经验性原理,相互协同促进研究发现。
综合以上分析,AI赋能科学研究呈现3种驱动方式:高维数据计算、数据增强和数据理解。高维数据计算在此不作赘述。关于数据增强,当前的AI能够有效解决特征提取、添加语义信息增强数据的多样性和稳健性、合成新数据解决数据系数或保密等问题[45],核心解决科学研究中的基础数据问题,有效扩展科学研究的边界,提升科学研究的质量。关于数据理解,尤其是GPT-4o[2]、LLaMA[3]等大模型(Large Language Models,LLMs)技术不仅能以远超人类能力的速度和规模处理和分析大量数据,而且呈现出接近人类水平的数据理解、推理和分析能力已日益展现出对自然语言理解的迹象,在达到与人类专家相当水平的推理和规划能力方面展示了显著潜力[46-48],未来大模型将在众多认知任务上与人类并驾齐驱,甚至超越人类能力[49,50]

2.2 AI赋能科技情报工作的方式

理解情报内涵是认知AI赋能科技情报工作驱动方式的基础前提。情报是激活了、活化了的知识,具有及时性、准确性和针对性特征[51],是基于客观事实的主观预测[52]。情报是在客观知识的基础上产生的,由于受当事人的认知背景和所处的时代环境等条件约束,情报带有不可否认的主观色彩。情报是通过特定活动产生的知识,具体包括3种知识类型:基本描述类、动态报告类和预测评估类[53]
情报产生的基础不仅有知识,还有信息和数据。基于数据、信息、知识、情报间的逻辑关系学者们构建了Data-Information-Knowledge-Intelligence-Wisdom(DIKIW)模型[54]及Data-Information-Knowledge-Intell-igence(DIKI)标准模型[55]。AI不仅能将各种复杂的数据类型(包括人类语言)转换为可互操作的量化语言,而且为复杂高维数据计算提供解决方案[56],促使情报不仅可以从知识中产生,还可以从海量无序的数据和规范有序的信息中直接产生。数据和智能技术的普及发展,促使DIKI链上各节点间已经从单纯的线性传递关系,扩展至循环迭代关系。
科技情报工作需要在充分理解用户需求的基础上,尽可能提升数据、信息和知识等情报基础的客观性。基于AI赋能科学研究的3种方式,结合情报内涵,本文认为AI赋能科技情报工作的驱动方式有两个方面:情报基础建设,即数据生产、信息组织、知识表示,和情报生产,即情报计算,如图4所示。围绕AI赋能情报基础建设,确立了中国科学院文献情报中心“十四五”发展战略目标之一,即构建科技情报智慧数据,倾心打造的数据“收、存、治、管、用”一体化科情数据平台,实现数据生产、信息组织和知识表示等工作流程自动化[57]。受AI认知智能水平限制,之前围绕AI赋能情报计算的过程主要以人为主、AI技术为辅的模式,处于AI赋能科学自动化中的L2层级,仅解决某一环节的自动化[58]。未来,AI赋能科技情报工作将通过情报智能体(Documentation and Information Service Agent,DIS Agent)方式实现,将情报基础建设与情报生成深度融合,有力推动科技情报工作迈向更高水平的自动化与智能化。
图4 DIKI理论与情报类型

Fig.4 DIKI and types of information

3 基于情报智能体的科技情报工作新范式

为了进一步认识构建情报智能体的路径,需要厘清情报智能体驱动的科技情报工作新范式、新生态以及构建情报智能体的关键任务与方向。

3.1 人与情报智能体协同的科技情报工作新范式

基于科学自动化[58]和科学智能体[59]的层级划分体系,当前已出现的科学智能体多处于L3层级,即科学家提供问题和初始信息,科学智能体自主调用资源工具完成指定的任务;少部分呈现L4层级水平[60],即科学家仅提供初始信息,科学智能体自动提出科学假设并探索发现科学规律。结合情报的内涵特征,当前阶段构建的情报智能体主要以L3层级为主,因此在情报智能体赋能科技情报工作过程中,还需要与人类智能合作,如图5所示。其中人类智能,即情报专家,主要负责情报情景感知与解析、情报问题输入和情报监控输出功能。情报智能体主要负责情报情景感知与解析、情报问题理解和计算、情报结果输出和反馈优化功能。当前AI在大量认知任务上尚未完全达成与人类智能同等水平,因此对于情报情境的感知解析能力以及生成情报能力方面还需情报专家的广泛参与,提升情报质量以契合用户需求。相较于传统以人为中心的科技情报工作范式下,情报专家需要花费大量的时间在数据生产、清洗和组织工作中,相关研究表明这些工作占据科学家大约80%的时间[61],仅有20%的时间用于认知解析等核心活动,人与情报智能体协同的科技情报工作范式下,情报专家可能仅需花费20%的时间评估选择合适的智能体用于数据处理工作,80%的时间专注于高价值情报的生成与决策支持活动。
图5 科技情报工作的范式转型

Fig.5 Paradigm shift in S&T documentation and information service

3.2 基于情报智能体的科技情报工作新生态

基于情报内涵以及情报智能体驱动的科技情报工作新范式,结合单智能体[62]和多智能体[4]框架,本文构建了基于情报智能体的科技情报工作新生态,如图6所示。该生态系统通过智能体的协同工作,集成了数据生产、信息组织、知识表示和情报计算四大核心功能模块,显著提升了科技情报工作的智能化水平和整体效率。以下将从整体架构、智能体构成、技术支撑、基础设施及应用流程5个方面详细阐述该生态的结构和优势。
图6 基于情报智能体的科技情报工作新生态

Fig.6 A new ecosystem of S&T documentation and information services based on DIS agents

情报智能体驱动的科技情报工作新生态基于多层架构设计,主要包括4个部分:智能体集群、软件工具、基础数据和基础设施。内外协同运行:对内,通过集成调度工具、基础数据和基础设施资源,实现数据生产、信息组织、知识表示和情报计算四大核心功能的高度自动化;对外,通过智能体与情报专家及具体情报场景的交互,形成“人与智能体协同”的工作新范式。软件工具和基础设施为构建情报智能体提供了强有力的技术支撑,确保了智能体在各个工作环节中的稳定运行和高效协同。基础数据则涵盖了科技论文、专利以及社会经济等情报数据,为情报分析提供了丰富的数据源。通过各模块的协同工作,新生态实现了科技情报工作的闭环流程,为情报专家提供了系统化、自动化和智能化的支持。
基于情报DIKI理论阐释,在新生态系统中,智能体集群包括4类情报智能体,分别承担数据生产、信息组织、知识表示和情报计算任务。通过这4类情报智能体的协同工作,推动科技情报工作朝向全面自动化和智能化方向发展。4类智能体的功能及作用体现如下。
(1)数据生产类智能体,负责采集和生成情报数据。这类智能体可以自动从多种来源获取数据,包括学术文献、专利信息、网络资源等,为情报工作提供丰富的数据支持。通过自动化的数据采集和预处理,数据生产类智能体能够显著提高数据获取效率,并减少人工参与的需求。
(2)信息组织类智能体,负责将数据进行分类、整理,形成结构化的信息。信息组织类智能体通过语义分析和分类技术,将原始数据加工为符合情报需求的结构化信息,从而便于后续的知识表示和情报分析。这类智能体可以实现自动的知识图谱构建和主题分类,为情报工作的知识构建打下基础。
(3)知识表示类智能体:通过知识图谱、语义网络等方式,将信息转化为可解读的知识。知识表示类智能体在对信息进行进一步抽象和关联的基础上,构建出知识图谱,将数据和信息转化为可视化和结构化的知识体系,为情报计算和分析提供了深度支持。
(4)情报计算类智能体:负责运用大模型和其他AI技术,对知识进行计算分析,生成高价值的情报结果。这类智能体可以通过趋势分析、社会网络分析等方法,从数据中挖掘出潜在的情报价值,揭示隐含的关联关系,从而为决策者提供深度的情报支持。

3.3 构建情报智能体的关键任务方向

为了使情报智能体更好地适应未来科技情报工作需求,其构建不仅需要解决当前技术应用的适用性问题,还需前瞻性地考虑后续应用中的安全风险防控,下面具体论述两方面应重点关注的任务方向。
就情报智能体的构建方面,需要解决数据和工具技术方面的关键问题,建立一个多模态规范对齐的可靠知识库和全面的工具技术库。由于情报数据来源多样,格式、质量和结构各异,必须开发先进的数据融合和语义对齐技术,确保智能体能够从多源数据中提取有效信息。通过提升特征提取、噪声处理、数据审核和语义对齐技术,构建一个高质量的知识库,支撑智能体在情报分析中的可靠性和适用性。同时,针对情报分析流程中的各类情景需求,需建立开放的工具技术库,包括情报计算工具、AI模型和通用分析工具,规范接口和使用标准,以便智能体在实际应用中可以灵活调用。加强这些关键工具和资源的建设,为智能体在复杂情报任务中的应用奠定技术基础。
在情报智能体的应用过程中,安全治理和使用监管至关重要。智能体的高自主性和复杂的推理能力带来了内容生成的不可控风险,因此需要构建强大的验证系统,确保输出内容的准确性和可追溯性。监管任务还需关注智能体在情报分析中的行为合规性,通过严格的同行评议、版本控制、动态更新日志等手段,保持智能体应用的透明度。此外,为避免人类对智能体的过度依赖,需制定清晰的交互指导方案,加强人类用户的意识培训和能力提升,确保“人在环路”的协同机制得以实现。通过对安全、伦理和监管体系的不断完善,推动情报智能体在确保可信和合规的前提下,安全应用于情报分析工作中。

4 结语

科技情报工作每一次变革与发展都围绕着先进信息技术的应用展开,情报技术在科技情报工作范式变革中发挥着核心驱动作用。在大模型与Agent融合技术的推动下,构建与应用情报智能体已成为科技情报工作的必然选择。本文深入剖析了AI赋能科学研究的驱动方式,提出AI技术赋能科技情报工作的主要方式包括情报基础建设(即数据生产、信息组织和知识表示)和情报生成的计算过程,情报智能体能够实现这两种赋能方式的深度融合。在基于情报智能体的科技情报工作新生态中,智能体集群是核心模块,实现数据生产、信息组织、知识表示和情报计算四大核心功能的自动化。未来在情报机构在规划建设未来情报智能体时,为确保情报智能体稳定运行,应重点关注技术适配性以及潜在安全风险的识别与防控,确保系统的高效性、鲁棒性和可持续发展。
1
MILOJEVIĆ S, SUGIMOTO C R, YAN E J, et al. The cognitive structure of library and information science: Analysis of article title words[J]. Journal of the American society for information science and technology, 2011, 62(10): 1933-1953.

2
OPENAI. Hello GPT-4o[EB/OL]. [2024-05-13].

3
TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA: Open and efficient foundation language models[J/OL]. arXiv preprint arXiv:2302.13971, 2023.

4
GUO T C, CHEN X Y, WANG Y Q, et al. Large language model based multi-agents: A survey of progress and challenges[J/OL]. arXiv preprint arXiv:2402.01680, 2024.

5
MESSERI L, CROCKETT M J. Artificial intelligence and illusions of understanding in scientific research[J]. Nature, 2024, 627(8002): 49-58.

6
YANG J, LI A, FARAJTABAR M, et al. Learning to incentivize other learning agents[J/OL]. arXiv preprint ArXiv: 2006.06051, 2020.

7
SUN W, YAN L, MA X, et al. Is ChatGPT Good at Search? Investigating Large language models as re-ranking agent[J/OL]. arXiv preprint ArXiv: 2304.09542, 2023.

8
OUYANG S Q, LI L. AutoPlan: Automatic planning of interactive decision-making tasks with large language models[C]//Findings of the Association for Computational Linguistics: EMNLP 2023. Stroudsburg, PA, USA: Association for Computational Linguistics, 2023.

9
XUE S Q, ZHOU F, XU Y, et al. WeaverBird: Empowering financial decision-making with large language model, knowledge base, and search engine[J/OL]. arXiv preprint ArXiv: 2308.05361, 2023.

10
GUAN Y, WANG D, CHU Z, et al. Intelligent virtual assistants with LLM-based process automation[J/OL]. arXiv preprint ArXiv: 2312.06677, 2023.

11
YAO S, YU D, ZHAO J, et al. Tree of thoughts: Deliberate problem solving with large language models[J/OL]. arXiv preprint ArXiv: 2305.10601, 2023.

12
SHINN N, CASSANO F, LABASH B, et al. Reflexion: Language agents with verbal reinforcement learning[C]// Proceedings of the Neural Information Processing Systems, New Orleans, USA: the NIPS Foundation, 2023.

13
LI M H, ZHAO Y X, YU B W, et al. API-bank: A comprehensive benchmark for tool-augmented LLMs[C]//Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2023.

14
CHU Z, WANG Y, ZHU F, et al. Professional agents - Evolving large language models into autonomous experts with human-level competencies[J/OL]. arXiv preprint ArXiv: 2402.03628, 2024.

15
李国杰. 智能化科研(AI4R): 第五科研范式[J]. 中国科学院院刊, 2024, 39(1): 1-9.

LI G J. AI4R: The fifth scientific research paradigm[J]. Bulletin of Chinese academy of sciences, 2024, 39(1): 1-9.

16
TSHITOYAN V, DAGDELEN J, WESTON L, et al. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763): 95-98.

17
刘细文. 贯彻落实二十大精神, 开创文献情报工作的高质量发展道路[J]. 图书情报工作, 2023, 67(1): 4-8.

LIU X W. Implementing the spirit of the 20th national congress of CPC and planning the road of high-quality development of library and information service[J]. Library and information service, 2023, 67(1): 4-8.

18
刘细文, 付芸. 数智赋能背景下情报学研究进展[J]. 情报学进展, 2024, 15: 131-71.

LIU X W, FU Y. The research advancements in information science amidst data & AI empowerment: Data-Driven, model-driven and knowledge discovery[J]. Advances in information science, 2024, 15: 131-71.

19
刘细文, 孙蒙鸽, 王茜, 等. DIKIW逻辑链下GPT大模型对文献情报工作的潜在影响分析[J]. 图书情报工作, 2023, 67(21): 3-12.

LIU X W, SUN M G, WANG X, et al. Analysis of the potential impact of GPT large model under DIKIW logic chain on documentation and information services[J]. Library and information service, 2023, 67(21): 3-12.

20
孙蒙鸽, 韩涛, 王燕鹏, 等. GPT技术变革对基础科学研究的影响分析[J]. 中国科学院院刊, 2023, 38(8): 1212-1224.

SUN M G, HAN T, WANG Y P, et al. Impact analysis of GPT technology revolution on fundamental scientific research[J]. Bulletin of Chinese academy of sciences, 2023, 38(8): 1212-1224.

21
刘细文. 情报学范式变革与数据驱动型情报工作发展趋势[J]. 图书情报工作, 2021, 65(1): 4-11.

LIU X W. Paradigm transformation of library and information science and trends of data-driven information services[J]. Library and information service, 2021, 65(1): 4-11.

22
符福峘. 我国情报学理论体系建设的伟大成就——庆祝我国科技情报事业创建50周年[J]. 情报理论与实践, 2006, 29(4): 385-389.

FU F H. The great achievement of China in the construction of the theoretical system of information science[J]. Information studies: Theory & application, 2006, 29(4): 385-389.

23
关家麟, 张超. 我国科技信息事业发展的回顾与展望[J]. 情报科学, 2007, 25(1): 1-7.

GUAN J L, ZHANG C. The review and outlook for scientific and technological information undertaking of China[J]. Information science, 2007, 25(1): 1-7.

24
包昌火, 王秀玲, 李艳. 中国情报研究发展纪实[J]. 情报理论与实践, 2010, 33(1): 1-3.

BAO C H, WANG X L, LI Y. A record of the development of intelligence analysis in China[J]. Information studies: Theory & application, 2010, 33(1): 1-3.

25
中共中央文献研究室. 建国以来重要文献选编-第九册[M]. 北京: 中央文献出版社, 1994.

26
刘如, 吴晨生, 刘彦君, 等. 中国科技情报工作的传承与发展[J]. 情报学报, 2019, 38(1): 38-45.

LIU R, WU C S, LIU Y J, et al. History and development of scientific and technical intelligence in China[J]. Journal of the China society for scientific and technical information, 2019, 38(1): 38-45.

27
钱学森. 情报资料、图书、文献和档案工作的现代化及其影响[J]. 档案学通讯, 1979(5): 6-10.

QIAN X S. Modernization of information materials, books, documentation and archives and their implications[J]. Archives science bulletin, 1979(5): 6-10.

28
霍国庆, 汪冰. 穿越冷战的情报科学史及其启示: 理查兹“情报科学与冷战的结束”评介[J]. 情报科学, 1998, 16(2): 89-95.

HUO G Q, WANG B. The history of information technology across the cold war and its revelation - The review of Richard's information science and the end of the cold war[J]. Information science, 1998, 16(2): 89-95.

29
刘细文. 中国科学院文献情报中心“十四五”发展思考——基于数据、信息、知识与情报的规划框架设计[J]. 数字图书馆论坛, 2021(5): 12-16.

LIU X W. On the 14th Five-Year Plan of national science library of Chinese academy of sciences: Frameworks design based on the notion of data-information-knowledge-intelligence[J]. Digital library forum, 2021(5): 12-16.

30
孟广均. 中国科学院文献情报中心近40年发展概况(1978-2018)[J]. 图书馆理论与实践, 2019(8): 18-19, 31.

MENG G J. An overview of the development of the Chinese academy of sciences in recent 40 years(1978-2018)[J]. Library theory and practice, 2019(8): 18-19, 31.

31
刘细文. 对中国科学院文献情报中心业务改革与创新的初步认识[J]. 图书情报工作, 2002, 46(6): 11.

LIU X W. A preliminary understanding of the business reform and innovation of the document and information center of Chinese Academy of Sciences[J]. Library and information service, 2002, 46(6): 11.

32
张晓林. 超越图书馆: 寻求变革方向——第77届国际图联大会观感[J]. 图书情报工作, 2011, 55(21): 5-10.

ZHANG X L. Libraries beyond libraries: Seeking for transformative directions - Notes from IFLA 2011[J]. Library and information service, 2011, 55(21): 5-10.

33
谭晓, 靳晓宏. 数智时代情报流程模型构建研究[J]. 情报理论与实践, 2023, 46(10): 32-39.

TAN X, JIN X H. Research on the construction of intelligence process model in the digital intelligence era[J]. Information studies: Theory & application, 2023, 46(10): 32-39.

34
周晓英, 陈燕方, 张璐. 中国科技情报事业发展历程与发展规律研究[J]. 科技情报研究, 2019, 1(1): 13-28.

ZHOU X Y, CHEN Y F, ZHANG L. Research on the development process and law of scientific and technical information career in China[J]. Scientific information research, 2019, 1(1): 13-28.

35
吴晨生, 李辉, 付宏, 等. 情报服务迈向3.0时代[J]. 情报理论与实践, 2015, 38(9): 1-7.

WU C S, LI H, FU H, et al. Intelligence service towards the era of 3.0[J]. Information studies: Theory & application, 2015, 38(9): 1-7.

36
霍忠文, 阎旭军. “情报”、“Informagence”与“Infotelligence”——科技情报工作科学技术属性再思考[J]. 情报理论与实践, 2002, 25(1): 1-5.

HUO Z W, YAN X J. "Information", "informagence" & "infotelligence"[J]. Information studies: Theory & application, 2002, 25(1): 1-5.

37
KOJIMA T, GU S S, REID M, et al. Large language models are zero-shot reasoners[J]. Advances in neural information processing systems, 2022, 35: 22199-22213.

38
张晓林. Inside-Out & Outside-In: 图书馆服务社会高质量发展的组合模型[J]. 图书馆杂志, 2024, 43(9): 4-10.

ZHANG X L. Inside-out & outside-In: A combinatorial model for libraries' support of the high-quality development of the society[J]. Library journal, 2024, 43(9): 4-10.

39
李荣, 吴晨生, 董洁, 等. ChatGPT对开源情报工作的影响及对策[J]. 情报理论与实践, 2023, 46(5): 1-5.

LI R, WU C S, DONG J, et al. Study on the impact of ChatGPT on open source intelligence work and countermeasures[J]. Information studies: Theory & application, 2023, 46(5): 1-5.

40
GHAFAROLLAHI A, BUEHLER M J. SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning[J/OL]. arXiv preprint ArXiv: 2409.05556, 2024.

41
WANG H C, FU T F, DU Y Q, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972): 47-60.

42
SUH C, FARE C, WARREN J A, et al. Evolving the materials genome: How machine learning is fueling the next generation of materials discovery[J]. Annual review of materials research, 2020, 50: 1-25.

43
JUMPER J, EVANS R, PRITZEL A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596(7873): 583-589.

44
KITANO H. Nobel Turing Challenge: Creating the engine for scientific discovery[J]. NPJ systems biology and applications, 2021, 7(1): 29.

45
SUFI F. Generative pre-trained transformer (GPT) in research: A systematic review on data augmentation[J]. Information, 2024, 15(2): 99.

46
ZHANG Y, GE F, LI F Y, et al. Prediction of multiple types of RNA modifications via biological language model[J]. IEEE/ACM transactions on computational biology and bioinformatics, 2023, 20(5): 3205-3214.

47
ZHOU G, GAO Z, DING Q, et al. Uni-Mol: A universal 3D molecular representation learning framework[C]//Proceedings of the International Conference on Learning Representations, Kigali, Rwanda: The International Conference on Learning Representations, 2023.

48
NIJKAMP E, RUFFOLO J A, WEINSTEIN E N, et al. ProGen2: Exploring the boundaries of protein language models[J]. Cell systems, 2023, 14(11): 968-978.e3.

49
SANTACROCE M, LU Y, YU H, et al. Efficient RLHF: Reducing the memory usage of PPO[J/OL]. arXiv preprint ArXiv: 2309.00754, 2023.

50
LEE H, PHATALE S, MANSOOR H, et al. RLAIF vs. RLHF: Scaling reinforcement learning from human feedback with AI feedback[C]//Proceedings of the International Conference on Machine Learning, Honolulu, Hawaii, USA: International Machine Learning Society (IMLS), 2023.

51
钱学森. 科技情报工作的科学技术[J]. 兵工情报工作(1987年改名《情报理论与实践》), 1983, 6(6): 3-10.

QIAN X S. Science and technology of scientific and technological information work[J]. Information studies: Theory & application, 1983, 6(6): 3-10.

52
HIXSON W L. The wizards of langley: Inside the CIA's directorate of science and technology[J]. Journal of American history, 2002, 89(3): 1115-1116.

53
SHERMAN K. Strategic intelligence for American world policy[M]. Princeton, N.J.: Princeton University Press, 1966.

54
LIEW A. DIKIW: Data, information, knowledge, intelligence, wisdom and their interrelationships[J]. Business management dynamics, 2013, 2(10): 49-62.

55
Innovation management - Tools and methods for strategic intelligence management - Guidance: ISO 56006: 2021[S]. International Organization for Standardization [iso], 2021.

56
EVANS J, RZHETSKY A. Machine science[J]. Science, 2010, 329(5990): 399-400.

57
钱力, 刘细文, 张智雄, 等. 科技情报智慧数据: 方法、体系与应用[J]. 情报理论与实践, 2024, 47(1): 12-21.

QIAN L, LIU X W, ZHANG Z X, Et al. Smart data for scientific and technological information: Method, framework and application[J]. Information studies: Theory & application, 2024, 47(1): 12-21.

58
KING R, ZENIL H. A framework for evaluating the AI-driven automation of science[M]. Paris: OECD Publishing, 2023.

59
HUANG Y. Levels of AI agents: From rules to large language models[J/OL]. arXiv preprint ArXiv: 2405.06643, 2024.

60
LU C, LU C, LANGE R T, et al. The AI scientist: Towards fully automated open-ended scientific discovery[J/OL]. arXiv preprint ArXiv: 2408.06292, 2024

61
Crowdflower. Data science report[R]. 2016. San Francisco, USA: Crowdflower. https://www2.cs.uh.edu/~ceick/UDM/CFDS16.pdf.

62
XI Z H, CHEN W X, GUO X, et al. The rise and potential of large language model based agents: A survey[J/OL]. arXiv preprint ArXiv: 2309.07864, 2023.

Outlines

/