AI数据体系建设专题 栏目所有文章列表

    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 面向主题场景的科技文献AI数据体系建设:技术框架研究与实践
    常志军, 钱力, 吴垚葶, 曲云鹏, 巩玥, 张智雄
    农业图书情报学报    2024, 36 (9): 4-17.   DOI: 10.13998/j.cnki.issn1002-1248.24-0755
    摘要50)   HTML9)    PDF(pc) (1847KB)(36)    收藏

    [目的/意义] 人工智能赋能科学研究已成为推动科学发现的重要驱动力。面向主题场景的高质量数据资源是训练高性能AI模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI应用的高质量训练语料。 [方法/过程] 本研究提出了科技文献AI数据体系建设的“3+5 技术框架”,围绕AI数据体系建设全流程,提炼设计了3个层次的数据内容,以及5个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能。 [结果/结论] 为验证所提出的技术框架的有效性,本研究将其应用于水稻育种领域的AI数据体系构建实践中。结果表明,该框架能够有效地处理科技文献数据,构建出了高质量的领域数据集,为AI模型在水稻育种研究中的应用提供了数据支撑,验证了该技术框架的有效性和实用性。

    图表 | 参考文献 | 相关文章 | 多维度评价 | 评论0
    2. AI+专家驱动的科技文献信息资源消费端数据体系建设研究
    叶光辉, 涂凯, 胡丽娜, 韩丽, 冯智敏
    农业图书情报学报    2024, 36 (9): 18-31.   DOI: 10.13998/j.cnki.issn1002-1248.24-0640
    摘要51)   HTML12)    PDF(pc) (768KB)(13)    收藏

    [目的/意义] 受限于传统文献分类体系局限,用户产生的高价值消费端标注数据还不能作为数据要素融入科技文献服务,致使科技文献服务无法顺应开放科学时代背景与满足用户读者各类知识需求。本研究旨在挖掘AI提供技术突破潜力,构建AI+专家驱动的科技文献信息资源消费端数据体系,以期推动科技文献服务优化进程。 [方法/过程] 首先分析了科技文献信息资源消费端数据体系建设价值表征,然后提出了科技文献信息资源消费端数据体系建设原则,再者解构与剖析了AI介入科技文献信息资源消费端数据体系建设风险。最后,根据AI介入数据标注工作的程度,设计了3种AI+专家协同用户科技文献信息资源数据标注创新模式。 [结果/结论] 聚焦于引领用户协同完成数据标注工作,AI+专家辅助型数据标注模式下,AI充当工具角色根据专家制定处理规则完成表层信息处理,协助用户完成数据标注;AI+专家合作型数据标注模式下,AI完成科技文献预标注标签审查工作,用户从自生成标签模式转变为评判与挑选AI生成的数据标签模式,专家辅助审核最终数据标签质量;AI+专家主导型数据标注模式下,用户提供数据标注需求,专家进行过程操作指导,数据标注由AI4S平台自动化完成。

    图表 | 参考文献 | 相关文章 | 多维度评价 | 评论0
    3. 高质量AI数据体系面临的数据版权困境、应对策略解析与实施路径研究
    张何灿, 易成岐, 郭鹏, 黄倩倩, 靳晓锟
    农业图书情报学报    2024, 36 (9): 32-43.   DOI: 10.13998/j.cnki.issn1002-1248.24-0475
    摘要138)   HTML17)    PDF(pc) (980KB)(124)    收藏

    [目的/意义] 党的二十届三中全会决定明确提出,完善推动人工智能等战略性产业发展政策和治理体系。近年来,全球人工智能版权数据诉讼纷争频发,人工智能训练数据版权保护困境成为构建高质量AI数据体系面临的关键堵点和现实难题。 [方法/过程] 本研究在研究梳理人工智能数据版权保护相关学术研究和产业实践的基础上,系统性总结了应对数据版权困境的六大代表性做法,对比解析了不同做法的优缺点和适用性。 [结果/结论] 针对人工智能数据版权困境,即暂无既能促进人工智能版权数据供给又能兼顾数据版权保护工作的最优解问题,本研究在充分参考六大代表性做法解析和结合中国具备的四大独特优势基础上,研究提出系统妥善解决数据版权困境筑牢高质量AI数据体系的总体实施路径构想,分别为打造国家级人工智能数据版权一体化综合服务平台,探索推进适应人工智能发展的数据版权综合改革试点,建立完善人工智能数据版权相关立法并推动行业自律,以期对加大中国人工智能版权数据供给、制定相关政策和推动工作提供有益参考。

    图表 | 参考文献 | 相关文章 | 多维度评价 | 评论0