农业知识组织与计算挖掘研究进展

农业知识组织与计算挖掘研究进展本文节选自 赵瑞雪 杨晨雪 郑建华 李娇 王剑 农业智能知识服务研究现状及展望 J 智慧农业 中英文 2022 4 4 105 125 DOI 10 12133 j smartag

大家好,欢迎来到IT知识分享网。

本文节选自:

赵瑞雪, 杨晨雪, 郑建华, 李娇, 王剑. 农业智能知识服务研究现状及展望[J]. 智慧农业(中英文), 2022, 4(4): 105-125. DOI:
10.12133/j.smartag.SA

ZHAO Ruixue, YANG Chenxue, ZHENG Jianhua, LI Jiao, WANG Jian. Agricultural Intelligent Knowledge Service: Overview and Future Perspectives[J]. Smart Agriculture, 2022, 4(4): 105-125. DOI: 10.12133/j.smartag.SA

官网全文免费阅读

知网阅读

农业知识组织与计算挖掘

多源农业知识的规范化组织管理及计算挖掘是实现智能化知识服务的重要基础,本质是建立孤立知识单元间的关联关系,挖掘隐性或潜在知识,形成体系化的知识,解决知识割裂问题。知识图谱(Knowledge Graph)作为大数据时代新的数据基础设施及知识组织形式,其语义规范性和链接思想可将原本非结构、无关联的粗糙数据逐步提炼为结构化、强关联的高质知识,在实现多源多模态数据的语义关联和演化更新、场景化智能搜索、精准化推荐、知识反演推理等功能上具有强大优势,例如Knowledge Vault、Freebase、DBpedia、Wikidata、Yago。图1总结了知识图谱构建的方式、基本流程、创建工具及其更多的应用实例可以参考文献。

农业知识组织与计算挖掘研究进展

图1知识图谱构建方式和基本流程

Fig.1Construction method and basic flow of knowledge graph

农业知识图谱在国际上已经引起广泛重视,如欧洲波兰波兹南超级计算与网络中心(Poznan Supercomputing and Networking Center,PSNC)实验室的FOODIE农业知识图谱、美国Bayer Corporation的多源知识图谱、国内北京农业信息技术研究中心牵头研制的全息知识图谱库、中国农业科学院农业信息研究所的农作物病虫害和水稻知识图谱等。知识图谱是农业知识组织与计算挖掘的重要方式,涉及知识建模、知识抽取、知识融合和知识推理等关键技术。

1 农业知识建模

本体知识建模是知识图谱内实体连通的语义基础,需要设计概念集合和框架并对知识进行合理的组织以准确描述相关的类和属性,即实体及实体间的关系。农情本体模型的构建是基于农业科学叙词表(Chinese Agricultural Thesaurus,CAT)、科技语料库和分类体系等农业知识组织体系来确定核心概念及其属性与限制、层级结构及概念间的关联关系,通常采用基于本体编辑软件的手工构建方式,也可以通过基于规则、条件随机场等方法进行自动抽取。如基于Levy Flight分布式优化算法的农情本体模型抽取方法有效克服传统的利用向量空间抽取本体造成的维度不确定和语义数据不足等问题。为了充分考虑气象、害虫和土壤等领域对农业生产的因素,Deepa和Vigneshwari通过结合文本相似性和朴素贝叶斯算法的术语关系识别方法,利用基于规则的形式概念分析和映射实现了跨领域农情本体抽取。Goldstein设计了一种评估农业本体抽取有效性的方法,充分考虑农业本体对研究和实际应用的价值。

目前农情本体模型构建相关研究成果颇丰,技术方法相对成熟,实践中通常需要考虑概念划分的合理性、属性定义的方式、概念体系的可扩展性等若干因素,以保证知识建模的科学性和系统性。

2 农业知识抽取

知识抽取是指从大量不同来源、不同数据中抽取实体、关系、属性等要素,是自动化构建大规模知识图谱的重要技术,知识抽取的完整性和准确率将直接影响知识图谱的质量。农业知识抽取主要包括实体抽取和关系抽取两个任务。农业实体是农业知识图谱的核心单元,实体抽取的完整性、准确率和召回率将直接影响知识图谱的质量。传统的实体抽取方法,如隐马尔可夫、最大熵和支持向量机等应用场景多为单一文本模态,且需要大量的标注语料基础。农业数据分布广泛、类型多样、结构各异,具有文本、音频、图像、视频等多媒体特性,通常采用基于深度学习模型的实体抽取方法。关系抽取是指从文本/图像/视频中自动检测和识别实体间的语义关系,应用较广的方法有Feature engineering、kernel、graph模型及基于深度学习的循环神经网络(Recurrent Neural Networks,RNN)和长短期记忆网络(Long Short Term Memory,LSTM,一种特殊的循环神经网络)。

农业数据往往存在着大量的文本描述和图像视频素材,针对多模态混合农业数据的知识抽取研究主要有卷积神经网络(Convolutional Neural Network,CNN)、注意力机制结合LSTM等深度学习方法,如包括内嵌多个语义异构元素的递归神经网络的自训练框架、扩展的图卷积神经网络可以有效地并行处理任意依赖结构、基于自然语言生成图神经网络参数的方法可以使神经网络能够对非结构化文本输入进行关系推理。此外,来自变压器的双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)模型可以用于关系抽取和语义角色标注,还可以提取人物之间的关系,减少噪声数据对关系提取模型的影响。针对农业有害生物信息提取过程中传统命名实体识别方法依赖人工字典、特征提取不足的问题,Lun和Hui提出了一种基于预训练BERT的农业知识抽取方法,结合农业实体文本的特殊性和场景图像的特征,利用多模态语义和结构表示进行关系预测达到快速、精准的农业知识抽取。Qiao等引入BERT预训练语言模型,结合农业文本和图像特征构建联合知识抽取方法,实现农业多模态实体的抽取、模态内和跨模态实体关系的关联与发现。赵鹏飞等提出一种融合BERT字级特征与外部词典特征的命名实体识别方法,可以提高模型对罕见或未知实体的识别准确率,缓解一词多义的问题。

总体来看,农业多模态数据实体之间的关系主要通过获取跨媒体信息的语义和结构表示来提取包含实体的文本语料和场景图像特征来进行关系预测,基于深度学习的实体关系抽取方法是目前的主流方向,可以有效结合各模态数据特征,确保最大程度抽取农业不同模态实体的语义信息。

3 农业知识融合

知识融合是指将不同来源的知识进行对齐与合并,解决知识图谱的异构问题,使得知识连接更加稠密,包含图谱模式层和数据层两个方面的融合。图谱模式层知识融合是对多个知识库进行概念对齐,主要包括实体对齐和跨语言融合技术,实体对齐是在本体之间进行概念映射,基于本体之间的相似性,如属性名、类型和值的相似性发现异构本体之间隐藏的关系。跨语言融合技术有利于知识在世界范围内的共享,可以提高机器对不同语言的自动集成能力,从而构建大规模的跨语言知识基于覆盖重要的知识库。数据层知识融合主要面向实体链接和实体解析,其中,实体链接将从文本中提取的实体与知识库中对应的实体对象进行链接,关键在于实体识别,包括识别相似实体和共存实体的模糊性。常用的知识融合方法有:①通过本体实体标签和外部本体的子图匹配来丰富等价实体的邻域;②借助简单约束条件实现知识图谱的嵌入;③利用对应向量间的余弦相似度来度量问题与实体之间的相关性等。

针对海量数据的处理,Tai等提出了Hykfice(Hybrid Knowledge Fusion and Inference on Cloud Environment)系统,可以在云上并行计算,并控制知识融合和推理混合执行的时间。考虑到农业多模态数据之间的异构性,文本或图像任一单模态的知识融合会使得文本特征向量与图像实体特征向量间的链接映射对齐变得极为困难,目前主流的农业知识融合方法主要是利用深度学习。例如,Qin和Yao针对通过遥感、无人机、近地传感器等获取的不同时空尺度的海量数据集,利用深度学习获取文本和图像之间的互补特征并进行组合,实现农业数据的全面融合。Moshou和Pantazi提出一种基于词向量和语义余弦距离计算相似度的多模态农业知识融合方法,可以有效融合不同数据源中同一农业实体的不同属性。随着农业知识图谱规模的扩大和实体数量的增加,需要对大量不同来源的数据和知识进行融合,多采用知识库对齐方法。

针对农业(文本、图像和视频)多模态数据,由于图像知识与文本知识之间存在异构性,分别对二者进行单独嵌入会使实体对齐变得极为困难,因此,在联合嵌入结果的基础上,根据农业实体在低维语义空间中的距离,实现图像-文本农业实体对齐。在这个过程中,遇到了两个挑战,包括同义词和多义词。如叶斑病是不同农作物叶部斑点病的总称,包括黑斑病、赤斑病、漆斑病。其中玉米叶斑病又称条纹病、煤鞘病、叶枯病或叶斑病。

综上,如何准确、高效地对齐实体是未来农业知识融合研究的重点之一,也是农业知识图谱构建中的重点工作。

4 农业知识推理

知识推理是指基于知识图谱中已有的事实或关系推断出新的事实、关系、公理以及规则等,主要技术方法包括基于描述逻辑的推理、基于图结构的推理、基于分布式表示学习的推理、基于神经网络的推理及混合推理等。随着近年来深度学习等智能技术的发展,相关研究成果不断涌现,如基于规则和神经网络的联合推理方法,概念图与语义网相结合的自动知识推理方法等。在农业知识图谱中,存在节点、关系和属性三种数据存储方式。将具有唯一性的数据存储为节点,如小麦、玉米、大豆等;将重复性很高的数据存储为属性,如农业动物心率、体温等生理特征指标,采食、活动等个体行为指标,体重、产量等生产指标,农业植物株高、颜色等微观指标以及长势、产量等宏观指标;将具有重要语义信息的数据存储为关系,如遥感、无人机和测报设备等。通过设置合理的数据存储方式,一方面可减少语义信息较少的冗余节点,另一方面可减少相邻节点过少的孤立节点,从而提高图谱中有效知识的密度。

目前,知识图谱在农业领域中的诸多应用已被报道,包括知识图谱对农业生产结构的优化、基于本体的农业知识管理系统、面向智能农业的农业本体构建框架、基于半结构化数据的中国气象与农业知识图谱、自动整合互联网上的海量农业数据、变速灌溉施肥控制农作物灌溉系统。Zhang等介绍了国内外知识图谱在农业领域的研究与应用现状,并针对国内农业领域知识图谱的构建和应用,提出了系统的解决方案和途径。农业知识推理主要利用知识图谱补全方法预测农业知识图谱中实体和属性之间关系,常见应用场景包括农业动植物病虫害诊断和管理等,已有相应的研究实践。Guan等利用病虫害文本和图像特征构建与症状相关联的果树病虫害知识图谱,并通过知识表示模型对农业领域知识进行编码,结合病虫害文本和图像联合表示向量进行知识推理,实现果树病虫害准确预测。Fajri等提出一种基于框架和规则的知识图谱构建与推理的方法用来确定花生植株是否感染某些疾病。Nascimento等利用专家知识开发了一种手持式病虫害诊断工具,用于辅助诊断商品柚木的重要虫害。Damos开发的害虫专家系统利用本体和语义知识表示技术模拟病虫害对农作物的影响能力。Babalola等将病虫害模型与作物模型结合起来设计提出基于知识推理的病虫诊断建模的模块化方法。张善文等基于知识图谱应用双向长短期记忆网络(Bi-Directional Long Short-Term Memory,Bi-LSTM)来实现小麦条锈病的预测,为小麦条锈病的预测预警提供科学依据。知识推理可以自动完成辅助决策和质量评估,保证数据质量,提高农业知识的可靠性和准确性。

由于农业中不同模态实体间的关系种类与层级繁多,通过多源异构农业大数据汇聚治理层生成的农业知识图谱虽然数据量巨大,但在构建过程中难免会因为各种原因导致基础关系缺失,导致构建的农业知识图谱不够完整。知识图谱是否完整直接影响到知识图谱推理的应用。因此,为了有效适应农业内容的动态演化,需要结合农业经营主体对农业信息的需求,利用人机协同知识标注方法构建农业多模态知识图谱。在农业本体标注的基础上,引入人类智慧对标注结果进行定期的纠错和更新,并利用修正过的农业语义概念信息对动植物环境及生命特征提取与状态识别等语义标注模型进行进一步更新和优化,改善语义标注算法在后续标注当中的准确率。Shi等以文本爬虫获取的农业问答数据和科普数据为原始数据,选取标签建立包括农作物、农药和病虫害三大类的农作物画像,并利用图形数据库存储和显示这些画像数据。Dung等提出了一套农业领域垂直知识图谱构建方法、计算框架以及实际应用系统,利用农业知识推理调节小型涉农企业的种植规划。

农业知识组织与计算挖掘研究进展

智慧农业微信交流服务群

为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。入群方法:加小编微信331760296备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。

农业知识组织与计算挖掘研究进展

发布征集

农业知识组织与计算挖掘研究进展

欢迎在我公众号发布科研团队介绍、创新科研成果及相关活动等信息。

农业知识组织与计算挖掘研究进展

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/189723.html

(0)
上一篇 2025-10-06 09:10
下一篇 2025-10-06 09:20

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信