融合注意力的轻量级遥感影像村落提取方法

大家好，欢迎来到IT知识分享网。

针对采用现有全卷积神经网络的村落提取仍存在耗时长、小型村落错提率高、误提严重，而对大型村落的提取存在碎片化、边缘细节粗糙等问题。本文提出基于轻量级MobileNet v2的Deeplab v3+网络，以实现村落的有效提取。采用轻量级MobileNet v2作为Deeplab v3+的主干网络，同时在跳跃连接阶段引用注意力机制。以Landsat-8 OLI影像为数据源，并制作620幅512×512像素训练样本影像进行实验。实验结果表明，本文算法在节省大量训练时间的同时，其它精度指标都高于对比方法，表明在村落提取方面具有有效性和可行性。本文算法应用于辽宁省阜新市复杂的村落场景下，对于大、小型村落均能有效提取，表明在大尺度场景村落提取下具有实际应用价值。

遥感影像中农村村落的特点在于，光谱特征复杂且不唯一、空间上呈零散的块斑分布、形状和面积差异很大，因此在基于神经网络的村落提取中需要大量的各异的样本、在网络训练中需要极大的计算量，这不仅导致网络训练耗时长，而在提取结果上存在小型村落误提、错提，大型村落提取不连续，且边缘细节信息处理能力差等情况。

本文针对村落提取中存在的上述问题，提出基于轻量级Deeplab v3+的遥感影像村落提取方法。该方法在如下三个方面作出创新：

(1)以MobileNet v2网络作为Deeplab v3+网络的主框架，这样能够有效解决以Xception为主框架的Deeplab v3+网络在提取村落中由于参数量大而导致训练时间长的问题。

(2)在提出的网络模型中采用通道注意力机制增强深层特征，以解决在提取大型村落时存在边缘粗糙、提取的村落区域不连通问题。

(3)在提出的网络模型中采用空间注意力机制增强浅层特征，以解决提取小型村落时存在错提、误提等问题。

1 网络结构设计

1.1 Deeplab v3+网络

Deeplab v3+网络[17]是Deeplab v3网络的改进型，采用一种编码层-解码层结构。其中，编码层，即下采样编码层，通过主干网络Xception中不同通道的深度可分离卷积层初步提取遥感影像中特征信息，利用不同空洞卷积速率相互并行的空间金字塔池化模块(atrous spatial pyramid pooling, ASPP)获取影像深层语义特征信息，进而整合得到的两种特征信息，再经过1×1的卷积进行通道压缩，其结果输入到Decoder层。解码层，将编码层获得的遥感影像村落浅层特征信息与经过4倍双线性插值上采样得到的深层语义特征信息相融合，再通过3层卷积层恢复细节特征信息，再通过4倍双线性插值上采样得到精细目标边界信息，最终得到村落的提取结果。

如图1所示为ASPP模块[18]。Deeplab v3+网络中的ASPP模块中包含一个1×1卷积层、空洞率分别为6、12和18的空洞卷积以及一个全局平均池化层，并且在全局平均池化层和每个空洞卷积后添加一个1×1卷积来调整特征图的维度，达到输出的特征图维度相同的目的。不同空洞率大小的空洞卷积能够捕捉多种尺寸的目标信息，增强网络对于不同尺寸农村村落的提取能力，ASPP中1×1卷积用于捕捉更为细小的目标，而全局平均池化能够整合整个特征图的信息。最后，将1×1卷积、空洞率为6、12、18的空洞卷积和全局平均池化层得到的特征图进行concat操作，并使用1×1卷积调整输出特征图的维度，使其与输入相当。

1.2 轻量级MobileNet v2网络

MobileNet网络[19]作为轻量级的深层神经网络，具有更小的体积、更少的计算量、更高的准确率、更快的速度和适用于多种应用场景等优点，其核心为深度可分离卷积，结构如图2所示。首先，3×3大小的卷积核通过遍历每个通道中的各个数据，使输入特征通道分离。其次，用1×1大小的卷积核遍历每个特征图对特征信息进行整合，从而得到输出特征。相比标准卷积，深度可分离卷积能够有效减少模型参数。

(a)标准 (b)深度可分离卷积

图2深度可分离卷积结构体

Fig.2 Deeply Separable Convolutional Structures

MobileNet V2是MobileNet模型的改进型，如图3中(a)所示。它具有两个明显特征：一是倒转残差结构，该结构先在3×3网络结构前利用1×1卷积进行升维扩张，再在3×3网络结构后利用1×1卷积实现降维压缩的目的，相比直接使用3×3卷积效果更好，并有效减少参数量；二是线性瓶颈结构，MobileNet V2的瓶颈结构如图3所示。由于线性整流函数（ReLU函数）操作会造成特征丢失，为了降低信息损失，在1×1卷积降维后不再进行ReLU操作，而是直接进行残差网络的加法。MobileNet V2中设计了扩张系数，其目的是网络大小可以更好地控制。

(a)步长为1 (b)步长为2

相比MobileNet，MobileNet V2具有更深的网络结构、具有通道数为32的完整卷积层和17个瓶颈结构，如表1所示。其中t为瓶颈结构内部升维的倍数，c为通道数，n为该瓶颈结构重复的次数，s为步长。

表1 MobileNet V2网络结构

输入	操作名称	t	c	n	s
2242×3	Covn2d	–	32	1	2
1122×32	bottleneck	1	16	1	1
562×16	bottleneck	6	24	2	2
282×24	bottleneck	6	32	3	2
142×32	bottleneck	6	64	4	2
142×64	bottleneck	6	96	3	1
72×96	bottleneck	6	160	3	2
72×160	bottleneck	6	320	1	1
72×320	Covn2d 1×1	–	1 280	1	1
72×1280	avgpool 7×7	–	–	1	–
1×1×1280	Covn2d 1×1	–	k	–

1.3 通道注意力模块

通道注意力模块(channel attention module, CAM) [20]的核心思想是对不同特征通道的特征进行学习以获取权重，再依照该权重增强有用的特征通道，抑制无用的特征通道，进而实现对通道的注意。

本文采用的CAM具体实现及其结构如图4所示。首先，特征图F分别进行全局平均池化处理和全局最大池化处理。全局平均池化整合输入特征图F的全局空间信息，全局最大池化通过提取邻域内像素点的最大值进而减少无用信息；其次，通过第一次全连接层进行降维，减少复杂度，再通过第二次全连接层恢复通道数，以构建通道之间的相关性；最后，每处通道的权值经过神经网络常用的激活函数（Sigmoid函数）激活后，作用到特征图F对应的特征通道上，得到经过通道注意力模块加权处理后的特征图MC。

图4 通道注意力模块

Fig.4 Channel Attention Module

1.4 空间注意力模块

空间注意力(spatial attention module, SAM)模块[21-23]是通过关注空间上的特征，根据特征的重要程度，进一步提高对显著特征的筛选能力。其表达见式（2）。

本文采用的SAM具体实现及其结构如图5所示。首先，SAM通过全局最大池化和全局平均池化对输入特征图F的通道域特征进行压缩；其次，通过卷积方式将多通道压缩为单通道，减小通道间信息对空间注意力的影响；最后，经过Sigmoid函数激活后获得含有空间信息特征的权重，将其与输入的特征图F经过逐像素的方式相乘，得到特征图Ms。

图5 空间注意力模块

Fig.5 Spatial Attention Module

1.5 改进的Deeplab v3+网络

为了适应遥感影像村落提取，本文对Deeplab v3+的改进包括两个部分，一是使用MobileNet v2网络代替Xception网络，二是引入注意力机制。本文算法的网络结构如图6所示。

图6 改进Deeplab v3+网络的体系结构

Fig.6 Improving the Architecture of the Deeplab v3+ Network

本文算法在Encoder-Decoder结构框架下采用轻量级MobileNet v2网络作为主干网络，并引用空间注意力模块和通道注意力模块对浅层特征和深层特征进行增强，具体实现过程如下。

2实验与分析

2.1 数据集制作

1)根据《土地利用现状分类》确定自然村的认定标准，且将面积小于1 hm2定义为小型村落。

2)利用ArcMap 10.2软件创建矢量要素，在进行村落的标注时，需要以高分辨率影像作为参考，保证村落标注的准确性。在平原地区，村落形状多以块状为主，相对面积较大；在山区中，村落在地形地貌的影响下，多以条状分布为主，面积相对较小，但数量较多。工业用地以及其他用地是影响标注的重要因素，其纹理特征与村落相似，不同点在于工业用地更具规律性，房顶颜色多为蓝色为主且其他部分以水泥灰为主。

3)矢量数据转化为栅格数据，影像图和标签图以TIFF格式进行存储。并将其尺寸裁剪为512×512像素的样本影像图，共获得155张。采用旋转90°、180°、垂直镜像和水平镜像的方式进行数据增强，扩充数据集，共获得620张标注样本。图7为影像和其对应的标签图。

(a)影像 (b)标签图

2.3 结果与分析

2.3.1 对比实验

表2 本文算法与其他算法精度评价对比

Tab.2 Comparison of the Accuracy Evaluation of this Algorithm with Other Algorithms

方法	IoU/（%）	Recall/（%）	OA/（%）	Kappa	Params/MB	FLOPs/GB	训练时间/h
U-Net	73.05	81.86	97.96	0.7834	7.77	34.51	17.55
SegNet	74.68	56.74	96.59	0.6749	30.5	80.20	19.99
Deeplabv 3+	75.61	63.93	96.46	0.6904	41.30	105.43	24.42
本文算法	85.95	86.07	98.53	0.8599	2.85	13.76	14.08

2.3.2 消融实验

Tab.3 Ablation experiments

方法	IoU/（%）	Recall/（%）	OA/（%）	Params/MB	FLOPs/GB	训练时间/h
轻量级Deeplab v3+	74.67	57.31	85.93	2.76	11.517	14.06
CDeeplab v3+	73.31	66.89	96.50	2.83	13.748	14.08
SDeeplab v3+	75.81	70.92	96.81	2.76	11.578	14.06
本文算法	85.95	86.07	98.53	2.85	13.758	14.08

3结束语

本文提出了一种适用于村落提取的改进Deeplab v3+网络，在跳跃连接阶段引用通道注意力和空间注意力机制，在特征图的通道和空间双维度上增加权重信息，能够有效抑制网络对非村落信息的学习，使得提出网络更高效且有针对性；并利用轻量级网络MobileNet v2替代原Deeplab v3+网络中的Xception网络作为主框架，在提高村落提取精度的同时通过减少参数量提高训练速度。

利用U-Net、SegNet、Deeplab v3+与本文算法进行对比，结果表明，针对村落分布特征的独特性与背景复杂性，本文算法能够准确识别小型村落以及保证大型村落的连续性以及边缘细节。村落提取结果的定量分析表明本文算法在各项评价指标上都要优于其它三种对比方法，并在训练速度上更快。综上，说明了本文算法更具高效性、准确性以及针对性。本文算法应用于辽宁省阜新市行政区内村落提取，取得了不错的应用效果。由于数据源的难以获取以及数据集制作需要消耗大量时间，仅对Landsat8 OLI数据进行了分类研究以及应用，在主干网络的选取上，引用MobileNet v2轻量级网络，没有选用其它轻量级网络。在以后的研究中，在其它高分辨率遥感影像中利用本文算法提取村落，并将更为前沿的轻量级网络运用以村落为目的的神经网络结构中。

#今日头条小助手##人工智能##神经网络###暑期创作大赛#

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/123645.html

融合注意力的轻量级遥感影像村落提取方法

相关推荐

发表回复