GMAN:一种用于交通预测的图多注意网络

大家好，欢迎来到IT知识分享网。

交通预测问题：旨在根据历史观察（由传感器记录），来预测道路网络中的未来交通状况（如交通量或速度）。附近地区的交通状况会相互影响。为捕获这种空间相关性，卷积神经网络CNN被广泛应用。同时，一个地点的交通状况也与其历史观测值相关。循环神经网络RNN被广泛应用来建模这种时间相关。最近的研究将交通预测描述为一个图建模问题，因为交通状况限制在道路网络图上。使用图卷积网络（GCN）研究在短期（提前5-15分钟）交通预测内取得了有希望的结果，长期交通预测（未来几个小时）仍缺乏有效进展，主要原因是：

1.复杂的时空相关性（1）动态的空间相关性：道路网络中传感器之间的交通状况相关性随着时间发生显著变化。如何动态选择相关传感器的数据来预测目标传感器的长期交通状况？（2）非线性的时间相关性：传感器处的交通状况可能会突然剧烈波动，影响不同时间步之间的相关性。如何自适应地建模非线性时间相关性？

2.对错误传播的敏感性长远来看，当预测进一步深入到未来时，每个时间步中小的误差可能会放大。误差传播使得对遥远未来的预测很难。

在本文中，我们关注时空因素，并提出了一种图多注意网络（GMAN）来预测道路网络图上不同位置的时间步的交通状况。GMAN采用编码器-解码器体系结构，其中编码器和解码器均由多个时空注意块（ST注意块）组成，以模拟时空因素对交通状况的影响。每个ST注意块由空间注意机制（用于建模动态空间相关性）、时间注意机制（用于建模非线性时间相关性）和门控融合机制（用于自适应融合空间和时间表示）组成。编码器对输入交通特征进行编码，解码器预测输出序列。编码器和解码器之间，应用一个变换注意层来转换编码的交通特征来生成未来时间步的序列表示，作为解码器的输入。转换注意机制建模了历史和未来时间步之间的直接关系，有助于缓解预测时间步之间的错误传播问题。

相关工作：深度学习方法（如short-term memory (LSTM)）在捕获交通状况中的时间相关性方面展现了更好的性能，与传统时间序列方法、机器学习模型、最近k邻居相比。为了建模空间相关性，研究者应用卷积神经网络CNN来捕获欧几里得空间中的相关性。最近的研究制定了基于图的交通预测，并利用图卷积网络（GCN）对道路网络中的非欧几里德相关性进行建模。这些基于图形的模型通过一步一步的方法生成多步超前预测，并且可能会在不同预测步骤之间出现误差传播。

（Wu等人，2019b）将WaveNet集成到GCN中，用于时空建模。由于它学习的是静态邻接矩阵，该方法在获取动态空间相关性方面面临困难。

将道路网络表示为一个带权有向图，顶点代表交通传感器，代表节点vi和节点vj的接近性（按道路网络的距离来计算）。时间步t时的交通状况表示为，其中C是感兴趣的交通状况数（如交通量、交通速度等）。问题描述：给定历史P个时间步的N个节点的观测值，旨在预测接下来Q个时间步的所有顶点的交通状况，表示为

GMAN包含一个时空嵌入（STE）、一个编码器和一个解码器组成，它们都带有L个带残余连接的ST注意块（STAtt块）、一个变换注意层（TransAtt）和两个完全连接的层（FCs）。时空嵌入包括空间嵌入和时间嵌入。我们通过时空嵌入（STE）将图形结构和时间信息整合到多注意机制中。为了便于残余连接，所有层产生的输出都是D维的。

时空嵌入

由于交通状况的演变受到底层道路网络的限制，因此将道路网络信息纳入预测模型至关重要。为此，我们提出了一种空间嵌入方法，将顶点编码为向量，以保留图形结构信息。具体而言，我们利用node2vec方法学习顶点表示。此外，为了联合训练预学习向量与整个模型，这些向量被输入到一个两层的全连接神经网络中。然后，得到空间嵌入。空间嵌入只提供静态表示，不能表示路网中交通传感器之间的动态相关性。因此，我们进一步提出了一种时间嵌入方法，将每个时间步编码为一个向量。具体来说，让一天有T个时间步。我们使用one-hot编码每个时间步的day-of-week和time-of-day编码成，将他们连接成一个向量之后，应用两层的全连接神经网络将时间特征转换为向量我们对历史P和未来Q个时间步都嵌入时间特征，其中

为了获得time-variant（时变）的定点表示，们将上述空间嵌入和时间嵌入融合为时空嵌入（STE），具体而言，对于顶点vi在时间步tj，STE定义为。因此，N个顶点在P+Q个时间步的STE表示为STE包含图形结构和时间信息，将用于空间、时间和转换注意机制。

ST注意块

如图c表示，ST注意块包括空间注意、时间注意和门控融合。将第l个块的输入表示为，其中顶点vi在时间步tj的隐藏状态表示为。第l个块中空间和时间注意机制的输出分别表示为和，其中顶点vi在时间步tj的隐藏状态分别表示为和在门控融合之后，我们获得第l个块的输出，表示为。为便于说明，将非线性变换表示为

空间注意

一条道路的交通状况受到其他道路的不同影响。这种影响是高度动态的，随着时间的推移而变化。提出空间注意机制来自适应地捕捉道路网络中传感器之间的相关性。其关键思想是在不同的时间步为不同的顶点（传感器）动态分配不同的权重。对于顶点vi和时间步tj，我们计算所有顶点的带权和其中α代表注意力得分，表示顶点v对vi的重要性。注意力得分的和等于1。

在某个时间点，当前交通状况和道路网络结构都可能影响传感器之间的相关性，因此我们考虑了交通特征和图结构来学习注意力分数。具体而言，我们将隐藏状态与时空嵌入连接起来，并采用缩放点积方法计算顶点vi和v之间的相关性其中代表内积算子，2D是的维度，之后，通过softmax对其进行归一化，得到注意力得分后就可以通过式（2）更新隐藏状态了。

为了稳定学习过程，我们将空间注意机制扩展为多头机制。具体来说，我们将K个带有不同的可学习投射的平行注意机制连接起来

其中，代表不同的非线性投影（即式（1）），产生d=D/K维的输出。

顶点数N如果很大，时间和内存消耗会非常大，需要计算N^2个注意力得分，为此，提出一种群空间注意，其包含群内空间注意和群间空间注意。N个节点分成G个组，每个组包含M=N/G个节点。每个组内，我们通过式子5，6，7计算组内注意来建模顶点之间的局部空间相关性，可学习参数在组间共享。然后，我们在每个组中应用最大池方法，以获得每个组的单个表示，我们计算组间空间注意，以建模不同组之间的相关性，为每个组生成一个全局特征。局部特征加上到相应的全局特征中作为最终输出。这样，我们需要计算GM^2+G^2=NM+(N/M)^2个注意力得分。

时间注意

某一地点的交通状况与其之前的观测值相关，且相关系数随时间步非线性变化。设计了一种时间注意机制，以自适应地模拟不同时间步之间的非线性相关性。时间相关性受交通状况和相应时间上下文的影响，同时考虑交通特征和时间来衡量不同时间步之间的相关性。具体来说，我们将隐藏状态与时空嵌入连接起来，并采用多头方法计算注意分数。对于顶点vi，时间步tj和t之间的相关性定义为，注意力得分为β表示时间步t对tj的重要性，代表tj前的一组时间步，即仅考虑时间步长早于目标步长的信息，以启用因果关系。一旦注意力得分获得，顶点vi在时间步tj的隐藏状态就可以按如下式子更新，其中代表非线性投影。方程8、9和10中的可学习参数在所有顶点和有并行计算的时间步上共享。

门控融合

一条道路在某一时间步的交通状况与其之前的值和其他道路的交通状况都相关。设计一个门控融合，自适应融合空间和时间表示。第l个块，空间和时间注意机制的输出表示为和，都有编码器中格式和解码器中格式。融合公式其中代表元素级的积代表sigmoid激活

门控融合机制自适应地控制在每个顶点和时间步的空间和时间依赖流。

转换注意

为了缓解长时间范围内不同预测时间步之间的错误传播效应，我们在编码器和解码器之间添加了变换注意层。它建模每个未来时间步和每个历史时间步之间的直接关系，以转换编码的交通特征来生成未来表示，作为解码器的输入。对于顶点vi，预测时间步和历史时间步之间的相关性通过时空嵌入衡量：得到注意力得分，通过在所有历史P个时间步中自适应地选择相关特征，将编码的交通特征转换到解码器：

方程13、14和15可以在所有顶点和时间步上并行计算，共享可学习的参数。

编码器-解码器

GMAN是一种编码器-解码器架构。在进入编码器之前，使用全连接层将历史观察转换为。然后被送进带有L个ST注意块的编码器中，产生输出，然后通过一个转换注意层，转换编码特征生成未来序列表示。然后，解码器堆叠L个ST注意块作用于上，生成输出，最后，全连接层生成Q个时间步的提前预测

GMAN可通过端到端训练，通过最小化预测值和真实值之间平均绝对误差（MAE）进行反向传播

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/150821.html

GMAN:一种用于交通预测的图多注意网络

相关推荐

发表回复