通俗解读NLP中几种常见的注意力机制

大家好，欢迎来到IT知识分享网。

1 前言

注意力机制在NLP领域中有广泛的应用，诸如机器翻译、智能对话、篇章问答等。在模型设计中使用注意力机制，可以显著提升模型的性能。然而，对于初识注意力机制的朋友来说，可能会有这样的疑问：自然语言处理中说的注意力机制到底是啥？它与我们大脑中的注意力有何联系？它是如何实现的？面对诸多疑问，本文将用通俗的语言来解开这些困惑。本文首先简单介绍一下认知神经学中的注意力。接着，详细解说NLP领域常见的三种注意力机制：Bahdanau注意力、Luong注意力和自注意力（self-attention）。最后，对几种注意力机制进行归纳梳理，揪出它们的核心思想，分析它们的异同。

2 认知神经学中的注意力

在日常生活中，我们通过视觉、听觉、触觉等方式接收大量的感觉输入，而人脑在有限的资源下还能有条不紊地工作，是因为人脑可以有意或无意地从这些大量输入信息中选择小部分有用信息来重点处理，并忽略其他信息。这种能力就叫作注意力。注意力一般分为两种：

1）聚焦式注意力：自上而下的有意识的注意力。它是指有预定目的、主动有意识地聚焦于某一对象的注意力。例如，一个人在一个嘈杂的环境中与朋友聊天时，他还是可以听到朋友的谈话内容，而忽略其它声音。

2）基于显著性的注意力：自下而上的无意识的注意力。基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关。例如，一个人正在认真工作，忽然身后有人叫他名字，他会中断当前的工作，转头往后看看是谁在叫他。

当前NLP领域中的注意力机制大多是模拟认知神经学中的聚焦式注意力，即让模型根据当前状态，有目的地聚焦于某些信息。简单地说，NLP中注意力机制的核心思想就是让模型根据当前状态，从众多信息中选择当前所需要的最重要的信息。举个简单例子，一个人在房间里找一把银色钥匙，那么可以把当前状态理解为找银色钥匙，把信息定义为房间里的东西。根据找银色钥匙这个状态，那么{金属类物品，银色物品，形状像钥匙的物品}就成为注意力所关注的物品。那NLP中注意力机制中的当前状态到底是什么呢，下面通过几个例子来说明。

3 Bahdanau注意力与Luong注意力

Bahdanau注意力

Bahdanau注意力机制是Bahdanau等人在论文Neural machine translation by jointly learning to align and translate中提出的。Bahdanau指出，在基于Encoder-Decoder结构中，传统的做法是，Encoder对句子进行编码，得到一个固定维度的向量表示给Decoder使用。因为维度固定，对于长句子来说，这种做法会造成较大的信息丢失。Bahdanau认为这个问题是神经机器翻译性能提升的瓶颈。于是他在论文中提出了注意力机制。他的做法是，Decoder不是“平等”地编码句子中的各个词，而是根据前一时刻状态，让Encoder对句子中重要的单词给予较高权重，对于不重要单词给予较低权重，权重的大小反映了当前状态所关注的句子中的信息。下面举个英译汉的例子来说明。

有一RNN Encoder，如图下半部分所示。每个时刻输入一个单词，输出一个隐状态。图中上半部分是一个RNN Decoder。它的输入包括三部分：前一时刻的解码输出 $y_{t-1}$ 、当前时刻Decoder状态 $s_{t}$ 以及上下文向量（context vector） $c_{t}$ 。如下图中所示的第三个时刻，Decoder利用前一时刻的输出（作品）、当前时刻Decoder状态

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/156577.html

通俗解读NLP中几种常见的注意力机制

1 前言

2 认知神经学中的注意力

3 Bahdanau注意力与Luong注意力

相关推荐

发表回复