Transformer03：自注意力机制 – Neohope的网络笔记

Transformer模型的核心是自注意力机制（Self-Attention），它允许模型在处理序列时，能够捕捉序列内部不同位置之间的依赖关系。自注意力机制的计算过程可以概括为以下几个步骤：

1. 查询（Query）、键（Key）、值（Value）的生成：
对于输入序列中的每个元素，模型会分别生成对应的查询（Q）、键（K）和值（V）。这通常是通过输入序列与三个不同的权重矩阵相乘来实现的。

2. 注意力分数的计算：
对于序列中的每个元素，计算其查询（Q）与序列中所有元素的键（K）的点积，然后除以一个缩放因子（通常是键向量维度的平方根），得到一个注意力分数。

$\text{Attention Score} = \frac{Q \cdot K^T}{\sqrt{d_k}}$

其中，（Q）和（K）分别是查询和键的向量，$d_k$ 是键向量的维度。

3. Softmax归一化：
使用Softmax函数对注意力分数进行归一化处理，使得所有元素的注意力分数之和为1。这表示每个元素对其他元素的注意力贡献是相对的。

$\text{Attention Weights} = \text{Softmax}(\text{Attention Score})$

4. 加权求和：
将归一化后的注意力权重与对应的值（V）相乘，然后将所有元素的加权值相加，得到最终的输出。

$\text{Output} = \sum (\text{Attention Weights} \times V)$

5. 多头注意力：
Transformer模型中的自注意力通常不是只计算一次，而是通过多头注意力（Multi-Head Attention）来实现。这意味着模型会并行地执行多次自注意力机制，每个头都有自己的查询、键和值权重矩阵。最后，这些头的输出会被拼接起来，并通过一个线性层来整合信息。

6. 残差连接和层归一化：
在自注意力层之后，通常会有一个残差连接，它将自注意力层的输入直接添加到输出上，然后通过一个层归一化（Layer Normalization）来稳定训练过程。

整个自注意力机制使得Transformer能够并行处理序列中的所有元素，并且能够捕捉到元素之间的长距离依赖关系，这是它在处理序列数据时非常有效的原因之一。

让我们通过一个简单的例子来说明自注意力机制的计算过程。假设我们有一个由3个词组成的序列：[“I”, “love”, “coding”]，并且每个词的词嵌入维度是4。

步骤1: 词嵌入
首先，我们将每个词转换为词嵌入向量。假设词嵌入矩阵已经预先训练好，我们可以直接获取每个词的词嵌入向量：

– “I” -> [0.1, 0.2, 0.3, 0.4]
– “love” -> [0.5, 0.6, 0.7, 0.8]
– “coding” -> [0.9, 1.0, 1.1, 1.2]

步骤2: 添加位置编码
接下来，我们为每个词嵌入向量添加位置编码。假设我们使用标准的正弦和余弦函数生成位置编码，并且序列的最大长度是3。位置编码向量如下：

– 位置1的编码：[sin(0), cos(0), sin(8), cos(8)] （这里8是4*2，因为每个词嵌入维度是4）
– 位置2的编码：[sin(1), cos(1), sin(9), cos(9)]
– 位置3的编码：[sin(2), cos(2), sin(10), cos(10)]

将位置编码向量与词嵌入向量相加：

– “I” (位置1): [0.1+sin(0), 0.2+cos(0), 0.3+sin(8), 0.4+cos(8)]
– “love” (位置2): [0.5+sin(1), 0.6+cos(1), 0.7+sin(9), 0.8+cos(9)]
– “coding” (位置3): [0.9+sin(2), 1.0+cos(2), 1.1+sin(10), 1.2+cos(10)]

步骤3: 自注意力计算
现在我们开始自注意力的计算过程。首先，我们需要为每个词生成查询（Q）、键（K）和值（V）向量。假设我们使用相同的词嵌入向量作为Q、K和V的初始输入，并通过不同的权重矩阵进行转换：

– Q = W^Q * 输入向量
– K = W^K * 输入向量
– V = W^V * 输入向量

这里W^Q、W^K和W^V是模型的可学习参数。

步骤4: 计算注意力分数
对于序列中的每个词，我们计算其查询向量与序列中所有词的键向量的点积，然后除以键向量维度的平方根进行缩放：

– 对于词”I”，其注意力分数是它自己的Q与所有词的K的点积：

$\text{Attention Score}_{I \rightarrow \text{all}} = \frac{Q_I \cdot (K_{I} + K_{love} + K_{coding})^T}{\sqrt{d_k}}$

步骤5: Softmax归一化
使用Softmax函数对每个词的注意力分数进行归一化处理：

– 对于词”I”，归一化后的注意力权重是：

$\text{Attention Weights}_{I \rightarrow \text{all}} = \text{Softmax}(\text{Attention Score}_{I \rightarrow \text{all}})$

步骤6: 加权求和
最后，将归一化后的注意力权重与对应的值向量相乘，并求和得到最终的输出：

– 对于词”I”，其输出是：

$\text{Output}_I = \text{Attention Weights}_{I \rightarrow I} \cdot V_I + \text{Attention Weights}_{I \rightarrow love} \cdot V_{love} + \text{Attention Weights}_{I \rightarrow coding} \cdot V_{coding}$

这个过程对于序列中的每个词都要重复执行，以计算整个序列的输出。自注意力机制允许模型在处理每个词时，都能够考虑到序列中其他所有词的信息，从而捕捉词与词之间的复杂关系。

请注意，这个例子是一个简化的版本，实际的Transformer模型可能会使用多头自注意力机制，并且会有多个层来进一步处理信息。此外，词嵌入和位置编码通常是通过预训练得到的，而不是从头开始训练。

Leave a Reply Cancel reply