sincos正余弦和RoPE旋转位置编码

Transformer位置编码

I n p u t (p os) = E mb e dd in g (t o k e n_{p os}) + P os i t i o na lE n co d in g (p os)

第 pos 个 token 的输入 = 第 pos 个 token 的词向量 + 第 pos 个位置的位置编码向量

PositionalEncoding是个什么计算：

PE (p os) = sin (0) sin (1) sin (2) sin (3) cos (0) cos (1) cos (2) cos (3) sin (0) sin (0.01) sin (0.02) sin (0.03) cos (0) cos (0.01) cos (0.02) cos (0.03)

PE (p os, 2 i) = sin (\frac{p os}{1000 0 ^{\frac{2 i}{d _{m o d e l}}}}) PE (p os, 2 i + 1) = cos (\frac{p os}{1000 0 ^{\frac{2 i}{d _{m o d e l}}}})

$p os$ ：单词在序列中的位置
$d_{m o d e l}$ ：词向量的维度（固定值）
$i$ ：位置编码向量中的维度索引，范围在 $[0, \frac{d _{m o d e l}}{2} - 1]$ 位置编码向量的维度是成对设计的：偶数维用 $sin$ ，奇数维用 $cos$ 。所以 $i$ 只需要遍历前一半的索引，就能生成长度为 $d_{m o d e l}$ 的完整位置编码向量。

目的是寻找到式子满足：pos+k的位置编码可以由于pos的位置线性表示就行

PE (p os + k) = T \times PE (p os)

从论文已知

α = \frac{p os}{1000 0 ^{\frac{2 i}{d _{m o d e l}}}}, β = \frac{k}{1000 0 ^{\frac{2 i}{d _{m o d e l}}}}

则

PE (p os + k, 2 i) = sin (α + β) = sin (α) cos (β) + cos (α) sin (β) = PE (p os, 2 i) cos (β) + PE (p os, 2 i + 1) sin (β)

PE (p os + k, 2 i + 1) = cos (α + β) = cos (α) cos (β) - sin (α) sin (β) = PE (p os, 2 i + 1) cos (β) - PE (p os, 2 i) sin (β)

可以合并为矩阵写法

T \times PE (p os) = PE (p os + k)

[cos (β) - sin (β) sin (β) cos (β)] [PE (p os, 2 i) PE (p os, 2 i + 1)] = [PE (p os, 2 i) cos (β) + PE (p os, 2 i + 1) sin (β) PE (p os, 2 i + 1) cos (β) - PE (p os, 2 i) sin (β)] = [PE (p os + k, 2 i) PE (p os + k, 2 i + 1)]

从数学上看，在固定 $k$ 的情况下，较小的 $i$ 对应更高频的变化，位置编码随位置变化更快，因此更侧重刻画局部位置信息；较大的 $i$ 对应更低频的变化，位置编码变化更平缓，因此更适合表达全局位置信息

序列长度为 4，词向量维度为 4。

PE (p os, 2 i) = sin (\frac{p os}{1000 0 ^{\frac{2 i}{d _{m o d e l}}}}) PE (p os, 2 i + 1) = cos (\frac{p os}{1000 0 ^{\frac{2 i}{d _{m o d e l}}}})

这里 $d_{m o d e l} = 4$ ，所以 $i = 0, 1$ 。

于是：

所以 4 个位置 $p os = 0, 1, 2, 3$ 的位置编码矩阵为：

PE = sin (0) sin (1) sin (2) sin (3) cos (0) cos (1) cos (2) cos (3) sin (0) sin (0.01) sin (0.02) sin (0.03) cos (0) cos (0.01) cos (0.02) cos (0.03)

近似数值是：

PE \approx 0 0.8415 0.9093 0.1411 1 0.5403 - 0.4161 - 0.9900 0 0.0100 0.0200 0.0300 1 0.99995 0.99980 0.99955

Transformer原生词向量算法的问题：位置权重直接累加在词向量上，污染了语义，分不清是哪一部分

Q = W_{q} (X_{m} + P_{m}), K = W_{k} (X_{n} + P_{n})

Score = (X_{m} + P_{m}) (X_{n} + P_{n})^{⊤} = (X_{m} + P_{m}) (X_{n}^{⊤} + P_{n}^{⊤}) = X_{m} X_{n}^{⊤} + X_{m} P_{n}^{⊤} + P_{m} X_{n}^{⊤} + P_{m} P_{n}^{⊤}

结果 = 纯语义*纯语义+噪声1+噪声2+纯相对位置

核心思想：位置权重加法改为了旋转

Q = R_{m} X_{m}, K = R_{n} X_{n}

Score = (R_{m} X_{m}) (R_{n} X_{n})^{⊤} = X_{m} (R_{n} - R_{m}) X_{n}^{⊤}

很纯净

已知逆时针旋转矩阵

R (α) = [cos α sin α - sin α cos α]

且如果是第 $m$ 个词，就逆时针旋转 $m θ$ 个角度；第 $n$ 个词，就逆时针旋转 $n θ$ 个角度。

假设原始向量是 $q$ 和 $k$ ，旋转后的向量分别是 $q^{'}$ 和 $k^{'}$ 。

q^{'} = R (m θ) q

k^{'} = R (n θ) k

已知注意力公式，点积注意力分数（未缩放）

score (q, k) = q \cdot k = i = 1 \sum d_{k} q_{i} k_{i}

缩放后的注意力分数

score (q, k) = \frac{q \cdot k}{d _{k}}

Softmax 归一化之后的注意力权重矩阵

A = softmax (\frac{Q K ^{⊤}}{d _{k}})

Scaled Dot-Product Attention 输出

Attention (Q, K, V) = softmax (\frac{Q K ^{⊤}}{d _{k}}) V

则有

Score = (q^{'})^{⊤} \cdot k^{'} = (R (m θ) \cdot q)^{⊤} \cdot (R (n θ) \cdot k) = q^{⊤} \cdot R (m θ)^{⊤} \cdot R (n θ) \cdot k

假设

α = m θ, β = n θ

且

R (α)^{⊤} = (cos α sin α - sin α cos α)^{⊤} = (cos α - sin α sin α cos α) = (cos (- α) sin (- α) - sin (- α) cos (- α)) = R (- α) = R (- m θ)

并且

R (- m θ) \cdot R (n θ) = (cos α - sin α sin α cos α) (cos β sin β - sin β cos β) = (cos ((n - m) θ) sin ((n - m) θ) - sin ((n - m) θ) cos ((n - m) θ)) = R ((n - m) θ)

最终

Score = (q^{'})^{⊤} \cdot k^{'} = q^{⊤} \cdot R (m θ)^{⊤} \cdot R (n θ) \cdot k = q^{⊤} \cdot R (- m θ) \cdot R (n θ) \cdot k = q^{⊤} \cdot R ((n - m) θ) \cdot k

θ_{i} = 1000 0^{- \frac{2 ( i - 1 )}{d _{model}}}, i \in [1, 2, \dots, \frac{d _{model}}{2}]

这样一个对焦块的形式

cos α sin α 00 ⋮ 00 - sin α cos α 00 ⋮ 00 00 cos α sin α ⋮ 00 00 - sin α cos α ⋮ 00 \dots \dots \dots \dots ⋱ \dots \dots 0000 ⋮ cos α sin α - sin α cos α 0.9 0.21 ⋮ - 0.3 0.23

X = 10 0.5 01 0.5 0.5 0.1 0.2 0.2 0.3 0.1

R (θ_{1}) = (cos θ_{1} sin θ_{1} - sin θ_{1} cos θ_{1}) \approx (0.5403 0.8415 - 0.8415 0.5403)

R (θ_{2}) = (cos θ_{2} sin θ_{2} - sin θ_{2} cos θ_{2}) \approx (0.99995 0.0099998 - 0.0099998 0.99995)

R_{RoPE} = (R (θ_{1}) 0 0 R (θ_{2})) = 0.5403 0.8415 00 - 0.8415 0.5403 00 00 0.99995 0.0099998 00 - 0.0099998 0.99995

X^{RoPE} \approx 0.5403 0.8415 0.6909 - 0.8415 0.5403 - 0.1506 0.501975 0.103045 0.19899 0.19499 0.300985 0.101995