Transformer它就是个支持向量机

Transformer 是一个支持向量机（SVM）一种新型理论在学界引发了人们的讨论。

上周末，一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理，其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。

在 hackernews 上作者表示，这种理论解决了 SVM 将每个输入序列中的「好」标记与「坏」token 分开的问题。该 SVM 作为一个性能优异的 token 选择器，与传统为输入分配 0-1 标签的 SVM 本质上不同。

这种理论也解释了注意力如何通过 softmax 引起稀疏性：落在 SVM 决策边界错误一侧的「坏」token 被 softmax 函数抑制，而「好」token 是那些最终具有非零 softmax 概率的 token。还值得一提的是，这个 SVM 源于 softmax 的指数性质。

论文上传到 arXiv 上面之后，人们纷纷发表意见，有人表示：AI 研究的方向真是螺旋上升，难道又要绕回去了？

绕了一圈，支持向量机还是没有过时。

自经典论文《Attention is All You Need》问世以来，Transformer 架构已为自然语言处理（NLP）领域带来了革命性进展。Transformer 中的注意力层接受一系列输入 token X，并通过计算

评估 token 之间的相关性，其中 (K, Q) 是可训练的 key-query 参数，最终有效捕获远程依赖关系。

现在，一篇名为《Transformers as Support Vector Machines》的新论文在自注意力的优化几何和 hard-margin SVM 问题之间建立了一种形式等价，使用 token 对的外积线性约束将最优输入 token 与非最优 token 分开。

论文链接：https://arxiv.org/pdf/2308.16898.pdf

这种形式等价建立在 Davoud Ataee Tarzanagh 等人的论文《Max-Margin Token Selection in Attention Mechanism》的基础上，它能够描述通过梯度下降进行优化的 1 层 transformer 的隐式偏差（implicit bias）：

(1) 优化由 (K, Q) 参数化的注意力层，通过消失正则化（vanishing regularization），收敛到一种 SVM 解决方案，其中最小化组合参数

图片新闻