Conversation
Notices
-
[2209.07484] Hydra Attention: Efficient Attention with Many Heads - https://arxiv.org/abs/2209.07484
-
@akionux 純粋なAttentionだとO(T^2D)でトークン数Tのスケールが悪いが、カーネルトリックで線形AttentionにするとO(TD^2/H)でヘッド数Hに反比例するので、ヘッド数を特徴次元Dに増やした(Hydraトリック)らO(TD)にできるとのこと。計算方法もエレメントワイズな計算が出てすごくすっきりするみたい。
混沌としたTransformer界隈に光を差すようなとてもエレガントな考え方で、研究するならこういう仕事がしたいやつ。
-