Conversation

Notices

  1. [2209.07484] Hydra Attention: Efficient Attention with Many Heads - https://arxiv.org/abs/2209.07484

    Friday, 16-Sep-22 08:52:10 UTC from status.akionux.net
    1. @akionux 純粋なAttentionだとO(T^2D)でトークン数Tのスケールが悪いが、カーネルトリックで線形AttentionにするとO(TD^2/H)でヘッド数Hに反比例するので、ヘッド数を特徴次元Dに増やした(Hydraトリック)らO(TD)にできるとのこと。計算方法もエレメントワイズな計算が出てすごくすっきりするみたい。
      混沌としたTransformer界隈に光を差すようなとてもエレガントな考え方で、研究するならこういう仕事がしたいやつ。

      Tuesday, 20-Sep-22 23:27:33 UTC from status.akionux.net