RWKV、Mamba、その他のアーキテクチャは Transformer にどのように挑戦していると思いますか?

RWKV、Mamba、その他のアーキテクチャが Transformer にどのように挑戦していると思いますか?

閱讀全文
请先 登录 后评论
  • 1 フォロー
  • 0 集める 35 浏覽
  • ユーザー に質問しました 2024-01-16 21:18:24

1 回答

厚德載物
擅長:AI
大型モデルの分野では、Transformer が単独で業界全体をサポートします。 しかし、モデルの規模が拡大し、処理すべきシーケンスが長くなるにつれ、セルフアテンション機構の計算量は、モデルの長さに応じて二次関数的に増加するなど、Transformer の限界が徐々に明らかになってきました。コンテキストが増えます。 これらの欠点を克服するために、研究者は注意メカニズムの効率的な変形を多数開発しましたが、ほとんど成功していません。

最近、「Mamba」と呼ばれる研究がこの状況を打開しようとしているようで、言語モデリングにおいては Transformer に匹敵するか、あるいはそれに勝つ可能性さえあります。 これはすべて、著者によって提案された新しいアーキテクチャ、選択的状態空間モデル (選択的状態空間モデル) のおかげです。これは、以前、著者である Albert Gu 氏が主導していた S4 アーキテクチャ (シーケンス モデリングのための構造化状態空間) の一部です。マンバの論文、単純な一般化。

トランスフォーマーしか選択肢はないのでしょうか?
ラオ・ワン: 数日前、あなたがモーメンツに次のように投稿したのを見ました。「この時期、非合意について話すのは非常に困難でしたが、私は自分の非合意の見解が徐々に合意に変わっていくのを見てきました。」 その背後にある物語は何ですか?

Luo Xuan: 基本的な大型モデルの分野におけるコンセンサスは、過去 5 ~ 6 か月で急速に確立されました。 もちろん、下位レベルのコンセンサスは、大規模なモデルは有用であるということであり、ChatGPT は誰もがそれが非常に有用であると思わせるため、OpenAI の言うことは正しいです。

6年前にTransformer論文が発表されて以来、それによって多くの変化がもたらされたようで、今はそれしか方法がありません。 GPTが標準になることに相当します。 ベンチマークがないため、GPT 3.5 または GPT 4 を使用して AI 機能を測定します。

AIとは一体何なのかという最初の原理に立ち返ってみましょう。 トランスフォーマーはもう大丈夫ですか? 実際、我々は常に、Transformer の複雑さは非常に不合理であると信じてきました。なぜなら、これ以上先に進むのは難しいからです。 現在でも、トークンのコストはほとんどの人にとって実際には受け入れがたいものです。 多くのシナリオでクラウド サービスを呼び出すのは非常に不経済です。 これがコンセンサスが得られていない最初の点です。Transformer はもはや唯一のアーキテクチャではなく、最良のアーキテクチャでさえありません。

Lao Wang: 過去 6 年間、Transformer アーキテクチャ自体の進化は比較的ゆっくりとしていると言えますが、今日の観点から見ると、コンピューティングの消費電力が高いことが大きな問題となっています。 地球全体のコンピューティング能力では十分ではないと冗談半分に言う人がよくいますが、どうすれば AI を普遍的なものにできるのでしょうか?

Transformer へのパス依存を打破できるか、あるいはどのように最適化できるかというアーキテクチャ層の革新はまさに重要な課題であり、RWKV はまさにこの課題に応えています。 少し前に、Hugging Face の公式ツイートが、Stability AI の責任者のコメントを含めてデータベースへの登録を発表しているのを目にしましたが、全員がそれを強調していました。 論文発表後に受け取ったフィードバックは何ですか? メリットとデメリットは?

ルオ・シュアン:両側です。 良い面としては、最終的な推論速度が実際に非常に速く、リソースが節約されるということであり、これはアーキテクチャによってもたらされる利点です。 一方で、まだ1,000億モデルまではスケールアップしていないので、まだ見ていない機能もたくさんあり、皆さん楽しみにしながら1,000億モデルを実践しています。 また、現在の 14B モデルと 7B モデルは両方とも英語ベースですが、現在、中国語やその他の多言語でのモデルを練習中です。 したがって、これら 2 つのモデルを別々にトレーニングすると、多くの問題が解決される可能性があります。

ラオ・ワン: 論文は完成する前に出版されたと聞きましたが? なぜ?

Luo Xuan: はい、最初にプレリリース版をリリースし、次にトップ号をリリースしました。 長い間、私たちは書類は重要ではないと考えていましたよね? コードはすべてオープンソースです。 しかし、投資家、開発者、一部の科学研究機関など、多くの人が依然として論文を希望しているため、私たちは誰もが良いと思うバージョンをできるだけ早く書きました。 さらに、この時間帯も重要ではないかと思います。

ラオ・ワン: 次に最新の試験データや比較結果はどのチャンネルで公開されますか? 開発者が今でもこれらを重視していることは理解しています。

Luo Xuan: はい、国内外の開発者がリストを非常に重視していることもわかりました。そのため、今月初めから一部の海外リストに掲載されており、次は中国にも掲載される可能性があります。 さて、1,000 億のモデルと 100 億のモデルを比較することは、誰にとっても非常に奇妙です。 一般に、ブラック ボックスとホワイト ボックスの 2 つの比較方法を使用します。

ホワイト ボックスは、微調整を行わずに変数、同じパラメータ、同じデータセットを制御し、誰もがよくテストするいくつかのユースケースと比較します。 以前14BのLLaMAと比較しましたが、LLaMAよりも優れています。 Black Box は最近の Chatbot Arena リストのようなもので、完全に匿名かつ二重盲検であり、現在グローバル リストで 6 位にランクされています。

Lao Wang: これは、カリフォルニア大学バークレー校が作成し、あなたの友達が共有したリストですか? あなたのランキングは清華チームの ChatGLM より少し高いようですが、その得点メカニズムと得点者は誰ですか?

Luo Xuan: 世界中の誰もが匿名で評価できます。

AI の未来はクラウド上にあるのでしょうか?
Luo Xuan: 今では誰もが一元化されたクラウド サービスを提供していますが、このモデルは儲かるようですよね? しかし、実際には問題があります。 1 つ目は、呼び出しプロセス中にデータを引き渡す必要があること、2 つ目は、モデル アーキテクチャに起因してコストが高いこと、3 つ目は、多くのシナリオでクラウド サービスを呼び出すのは適切ではなく、適時性が確保できないことです。保証されます。

これら 3 つの点に基づいて、私たちは今後の AI は集中型のクラウド サービスであるべきではなく、理論や訓練に関係なく、ますます分散されるべきであると考えています。 簡単に言えば、将来的には大きなモデルがその端末上で動作する可能性があります。

Lao Wang: つまり、ユーザーの核となる価値は、大規模なモデルをクラウドに移行することなのですね。 クラウドの有無にかかわらず実行できますか?

Luo Xuan: 普遍的な大型モデルは、ユンと非ユンの両方で作成できると言うべきです。 より多くの人が自分の端末で使い始められることを願っています。

Lao Wang: ChatGLM は一般向けのグラフィック カードを搭載したコンピュータでも実行できるようですが、テストしましたか?

Luo Xuan: アルゴリズムの複雑さに戻りましょう。 それが Transformer である場合、その複雑さは依然として n² であり、端末上で長時間実行する方法がないことを意味します。 アルゴリズムの時間と空間の複雑さが極限に達した場合にのみ、端末上で、あるいは将来的には一部の独自チップ上で大規模にアルゴリズムを実行できるようになります。 Oのn乗は究極のアルゴリズムです。

PC や携帯電話の時代では、多くのことが完璧ではありません。これはコンピューティング パワーを常に消費することと同じであり、端末の料金を払い続けることになります。 たとえば、携帯電話、なぜ毎年買い替えなければならないのでしょうか? 大量の計算能力がソフトウェアによって消費されるため、新たな需要はもたらされません。 これは実際には経済モデルです。

したがって、現在の大型モデルはチップ上で実行できないため、チップ + OS の良好な相互反復段階はまだ形成されていないと考えられます。

小さなチームでは大きなモデルを作ることはできないのでしょうか?
Lao Wang: 先ほど、挑戦したいコンセンサスについて言及しました。つまり、大企業だけが大規模なモデルを構築する機会を持っているか、小規模なチームが大規模なモデルを構築できる期間は過ぎているということです。

Luo Xuan: はい、私たちの会社は現在合計 4 人だけです。以前から常にオープンソースでしたので、大規模な営利企業でもこれを実行できることがわかります。少なくとも私たちはそれを実行しました。 私たち14Bではかなり使いこなしていますし、100B以上のモデルも練習していますので、これは現実的なケースだと思います。

ラオ・ワン: 大企業にしかできないと言われていると思いますが、大企業は技術的にできるということに加えて、おそらく資源的な優位性もあり、すぐに潰すことができるのではないでしょうか?

Luo Xuan: これは非常に興味深い質問です。リソースはどこに費やされていますか? リソースは比較的複雑なアーキテクチャに費やされ、このアーキテクチャによって消費されるリソースはコンピューティング能力、特に推論側のコンピューティング能力を消費します。 では、大規模モデルのトレーニングと使用にはなぜこれほどのコストがかかるのでしょうか?その根本的な理由がアーキテクチャにあると考えたことはありますか? あなたは n² ですが、資源の消費率は私たちとはまったく異なります。

Lao Wang: 小規模なチームを持つのは興味深いとおっしゃいましたが、少し前にスクリーンに登場した記事「A Great Company Only Needs 11 People」は、創設者 1 名、研究開発担当者 8 名、法務担当者 1 名、財務担当者 1 名で構成された Mid Journey に関するものです。研究開発スタッフの半数は学部を卒業していない学部生だそうです。

Luo Xuan: 実は、私は無責任な推測をしていますが、実際、OpenAI がこれほど多くの人材を採用する目的は、非常に多くの人材が必要だからではなく、大規模なモデルの構築方法やエンジニアリングのやり方を知っている優秀な人材や優秀な人材を独占するためです。 。

Lao Wang: あなたの創設者が OpenAI に採用されたことについて話すのは都合が良いでしょうか?

Luo Xuan: RWKV の唯一の著者であるブルームバーグに正式な電子メールを送ったのは、OpenAI の前の技術リーダーでした (彼の名前には博士号が付いていますが、実際には博士号ではありません)。 OpenAI からのメールには、このオープンソース プロジェクトを見て参加したいと書かれていました。

ラオ・ワン: このプロジェクトはどのようにして始まったのですか?

Luo Xuan: 3 年前、ブルームバーグは大規模なモデルを使用したい他の起業家プロジェクトを抱えていましたが、Transformer アーキテクチャが非常にパフォーマンスを重視していることがわかりました。 その後、別の論文を見てインスピレーションを受け、過去 3 年間、Transformer アーキテクチャを最適化して複雑さを十分に低く抑えることに取り組んできました。 実はこれをやっているのは彼だけではなく、海外でもやっている人はたくさんいて、それを成し遂げているのは彼だけなのです。

一方で、以前海外のオープンソースコミュニティでStability AIのボスに会ったことがあり、このオープンソースプロジェクトを非常に応援してくれており、オープンソースプロジェクトのコンピューティングパワーをStability AIから寄付していただきました。 数千枚のカードがスポンサーになっていますが、実際に使用されるカードはそれほど多くなく、14B に実際に必要なのは数十枚のカードだけです。

Lao Wang: いつも疑問に思っているのですが、コンピューティング能力の寄付には本当に他に条件はないのでしょうか? LLMもやるということをニュースで読んだので、寄付しようかと考えているのですが、どういうロジックですか?

Luo Xuan: 条件はありません。実際、中国には他にも寄付を受け入れているプロジェクトがあります。 私たちはオープンソースに関してより緊密な協力を行うことは間違いなく、彼らが今後もオープンソースに資金を提供すると信じています。 彼らの上司もTwitterでRWKVへの支持を公に表明した。

開いているのか、閉じているのか? 大規模モデルの実際のしきい値はどれくらいですか?
Lao Wang: Stability AI と OpenAI とのあなたの接点は、たまたまオープン ソースとクローズド ソースの間の議論の縮図です。 なぜオープンソースを選んだのですか? 現状では大規模なモデルプロジェクトの方がクローズドソースの評価が高いような気がしますが?

Luo Xuan: これは非常に興味深い質問です。 まず第一に、私たちはクローズドソースをクローズドにすることはできないと考えています。 オープンソースでない場合、この分野に貢献する人を惹きつける魅力がないことを意味します。 たとえ多額の費用をかけて Meta や Google から人材を引き抜いたとしても、この方向のオープンソース プロジェクトが認知されれば、世界中から人々を惹きつけることができます。 したがって、この問題に関する私たちの判断は、クローズドソースは無意味であるということです。

2 番目のポイントは、オープンソースだけが真に人類を守ることができ、そうでなければ独占になってしまうということです。独占企業が AI を制御できなければ、誰もこのテクノロジーを理解できないため、人類は破滅するでしょう。

ビジネスの観点から見ると、大規模モデルの本当の基準はソース コードではなく、問題のより本質的な理解、さらにはアーキテクチャであり、これは AI 分野で最も重要な知的財産です。 したがって、オープンソースとクローズドソース自体に敷居はないと考えており、オープンソースによってより多くの人が AI を理解し、AI に基づいてより多くのことができるようになることを期待しています。 私たちのチームと同様に合計 4 人ですが、コミュニティにはすでに 100 を超える応募があります。

PC とモバイル インターネットに目を向けると、実際の最下層は Linux です。 十分な収益性はありませんが、それがなければオペレーティング システムは存在しません。 したがって、これらの世代の情報革命に十分なリソースをもたらしたのは、実際には Linux です。 もちろん、営利企業はこれで多額の利益を得ており、オープンソース AI エコシステムで利益を得るのに十分な営利企業が存在することも期待しています。

Lao Wang: それでは話を戻しますが、営利企業として Yuan Intelligent OS という会社を設立した場合、そのビジネス モデルは何ですか?

Luo Xuan: はい、私たちは大規模なオープンソース モデル RWKV に基づいて営利会社を設立しましたが、オープンソース部分は含まれていません。 チームの中心メンバーも現段階ではオープンソース開発を行っており、同社の創設者が RWKV の唯一の作者です。 オープンソースは営利企業の外にあり、今後もオープンソースであり続けるでしょう。

ビジネスモデルに関しては、RWKV は Linux に似ていると先ほど述べたので、Yuanzhi は Android を作りたいと考えています。 私たちはRWKVの競争力に十分な自信を持っています。 GPT のようなモデルと比較して、RWKV の推論コストはわずか 1/10 です。第 2 に、RWKV は最終的に非常にうまく実行でき、特にロボット、XR (スピーカーや携帯電話など) に適しています。発射される。 さらに、ヴィンセント グラフなどの AIGC シナリオでも直接的な利点があります。

ラオ・ワン:私もその視点を見てきました。 Mini Max の Yang Bin 氏は、オープンソースは本質的に局所的な最適化であり、小規模なモジュールにのみ適しており、大規模なモデルには適していないと信じていると述べました。

Luo Xuan: 過去の多くのオープンソース プロジェクトには問題があったと考えていますが、その理由は、本線の開発を主導する強力なリーダーがいなかったため、全員が無秩序で方向性の欠如した開発を行ったためです。 オープンソースも分散化のためですが、核となるのはビジョン次第です。

オープンソースにはビジョンが必要であり、明確な方向性がなければ何をすべきかわかりません。 現在私たちが目にしているオープンソース プロジェクトの中には、愛好家のグループが自分たちの好みに基づいて活動しているように感じられるものもありますが、これではオープンソースを真に健全なエコシステムに導くことはできないと思います。

Lao Wang:Metaがオープンソース化されたことで、OpenAIも新しいモデルを開発すると言われていますが、大企業も徐々にオープンソース化していく流れになると思いますか?

Luo Xuan: ここ 1 か月ほどで米国で最も白熱した議論は、オープンソースが大きなモデルにおいて最も重要なものであるかどうかです。 実際、私の見解では、オープンソースは肯定的です。なぜなら、このモデルは商用レベルではなく、特にアーキテクチャ レベルで、先ほど述べた Linux に近いからです。

6 年間開発され、その独自の価値が証明されている Transformer アーキテクチャと比較すると、RWKV は間違いなくまだ幼児です。 しかし、本当のニーズに基づいてより良い解決策を模索する RWKV チームの精神は、イノベーターの資質の 1 つであると思います。 今後の RWKV のスケールアップ開発とその商用ユースケースを楽しみにしています。
请先 登录 后评论