Mistral AI モデルの使用方法?

Mistral AI モデルの使用方法は?

閱讀全文
请先 登录 后评论
  • 1 フォロー
  • 0 集める 42 浏覽
  • ユーザー に質問しました 2024-01-16 21:18:24

1 回答

厚德載物
擅長:AI

Mistral-7B×8-MoEの特徴

公式の紹介によると、Mistral-7B×8-MoE は高品質のスパースエキスパートミックスモデルです。 これは、70 億のパラメータを持つ 8 つの大規模モデルを組み合わせたものです。 その主な特徴は次のとおりです。


32K のコンテキスト データを非常にエレガントに処理します

英語に加えて、フランス語、ドイツ語、イタリア語、スペイン語でも優れたパフォーマンスを発揮します。

優れたコーディング能力のパフォーマンス

命令の微調整後の MT-Bench スコアは 8.3 ポイントです (GPT-3.5 は 8.32、LLaMA2 70B は 6.86)。

MoE モデルには、次の 2 つの主要なコンポーネントがあります。


エキスパート: これらはネットワーク内の小さなサブネットワークであり、各エキスパートは通常、特定の種類のデータまたはタスクの処理を専門としています。 専門家による設計は、完全接続ネットワーク、畳み込みネットワークなど、さまざまな形式にすることができます。


ゲート メカニズム: これは、現在の入力データを処理するためにどのエキスパートをアクティブにするかを決定する責任を負うインテリジェントなルーティング システムです。 ゲート メカニズムは、入力データの特性に基づいて、データをさまざまなエキスパートに動的に割り当てます。


公式の紹介によると、このモデルはネットワーク データに基づいて事前トレーニングされており、エキスパート ネットワークとゲート ルーティングが同時にトレーニングされます。


Mixtral 8x7B とともに、R&D チームは Mixtral 8x7B 命令をリリースしました。 モデルは、指示に注意深く従うため、監視付き微調整と直接設定最適化 (DPO) を通じて最適化されています。 MT-Bench では 8.30 のスコアを達成し、GPT3.5 に匹敵するパフォーマンスを持つ最高のオープンソース モデルとなりました。

请先 登录 后评论