この AI 研究では、構成タスクに関するトランスフォーマー大規模言語モデル (LLM) の制限と機能を経験的および理論的に掘り下げています。
ホームページホームページ > ブログ > この AI 研究では、構成タスクに関するトランスフォーマー大規模言語モデル (LLM) の制限と機能を経験的および理論的に掘り下げています。

この AI 研究では、構成タスクに関するトランスフォーマー大規模言語モデル (LLM) の制限と機能を経験的および理論的に掘り下げています。

Jun 13, 2023

ChatGPT はトレンドになっており、毎日何百万人もの人が使用しています。 ChatGPT は、質問応答、ユニークで創造的なコンテンツの生成、大量のテキスト データの要約、コード補完、非常に便利な仮想アシスタントの開発など、人間を模倣する驚くべき機能により、私たちの生活を楽にしています。 OpenAI によって開発された ChatGPT は、GPT 3.5 (Generative Pre-Trained Transformer) および GPT 4 のトランスフォーマー アーキテクチャに基づいています。 OpenAI によってリリースされた言語モデルの最新バージョンである GPT 4 は、本質的にマルチモーダルです。つまり、以前のバージョンとは異なり、テキストと画像の形式で入力を受け取ります。 PaLM、LLaMA、BERT などの他の大規模言語モデル (LLM) も、医療、電子商取引、金融、教育などを含むさまざまな分野のアプリケーションで使用されています。

研究者チームは、最近発表された研究論文で、複雑なタスクにおける GPT などの LLM の優れたパフォーマンスと、単純なタスクでの苦戦との違いを強調しました。 Transformer LLM の制限と機能を詳しく調べ、チームは、複数桁の乗算、ロジック グリッド パズル、古典的な動的計画問題という 3 つの代表的な構成タスクについて実験を実施しました。 これらのタスクには、問題を小さなステップに分割し、それらのステップを組み合わせて正確な解決策を生成することが含まれます。

多段階の推論を必要とする構成タスクを解決する際のトランスフォーマーの限界を研究することを目的として、著者らは 2 つの仮説を提案しました。 1 つ目は、トランスフォーマーは、複数ステップの推論を線形化してパス マッチングにすることでタスクを達成するため、適切なソリューションを開発するために必要な基礎となる計算ルールを実際に理解して実装するのではなく、パターン マッチングとショートカット学習に依存していることです。 このアプローチにより、トレーニング中に同様のパターンでの高速かつ正確な予測が可能になりますが、まれな複雑な例には一般化できません。 2 番目の仮説は、トランスフォーマーには、固有のパターンを持つ複雑な構成タスクを解決しようとする際に、固有の制限がある可能性があるというものです。 初期の計算エラーが広がり、後のステップで深刻な複合エラーが発生し、モデルが適切な解に到達できなくなる可能性があります。

著者らは、2 つの仮説を調査するために、構成タスクを計算グラフとして定式化しました。 これらのグラフは、問題を解決するプロセスをより小さく、より管理しやすいサブモジュール機能ステップに分解し、問題の複雑さの構造化された測定と、言語モデルへの入力シーケンスとしての計算ステップの言語化を可能にします。 さらに、情報ゲインを使用して、グラフ内で完全な計算を実行せずに、基礎となるタスク分布に基づいてモデルが学習するであろうパターンについての予測を行います。

経験的な発見に基づいて、著者らは、トランスフォーマーが多段階推論を線形化されたサブグラフマッチングに削減することによって構成上の課題に対処することを提案しました。 彼らは、抽象的な複数ステップの推論問題に基づいた理論的議論を提供しており、タスクの複雑さが増加するにつれて、トランスフォーマーのパフォーマンスが急速に低下することを強調しています。 これは、非常に複雑な構成問題を処理するモデルの能力がすでに制限されている可能性があることを示しています。

結論として、経験的および理論的結果は、トランスフォーマーのパフォーマンスは、根底にある思考プロセスの完全な理解ではなく、主にパターン マッチングとサブグラフ マッチングによって左右されることを示唆しています。これは、トランスフォーマーがますます困難なタスクを実行することが困難になるという考えも裏付けています。 。

チェックアウトしてください紙。忘れずに参加してください22,000 以上の ML SubRedditDiscordチャンネル、 そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。 上記の記事に関してご質問がある場合、または何か見逃した場合は、お気軽にメールでお問い合わせください。[email protected]

🚀 AI Tools Club で 100 年代の AI ツールをチェックしてください

Tanya Malhotra は、デラドゥンの石油エネルギー研究大学の最終学年で、人工知能と機械学習を専門とするコンピューター サイエンス エンジニアリングの学士号を取得しています。彼女は、優れた分析的思考と批判的思考を備えたデータ サイエンスの愛好家であり、新しいスキルの習得、グループの指導、組織的な方法での仕事の管理に強い関心を持っています。

紙。 22,000 以上の ML SubReddit Discord チャンネルの電子メール ニュースレター [email protected] 🚀 AI Tools Club で 100 の AI ツールをチェックしてください