新しい手法により「ビジョン トランスフォーマー」AI システムの効率が向上
ホームページホームページ > ニュース > 新しい手法により「ビジョン トランスフォーマー」AI システムの効率が向上

新しい手法により「ビジョン トランスフォーマー」AI システムの効率が向上

Jun 18, 2023

ビジョン トランスフォーマー (ViT) は、画像内のオブジェクトを識別または分類できる強力な人工知能 (AI) テクノロジーですが、コンピューティング能力要件と意思決定の透明性の両方に関連する重大な課題があります。 研究者たちは現在、両方の課題に対処すると同時に、画像内のオブジェクトを識別、分類、セグメント化する ViT の能力を向上させる新しい方法論を開発しました。

トランスフォーマーは、既存の AI モデルの中で最も強力なものの 1 つです。 たとえば、ChatGPT はトランスフォーマー アーキテクチャを使用する AI ですが、そのトレーニングに使用される入力は言語です。 ViT は、視覚入力を使用してトレーニングされるトランスフォーマーベースの AI です。 たとえば、ViT を使用すると、画像内のすべての車やすべての歩行者を識別するなど、画像内のオブジェクトを検出および分類できます。

ただし、ViT は 2 つの課題に直面しています。

まず、変圧器のモデルは非常に複雑です。 AI に接続されるデータの量に比べて、トランスフォーマー モデルは大量の計算能力を必要とし、大量のメモリを使用します。 画像には非常に多くのデータが含まれているため、これは ViT にとって特に問題です。

次に、ViT がどのように意思決定を行うかをユーザーが正確に理解するのは困難です。 たとえば、画像内の犬を識別するように ViT をトレーニングしたとします。 しかし、ViT が何が犬で何が犬ではないかをどのように判断しているのかは完全には明らかではありません。 アプリケーションによっては、ViT の意思決定プロセス (モデルの解釈可能性とも呼ばれます) を理解することが非常に重要になる場合があります。

「パッチ対クラスター アテンション」(PaCa) と呼ばれる新しい ViT 手法は、両方の課題に対処します。

「私たちはクラスタリング技術を使用することで、計算量とメモリの需要に関連する課題に取り組んでいます。これにより、トランスフォーマ アーキテクチャが画像内のオブジェクトをより適切に識別し、焦点を合わせることができるようになります」と、この研究に関する論文の責任著者であり、同大学准教授の Tianfu Wu 氏は述べています。ノースカロライナ州立大学で電気工学およびコンピュータ工学を専攻。 「クラスタリングとは、AI が画像データ内で見つけた類似点に基づいて、画像のセクションをひとまとめにすることです。これにより、システムの計算要求が大幅に削減されます。クラスタリングの前には、ViT の計算要求は 2 次関数です。たとえば、システムが故障した場合、画像を 100 個の小さな単位に分割すると、100 個の単位すべてを相互に比較する必要があり、これは 10,000 個の複雑な関数になります。

「クラスタリングによって、これを線形プロセスにすることができます。各小さなユニットをあらかじめ決められた数のクラスタと比較するだけで済みます。10 個のクラスタを確立するようにシステムに指示したとしましょう。これは、1,000 個の複雑な関数だけになります。 」と呉さんは言う。

「クラスタリングを使用すると、最初にクラスタがどのように作成されたかを確認できるため、モデルの解釈可能性にも対処できます。データのこれらのセクションをひとまとめにするときに、どの機能が重要であると判断されましたか? また、AI が作成するのは少数だけであるためです」クラスターの数が多いと、それらを非常に簡単に調べることができます。」

研究者らは、PaCa の包括的なテストを実施し、SWin および PVT と呼ばれる 2 つの最先端の ViT と比較しました。

「PaCa はあらゆる面で SWin や PVT よりも優れていることがわかりました」と Wu 氏は言います。 「PaCa は、画像内のオブジェクトの分類、画像内のオブジェクトの識別、および本質的に画像内のオブジェクトの境界の輪郭を描くセグメンテーションにおいて優れていました。また、効率性も高く、つまり、これらのタスクをより迅速に実行できました。他の ViT。

「私たちの次のステップは、より大規模な基礎データセットでトレーニングすることで PaCa をスケールアップすることです。」

論文「PaCa-ViT: ビジョントランスフォーマーにおけるパッチ対クラスターアテンションの学習」は、6月18日から22日までカナダのバンクーバーで開催されるコンピュータービジョンとパターン認識に関するIEEE/CVFカンファレンスで発表されます。 この論文の最初の著者は、Ryan Grainger 博士です。 ノースカロライナ州立大学の学生。 この論文は、トーマス・パニアグア博士の共著者です。 ノースカロライナ州立大学の学生。 Xi Song、独立研究者。 そしてBlueHaloのNaresh CuntorとMun Wai Lee。

この作業は、契約番号 2021-21040700003 に基づき、国家情報長官室の支援を受けて行われました。 米国陸軍研究局、助成金 W911NF1810295 および W911NF2210010 に基づく。 および国立科学財団(助成金 1909644、1822477、2024688、および 2013451)を受けています。

-船員-

編集者へのメモ:研究の要約は次のとおりです。

「PaCa-ViT: ビジョントランスフォーマーにおけるパッチ対クラスターの注意の学習」

著者: Ryan Grainger、Thomas Paniagua、Tianfu Wu、ノースカロライナ州立大学。 Xi Song、独立研究者。 ナレシュ・カントゥールとムン・ワイ・リー、BlueHalo

発表: コンピューター ビジョンとパターン認識に関する IEEE/CVF カンファレンス 2023、6 月 18 ~ 22 日、カナダ、バンクーバー

抽象的な:ビジョン トランスフォーマー (ViT) は、画像パッチを「視覚トークン」として扱い、パッチ間の注意を学習するという前提に基づいて構築されています。 パッチ埋め込みベースのトークナイザーには、対応するテキスト トークナイザーと比べて意味的なギャップがあります。 パッチ間の注意は二次複雑さの問題に悩まされ、学習された ViT を説明することも自明ではなくなります。 ViT におけるこれらの問題に対処するために、この論文では、ViT でパッチ対クラスター アテンション (PaCa) を学習することを提案します。 PaCa-ViT のクエリはパッチから始まり、キーと値はクラスタリング (事前定義された少数のクラスター) に直接基づいています。 クラスターはエンドツーエンドで学習されるため、より優れたトークナイザーが得られ、注意を向けた共同クラスタリングと、より優れた解釈可能なモデルを実現するための注意を向けたクラスタリングが誘導されます。 二次複雑度は線形複雑度に緩和されます。 提案された PaCa モジュールは、効率的で解釈可能な ViT バックボーンとセマンティック セグメンテーション ヘッド ネットワークの設計に使用されます。 実験では、提案された方法が ImageNet-1k 画像分類、MS-COCO オブジェクト検出とインスタンス セグメンテーション、および MIT-ADE20k セマンティック セグメンテーションでテストされます。 従来技術と比較すると、ImageNet-1k および MIT-ADE20k では、3 つのベンチマークすべてで SWin および PVT よりも大幅に優れたパフォーマンスが得られます。 また、線形の複雑さにより、MS-COCO および MIT-ADE20k の PVT モデルよりも大幅に効率的です。 学習されたクラスターは意味的に意味があります。 コードとモデルのチェックポイントは https://github.com/iVMCL/PaCaViT で入手できます。

編集者への注記: 「PaCa-ViT: ビジョン トランスフォーマーにおけるパッチからクラスターへの注意の学習」 要約: