AMST2: 集約マルチ
ホームページホームページ > ブログ > AMST2: 集約マルチ

AMST2: 集約マルチ

Aug 26, 2023

Scientific Reports volume 13、記事番号: 9062 (2023) この記事を引用

59 アクセス

2 オルトメトリック

メトリクスの詳細

最近、多くの既存のビジュアル トラッカーは、マルチレベルの畳み込み層からの空間情報または追跡用の時間情報を組み込むことにより、大幅な進歩を遂げています。 ただし、空間情報と時間情報の両方の相補的な利点は、これら 2 種類の情報を別々に使用すると活用できません。 この論文では、空間的および時間的コンテキスト情報を複数のレベルで組み込んだトランスフォーマーベースのモデルを使用した、堅牢な視覚追跡のための新しいアプローチを紹介します。 マルチレベルの空間および時間エンコーダーを通じて洗練された類似性マップを統合するために、集約エンコーダーを提案します。 したがって、提案された集約エンコーダの出力には、マルチレベルの空間コンテキストと時間コンテキストのグローバル コンテキストを統合する有用な機能が含まれています。 私たちが提案する機能は、マルチレベルの空間的および時間的コンテキストの対照的でありながら補完的な表現を提供します。 この特性は、オクルージョン、モーション ブラー、小さなオブジェクト、スケールの変動によって追跡エラーが発生する可能性がある複雑な航空シナリオで特に有益です。 また、当社のトラッカーは軽量のネットワーク バックボーンを利用し、航空データセットでの高速かつ効果的なオブジェクト追跡を保証します。 さらに、提案されたアーキテクチャは、初期テンプレート情報を保持しながら最新のオブジェクトの特徴を更新することにより、大きな変動に対してより堅牢なオブジェクト追跡を実現できます。 7 つの挑戦的な短期および長期空中追跡ベンチマークに関する広範な実験により、提案された追跡装置がリアルタイム処理速度とパフォーマンスの両方の点で最先端の追跡方法を上回ることが実証されました。

関心のあるオブジェクトの視覚的な追跡は、コンピューター ビジョンにおける非常に重要かつやりがいのある研究テーマです1。 視覚追跡の主な目的は、異なるフレーム内の類似したピクセル間の対応関係を確立することによって、ビデオ フレームのシーケンス内の任意のオブジェクトの位置とサイズを推定することです。 近年、ドローンなどの無人航空機(UAV)の重要性と活用の高まりに伴い、航空データを活用したさまざまな視覚追跡手法が研究されています2,3。 視覚追跡は大幅に進歩しましたが、航空追跡は依然として、リアルタイム追跡、照明変動、遮蔽、急速な動き、背景の乱雑さ、ぼやけなど、数多くの課題に直面しています。

従来の視覚追跡パラダイムは、(1) 検出による追跡と (2) シャム ネットワーク ベースの追跡の 2 つのカテゴリに分類できます。

検出による追跡方法では、まず各ビデオ フレーム内のオブジェクトを検出し、次にモーション モデルを使用してオブジェクトの位置を更新します。 識別相関フィルタ(DCF)は代表的な検出追従方式であり、フーリエ変換を利用して効率的に相互相関計算を行い、リアルタイム処理を実現します4,5,6,7,8,9,10,11。 DCF トラッカーは、オブジェクトと背景を表現するために、方向性勾配のヒストグラム (HOG) などの手作りの機能も採用しています。 ただし、DCF トラッカーには、スケールの変更や大幅な外観の変化を処理できないなど、いくつかの制限があります。

畳み込みニューラル ネットワーク (CNN) の深い機能を使用することで、深層学習ベースの手法は、DCF ベースのトラッカーよりも追跡パフォーマンスが大幅に向上しました 12、13、14、15、16、17、18。 深層学習ベースのトラッカーの進歩にも関わらず、一部のアルゴリズムには計算リソースが不足しているため、組み込みプラットフォームに適さないものや、必要なレベルの追跡パフォーマンスを提供できないものもあります。 最近まで、DCF ベースのトラッカーはローエンド アプリケーションで頻繁に採用されており、組み込みプラットフォームのようなデバイスの制約により、深層学習ベースの方法と比較して追跡パフォーマンスが低いことが無視されていました。

最近では、リアルタイム処理と高性能を同時に実現するために、多くのトラッカーがシャムネットワークアーキテクチャを採用しています。 シャム ネットワーク ベースのトラッカーは、テンプレート フレームのターゲットの外観と、検索フレーム内の検索領域の対応する特徴表現から生成された類似性マップを使用して、オブジェクトの位置を推定します。 これらのトラッカーは、ImageNet19 などの大規模なデータセットでオフラインでトレーニングされ、テンプレートと検索パッチ間の類似性を測定します。 Siamese トラッカーのオリジナル バージョンは SINT20 ですが、最も一般的な方法は SiamFC21 と呼ばれ、他の多くのトラッカーに貢献しています 22、23、24、25、26、27、28、29、30、31、32、33、34 、35。 AlexNet36 のような軽量 CNN を使用するいくつかのシャム トラッカーは、堅牢な特徴とグローバル コンテキストの両方を抽出できません 21、22、23、25、37。 多くの最先端トラッカーは、パフォーマンスの問題に対処するために、ResNet38 のようなより深いニューラル ネットワークを採用しています26、27、28、29、30、31、34、39、40。 バックボーン ネットワークの改善に加えて、Siamese ネットワーク ベースのフレームワークを強化するために重要な研究が行われています。 これには、DCF41、42、地域提案ネットワーク(RPN)モジュール26、37、43、44、テンプレート更新モジュール44、45、アテンションメカニズム24、34、35、46、アンカーフリーメカニズム29、30、31などのさまざまな技術の組み合わせが含まれます。 、33、および変圧器機構47、48、49、50、51。

最先端技術間の定性的な比較。 この図は、いくつかの挑戦的なビデオ シーケンス (DTB70 の Animal2、Vaulting、および UAV123 の Bike2、Truck1) に対する、提案されたトラッカー AMST\(^2\) と 3 つの最先端のトラッカーの結果を示しています。 AMST\(^2\) トラッカーは、機能レベルのテンプレート更新メカニズムを追加しながら、マルチレベルの空間コンテキストと時間コンテキストを組み合わせることにより、他のアルゴリズムよりも優れたパフォーマンスを示します。

汎用トラッカーは大幅な進歩を遂げていますが、UAV などの空中環境での追跡には、一定レベルの性能を維持しながらより高速な処理が求められます。 これらの要件を満たすために、軽量 CNN とさまざまな深層学習技術を組み合わせたトラッカーが提案されています。 これに関連して、SiamAPN はアンカー提案ネットワークを利用してアンカーを改良しました52。 SiamAPN++ は、アテンション アグリゲーション ネットワーク (AAN) を採用し、自己およびクロス AAN のアテンション メカニズムを通じて、複雑な状況において堅牢な空中追跡を実現しました53。 SiamAPN と SiamAPN++ は両方とも、トラッカーの効率とパフォーマンスを向上させるために少数の高品質アンカーを生成しました。 HiFT54 と TCTrack55 は、軽量 CNN とトランスフォーマー アーキテクチャを利用した最近の航空トラッカーの例です。 HiFT は、複数の CNN 特徴層からのグローバル コンテキストを活用する階層的特徴トランスフォーマーを採用することで、スケール不変性に対処します。 一方、TCTrack は、検索特徴と類似性マップの時間的な事前知識を組み込んだトランスフォーマー ベースのフレームワークを利用し、時間情報を考慮する修正された軽量 CNN を使用します。 マルチレベルの空間情報と時間情報の使用を分離すると、特定の堅牢なシナリオでのみ高いパフォーマンスが達成されるという重大な問題が発生する可能性があります。 たとえば、マルチレベルの空間情報を使用すると、低解像度やスケールの変動に対して堅牢になる可能性がありますが、時間情報のみに依存すると、変形に対処する際に優れたパフォーマンスを示す可能性があります。

空間情報と時間情報の両方を統合すると、複雑なシナリオにおける堅牢性と効率が向上します。 これを達成するために、我々は、堅牢な空中追跡のための集約されたマルチレベルの空間的および時間的コンテキストベースのトランスフォーマー (AMST\(^2\)) アーキテクチャを提案します。 私たちの設計には、改良されたトランスフォーマー エンコーダーに基づく集約エンコーダーと、強化された類似性マップに役立つコンテキストをキャプチャするマルチレベルの空間および時間エンコーダーが含まれています。 マルチレベル空間エンコーダの出力は、集約エンコーダを使用して時間エンコーダの出力に単純に注入されます。 その結果、集約エンコーダーの出力は、マルチレベルの空間コンテキストおよび時間コンテキストのグローバル コンテキストを完全に活用できる堅牢な埋め込み表現になります。 デコーダは、集約エンコーダの出力に基づいて、より強力で洗練された類似性マップを生成することに重点を置いています。 アグリゲーションエンコーダに含まれる多値空間情報は、航空追跡において大きな課題である微小物体追跡に関連性の高い情報を扱い、時間情報は微小物体の大きな変化を捉えます。 さらに、提案されたモデルは軽量ベースのバックボーン ネットワークを採用しています。 軽量バックボーンを使用すると、さまざまな AI アルゴリズムと組み合わせると、深いバックボーンを使用するよりも全体的なモデル サイズが有利になります。 その結果、これらのトラッカーは、リアルタイムで実行しながら UAV を使用して取得したデータ内の小さなオブジェクトを追跡するという問題を首尾よく解決できます。 さらに、既存の方法 55 では、検索の特徴レベルでのみ時間情報を更新すると、時間の経過とともに検索とテンプレート特徴の間の不一致が原因でトラッカーの高度な障害が発生する可能性があります。 したがって、テンプレート レベルでの離散時間コンテキスト更新であるテンプレート更新ネットワークを採用することで、追跡パフォーマンスをさらに向上させます。 図 1 に示すように、提案された AMST\(^2\) は、複雑なシナリオにおいて正確かつ堅牢なパフォーマンスを実現します。

この研究の主な貢献は次のように要約できます。

我々は、トランスフォーマ構造内のマルチレベル空間コンテキストの階層的特徴と時間コンテキスト特徴のエンコーダ埋め込み表現を組み合わせる集約エンコーダを導入する、新しい航空写真追跡メカニズムを提案します。

提案されたトラッカーは、検索特徴レベルと類似度マップレベルで時間情報を適用するだけでなく、より堅牢な追跡のための離散時間コンテキスト更新としてテンプレート特徴レベルでのテンプレート更新プロセスも採用します。

性能評価のために、さまざまな UAV データセットに対して包括的な実験を実行します。 提案されたトラッカーは、リアルタイム処理を備えた他の航空トラッカーと比較して、最先端の結果を達成していることを示しています。

変圧器は Vaswani らによって最初に提案されました。 機械翻訳などのシーケンス間のタスクを実行するためのモデルとして。 このアプローチはアテンション メカニズムに基づいており、出力シーケンスを生成する際に、入力シーケンス全体の最も重要な部分にさらに焦点を当てることで、入力シーケンスのグローバル情報を効率的に取得できます。

最近、トランスフォーマーは、自然言語処理 (NLP) 分野に加えて、画像分類 57、物体検出 58、および動作認識 59 を含む視覚タスクにも適用されています。 このアプローチは、空間的および時間的なコンテキスト情報を柔軟かつ効率的に組み込むことができ、さまざまなシナリオでの追跡パフォーマンスの向上が可能になるため、ますます人気が高まっています。

ほとんどの変圧器ベースのトラッカーは、バックボーン ネットワークから抽出された機能を変圧器に供給するプロセスを採用しています47、48、49、50、54、55。 TransT は、トランスフォーマーの主なアイデアに触発されて、自己注意を備えたエゴコンテキスト拡張モジュールと相互注意を備えたクロス特徴拡張モジュールで構成される特徴融合ネットワークを提案しました 47。 特徴融合ネットワークの出力の便利な特徴として、最終的な追跡結果は分類およびボックス回帰プロセスを通じて取得されます。 TrDiMP は、DiMP モデル予測子を利用し、トランスフォーマー エンコーダーの出力特徴をトレーニング サンプルとして使用してモデルの重みを生成します48。 その後、ターゲット モデルは、トランス デコーダーによって生成された出力特徴に予測された重みを適用することにより、ターゲット スコア マップを計算します。 TrDiMP には、ボンディング ボックス回帰のための確率論的 IoUNet が組み込まれており、提案されたモデルをシャムのようなパイプラインに定式化する TrSiam も導入されています。 STARK は、49 で提案されているように、DETR58 に基づくエンドツーエンドのトランスフォーマー アーキテクチャを使用するトラッカーです。 このモデルは、エンコーダーを介して空間情報と時間情報の両方におけるグローバルな関係を活用することで、堅牢な時空間表現を学習します。エンコーダーは、デコーダーに供給される識別可能な時空間特徴を抽出します。 さらに、このトラッカーにより、コサイン ウィンドウやバウンディング ボックスのスムージングなどの後処理技術が不要になるため、既存の追跡パイプラインが簡素化されます。 ToMP は、既存の最適化ベースのターゲット位置特定の制限を克服するために、トランスフォーマー ベースのモデル予測モジュールを使用してオブジェクト位置特定のための畳み込みカーネルの重みを予測します50。 トランスフォーマーベースのターゲット モデル予測器は、不必要な繰り返しの最適化を回避し、ターゲット情報を使用して識別特徴を動的に生成できます。 AiATrackは、既存のアテンション機構のノイズを抑制するために、適切な相関を強化し、曖昧な相関を抑制するアテンション・イン・アテンション(AiA)モジュールを導入しました。 以前にエンコードされたキャッシュされた特徴を直接再利用するモデル更新手法を導入することで、短期および長期の参照を効果的に利用する簡素化された追跡プロセスを提案し、顕著なパフォーマンスを示します。

さらに、空中追跡用の軽量バックボーンを採用した変圧器ベースの追跡方法についても、活発で精力的な研究が行われています54,55。 前述のトラッカーとは異なり、バックボーンを既存の CNN の代わりにトランスフォーマーに置き換えたトラッカーの研究も顕著なパフォーマンスを示しています 60,61。

オブジェクト追跡の分野でパフォーマンスを向上させるには、空間情報と時間情報の両方を組み込むことが重要です。 マルチレベルの空間特徴を使用して、空間次元に従ってテンプレートと現在の検索領域の間の関係を抽出するトラッカーが多数あります12、26、29、30、54。 マルチスケール機能を使用するトラッカーには、さまざまなスケールのオブジェクトの位置を確実に追跡できるという利点があります。 Updatenet45 や SiamTOL44 などの動的テンプレートベースのトラッカーは、時間情報を利用して追跡パフォーマンスを向上させるために開発されています。 特に、TCTrack は、検索特徴レベルと類似度マップ レベルを含む 2 つのレベルの時間的コンテキストを考慮した追跡手法を導入しました55。 時間情報を考慮するトラッカーは、フレーム全体でオブジェクトの状態の変化をキャプチャすることで、堅牢なパフォーマンスを実現できます。 しかし、多値の空間情報と時間情報を別々に利用する場合、両者の相補的な利点を活かすことができないという問題がある。 この制限に対処するために、STARK トラッカーで実証されているように、トランスフォーマーとの同時学習を通じて空間情報と時間情報を統合することでトラッカーの堅牢性を向上させる方法が導入されました49。

視覚追跡機能を備えた UAV の技術進歩により、航空追跡は航空、農業、輸送、防衛などの分野で広く適用されています1、2、3。 航空追跡における重大な課題の 1 つは、UAV の飛行振動や複雑な環境によって引き起こされる画像の歪みから生じます。 特に、航空追跡では、高高度を飛行する UAV が地上の物体を捕捉する場合、物体のサイズが小さいため、豊かな特徴を抽出することが困難です。 深層学習ベースのトラッカーはさまざまな UAV データセットで優位性を実証していますが、航空プラットフォームのリソースが限られているため、重いモデルの使用が妨げられ、追跡パフォーマンスの向上が制限されます。 これらの課題に対処するために、さまざまな UAV データセットを使用していくつかの特殊なトラッカーが開発されました。

AutoTrack は、時空正則化のハイパーパラメーターを自動的に調整する DCF ベースのトラッカーで、CPU62 での高いパフォーマンスを実証します。 COMET は、小型オブジェクト追跡用のマルチタスク 2 ストリーム ネットワークとオフライン参照提案生成戦略を利用するコンテキスト認識型 IoU ガイド付きトラッカーを提案することにより、追跡精度を向上させます63。 さらに、アンカー提案ネットワークを採用して、軽量シャムネットワークベースのトラッカー用の高品質アンカーを生成することにより、優れた空中追跡性能が示されました 52,53。 さらに、軽量のシャム ネットワーク バックボーンにトランスを採用することで、相関マップが強化され、顕著な進歩がもたらされました 54,55。

小型組み込み AI コンピューティング プラットフォームの開発は、専用サーバー GPU に代わる有望な代替手段を提供し、将来の空中追跡の取り組みにおける継続的な研究と実用化を可能にします。

このセクションでは、集約されたマルチレベルの空間および時間コンテキスト ベースのトランスフォーマーを利用する、航空追跡用の AMST\(^2\) トラッカーを紹介します。 提案されたトラッカーは、4 つのサブモジュールで構成されます: (1) シャム特徴抽出ネットワーク、(2) テンプレート更新ネットワーク、(3) トランスフォーマー モジュール (マルチレベル空間エンコーダー、時間エンコーダー、集約エンコーダー、およびマルチコンテキストを含む)デコーダー)、および(4)分類および回帰ネットワーク。 既存の追跡アルゴリズムとの明確な比較を提供するために、マルチレベル空間エンコーダー、時間エンコーダー、およびテンプレート更新ネットワークを利用するベースライン アルゴリズムを紹介します。 次に、マルチレベルの空間エンコーダーと時間エンコーダーによって学習された表現を結合する集約エンコーダーと、追跡用の修正されたデコーダーを採用することで、これらのベースライン アルゴリズムの拡張を提案します。 私たちの方法を視覚的に表現したものを図 2 に示します。アプローチの詳細は以下で説明します。

提案されたトラッカーの全体的な追跡プロセス。 AMST\(^2\) トラッカーは、Siamese 特徴抽出、テンプレート更新ネットワーク、トランスフォーマー、分類および回帰ネットワークの 4 つの主要コンポーネントで構成されています。 トランスフォーマー モジュールは、マルチレベルの空間エンコーダー、時間エンコーダー、および集約エンコーダーと、マルチコンテキスト デコーダーで構成されます。 マルチレベル空間エンコーダーは、第 3 層と第 4 層の特徴から生成された類似性マップを入力として受け取りますが、時間エンコーダーは、第 5 層の特徴から生成された類似性マップと、前の時間エンコーダーの出力 (青い点線で示されています) を使用します。 ) を入力として使用します。 集約エンコーダーは、マルチレベルの空間エンコーダーおよび時間エンコーダーの出力を入力として受け取ります。 マルチコンテキスト デコーダーは、すべてのエンコーダーの出力と、第 5 層の特徴で生成された類似性マップを入力として使用します。 さらに、テンプレート更新プロセスには、更新パッチ、以前のテンプレート機能、および初期テンプレート機能が組み込まれています。 この処理は、特定のフレームごと、または特定の条件下で実行され、テンプレートが更新されます。

特徴抽出のバックボーンとして、GoogLeNet64、MobileNet65、ResNet38 などのディープ CNN がさまざまなトラッカーで広く使用されています。 ただし、大量の計算要件があるため、UAV などの組み込みプラットフォームでの使用は制限されます。

この問題を解決するために、追加の畳み込み層を備えた AlexNet などの軽量の特徴抽出器を、55 に触発されたオンライン時間適応畳み込み (TAdaConv)66 に変換しました。 TAdaConv は、検索機能レベルで時間的コンテキストを考慮します。 一般的な畳み込み層は、追跡シーケンス全体で学習可能な重みとバイアスを共有します。 一方、オンライン畳み込み層のパラメータは、フレームごとに異なる校正係数と学習可能な重みとバイアスによって計算されます。 その結果、前のフレームによって動的に調整された畳み込み重みを使用して、特徴レベルで時間情報を含む特徴を抽出することが可能になります。 TAdaConv は前のフレームの特徴のグローバル記述子を使用して調整されるため、時間適応畳み込みネットワーク (TAdaCNN) による追跡パフォーマンスは、フレーム レートの低下がわずかであるにもかかわらず、著しく向上します。 標準の畳み込み層を TAdaConv に変換する方法の詳細については、55、66 を参照してください。

低レベルと高レベルの畳み込み層の機能を両方利用することで、追跡精度が向上します。 したがって、TAdaCNN \(\phi\) をバックボーンとして使用し、t 番目のフレームで TAdaCNN の多層の階層特徴を使用して類似度マップを計算することにより、多レベルの空間情報が取得されます。

ここで、\(\textrm{Z}\) と \(\textrm{X}\) はそれぞれテンプレートと検索画像を表します。 \(\circledast\) は深さ方向の相互相関を表し、\(\phi _{\textrm{t}}^{i}\left( \cdot \right)\) は TAdaCNN の i 番目の畳み込み層を表します。 t 番目のフレーム。 多層の深い特徴を活用するには、バックボーンの最後の 3 つの畳み込み層を TAdaConv に変換した後に特徴を抽出します。 最後に、類似度マップ \({\textbf{R}}_{t}^{3}\in {\mathbb {R}}^{H\times W\times C}\)、\({\textbf{ R}}_{t}^{4}\in {\mathbb {R}}^{H\times W\times C}\)、および \({\textbf{R}}_{t}^{5 }\in {\mathbb {R}}^{H\times W\times C}\) は、多層の深い特徴を使用して取得できます。

バックボーンのマルチレベル層の階層的特徴を使用して計算された類似性マップは、マルチレベルの空間および時間エンコーダーに供給される前に前処理されます。 提案する変換エンコーダのアーキテクチャを図 3 に示します。まず、類似度マップ \({\textbf{R}}_{t}^{3}\)、\({\textbf{R}}_{ t 番目のフレームから取得された t}^{4}\) と \({\textbf{R}}_{t}^{5}\) は畳み込み層を通過します。 その後、洗練された類似性マップ \({{\varvec{T}}}_{t}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}} }_{t}^{3}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}}}_{t}^{4}\in { \mathbb {R}}^{HW\times C}\)、および \({{\varvec{S}}}_{t}^{5}\in {\mathbb {R}}^{HW\times C}\) は reshape 操作を使用して取得できます ( \({{\varvec{T}}}_{t}\) は \({{\varvec{S}}}_{t}^{ をコピーすることで取得できます) 5}\)、\({{\varvec{T}}}_{t}\) = \({{\varvec{S}}}_{t}^{5}\)) となります。

アテンション メカニズムは、標準トランスの重要なコンポーネントです。 これには、それぞれ \({\textbf{Q}},{\textbf{K}},\) と \({\textbf{V}}\) として表されるクエリ、キー、値の使用が含まれます。 標準的な変圧器のアテンション関数は通常、スケール ドット積アテンションとして定義され、次のように表現できます。

ここで、 \(1/\sqrt{d_{k}}\) は、ソフトマックス分布を制御し、勾配消失の問題を回避するためのスケーリング係数です。 アテンション モジュールを複数の頭部に拡張することにより、モデルは次のように複数の部分空間の表現を抽出できます。

ここで \({\textbf{W}}_{j}^{{\textbf{Q}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf { W}}_{j}^{{\textbf{K}}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf{W}}_{ j }^{{\textbf{V}}}\in {\mathbb{R}}^{C\times C/N}\)、および \({\textbf{W}}^{{\textbf{O } }}\in {\mathbb {R}}^{C\times C}\) は学習可能な重み行列です。\(\textrm{Concat}(\cdot)\) は連結を表し、\(N\) は数値です注目の頭。

提案されたトランスエンコーダのアーキテクチャ。 提案されたエンコーダは、マルチレベル空間エンコーダ、時間エンコーダ、および集約エンコーダの 3 つのコンポーネントで構成されます。

曹氏ら。 マルチレベルの空間情報の組み合わせを利用して、階層的な特徴間の相互依存関係を完全に調査しました54。 具体的には、学習可能な位置エンコーディング、\({{\varvec{S}}}_{t}^{3}\) および \({{\varvec{S}}}_{t}^{4}\) を使用します。加算と正規化を使用して結合され、\({\textbf{M}}_{t}^{1}\) が得られます。つまり、\({\textbf{M}}_{t}^{1}=\ textrm{Norm}\left( {{\varvec{S}}}_{t}^{3}+{{\varvec{S}}}_{t}^{4}\right)\)、つまり次に、マルチヘッド アテンション層に入力され、(3) の方程式を使用して \({\textbf{M}}_{t}^{2}\) が取得されます。

(4) に示すように、\({{\varvec{S}}}_{t}^{3}\) と \({{\varvec{S}}}_{t} のグローバル コンテキストを考慮すると、 ^{4}\) と 2 つの特徴マップの相互依存関係を学習し、\({\textbf{M}}_{t}^{2}\) は高解像度の特徴マップに拡張されます。 その後、\({\textbf{M}}_{t}^{3}\) は加算演算と正規化層によって取得できます。つまり、\({\textbf{M}}_{t}^{3} =\textrm{ノルム}\left( \mathbf {{M}}_{t}^{2}+{{\varvec{S}}}_{t}^{3}\right)\)。 \({\textbf{M}}_{t}^{3}\) と \({{\varvec{S}}}_{t}^{4}\) の間の相互依存関係を完全に調査するには、変調層を採用しています。 変調層は、\({\textbf{M}}_{t}^{3}\) と \({{\varvec{S}}}_{t}^{4) の間の内部空間情報を効率的に利用できます。 }\)、変調層の出力 \({\textbf{M}}_{t}^{4}\) は次のように表すことができます。

ここで、 \(\textrm{FFN}\left( \cdot \right)\) はフィードフォワード ネットワーク (FFN) を表し、 \(\textrm{GAP}\left( \cdot \right)\) はグローバル平均プーリングを表します(GAP)、\(\gamma\) と \({\mathcal {F}}\left( \cdot \right)\) はそれぞれ学習重みと畳み込み層を表します。 マルチレベル空間エンコーダの最終出力 \({\textbf{M}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) は次のように表すことができます。

マルチレベル空間エンコーダの圧縮埋め込み機能は、スケール変動シナリオからオブジェクトを効果的に識別するだけでなく、小さなオブジェクトの検出にも堅牢です。 マルチレベル空間エンコーダを図 3a に示します。

特徴レベルで時間情報を使用することとは別に、Cao et al. 時間的な事前知識を使用して、以前の知識と現在の情報の両方を類似性レベルで統合することにより、類似性マップを洗練しました55。 時間コンテキストベースのエンコーダ構造は、3 つのマルチヘッド アテンション レイヤーと 1 つの時間情報フィルターで構成されます。 時間エンコーダを図 3b に示します。 以前の事前知識 \({{\varvec{T}}}_{t-1}^{m}\) と現在の類似性マップ \({{\varvec{T}}}_{t}\) を考慮すると、エンコーダーの入力として、最初のマルチヘッド アテンション レイヤーを使用して \({{\varvec{T}}}_{t}^{1}\) を取得できます。

そして、\({{\varvec{T}}}_{t}^{2}\) と \({ {\varvec{T}}}_{t}^{1}\)、つまり \({{\varvec{T}}}_{t}^{2}=\textrm{Norm}\left( { {\varvec{T}}}_{t}+{{\varvec{T}}}_{t}^{1}\right)\)。 (7)と同様に、 \({{\varvec{T}}}_{t}^ を使用して \({{\varvec{T}}}_{t}^{3}\) を求めます。 {2}\) を 2 番目のマルチヘッド アテンション レイヤーの入力として使用します。

その後、\({{\varvec{T}}}_{t}^{4}\) は、加算演算と正規化層によって取得できます。つまり、 \({{\varvec{T}}}_{t }^{4}=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{2}+{{\varvec{T}}}_{t}^{3}\右)\)。 追跡中に、さまざまなノイズにより時間コンテキストの劣化が発生します。 したがって、不要なコンテキストが含まれる可能性があり、フレーム全体の時間情報が利用される場合、トラッカーのパフォーマンスが低下します。 この問題を解決するには、GAP の結果である \({{\varvec{T}}}_{t}^{2}\) のグローバル記述子を FFN に入力することで時間情報フィルターを取得できます。 時間情報フィルターとフィルター後の情報 \({{\varvec{T}}}_{t}^{f}\) は次のように表現できます。

ここで、f は時間情報フィルターです。 最終出力としての t 番目のフレーム \({{\varvec{T}}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) の時間的知識時間エンコーダの値は次のように表すことができます。

ここで、 \(\textrm{Norm}\left( \cdot \right)\) は正規化層を表します。 特に、最初のフレームには、前のフレームの際立った特徴がないという問題があります。 したがって、畳み込み演算により、初期類似度マップは \({{\varvec{T}}}_{0}^{m}={\mathcal {F}}_{init}\left( {{\ varvec{T}}}_{1}\right)\)、ここで \({\mathcal {F}}_{init}\left( \cdot \right)\) は初期畳み込み層を表します。

統合された多レベルの空間情報と時間情報を利用して追跡性能を向上させるために、多レベルの空間エンコーダと時間エンコーダの出力を集約する集約エンコーダを提案します。 集約エンコーダは標準エンコーダのマルチヘッド アテンション層を変更し、マルチレベル空間エンコーダの出力を時間エンコーダの出力に注入できるようにします。 集約エンコーダーのアテンションの重みは、出力 \({\textbf{M}}_{t}^{m}\) と \({{\varvec{T}}}_{t) を考慮して次のように表すことができます。各エンコーダの }^{m}\):

ここで \({\textbf{W}}_{j}^{{\textbf{M}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf {W}}_{j}^{{{\varvec{T}}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf{W}} _{j}^{\alpha }\in {\mathbb {R}}^{2C\times C/N}\) は線形層の学習可能な重みで、j はヘッドのインデックスです。 (11) によれば、\(j\text{-th}\) ヘッドの出力と修正されたマルチヘッド アテンション レイヤーの出力 H は次のように表すことができます。

ここで、 \({\textbf{W}}^{O}\in {\mathbb {R}}^{C\times C}\) は学習可能な重み行列、\(N\) はアテンション ヘッドの数です。 その後、加算演算と正規化層を使用して \({\textbf{A}}_{t}^{1}\) を取得できます。つまり、\({\textbf{A}}_{t}^{1) }=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{m}+H\right)\)。 最後に、集約エンコーダーの出力 \({\textbf{A}}_{t}^{m}\) は次のように取得できます。

集約エンコーダーの出力は、マルチレベルの空間情報と時間情報を統合して、より強力な機能の複雑なシナリオを生成します。 アグリゲーションエンコーダの詳細な構造を図3cに示します。

我々は、高解像度情報と低解像度情報の両方を利用し、現在の空間的特徴と時間的知識の間の相互関係をさらに活用するマルチコンテキスト デコーダを提案します。 提案されたマルチコンテキスト デコーダは、マルチレベルの空間エンコーダと時間エンコーダの出力を使用して、洗練されたマルチコンテキスト機能を統合する構造を導入します。 そのため、標準トランスのデコーダー構成とは異なる3つのマルチヘッド注意を採用しています。 また、最初のマルチヘッド アテンションの後、集約エンコーダーの出力がキーに使用され、マルチレベルの空間エンコーダーと時間エンコーダーの出力が値にそれぞれ使用されました。 したがって、提案された方法は、マルチレベル空間エンコーダと時間エンコーダのそれぞれの特徴情報を維持するだけでなく、位置の有効な情報に基づいて、マルチコンテキスト情報を含む対応する位置での注目を集めて特徴を取得します。集約エンコーダーの集約されたマルチコンテキスト情報が含まれます。 マルチレベル空間エンコーダの位置エンコーディングは、特徴マップ上の各位置を区別するために使用されます。 ただし、マルチコンテキストベースの変換された特徴への直接的な影響を避けるために、デコーダは位置エンコーディングなしで設計され、マルチレベル空間エンコーダの位置情報を暗黙的に受け取ります54。 マルチコンテキスト デコーダを図 4 に示します。

提案されたトランスフォーマー デコーダのアーキテクチャ。 提案されたデコーダは、複数のコンテキストベースの情報を使用して類似性マップを改良することを目的としており、3 つのマルチヘッド アテンション モジュールで構成されています。

現在の低解像度類似度マップ \({{\varvec{S}}}_{t}^{5}\) と \({{\varvec{T}}}_{t}\) は同じ類似度ですマップであり、 \({\textbf{D}}_{t}\) として示されます。マルチヘッド アテンションを通過した \({\textbf{D}}_{t}\) に加算した後の正規化された結果は次のようになります。以下に続きます:

\({\textbf{D}}_{t}^{1}\) とエンコーダーの出力の両方を使用して 2 つのマルチヘッド アテンションを計算した出力は、 \({\textbf{D }}_{t}^{1}\) は次のように表されます。

ここで、 \({\textbf{D}}_{t}^{2}\) は、キーと値を \({\textbf{A}}_{t}^{m}\) に設定した結果です。それぞれ \({\textbf{M}}_{t}^{m}\)、\({\textbf{D}}_{t}^{3}\) はキーと値はそれぞれ \({\textbf{A}}_{t}^{m}\) と \({{\varvec{T}}}_{t}^{m}\) になります。 マルチコンテキスト情報を含むトランスフォーマーの最終結果 \({\textbf{D}}_{t}^{*}\) は、 \({\textbf{D}}_{t}^{ 2}\) と \({\textbf{D}}_{t}^{3}\) は (15) から得られます。

TAdaCNN を通じて時間コンテキスト情報を使用しているにもかかわらず、検索の特徴レベルでのみ時間情報を更新すると、時間の経過とともに検索とテンプレート特徴の間の不一致が原因でトラッカーの障害が発生する可能性が高くなります。 さらに、バックボーンネットワークを使用してテンプレートを更新する場合、汚染されていないサンプルである初期テンプレートの情報が失われる可能性があり、初期テンプレートを使用して任意のオブジェクトを追跡する視覚追跡の基準に違反します。 初期テンプレートと更新サンプルの機能を組み合わせるために、テンプレート更新ネットワークを機能融合ネットワーク 44 として採用しました。これを図 2 に示します。

k 番目のフレームのテンプレートと更新サンプルが与えられた場合、テンプレート更新ネットワークを使用して更新されたテンプレート \(\hat{\textrm{Z}}_{k}\) は次のように計算されます。

ここで、 \(\textrm{Z}_{1}\) と \(\textrm{U}_{k}\) はそれぞれ初期テンプレートと k 番目のフレームの更新された画像を示します。 \(\チルダ{\textrm{Z}}_{k}^{i}\) と \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right)\ ) はそれぞれ、以前に更新されたテンプレートと最初のフレームの初期テンプレートの特徴を表します。 \(\psi _{k}^{i}\left( \cdot \right)\) はテンプレート更新ネットワークを表します。 \(\tilde{\textrm{Z}}_{k}^{i}\) は \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right) に初期化されます)\) 最初の更新プロセスで。 テンプレート更新ネットワークは、C、C/2、および C の異なるチャネルを持つ 3 つの 1\(\times\)1 畳み込み層で構成されます。最初の 2 つの畳み込み層のそれぞれの後に ReLU が続きます。 \(\delta\) フレームごと、または信頼スコアがしきい値 \(\tau\) よりも低い場合に、テンプレートを更新します。 テンプレート更新ネットワークは、オブジェクトの外観変化の強力な表現を学習することができ、時間の経過による極端なドリフトによる追跡の失敗を防ぐことができます。

提案された損失関数は、HiFT トラッカーと同様に、分類タスクと回帰タスクのための 2 つのブランチで構成されています54。 最初の分類ブランチは、特定の場所の前景と背景のスコアを計算し、2 番目のブランチは、その場所とグラウンド トゥルースの中心の間の距離コントラストを測定して、低品質のボックスを削除します。 回帰には、L1 ノルムと完全 IoU (CIoU)67 の線形結合が使用されます。 回帰損失は次のように定式化できます。

ここで、 \({\textbf{b}}_{j}\) は j 番目の予測境界ボックス、 \({\textbf{b}}^{gt}\) はそれに対応するグラウンドトゥルース ボックス、cj、およびcgt はそれぞれ予測ボックスとグラウンドトゥルースボックスの中心を表し、\(\rho \left( \cdot \right)\) はユークリッド距離を表し、d は予測された境界ボックスと地面を覆うボックスの対角線の長さです。 \(\upsilon\) は予測された境界ボックスとグラウンドトゥルースボックスのアスペクト比間の対応を表し、\(\alpha\) は正のトレードオフパラメータであり、非-重複するケースと重複するケース、および \(\lambda _{I}=1\)、\(\lambda _{C}=0.5\)、および \(\lambda _{L1}=0.5\) が正規化です。実験ではパラメータを使用します。総損失関数は次のように表すことができます。

ここで、\(\lambda _{1}=1\)、\(\lambda _{2}=1\)、および \(\lambda _{3}=1.2\) は、実験における正則化パラメータです。

提案されたモデルの特徴抽出器には、特徴をオンラインで制御するためのシャム ネットワークとテンプレート更新ネットワークが含まれています。 ただし、全損失のみでネットワークをトレーニングすると、過剰適合が発生し、シャム ネットワークとテンプレート更新ネットワークの間で機能のバランスを取る際のジレンマが発生する可能性があります。 この問題に対処するために、私たちはマルチアスペクト損失トレーニング法を採用します44。 マルチアスペクトトレーニングロスには 3 つのアスペクトが含まれます。 まず、\(L_{template}\) 損失はテンプレート サンプルと検索領域に基づいており、ネットワークがテンプレートを使用して既存のシャム トラッカーのように追跡できるようになります。 第二に、更新サンプルとテンプレート サンプルともみなせる検索領域を使用して \(L_{update}\) 損失が得られ、その結果、相補的なサンプル データ拡張効果が得られます。 第三に、\(L_{overall}\) 損失は、テンプレート更新ネットワークの出力である更新されたテンプレートと、更新されたテンプレート情報を使用してオブジェクトの位置を追跡することを学習するための検索エリアを使用して取得されます。 最後に、\(L_{final}\) の損失は次のように表されます。

ここで、\(L_{template}\)、\(L_{update}\)、および \(L_{overall}\) は、テンプレート サンプル、更新を使用して取得された (19) 個の損失の \(L_{total}\) として構築されます。それぞれサンプルと更新されたテンプレート機能。

このセクションでは、DTB7068、UAV12369、UAV123@10fps69、UAV20L69、UAVTrack112\(\_\)L70、VisDrone-SOT202071、UAVDT72 を含むさまざまな UAV データセットに対して、提案されたトラッカー AMST\(^2\) の包括的な実験を実施しました。 SOTA 視覚追跡手法のパフォーマンスを評価するために、提案されたトラッカーを 51 の既存の上位トラッカーと定量的に比較しました。 既存の手法には、軽量トラッカー5、6、7、8、9、10、11、12、16、21、22、23、26、32、37、52、53、54、55、62、73、74が含まれます。 、75、76 トラッカーとディープ トラッカー 26、27、28、29、30、31、33、39、40、46、47、48、49、50、51、77、78。 公正な比較のために、AlexNet などのすべての軽量バックボーンに Siamese ネットワークベースのトラッカーを使用しました。 すべての実験では、公開されているコードまたは元の作成者によって提供された結果を使用しました。

トレーニング フェーズでは、AMST\(^2\) が ImageNet VID19、COCO79、GOT-10K80、および LaSOT81 データセットでトレーニングされました。 トレーニングには 3 つのサンプルを利用しました。 テンプレートと更新の両方に同じパッチ サイズ 127 \(\times\) 127 を使用し、サイズ 287 \(\times\) 287 の検索パッチを使用しました。バックボーンは、最後の 3 つの層が TAdaConv によって変換された AlexNet であり、 ImageNet からの事前トレーニングされた重みで初期化されます。 TAdaConv の時間コンテキストを効率的に学習するために、エポック全体で半分に 1 つの検索パッチを、1/3 で 2 つの検索パッチをそれぞれ使用し、残りのエポックでは 3 つの検索パッチを使用しました。 トランスフォーマ アーキテクチャは、1 つのマルチレベル空間エンコーダ層、1 つの時間エンコーダ層、1 つのアグリゲーション エンコーダ層、および 2 つのマルチコンテキスト デコーダ層で構成されます。 ネットワーク全体は、運動量と重み減衰がそれぞれ 0.9 と 0.0001 の確率的勾配降下法 (SGD) でトレーニングされています。 バッチ サイズは 180 で、ネットワークは 100 エポックでトレーニングされました。 最初の 20 エポックでは、バックボーンのレイヤーがフリーズされ、残りのエポックで最後の 3 つのレイヤーが微調整されます。 最初の 10 エポックでは 0.005 から 0.01 までのウォームアップ学習率を使用し、残りのエポックではログ空間で 0.01 から 0.00005 まで減少する学習率を使用しました。 トレーニング プロセスは 2 つの NVIDIA RTX 3090 GPU を使用して実行されました。

推論フェーズでは、初期の時間的な事前知識を取得するために、初期フレームのみを使用してテンプレートと検索パッチ間の相関を計算しました。 その後、前フレームの物体位置に基づいて切り取られた探索領域の特徴と、最初のフレームで取得したテンプレート特徴またはテンプレート更新ネットワークを介して更新されたテンプレート特徴とを継続的に照合することにより、スムーズな物体追跡が可能となった。 テンプレート更新プロセスのしきい値 \(\tau\) は 0.8 に設定されました。 さらに、\(\delta\) は、DTB70 などの短期の航空追跡データセットの場合は 50 に設定され、UAV123 などの長期の航空追跡データセットの場合は 150 に設定されました。 オブジェクトの動きを滑らかにするために、コサイン ウィンドウとスケール変更ペナルティが予測ボックスに適用され、境界外れ値が排除され、サイズと比率の大きな変化が最小限に抑えられます5,37。 その後、最もスコアの良い予測ボックスを選択することで、境界ボックスのサイズが線形補間によって更新されます。 図 2 は、トラッキング プロセス全体を示しています。ここでは、トラッカーはリアルタイム トラッキングのために単一の NVIDIA RTX 3090 GPU 上で動作します。

提案手法の評価にはワンパス評価 (OPE)69,82 を採用した。 OPE は、(1) 精度と (2) 成功率の 2 つの指標に基づいています。

精度は、予測されたバウンディング ボックスとグラウンド トゥルース ボックスの間の中心位置誤差 (CLE) を利用します。

ここで、 \(c_{t}\) と \(c_{t}^{gt}\) はそれぞれ、t 番目の予測境界ボックスとグラウンドトゥルース境界ボックスの中心を表し、 \(\left\| \cdot \right \|\) はユークリッド距離です。 精度プロットには、中心位置エラーが特定のしきい値を下回っているフレームの割合が表示されます。 トラッカーの評価とランク付けには、20 ピクセルのしきい値が使用されます。

成功率は、予測境界ボックスとグラウンドトゥルース境界ボックス間の IOU としてのオーバーラップを計算します。 t 番目のフレームの重複率 \(\textbf{OR}_{t}\) は次のように表されます。

ここで、 \(\cap\) と \(\cup\) はそれぞれ 2 つのボックスの領域の交差と結合を表し、 \(\left| \cdot \right|\) は領域内のピクセル数です。 成功プロットには、オーバーラップ率が 0 から 1 までの事前定義されたしきい値を超えている成功したフレームの割合が表示されます。成功プロットの曲線下面積 (AUC) スコアは、トラッカーのランク付けに主に採用されます。

軽量トラッカーとの全体的なパフォーマンスの比較。 評価には、提案されたトラッカーと他の 29 個の軽量トラッカーの精度と成功プロットが使用されました。

DTB7068 には、UAV によって収集されたデータから構築された 70 の挑戦的なシーケンスが含まれています。 さらに、移動、回転、カメラの動きによる異なるサイズとアスペクト比を伴うさまざまな困難なシーンにより、データセットはさらに複雑になります。 UAV の高速動作によって引き起こされるさまざまな複雑なシナリオにおけるトラッカーの堅牢性は、このベンチマークで実証できます。 他のトラッカーと比較した結果、AMST\(^2\) は精度 (0.851) と成功率 (0.658) で第 1 位となり、その結果を図 5 に示します。 - 最高位は TCTrack (0.815) と HiFT (0.804) で、精度はそれぞれ約 4.4\(\%\) と 5.8\(\%\) 向上しました。 同様に、成功率では、AMST\(^2\) は、TCTrack (0.621) および HiFT (0.594) と比較して、それぞれ 6.0\(\%\) および 10.8\(\%\) パフォーマンスが向上しています。

UAV12369 は、112 K フレームを超える合計 123 のビデオ シーケンスで構成される、航空視点から収集された大規模な航空追跡ベンチマークです。 データセット内のオブジェクト、特に小さなオブジェクトは、大規模な変化、照明の変化、オクルージョンにより追跡が困難です。 図 5 に示すように、AMST\(^2\) は精度と成功率の両方で他のすべてのトラッカーよりも優れています。 精度の点では、提案された方法は、精度スコア (0.832) で、2 番目に優れた TCTrack (0.800) と 3 番目に優れた HiFT (0.787) を、それぞれ 4.0\(\%\) と 5.7\(\%\) 上回っています。 )。 成功率も、ベースライン トラッカーと比較して、それぞれ約 4.3\(\%\) と 7.0\(\%\) の優れたパフォーマンス向上を達成しました。

UAV123@10fps69 は、オリジナル バージョン UAV123 の 10FPS 画像レートを採用してダウンサンプリングされています。 オブジェクトの移動変位と変化が大きくなったため、追跡問題はオリジナル バージョンよりも難しくなります。 図 5 に示すように、私たちのトラッカーは、精度 (0.798) と成功率 (0.616) の両方の点で最高のパフォーマンスを達成しています。 これは、私たちのトラッカーが、画像フレーム レートによるパフォーマンスの低下なしに、不連続な航空データを確実に追跡できることを明確に示しています。

長期追跡性能評価にはUAV20L69を使用しました。 このベンチマークは UAV123 のサブセットであり、平均 2934 フレームを持つ 20 の長期追跡シーケンスで構成されています。 表 1 に示すように、AMST\(^2\) は 0.784 の精度で 1 位を獲得し、2 位と 3 位の TCTrack (0.780) および HiFT (0.763) をわずか約 0.5\(\%\ の差で上回りました) ) と 2.8\(\%\) です。 また、AMST\(^2\) の成功率は最高のスコア (0.601) を持ち、TCTrack (0.580) や HiFT (0.566) よりも優れた追跡パフォーマンスを示しています。 これは、提案された方法が長期データセットに対して既存の方法よりも優れた追跡特徴を生成することを表しています。

UAVTrack112_L70 は、航空追跡用に設計されたよく知られた長期追跡データセットで、60,000 を超えるフレームと UAVTrack11270 のサブセットで構成されています。 表 2 に示されているように、AMST\(^2\) は、最先端のトラッカーと比較して、より回復力のあるトラッカーです。 AMST\(^2\) は精度スコア 0.835 でトップの座を確保し、TCTrack (0.786) と SiamRPN++ (0.769) をそれぞれ約 6.2% と 8.6% 上回りました。 成功率 (0.629) の点でも、AMST\(^2\) は他のトラッカーよりも優れたパフォーマンスを示しています。 これらの結果は、長期ベンチマークにおける既存の軽量トラッカーに対する当社のトラッカーの優位性を裏付けています。

DTB70 および UAV123 データセット属性の OPE の成功プロット。 DTB70 および UAV123 の航空追跡ベンチマークに関するいくつかの属性ベースの評価。

UAV123@10fps データセット属性の全体的なパフォーマンス。 UAV123@10fps 航空追跡ベンチマークにおけるトップ 10 トラッカーのすべての属性ベースの評価。 赤と青のフォントはそれぞれ最高スコアと最低スコアを表します。

UAV は激しい動きをするため、空中追跡はさまざまな課題に直面しています。 図 1 と 2 に示すように、ベンチマーク データセットでは属性に注釈が付けられました。 図 6 と 7 を参照して、さまざまな困難な条件下でのトラッカーのパフォーマンスを評価します。

図 6 は、DTB70 および UAV123 ベンチマークのいくつかの困難なシナリオにおいて、提案されたトラッカーが他の軽量トラッカーよりも優れていることを示しています。 図 7 は、UAV123@10fps ベンチマークのすべての属性の評価結果を示しています。 精度の点では、当社のトラッカーは、低解像度および同様のオブジェクト条件では 2 番目に良い位置を確保し、他のすべての属性では 1 番目の位置を確保します。 特に、AMST\(^2\) は、UAV123@10fps データセット内のすべての属性の中で最も高い成功率を示しています。 マルチレベルの空間的および時間的情報を利用することにより、当社のトラッカーは、スケールの変化、変形、高速なカメラの動き、オクルージョンなどのさまざまなシナリオで優れたパフォーマンスを発揮します。 さらに、テンプレート機能レベルでのテンプレートの更新により、極端な変動に対してより堅牢な追跡が可能になるという利点があります。

提案された方法の影響を検証するために、DTB70 データセットに対していくつかのアブレーション研究を実行しました。 私たちは、トラッカーの 5 つのバリアントを評価しました。次のものを含みます: (1) 最初のベースラインとしてマルチレベル空間エンコーダの機能のみを使用する MS、(2) 2 番目のベースラインとして時間エンコーダのみを使用する TE、(3) ) マルチレベルの空間エンコーダと時間エンコーダの両方を適用する MS+TE、(4) MS+TE+TU、MS+TE にテンプレート更新ネットワークを追加したモデル、(5) MS+TE+AE+ TU は、MS+TE+TU にアグリゲーション エンコーダが追加された最終モデルです。 このアブレーション研究では、マルチレベルの空間情報と時間情報の両方を適用する方法について、同じマルチコンテキスト デコーダ構造が使用されました。 表 3 に示すように、私たちの貢献はさまざまな複雑な条件で優れたパフォーマンスを示しただけでなく、精度と成功率でも最高のスコアを示しました。

DTB70 のより深いバックボーンを備えた最先端のトラッカーの品質と速度の比較。 比較に使用したトラッカーは、AlextNet よりも深いバックボーン ネットワークを採用したトラッカーで構成されています。

より深いバックボーンを持つトラッカーの属性ベースの比較結果。 比較に使用したトラッカーは、ディープトラッカーの中で走行速度上位10位のトラッカーで構成されています。

私たちの目標は、マルチレベルの空間情報と時間情報を組み合わせることにより、提案する空中追跡の堅牢性を強化し、複雑な条件に対処することでした。 より明確な結果を得るために、私たちの方法をより深いバックボーンを持つ 22 個の最先端のトラッカーと比較しました。 図8に示すように、私たちの手法は軽量バックボーンを使用しているにも関わらず、最も高い成功率を誇るAiATrackよりも大幅に速い追跡速度で競争力のあるパフォーマンスを実現しています。 さらに、ディープトラッカーによる属性ベースの分析をサポートするために、追跡速度ベースのトップ10トラッカーを使用してDTB70のすべてのシナリオで比較実験を実施しました。 図 9 に示すように、私たちのトラッカーは、さまざまな複雑で乱雑なシナリオにおいて他のトラッカーよりも優れたパフォーマンスを発揮します。 マルチレベルの空間的および時間的コンテキストを集約する、提案された堅牢な特徴表現は、より深いバックボーンベースのトラッカーとのパフォーマンスギャップを削減し、さまざまな航空シーンで効率的かつ堅牢な追跡を保証します。 表 4 は、提案された方法と、より深いバックボーンベースのトラッカーおよびベースライン トラッカーとの詳細な比較を示しています。 VisDrone-SOT202071 や UAVDT72 などのよく知られた航空データセットを使用して、1 秒あたりのフレーム数 (fps)、パラメーター、パフォーマンス メトリクスを含む複数の要素の評価を実施しました。 VisDrone-SOT2020 は、天候や照明の変化に関する数多くの実世界の状況から収集されたデータに基づいており、UAVDT には、天候、高度、カメラ ビュー、オブジェクトの外観、オクルージョンなど、トラッカーのパフォーマンスを混乱させる複雑なシナリオのさまざまなフレームも含まれています。 明確にするために、STARK と TransT は、最後のステージを削除した修正バージョンの ResNet を使用するため、他のより深いバックボーンを使用するトラッカーよりもパラメーターの数が少なくなります。 HiFT、TCTrack、および提案されたトラッカーは、ディープ トラッカーよりもはるかに少ないパラメーターと 100 fps を超える追跡速度で処理時間が短縮されます。 さらに、HiFT と TCTrack はパラメータと fps において提案されたトラッカーよりも優れていますが、パフォーマンスの点ではディープ トラッカーや提案されたトラッカーよりも性能が劣ります。 さらに、私たちが提案するトラッカーは、VisDrone-SOT2020 で最高スコアを達成した TransT と比較してパラメーターの複雑さが低いことを示すだけでなく、2 倍の fps であっても、より深いバックボーン モデルと同等の精度パフォーマンスと同等の成功パフォーマンスを示します。 これらの結果は、パラメータの使用法と全体的な追跡パフォーマンスの観点から、私たちが提案する追跡装置の効率と有効性を強調し、リアルタイムの航空追跡アプリケーションの可能性を示しています。 UAVDT データセットでは、提案された方法は、パラメーターの複雑さの低さと高速な処理速度を維持しながら、最先端のトラッカーに匹敵するパフォーマンスを示します。 これらの発見は、空中追跡タスクにおける私たちの提案された方法の有効性と効率性をさらに実証しています。 より深いバックボーンベースのトラッカーの中には 100 fps に近いトラッカーもありますが、提案されたトラッカーはパラメーターとパフォーマンスの点で優れています。 したがって、当社のトラッカーは、低遅延、高速追跡速度、優れたパフォーマンスにより、多くの SOTA トラッカーよりも UAV を使用した空中追跡において高い効率を示します。

この論文では、集約されたマルチレベルの空間的および時間的コンテキストベースのトランスフォーマー (AMST\(^2\)) アーキテクチャを紹介しました。これは、トランスフォーマー ベースのトランスフォーマーを介してマルチレベルの空間的および時間的情報を活用する、堅牢な航空追跡のための新しいアプローチです。モデル。 提案されたアプローチには、類似性マップを強化する集約エンコーダーと、強力で洗練された類似性マップを生成するマルチコンテキスト デコーダーが含まれています。 集約されたマルチレベルの空間的および時間的情報ベースのトランスフォーマーと軽量のバックボーンを利用することで、UAV 使用時の追跡速度と空中追跡の課題に効果的に対処します。 テンプレート更新プロセスの採用により、複雑なシナリオに対するアプローチの堅牢性がさらに強化されます。

DTB70、UAV123、UAV123@10fps、UAV20L、UAVTrack112\(\_\)L などの困難な航空ベンチマークに関する広範な実験により、AMST\(^2\) が両方の点で最先端の手法よりも優れていることが実証されました。正確さと効率性。

私たちのアプローチは有望な結果を示していますが、低照度条件に対する感度や大量のトレーニング データの必要性など、対処すべき制限がまだあります。 今後の研究では、これらの制限を克服し、航空追跡の精度と効率をさらに向上させる方法を調査することができます。 全体として、提案されたアプローチは、より堅牢で効果的な航空追跡システムの開発における大幅な進歩を示しています。

この研究で生成または分析されたすべてのデータは、この公開記事に含まれています。 この研究で使用されたトレーニングおよびテストのデータセットは公開されており、研究ルールに従って引用されています。 データセットとその引用の詳細な説明は、論文の「実験結果」セクションに記載されています。 たとえば、ImageNet VID データセットのトレーニング セットは、リンク https://image-net.org/challenges/LSVRC/2015/index.php からダウンロードできます。 COCO データセットのトレーニング セットは https://cocodataset.org/#home からダウンロードでき、GOT-10K データセットのトレーニング セットは http://got-10k.aitestunion.com/ からダウンロードできます。 さらに、LaSOT データセットのトレーニング セットには、http://vision.cs.stonybrook.edu/~lasot/ からアクセスできます。 DTB70 データセット、UAV123、UAV123@10fps、UAV20L データセット、UAVTrack112_L データセット、VisDrone-SOT2020 データセット、UAVDT データセットのテスト セットは、https://github.com/flyers/drone-tracking、https: //cemse.kaust.edu.sa/ivul/uav123、https://github.com/vision4robotics/SiamAPN、http://aiskyeye.com/、および https://sites.google.com/view/grli-それぞれuavdt。

Marvasti-Zadeh, SM、Cheng, L.、Ghanei-Yakhdan, H.、Kasaei, S. 視覚追跡のための深層学習: 包括的な調査。 IEEEトランス。 知性。 トランスペアレントシステム。 20、20(2021)。

Google スカラー

Fu、C.ら。 無人航空機のためのシャム物体追跡: レビューと包括的な分析。 arXiv:2205.04281 (arXiv プレプリント) (2022)。

Fu, C.、Li, B.、Ding, F.、Lin, F. & Lu, G. 無人航空機ベースの航空追跡用の相関フィルター: レビューと実験的評価。 IEEEトランス。 地理学。 Remote Sens. 10、125–160 (2022)。

記事 Google Scholar

Bolme、DS、Beveridge、JR、Draper、BA & Lui、YM 適応相関フィルターを使用した視覚オブジェクト追跡。 コンピュータ ビジョンとパターン認識に関する議事録/IEEE コンピュータ協会会議、2544 ~ 2550 (2010)。

Henriques, JF、Caseiro, R.、Martins, P. & Batista, J. カーネル化された相関フィルターによる高速トラッキング。 IEEEトランス。 パターンアナル。 マッハ。 知性。 37、583–596 (2015)。

論文 PubMed Google Scholar

Danelljan, M.、Hager, G.、Shahbaz Khan, F.、Felsberg, M. 視覚追跡のための空間的に正規化された相関フィルターを学習します。 コンピュータ ビジョンに関する IEEE 国際会議 (ICCV) の議事録、4310–4318 (2015)。

Bertinetto, L.、Valmadre, J.、Golodetz, S.、Miksik, O.、Torr, PH Staple: リアルタイム追跡のための補完的な学習者。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、1401–1409 (2016)。

Danelljan, M.、Häger, G.、Khan, FS & Felsberg, M. 識別スケール空間追跡。 IEEEトランス。 パターンアナル。 マッハ。 知性。 39、1561–1575 (2017)。

論文 PubMed Google Scholar

Kiani Galoogahi, H.、Fagg, A. & Lucey, S. 視覚追跡のための背景を認識した相関フィルターの学習。 コンピュータ ビジョンに関する IEEE 国際会議 (ICCV) の議事録、1135 ~ 1143 (2017)。

Wang, C.、Zhang, L.、Xie, L.、Yuan, J. カーネル相互相関関係者。 人工知能に関する AAAI 会議の議事録、vol. 32(2018)。

Huang, Z.、Fu, C.、Li, Y.、Lin, F. & Lu, P. リアルタイム UAV 追跡用の学習異常抑制相関フィルター。 IEEE/CVF International Conference on Computer Vision (ICCV) の議事録、2891–2900 (2019)。

Ma, C.、Huang, J.-B.、Yang, X.、Yang, M.-H. 視覚的な追跡のための階層的畳み込み機能。 コンピュータ ビジョンに関する IEEE 国際会議 (ICCV) の議事録 (2015 年)。

Qi、Y.ら。 ヘッジされたディープトラッキング。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、4303–4311 (2016)。

Choi, J. et al. 高速視覚追跡のためのコンテキスト認識型の詳細な特徴圧縮。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、479–488 (2018)。

Nam, H. & Han, B. 視覚追跡のためのマルチドメイン畳み込みニューラル ネットワークの学習。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、4293–4302 (2016)。

Danelljan, M.、Bhat, G.、Shahbaz Khan, F. & Felsberg, M. ECO: 追跡のための効率的な畳み込み演算子。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、6638–6646 (2017)。

Song, Y. 他 VITAL: 敵対的学習による視覚的な追跡。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、8990–8999 (2018)。

Pu, S.、Song, Y.、Ma, C.、Zhang, H.、Yang, M.-H. 往復学習による徹底的な追跡。 神経情報処理システム(NIPS)の進歩に関する論文集、vol. 31、1931 ~ 1941 年 (2018)。

Russakovsky、O.ら。 ImageNet の大規模視覚認識チャレンジ。 内部。 J.Comput. ヴィス。 115、211–252 (2015)。

記事 MathSciNet Google Scholar

Tao, R.、Gavves, E. & Smeulders, AW 追跡のためのシャム インスタンス検索。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、1420 ~ 1429 (2016)。

Bertinetto, L.、Valmadre, J.、Henriques, JF、Vedaldi, A. & Torr, PHS オブジェクト追跡用の完全畳み込みシャム ネットワーク。 コンピュータ ビジョン ワークショップに関する欧州会議 (ECCVW) の議事録、850–865 (2016)。

Guo、Q.ら。 視覚的なオブジェクト追跡のための動的シャム ネットワークの学習。 コンピュータ ビジョンに関する IEEE 国際会議 (ICCV) の議事録、1763 ~ 1771 年 (2017)。

Zhu、Z.ら。 視覚的オブジェクト追跡のためのディストラクタ認識シャム ネットワーク。 IEEE European Conference on Computer Vision (ECCV) の議事録、101–117 (2018)。

Wang, Q. et al. 学習注意: 高性能オンライン視覚追跡のための残留注意シャム ネットワーク。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、4854–4863 (2018)。

Wang, X.、Li, C.、Luo, B. & Tang, J. SINT++: 敵対的なポジティブ インスタンス生成による堅牢な視覚的追跡。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、4864–4873 (2018)。

リー、B.ら。 SiamRPN++: 非常に深いネットワークによるシャム視覚追跡の進化。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、4282–4291 (2019)。

Danelljan, M.、Bhat, G.、Khan, FS & Felsberg, M. ATOM: オーバーラップの最大化による正確な追跡。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、4660–4669 (2019)。

Bhat, G.、Danelljan, M.、Gool, LV & Timofte, R. 追跡のための識別モデル予測の学習。 IEEE/CVF International Conference on Computer Vision (ICCV) の議事録、6182–6191 (2019)。

Chen, Z.、Zhong, B.、Li, G.、Zhang, S. & Ji, R. 視覚追跡用のシャム ボックス アダプティブ ネットワーク。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、6668–6677 (2020)。

Guo, D.、Wang, J.、Cui, Y.、Wang, Z. & Chen, S. SiamCAR: 視覚追跡のためのシャム完全畳み込み分類および回帰。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、6269–6277 (2020)。

Zhang, Z.、Peng, H.、Fu, J.、Li, B. & Hu, W. Ocean: オブジェクト認識アンカーフリー追跡。 ヨーロッパコンピュータビジョン会議 (ECCV) の議事録、771–787 (2020)。

Li、X.、Ma、C.、Wu、B.、He、Z.、Yang、M.-H. ターゲットを意識したディープトラッキング。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、1369–1378 (2019)。

Xu, Y.、Wang, Z.、Li, Z.、Yuan, Y. & Yu, G. SiamFC++: ターゲット推定ガイドラインによる堅牢かつ正確な視覚追跡を目指します。 AAAI 人工知能会議議事録 vol. 34、12549–12556 (2020)。

周、W.ら。 SiamCAN: Siamese のセンター認識ネットワークに基づくリアルタイムの視覚的追跡。 IEEEトランス。 画像処理 30、3597–3609 (2021)。

論文 ADS PubMed Google Scholar

Yu, Y.、Xiong, Y.、Huang, W. & Scott, MR 視覚オブジェクト追跡のための変形可能なシャム アテンション ネットワーク。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、6728–6737 (2020)。

Krizhevsky, A.、Sutskever, I.、および Hinton, GE によるディープ畳み込みニューラル ネットワークによる ImageNet 分類。 神経情報処理システム(NIPS)の進歩に関する論文集、vol. 25 (2012)。

Li, B.、Yan, J.、Wu, W.、Zhu, Z. & Hu, X. シャム地域提案ネットワークによる高性能視覚追跡。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、8971–8980 (2018)。

He、K.、Zhang、X.、Ren、S.、Sun、J. 画像認識のための深層残差学習。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、770–778 (2016)。

Wang, Q.、Zhang, L.、Bertinetto, L.、Hu, W. & Torr, PH 高速オンライン オブジェクト追跡とセグメンテーション: 統合アプローチ。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、1328 ~ 1338 (2019)。

Danelljan, M.、Gool, LV & Timofte, R. 視覚追跡の確率回帰。 Proc. コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議、7183–7192 (2020)。

Valmadre, J.、Bertinetto, L.、Henriques, J.、Vedaldi, A. & Torr、PHS 相関フィルターベースの追跡のためのエンドツーエンド表現学習。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、2805–2813 (2017)。

Wang, Q.、Gao, J.、Xing, J.、Zhang, M. & Hu, W. DCFNet: 視覚追跡用の判別相関フィルター ネットワーク。 arXiv:1704.04057 (arXiv プレプリント) (2017)。

Shen、Q.ら。 正確なシャム追跡の教師なし学習。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、8101–8110 (2022)。

サン、Xら。 2 段階のワンショット学習を備えた更新可能なシャム トラッカー。 arXiv:2104.15049 (arXiv プレプリント) (2021)。

Zhang, L.、Gonzalez-Garcia, A.、Weijer, J. vd、Danelljan, M. & Khan, FS シャム トラッカーのモデル更新を学習します。 IEEE/CVF International Conference on Computer Vision (ICCV) の議事録、4010–4019 (2019)。

Guo、D.ら。 注意の追跡をグラフ化します。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、9543–9552 (2021)。

チェン、Xら。 変圧器の追跡。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、8126–8135 (2021)。

Wang, N.、Zhou, W.、Wang, J. & Li, H. トランスフォーマーとトラッカーの出会い: 時間的コンテキストを活用して堅牢な視覚追跡を実現します。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、1571 ~ 1580 (2021)。

Yan, B.、Peng, H.、Fu, J.、Wang, D. & Lu, H. 視覚追跡のための時空間変換器の学習。 IEEE/CVF Conference on Computer Vision (ICCV) の議事録、10448–10457 (2021)。

メイヤー、C.ら。 追跡のためのモデル予測の変換。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、8731–8740 (2022)。

Gao, S.、Zhou, C.、Ma, C.、Wang, X. & Yuan, J. AiATrack: 変圧器のビジュアル トラッキングに注目。 欧州コンピュータ ビジョン会議 (ECCV) の議事録、146 ~ 164 (2022)。

Fu, C.、Cao, Z.、Li, Y.、Ye, J. & Feng, C. 高速空中追跡のためのシャム アンカー提案ネットワーク。 IEEE ロボティクスとオートメーションに関する国際会議 (ICRA) の議事録、510–516 (2021)。

Cao, Z.、Fu, C.、Ye, J.、Li, B. & Li, Y. SiamAPN++: リアルタイム UAV 追跡用のシャムの注意集約ネットワーク。 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)、3086–3092 (2021)。

Cao, Z.、Fu, C.、Ye, J.、Li, B. & Li, Y. HiFT: 空中追跡のための階層型特徴変換器。 IEEE International Conference on Computer Vision (ICCV) の議事録、15457–15466 (2021)。

Cao、Z.ら。 TCTrack: 空中追跡のための時間的コンテキスト。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、14798–14808 (2022)。

Vaswani、A. et al. 必要なのは注意力だけです。 神経情報処理システム(NIPS)の進歩に関する論文集、vol. 30、6000–6010 (2017)。

アレクセイ、D.ら。 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。 学習表現に関する国際会議 (ICLR) の議事録 (2021)。

カリオン、N.ら。 トランスフォーマーを使用したエンドツーエンドの物体検出。 欧州コンピュータ ビジョン会議 (ECCV) の議事録、213 ~ 229 (2020)。

Girdhar, R.、Carreira, J.、Doersch, C.、Zisserman, A. ビデオ アクション トランスフォーマー ネットワーク。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、244–253 (2019)。

Cui, Y.、Jiang, C.、Wang, L. & Wu, G. MixFormer: 混合された注意を反復して行うエンドツーエンドの追跡。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、13608–13618 (2022)。

チェン、B.ら。 バックボーンだけで十分: 視覚的なオブジェクト追跡のための簡素化されたアーキテクチャ。 ヨーロッパコンピュータビジョン会議 (ECCV) の議事録、375–392 (2022)。

Li, Y.、Fu, C.、Ding, F.、Huang, Z. & Lu, G. AutoTrack: UAV の高性能視覚追跡に向けて 自動時空間正則化。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、11923–11932 (2020)。

Marvasti-Zadeh, SM、Khaghani, J.、Ghanei-Yakhdan, H.、Kasaei, S. & Cheng, L. COMET: 小型オブジェクト追跡用のコンテキスト認識型 IoU ガイド型ネットワーク。 アジアコンピュータビジョン会議(ACCV)議事録、594–611 (2020)。

セゲディ、C.ら。 畳み込みでさらに深くなります。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、1 ~ 9 (2015)。

Sandler, M.、Howard, A.、Zhu, M.、Zhmoginov, A.、Chen, L.-C. MobileNetV2: 逆残差と線形ボトルネック。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、4510–4520 (2018)。

Huang、Z.ら。 タダ! ビデオ理解のための時間適応畳み込み。 学習表現に関する国際会議 (ICLR) の議事録 (2022)。

Zheng、Z.ら。 距離 IoU 損失: バウンディング ボックス回帰の学習がより速く、より適切になります。 人工知能に関する AAAI 会議の議事録、vol. 34、12993–13000 (2020)。

リー、S. & ヨン、D.-Y. 無人航空機の視覚物体追跡: ベンチマークと新しい運動モデル。 人工知能に関する AAAI 会議議事録、第 31 巻、1 ~ 7 (2017)。

Mueller, M.、Smith, N. & Ghanem, B. UAV 追跡のベンチマークおよびシミュレーター。 欧州コンピュータ ビジョン会議 (ECCV) の議事録、445–461 (2016)。

Fu, C.、Cao, Z.、Li, Y.、Ye, J. & Feng, C. 効率的なシャム アンカー提案ネットワークを備えたオンボードのリアルタイム航空追跡。 IEEEトランス。 地理学。 Remote Sens. 60、1–13 (2022)。

Google スカラー

ファン、H.ら。 VisDrone-SOT2020: ビジョンはドローンの単一物体追跡チャレンジの結果と一致します。 コンピュータ ビジョン ワークショップに関する欧州会議 (ECCVW) の議事録、728 ~ 749 (2020)。

Du、D. et al. 無人航空機のベンチマーク: 物体の検出と追跡。 欧州コンピュータ ビジョン会議 (ECCV) の議事録、370–386 (2018)。

Lukezic, A.、Vojir, T.、Cehovin Zajc, L.、Matas, J. & Kristan, M. チャネルと空間の信頼性を備えた識別相関フィルター。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、6309–6318 (2017)。

Wang, N. et al. 堅牢な視覚追跡のためのマルチキュー相関フィルター。 IEEE Computer Vision and Pattern Recognition (CVPR) の議事録、4844–4853 (2018)。

Li, F.、Tian, C.、Zuo, W.、Zhang, L.、Yang, M.-H. 視覚的な追跡のための時空間正則化相関フィルターを学習します。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、4904–4913 (2018)。

Wang, N. et al. 教師なしのディープトラッキング。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、1308 ~ 1317 (2019)。

Mayer, C.、Danelljan, M.、Paudel, DP、Van Gool, L. 追跡すべきでないものを追跡するための学習ターゲット候補の関連付け。 IEEE 国際会議コンピューター ビジョン (ICCV) の議事録、13444–13454 (2021.)。

Sosnovik, I.、Moskalev, A.、Smeulders, AW スケールの等分散性により、シャム追跡が改善されます。 コンピューター ビジョンのアプリケーションに関する IEEE 冬季会議 (WACV) の議事録、2765–2774 (2021)。

リン、T.Y. 他。 Microsoft COCO: コンテキスト内の共通オブジェクト。 欧州コンピュータ ビジョン会議 (ECCV) の議事録、740 ~ 755 (2014)。

Huang, L.、Zhao, X. & Huang, K. GOT-10k: 野生環境における一般的なオブジェクト追跡のための大規模で高多様性のベンチマーク。 IEEEトランス。 パターンアナル。 マッハ。 知性。 43、1562–1577 (2019)。

記事 Google Scholar

ファン、H.ら。 LaSOT: 大規模な単一オブジェクト追跡用の高品質ベンチマーク。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、5374–5383 (2019)。

ウー、Y.、リム、J.、ヤン、M.-H. オンライン オブジェクト追跡: ベンチマーク。 コンピュータ ビジョンに関する IEEE 国際会議 (ICCV) の議事録、2411 ~ 2418 (2013)。

リファレンスをダウンロードする

この研究は、韓国政府 (MSIT) [2021-0-01341、人工知能大学院プログラム (中央大学)] によって資金提供された情報通信技術計画評価研究所 (IITP) 助成金によって一部支援され、一部は科学情報通信部と韓国税関庁が資金提供する韓国国立研究財団(NRF)を通じた税関管理のための分野指向技術開発プロジェクト(2021M3I1A1097911)。

中央大学校映像学科、84 Heukseok-ro、Seoul、06974、韓国

ハシル・パク、ダソル・チョン、ジュンキ・パイク

中央大学人工知能学部、84 Heukseok-ro、ソウル、06974、韓国

インジェ・イ&ジュンキ・パイク

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

HP はアルゴリズムを設計および開発し、実験を実施しました。 IL は実験とデータ分析を実行しました。 DJがデータ分析を行った。 JP はプロジェクトを指導し、原案を書きました。 著者全員が原稿をレビューしました。

ジュンキ・パイクへの手紙。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Park, H.、Lee, I.、Jeong, D. 他 AMST2: 堅牢な空中追跡のための集約されたマルチレベルの空間および時間コンテキストベースのトランスフォーマー。 Sci Rep 13、9062 (2023)。 https://doi.org/10.1038/s41598-023-36131-2

引用をダウンロード

受信日: 2023 年 4 月 3 日

受理日: 2023 年 5 月 30 日

公開日: 2023 年 6 月 4 日

DOI: https://doi.org/10.1038/s41598-023-36131-2

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。