ついに、ViTがビデオ認識の分野にやってきた！（）

サイエンス,

Posted byMitsuo Yoshida (info@ceek.jp)
12/06/2021

3つの要点 ?? 初めてTransformerのみを用いたVideo Classificationモデルを提案し、ViTをVideoバージョンを目指した。 ?? 計算効率を上げるために、4種類のアーキテクチャを提案して詳細なアブレーション実験を行った。 ?? 5つのベンチマークにおいて、SOTAを達成 ViViT: A Video Vision Transformer w…

TechWatch

ついに、ViTがビデオ認識の分野にやってきた！（）

Archives