もっと詳しく

3つの要点 ?? 初めてTransformerのみを用いたVideo Classificationモデルを提案し、ViTをVideoバージョンを目指した。 ?? 計算効率を上げるために、4種類のアーキテクチャを提案して詳細なアブレーション実験を行った。 ?? 5つのベンチマークにおいて、SOTAを達成 ViViT: A Video Vision Transformer w…