3つの要点 ?? Vision Transformer (ViT)を用いてCVのBERTを目指す ?? Encoderに75%のパッチをマスクしてDecoderにTransformerを用いるMAEを提案 ?? ImageNet-1kのラベルなしデータで学習した表現が、初めて87.8%の精度を達成 Masked Autoencoders Are Scalable Vision Learners written by Kaiming He,…
3つの要点 ?? Vision Transformer (ViT)を用いてCVのBERTを目指す ?? Encoderに75%のパッチをマスクしてDecoderにTransformerを用いるMAEを提案 ?? ImageNet-1kのラベルなしデータで学習した表現が、初めて87.8%の精度を達成 Masked Autoencoders Are Scalable Vision Learners written by Kaiming He,…