All about Masked AutoEncoders

[TOC]

NLP中的训练方法: 输入一个句子，盖住其中的几个词，然后要模型预测出盖住的词

这样训练与分类任务的区别:

非常自然的能够想到CV中可以这样训练: 输入一个图像，盖住其中的几个patch，然后要模型预测出盖住的 patch

为什么之前没人这么做? 因为结构不一样，Conv默认图像空间连续，如果mask掉一部分图像会破坏这个假设

截屏2023-04-27 09.05.25

截屏2023-04-27 09.05.46

截屏2023-04-27 09.08.59

本质是学习一个隐藏层的压缩表示

截屏2023-04-27 09.13.08

这里指的是Encoder部分和Decoder部分不对称其中Encoder可以很大，原因有2

截屏2023-04-27 09.29.23

截屏2023-04-27 09.32.59

MAE 论文讲解