Beit1 [Paper Review] BEIT: BERT Pre-Training of Image Transformers 본 글은 https://arxiv.org/abs/2106.08254 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.AbstractImage Transformer에서 양방향 인코더 표현을 의미하는 BEIT(Bidirectional Encoder representation from Image Transformers)라는 serlf-supervised vision representation 모델을 소개한다. 자연어 처리 분야에서 개발된 BERT를 따르며, vision Transformer를 사전 훈련하기 위해 masked image modeling task를 제안한다. 구체적으로, 사전 훈련에서는 각 이미지가 두 가지 뷰, 즉 이미지 패치(예: 16x16 픽.. 2024. 7. 20. 이전 1 다음