albef1 [Paper Review] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 본 글은 https://arxiv.org/abs/2107.07651 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract대규모 비전과 언어 표현 학습은 다양한 vision-language task에서 유망한 개선을 보여주었다. 대부분의 기존 방법들은 시각적 토큰(영역 기반 이미지 특징)과 단어 토큰들을 같이 모델링하기 위해 transformer 기반의 multimodal 인코더를 사용한다. 시각적 토큰과 단어 토큰이 정렬되지 않기 때문에, multimodal 인코더가 image-text 상호작용을 학습하는 것은 도전적이다. 본 논문에서는 cross-modal attention을 통해 이미지와 텍스트 표현을 융합하기 전에 contrastive l.. 2024. 7. 16. 이전 1 다음