blip-21 [Paper Review] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본 글은 https://arxiv.org/abs/2301.12597 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract큰 모델을 end-to-end 학습하는 것으로 인해 VLP 비용은 점점 증가하고 있다. 본 논문은 frozen pre-trained image encoder와 frozen LLM을 사용하여 VLP를 bootstrap하는 일반적이고 효율적인 사전학습 전략이 BLIP-2를 제안한다. BLIP-2는 two-stage로 경량 Querying Transformer를 이용해 모달리티 격차를 줄인다. first stage는 frozen image encoder로부터 vision-language representation learning을 .. 2024. 10. 28. 이전 1 다음