simvlm1 [Paper Review] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision 본 글은 https://arxiv.org/abs/2108.10904 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract최근 시각적 및 텍스트 표현의 공동 모델링의 진전으로 인해, Vision-Language Pretraining (VLP)은 많은 멀티모달 downstream task에서 인상적인 성능을 달성했다. 그러나 깨끗한 이미지 캡션과 regional label을 포함한 비싼 주석의 필요성은 기존 접근법의 확장성을 제한하고 여러 데이터셋별 objective의 도입으로 사전훈련 절차를 복잡하게 만든다. 이 연구에서는 이러한 제약을 완화하고 Simple Visual Language Model (SimVLM)이라는 최소한의 사전 훈련 프레임워.. 2024. 8. 2. 이전 1 다음