본문 바로가기

mult-modal2

[Paper Review] Contrasting intra-modal and ranking cross-modal hard negatives to enhance visio-linguistic compositional understanding 본 글은 https://arxiv.org/abs/2306.08832 내용을 기반으로 합니다. CVPR 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.그리고 본 글은 method 위주로 작성합니다.AbstractCLIP과 같은 VLMs는 image-text 이해 능력이 뛰어나며, 이를 통해 zero-shot 이미지 분류, image-text retrieval, text-to-image generation과 같은 여러 downstream task에서 큰 발전을 이뤄냈다. 그러나 기존 VLM들의 구성적 추론 능력은 여전히 미흡한 수준이다. 이러한 한계의 근본적인 원인은 사전학습 데이터셋에서 이미지와 캡션 간의 불충분한 정렬에 있다. 또한, 현재의.. 2024. 12. 12.
[Paper Review] BEIT: BERT Pre-Training of Image Transformers 본 글은 https://arxiv.org/abs/2106.08254 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.AbstractImage Transformer에서 양방향 인코더 표현을 의미하는 BEIT(Bidirectional Encoder representation from Image Transformers)라는 serlf-supervised vision representation 모델을 소개한다. 자연어 처리 분야에서 개발된 BERT를 따르며, vision Transformer를 사전 훈련하기 위해 masked image modeling task를 제안한다. 구체적으로, 사전 훈련에서는 각 이미지가 두 가지 뷰, 즉 이미지 패치(예: 16x16 픽.. 2024. 7. 20.