ce-clip1 [Paper Review] Contrasting intra-modal and ranking cross-modal hard negatives to enhance visio-linguistic compositional understanding 본 글은 https://arxiv.org/abs/2306.08832 내용을 기반으로 합니다. CVPR 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.그리고 본 글은 method 위주로 작성합니다.AbstractCLIP과 같은 VLMs는 image-text 이해 능력이 뛰어나며, 이를 통해 zero-shot 이미지 분류, image-text retrieval, text-to-image generation과 같은 여러 downstream task에서 큰 발전을 이뤄냈다. 그러나 기존 VLM들의 구성적 추론 능력은 여전히 미흡한 수준이다. 이러한 한계의 근본적인 원인은 사전학습 데이터셋에서 이미지와 캡션 간의 불충분한 정렬에 있다. 또한, 현재의.. 2024. 12. 12. 이전 1 다음