본 글은 https://arxiv.org/abs/2306.08832 내용을 기반으로 합니다. CVPR 2024에 accept된 논문입니다.
혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.
그리고 본 글은 method 위주로 작성합니다.
Abstract
CLIP과 같은 VLMs는 image-text 이해 능력이 뛰어나며, 이를 통해 zero-shot 이미지 분류, image-text retrieval, text-to-image generation과 같은 여러 downstream task에서 큰 발전을 이뤄냈다. 그러나 기존 VLM들의 구성적 추론 능력은 여전히 미흡한 수준이다. 이러한 한계의 근본적인 원인은 사전학습 데이터셋에서 이미지와 캡션 간의 불충분한 정렬에 있다. 또한, 현재의 contrastive learning 목표는 관계, 행동, 속성과 같은 세부적이고 정밀한 구성 요소에 초점을 맞추지 못하여 "bag-of-words"와 같은 표현을 초래한다. VLM에서 구성적 추론을 개선하기 위한 간단하면서도 효과적인 방법을 제안한다. 이 방법은 특정 주석이 필요하지 않고 추가적인 파라미터도 요구하지 않으며, 기존 image-text contrastive learning framework를 세분화하고 확장하여 사용 가능한 데이터셋을 더 잘 활용한다. CLIP에 통합했을 때, 본 논문의 기술은 다섯 가지 vision-language compositional benchmark에서 SOTA 성능을 달성한다.
* bag-of-words : 텍스트 데이터나 표현을 단순히 단어들의 모음으로 간주하는 방식. 이는 이미지와 텍스트 간의 세밀한 매핑을 무시한 채, 텍스트를 단순히 독립된 단어들의 모음처럼 처리.
1. Introduction
CLIP과 같은 강력한 VLM은 다양한 task에서 좋은 성능을 보여주었다. 그러나 이러한 발전에도 불구하고, 관계, 속성, 객체, 행동과 같은 세밀한 구성적 뉘앙스를 모델이 놓치는 명확한 한계가 여전히 존재한다. 이러한 한계는 "Horse is eating the grass"와 "Grass is eating the horse"처럼 동일한 단어 세트로 구성되었지만 다르게 조합된 캡션을 관련 이미지와 연결할 때 이를 구분하는 데 어려움을 겪는 모습으로 나타난다. 이처럼 구성적 이해는 vision-language 통합의 지속적인 발전을 위한 중요한 과제로 남아 있다.
* 구성적 이해(compositional understanding): 문장이나 이미지와 같은 복합적인 표현에서 구성 요소들(ex. 단어, 객체, 속성, 관계 등)의 상호작용과 결합 방식에 대한 의미를 제대로 이해하는 능력.
현재 VLMs의 구성적 이해를 저해하는 주요 요인은 학습 방법론과 훈련 데이터셋에서 비롯된다. 이러한 모델들은 웹에서 수집한 방대한 image-text 쌍을 활용하여 contrastive learning 방식으로 학습된다. 캡션은 짧고 잡음이 섞여 있으며, image-text contrastive objective는 올바른 image-text 쌍과 매우 다양한 잘못된 쌍을 구분하도록 모델을 최적화한다. 그러나 잘못된 쌍이 종종 명백히 구별되기 때문에, 모델은 세부적인 속성이나 관계를 이해할 필요 없이 단순히 객체 인식을 통해 이를 구별하게 된다. 예를 들어, Figure 1에서는 CLIP이 "left"와 "right" 개념의 구성적 추론에 어려움을 겪는 상황을 보여준다.
이전 연구들 중 NegCLIP은 훈련을 위한 추가 캡션을 생성하기 위해 phrase swapping 기법을 사용하였다. 이는 vision-language contrastive learning에서 hard negatives를 포함하는 것이 중요하다는 점을 강조한다. 그러나 표준 image-text contrastive learning에 단순히 추가 샘플을 포함시키는 것만으로는 hard negative를 충분히 활용할 수 없다. 본 연구에서는 hard negative caption(ex. 관계, 속성, 행동, 객체와 같은 의미적 차이가 있는 경우)를 위한 contrastive learning objective를 정제하고 확장한다(Figure 1 참조). 본 논문은 두 가지 측면에 중점을 둔다.
1. positive caption과 hard-negative caption 간 표현의 명확한 구별을 권장하여 모델이 세밀한 의미적 차이를 인식하는 능력을 향상시키는 것을 목표로 한다.
2. 진짜 image-text 쌍과 도전적인 hard-negative 간 최소 유사성 간격을 유지함으로써, 세부적인 image-text alignment를 학습하도록 유도한다.
이를 통해, 두 가지 목표를 제안한다.
1) intra-modal contrast
2) cross-modal rank
이 두 목표는 hinge loss 접근법에 기반을 두고 있으며 후자는 파인튜닝 과정에서 adaptive threshold 포함한다. 이는 모델이 점점 더 숙련될수록 임계값이 증가하게 되며, 이는 과제의 점진적 난이도와 모델의 향상된 역량을 반영한다. 이러한 접근법은 curriculum learning 원칙과도 공명할 뿐만 아니라, 보다 안정적인 훈련 과정을 보장한다.
* hinge loss: 분류 모델에서 사용되는 손실 함수로 모델이 샘플을 올바르게 분류할 뿐만 아니라, 해당 분류가 margin에서 일정 거리 이상 떨어지도록 학습시킨다. 즉, 본문에서는 모델이 positive pair와 hard negative 사이의 유사성 점수를 비교하도록 학습하여 positive pair의 점수가 충분히 높고 hard negative의 점수가 충분히 낮아지도록 최적화한다.
* curriculum learning: 모델 훈련에서 간단한 task부터 시작하여 점진적으로 어려운 작업으로 훈련 데이터를 정렬하는 학습 전략. adaptive threshold를 통해 모델의 성능이 향상됨에 따라 더 어려운 학습 과제를 추가하여 지속적인 성능 개선과 훈련 안전성을 보장.
본 논문의 contribution은 다음과 같다.
1. 단순하지만 효과적인 솔루션 제안. 추가적인 파라미터를 도입하지 않고도 VLM의 구성적 이해를 향상시키기 위해 기존 이미지-텍스트 데이터셋을 더 잘 활용할 수 있는 방법을 제안한다. 이를 위해 contrastive learning 프레임워크를 확장하여 intra-modal contrast와 cross-modal rank objective를 도입했다.
2. adaptive threshold 전략. 파인튜닝 과정에서 curriculum learning을 유도하여 결과를 개선하고, 복잡하고 시간이 많이 소요되는 파라미터 튜닝 없이 안정적인 훈련 과정을 제공한다.
3. 방법론의 효과성 입증. 다섯 가지 benchmark에서 SOTA 성능을 달성했다. 더불어, 모델의 각 구성 요소에 대한 철저한 분석을 수행하여 향후 연구에 대한 통찰력을 제공하고 본 논문의 방법론을 심층적으로 이해할 수 있도록 광범위한 실험을 통해 검증했다.
3. Method
제안된 방법에서는 image-text contrastive learning을 확장하여 자동으로 생성된 hard negative에 특화된 두 가지 손실 함수를 도입한다. 이 섹션에서는 먼저 hard negative 생성 과정을 논의한 후, 제안된 손실 함수에 대한 세부 설명을 제공한다. Figure 2는 파이프라인의 개요를, Figure 3은 제안된 손실 함수를 보여준다.
3.1 Featured Hard Negative Generation
contrastive learning에서 hard negative는 positive sample과 높은 유사성을 보이지만, 실제로는 긍정으로 간주될 수 없는 사례를 의미한다. 예를 들어 다음과 같은 caption을 고려해본다.
"A gray cat sits on top of a wooden chair near a plant."
가능한 hard negative는 다음과 같을 수 있다.
"A gray cat sits on top of a plastic chair near a plant."
이 hard negative는 이미지의 대부분의 쇼로를 정확히 식별하지만, positive sample과는 의자의 재질 측면에서 차이를 보인다. hard negative를 훈련 과정에 포함하면 모델이 이러한 미세한 차이를 구별할 수 있게 되어 전반적인 정확도와 성능을 향상시킬 수 있다.
모델의 구성적 이해를 강화하기 위해, 원본 캡션에 다양한 변화를 가한 hard negative를 의도적으로 생성한다. 이러한 변화는 이미지 객체 간의 관계, 속성, 행동의 변경을 포함한다. 또한, 객체 이름을 다른 이름으로 대체한 hard negative를 생성하여 모델이 서로 다른 객체를 구별할 수 있도록 유도한다. hard negative를 생성하기 위해 POS parsing 및 언어 모델을 활용한다. Spacy를 사용해 캡션을 분석하고 각 단어에 품사 태그를 할당한다. 관계 hard negative의 경우, 두 명사의 위치를 교환한다. 속성, 행동, 객체 이름의 변경은 형용사, 동사, 명사 단어를 무작위로 마스킹한 뒤, RoBERTa를 이용해 마스킹된 영역을 채운다. 예제는 Figure 2에 나와 있다. 각 캡션에 대해 네 가지 유형의 hard negative를 모두 생성하며 해당 단어(혹은 두 객체)가 캡션에 없는 경우에는 placeholder string으로 대체한다. 이러한 접근은 모델 성능 향상을 위해 포괄적이고 강력한 훈련 데이터셋을 보장한다.
* placeholder string: 특정한 데이터나 값이 임시적으로 비어 있거나 대체되어야 할 때 사용하는 임시적인 대체 문자열.(ex. "N/A", "UNK", "None")
3.2 Expanded Losses
Preliminaries
Contrastive VLMs는 image encoder와 text encoder로 구성된다.두 입력 I,T의 cosine similarity는 해당 인코더를 사용하여 계산된다. 배치 B 내의 image-text 쌍을 고려할 때, image-text contrastive (ITC)의 계산은 다음과 같다.
이전 연구들은 단어를 임의로 교체하는 방식으로 hard negative caption을 생성한다. 이렇게 생성된 hard negative는 추가적인 random negative로 처리된다. hard negative를 포함한 ITC loss는 다음과 같다.
Intra-Modal Contrastive (IMC)
batch B 내 image-text pair (I,T)에 대해 본 방법은 관계, 속성, 행동, 객체 엔티티의 변경에 해당하는 네 가지 유형의 hard negative를 생성한다. intra-modal contrastive (IMC) loss를 사용하는 주된 이유는 모델이 hard negative caption들 간의 차이를 최대한으로 구별하도록 촉진하는 데 있다. contrastive loss는 이러한 목적에 적합하다. 이에 따라 IMC loss는 다음과 같이 공식화된다. 이 식은 모델이 각 hard negative caption에 대해 텍스트 내에서 세부적인 차이를 학습하도록 유도한다.
** 원본 텍스트와 hard negative 텍스트 간의 유사도를 계산하고 exp를 씌워준 후 다 더한다. 이를 역수를 취해준 후 -log를 취해준다. 이는 원본 텍스트와 hard negative 텍스트 간의 유사도가 클수록 loss가 크게 만드는 식이다. 즉, 원본 텍스트와 hard negative 텍스트 간의 유사도를 최대한 낮게 유지하도록 유도하기 위함이다.
Cross-Modal Rank with Adaptive Threshold
hard negative caption은 이미지에 대해 일부 진실된 요소를 유지하고 있어 image-text alignment에서 부분적인 정확성을 나타낸다. 모델은 실제 image-text pair와 hard negative 쌍 간의 유사성을 일정 수준까지 구별하도록 설계된다. 즉, hard negative pair와의 유사성 차이가 미리 정의된 threshold를 초과하면 추가적인 최적화를 멈춘다. 이를 위해 threshold가 포함된 ranking loss를 사용한다. 이 threshold는 image-text pair의 유사도 점수 S(I,T)가 동일 이미지와 hard negative caption 간의 유사도 점수 S(I,Tk)보다 최소한 hard negative 유형에 해당하는 threshold만큼 더 크도록 보장한다. 이 개념은 다음과 같이 표현된다. 이는 모델이 실제 텍스트 쌍과 hard negative 간의 유사성 차이를 학습하고 threshold에 도달하면 더 이상 불필요한 최적화를 하지 않도록 돕는다.
** 이미지와 원본 텍스트 간의 유사도는 S(I,T). 이미지와 hard negative 텍스트 간의 유사도는 S(I,Tk). Thk는 threshold. 즉, 모델이 원본 텍스트와 hard negative 간의 유사도를 일정 수준 이상으로 구별할 수 있도록 유도.
hinge loss를 위한 적절한 threshold를 결정하는 것은 도전적인 과제이다. 본 논문은 threshold를 모델의 유사도 점수 차이(true pair와 hard negative pair 간의 점수 차이)를 기반으로 모델의 구성적 이해 능력을 나타내는 지표로 삼는다. 초기 훈련 단계에서는 hard negative와 true pair를 구분하는 것이 어렵기 때문에 낮은 threshold가 적절하다. 훈련이 진행되면서 모델의 이해도가 향상되고 점수 차이가 커지므로, 점진적으로 threshold를 증가시킨다. 이와 같은 threshold adaption은 curriculum learning 원칙에 부합하며, 이를 통해 최적화를 원활하게 진행할 수 있고 local minima를 회피하고 일반화 능력을 향상시킬 수 있다. 결과적으로, threshold는 task의 복잡성과 모델의 숙련도를 모두 반영한다. 따라서, training step t에서 관계, 속성, 행동, 객체와 같은 특정 유형에 대한 threshold는 다음과 같이 계산된다.
본 논문은 기존 방식과는 달리, 각 hard negative 유형별로 고유한 threshold를 사용하여 특정 "curriculum"에 맞게 조정한다. 기존 non-multimodal 연구에서는 단일 threshold만 사용하는 경우가 일반적이다. 훈련 스텝 t에서의 adaptive cross-modal rank loss는 다음과 같이 정의된다. 모델이 hard negative와 실제 텍스트 간의 유사도 차이가 threshold 이상으로 유지하도록 학습한다. 각 유형의 hard negative에 대해 adaptive threshold를 도입함으로써 더욱 정교한 학습이 가능하다.
경험적으로, 관계 hard negative에 대해 -S(T, Trel) 항을 CMR(Cross-Modal Rank) loss에 추가하는 것이 유익하다는 것을 발견했다. 또한, threshold 제약이 없을 경우 관계 hard negative 값이 급격히 상승하여 훈련을 방해한다는 점도 확인했다. 이는 관계 hard negative가 다른 유형과 달리 적합한 대안 단어로 대체된 것이 아니라, 쉽게 구별 가능한 비현실적인 문장으로 구성되기 때문이다. 이러한 이유로 유사도 점수에서 뚜렷한 차이가 나타난다. 안정적인 훈련을 위해 threshold에 상한 u를 설정하는 것이 중요하며, 이때 threshold는 다음과 같이 정의된다. 이를 통해, 관계 hard negative가 모델 학습에 과도한 영향을 미치는 것을 방지하고 안정적인 학습을 보장한다.
loss weight hyperparameter 알파와 베타를 도입하여 최종 손실 함수는 다음과 같이 표현된다.
4. Experiments
본 논문의 방법을 두 가지 모델을 사용하여 평가한다. 먼저, vision-language 도메인의 foundational model인 CLIP을 사용한다. 또한, multi-grained objective로 학습되어 구성적 이해에서 뛰어난 성능을 보이는 X-VLM을 실험에 포함한다.
4.1 Setup
Training.
본 논문의 제안된 손실 함수를 적용해 파인튜닝된 CLIP 모델을 Compositional Enhanced CLIP (CE-CLIP)이라 칭한다. CE-CLIP은 두 가지 설정으로 학습된다.
CE-CLIP: COCO dataset만 사용하여 학습. NegCLIP과 직접 비교 가능하도록 설정.
CE-CLIP+: COCO, CC3M, Visual Genome 데이터를 결합하여 높은 성능을 목표로 학습.
모델은 CLIP-ViT/32-B, X-VLM-16M에 적용하며 모든 모델은 5 epoch동안 이전 연구의 설정을 따라 파인튜닝한다. 2개의 A100 GPU를 사용하고 batch size는 CLIP과 X-VLM 각각 256, 64이다. learning rate, decay rate 등은 기본값을 유지하고 알파와 베타 hyperparameter에 대한 탐색을 진행하여 최적값 알파=0.2, 베타=0.4로 설정한다.
Evaluation.
제안된 방법을 여러 vision-language compositional benchmark에서 평가했다. ARO, VL-CheckList, VALSE, SugarCrepe. zero-shot setting에서 평가를 진행하였으며 각 평가에서는 주어진 이미지에 대해 positive caption과 negative caption을 분류하며 무작위 성공 확률은 50%이다.
다양한 비교를 위해, 강력한 baseline들을 선정했다.
(1) 최신 생성형 vision-language model: BLIP, BLIP2, and MiniGPT-4
(2) 고성능 vision-language understanding model: BEIT3, ALBEF, UNITER, CyCLIP, X-VLM
(3) Compositional 개선 방법: syn-CLIP, CLIP-SGVL, DAC, NegCLIP, CLIP-SVLC
4.2 Compositional reasoning enhancement
4.3 Emergence of curriculum learning
cross-modal loss에서의 adaptive threshold가 curriculum learning을 어떻게 촉진하는지 설명한다. threshold와 loss 값의 변화를 시간에 따라 분석했으며, Figure 5 (b)에서 threshold relation 값이 급격히 증가하는 것을 알 수 있다. 이러한 증가의 주요 원인은 relation-swap hard negative(ex. Figure 2의 문장)에서 나타나는 의미론적 및 문법적 오류 때문이다. 이러한 오류는 모델이 실제 캡션과 hard negative를 구분하는 작업을 쉽게 만든다. threshold를 높이는 것은 이러한 단순 작업을 보완하며, 과제 난이도를 증가시켜 더 강력한 지도 신호를 제공한다. 이는 모델이 이러한 캡션들 간의 더 큰 차이를 구별하도록 강제한다.
CE-CLIP+의 training loss 곡선(Figure 5(d))는 초기 변동 이후 CMR loss가 안정화되는 모습을 보여준다. 이는 과제 난이도의 증가와 모델의 적응 능력 간의 균형을 유지하며, curriculum learning의 특징을 강조한다. 이러한 학습 방식은 광범위한 hyperparameter tuning 없이도 만족스러운 결과를 달성한다.
고정된 threshold 전략의 경우, 네 가지 threshold에 대해 n개의 값을 탐색하려면 n^4번의 비실용적인 시도가 필요하다. Figure 5(a)는 다양한 threshold를 사용했을 때, CE-CLIP+가 5개의 benchmark에서 얻은 결과를 비교하며 adaptive 접근이 고정 접근보다 뛰어난 성능을 보이고 더 빠르게 수렴함을 보여준다. 적응형 전략은 초기 단계에서 고정 접근에 비해 더 작은 지도 신호를 제공한다. 훈련이 진행됨에 따라 모델의 과제 복잡성과 학습 능력에 따라 threshold를 조정한다. 이러한 조정은 학습 효율성과 일반화 능력을 향상시킨다.
4.4 Ablation studies
제안된 방법의 다양한 구성 요소의 효과를 이해하기 위해 ablation study를 수행했다. 이 실험은 최고 성능을 보인 CE-CLIP+ 모델을 사용하여 진행했다.
Losses.
각 제안된 loss의 영향을 Table 4에 제시했다. hard negative의 도입은 성능을 크게 향상시키며, contrastive learning의 핵심 역할을 강조한다. 개별적으로 도입된 loss 항목들도 모든 벤치마크에서 유의미한 개선을 보였다. 모든 loss를 결합했을 때 최고 성능을 달성했으며 이는 제안된 접근법의 효과를 입증한다.
Hard Negative Types.
Figure 4에 제시된 바와 같이, 각 hard negative 유형은 모델에 고유한 이점을 제공한다. 특히, object hard negative가 가장 큰 이점을 제공했다. 모든 유형을 결합했을때, 최상의 결과를 보였으며, 이는 추가적인 유형(ex. numerical negatives)를 통합하면 성능이 더욱 향상될 가능성을 시사한다.
Upper Bound on Threshold.
threshold에 상한을 설정하면 training collapse를 방지할 수 있다. Figure 5(c)에서 상한을 10으로 설정했을 때 최적의 성능을 보였으며 이는 threshold relation의 최대값(Figure 5(b))를 효과적으로 제한하여 훈련 과정에서 안전성을 보장했다.
Loss Weight.
Figure 5(d)는 CMR loss와 IMC loss 간의 스케일 차이를 보여주며, 훈련을 위한 적절한 loss 가중치 선택의 중요성을 강조한다. Figure 6에서 제안된 방법은 다양한 알파와 베타 값에서도 5개 벤치마크에서 안정적인 성능을 보였다. 그러나 알파와 베타가 커질수록 성능이 감소했다.
4.5 Performance on standard benchmarks
이전 연구에 따르면, 구성적 이해의 향상이 표준 image-text retrieval 및 image classification task에서의 성능에 부정적인 영향을 미칠 수 있다고 제안되었다. 이를 조사하기 위해, COCO에서의 zero-shot image-text retrieval과 ImageNet-1k 및 CIFAR에서의 linear probing으로 본 논문의 방법을 평가했다. 구성적 이해를 우선시하는 CE-CLIP과 CE-CLIP+는 모든 벤치마크에서 성능을 향상시켰다. COCO에서의 text-image retrieval 성능 향상이 단순히 COCO에서의 파인튜닝 결과인지 확인하기 위해, COCO에서 파인튜닝된 CLIP 변형 모델인 CLIP-FT와 비교했다. CE-CLIP과 CE-CLIP+는 text-image retrieval에서 CLIP-FT를 능가했다. 그러나 image-to-text retrieval에서는 약간의 성능 저하가 관찰되었다. 이 결과가 텍스트 기반 hard negative에만 의존한 방법론의 한계 때문이라고 가정한다.
4.6 Can scaling-up alone solve compositionality
Figure 1에서 제시한 바와 같이, CLIP에 구현된 standard contrastive learning이 구성적 이해를 제대로 파악하지 못한다는 주장을 입증하기 위해, CLIP 모델의 여러 확장된 버전(ex. Open-CLIP의 LAION2B로 학습된 가장 큰 ViT-G/14)를 사용해 VL-CheckList benchmark에서 테스트를 진행했다. Figure 7에 따르면, 이러한 확장된 모델들 중 어느 것도 기본 크기 CE-CLIP 모델을 능가하지 못했다. 모델의 규모를 확장하는 것만으로는 구성적 이해를 충분히 해결할 수 없다는 점을 보여준다. 이는 본 연구의 중요성을 강조하며, 이 분야에서 추가 연구가 필요하다는 점을 시사한다.
5. Conclusion
본 논문은 VLMs에서의 구성적 이해 문제를 해결하는 데 초점을 맞추고 있다. 이를 위해 image-text contrastive loss를 확장하고 compositional supervision을 사전 학습된 VLM에 주입하기 위한 두 가지 loss 항목을 제안했다. intra-modal contrastive loss는 모달 내 높은 유사성을 완화하고 cross-modal rank loss는 true pair과 hard negative image-text pair 간 최소 의미적 거리를 보장한다. adaptive threshold는 curriculum learning으로 작동하여 성능을 향상시킨다. 본 논문의 방법은 annotation이나 리소스 없이 5개의 구성적 벤치마크에서 기존 방법을 능가하는 우수한 성능을 달성했다. 데이터셋 크기를 확장함으로써 성능이 더욱 향상되었으며, 이는 VLMs에서 제안된 방법의 잠재력과 더 광범위한 응용 가능성을 보여준다.