본문 바로가기
Paper Review/Multi-modal

[Paper Review] UNITER: UNiversal Image-TExt Representation Learning

by BangGeuk 2024. 6. 15.

본 글은 https://arxiv.org/abs/1909.11740 기반으로 합니다.

혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.


Abstract

image-text 임베딩은 대부분의 Vision-and-Language (V+L) task의 기초로 multimodality input이 동시에 처리되어 시각적 및 텍스트 이해를 공동으로 수행한다. 본 논문에서는 네 가지 image-text 데이터셋(COCO, Visual Genome, Conceptual Captions, SBU Captions)에 대해 대규모 pre-training을 통해 학습된 UNITER(UNiversal Image-TExt Representation)를 소개한다. 이는 multimodal 임베딩을 통해 V+L downstream task를 지원할 수 있다. 이 모델은 Masked Language Modeling(MLM), Masked Region Modeling(MRM, with three variants), Image-Text Matching(ITM), and Word-Region Alignment(WRA) 네 가지 pre-training task를 수행한다. 이전 연구와 달리, pre-training task에 대해 조건부 마스킹(i.e., image/text의 전체 관찰을 조건으로 한 masked language/region modeling)을 사용한다. 그리고 전체 image-text 정렬을 위한 ITM 외에도 pre-training 과정에서 단어와 이미지 영역 간의 세밀한 정렬을 명시적으로 장려하기 위해 Optimal Transport(OT)를 사용한 WRA를 제안한다. 종합적인 분석을 통해 조건부 마스킹과 OT 기반 WRA가 더 나은 pre-training에 기여한다는 것을 보여준다. 또한, pre-training task의 최적 조합을 찾기 위해 ablation study를 수행한다. 광범위한 실험을 통해 UNITER가 여섯 가지 V+L task(아홉 가지 dataset)에서 SOTA 성능을 달성한다.

1. Introduction

대부분의 V+L task는 이미지와 텍스트에서 시각적 및 텍스트 단서 사이의 의미적 차이를 연결하기 위해 multimodal embedding에 의존하지만 이러한 표현들은 특정 task에만 맞춰져 있다. 예를 들어, MCB, BAN, DFAF는 VQA를 위해 mutimodal 융합 방법을 제안했다. SCAN과 MAttNet은 Image-Text Retrieval 및 참조 표현 이해를 위해 단어와 이미지 영역 간의 정렬을 학습하는 방법을 연구했다. 이러한 모델들은 각 benchmark에서 SOTA 성능을 달성했지만 그들의 아키텍처는 다양하며 학습된 표현들은 매우 특정 task에만 맞춰져 있어 다른 task에 일반화하기 어렵다. 이는 모든 V+L task에 대해 image-text 표현을 학습할 수 있는지에 대한 중요한 질문을 제기한다.

 

이러한 취지에서 본 논문은 multimodal 임베딩을 위한 대규모 pre-train된 모델 UNiversal Image-TExt Representation(UNITER)를 소개한다. 이 모델의 핵심으로는 Transformer를 채택하여 문맥화된 표현을 학습하기 위해 self-attention 메커니즘을 활용한다. NLP task에서 Transformer를 성공적으로 적용한 BERT에서 영감을 받아 네 가지 pre-training task를 통해 UNITER를 pre-train한다.

(1) Masked Language Modeling (MLM) conditioned on image

(2) Masked Region Modeling (MRM) conditioned on text

(3) Image-Text Matching (ITM)

(4) Word-Region Alignment (WRA)

 

MRM의 효과를 추가로 조사하기 위해 세 가지 MRM 변형을 제안한다.

(1) Masked Region Classification (MRC)

(2) Masked Region Feature Regression (MRFR)

(3) Masked Region Classification with KL-divergence (MRC-kl)

 

Figure 1에서 보듯이, UNITER은 이미지 임베더와 텍스트 임베더를 사용하여 이미지 영역(시각적 특징과 bounding box 특징)과 텍스트 단어(토큰과 위치)를 임베딩 공간으로 인코딩한다. 그런 다음, Transformer 모듈을 적용하여 잘 설계된 pre-training task를 통해 각 영역과 각 단어에 대해 문맥화된 임베딩을 학습한다. 이전 multimodal pre-training 연구들과 비교했을 때 (1) 본 논문의 masked language/region modeling은 두 모달리티 모두에 랜덤 마스킹을 적용하는 대신 image/text의 전체 관찰을 조건으로 한다. (2) 단어와 이미지 영역 간의 세밀한 정렬을 명시적으로 장려하기 위해 Optimal Transport (OT)를 사용하여 새로운 WRA pre-training task를 도입한다. 직관적으로, OT 기반 학습은 한 분포를 다른 분포로 이동하는 비용을 최소화하여 분포 매칭을 최적화하는 것을 목표로 한다. 이미지 영역에서 문장의 단어로 임베딩을 이동하는 비용(그리고 그 반대)을 최소화하여 더 나은 cross-modal 정렬을 최적화하는 것을 목표로 한다. 조건부 마스킹과 OT 기반 WRA가 이미지와 텍스트 간의 불일치를 성공적으로 완화하여 downstream task를 위한 더 나은 임베딩을 가져온다는 것을 보여준다.

 

UNITER의 일반화 성능을 입증하기 위해 9개의 데이터셋에 걸쳐 여섯 가지 V+L task에서 평가를 수행한다.

(1) VQA

(2) Visual Commonsense Reasoning (VCR)

(3) NLVR2

(4) Visual Entailment

(5) Image-Text Retrieval (including zero-shot setting)

(6) Referring Expression Comprehension

 

UNITER 모델은 4개의 하위 집합으로 구성된 대규모 V+L 데이터셋에서 훈련된다.

(1) COCO

(2) Visual Genome

(3) Conceptual Captions (CC)

(4) SBU Captions

 

실험 결과 UNITER는 9개의 모든 downstream 데이터셋에서 큰 성능 향상으로 SOTA 성능을 달성한다. 또한, 추가 CC 및 SBU 데이터(downstream task에서 보지 못한 images/text 포함)로 훈련하면 COCO와 VG로만 훈련하는 것보다 모델 성능이 더욱 향상된다.

 

본 논문의 contribution은 다음과 같다.

(1) V+L task를 위한 강력한 UNiversal Image-TExt Representation인 UNITER를 소개한다.

(2) 마스킹된 language/region 모델링을 위한 조건부 마스킹을 제시하고 pre-training을 위한 새로운 Optimal-Transport 기반인 Word-Region Alignment task를 제안한다.

(3) 다양한 V+L 벤치마크에서 SOTA 성능을 달성하여 기존의 multimodal pre-training 방법을 큰 차이로 능가한다. 또한, multimodal 인코더 훈련을 위한 각 pre-training task/dataset의 효과에 대한 유용한 통찰력을 제시하기 위해 광범위한 실험과 분석을 제시한다.

2. Related Work

self-supervised learning은 원본 데이터를 자신의 source로 활용하며 이는 이미지 색상화, 직소 퍼즐 해결, 회전 예측과 같은 여러 컴퓨터 비전 task에 적용된다. 최근에는 ELMo, BERT, GPT2, XLNET, RoBERTa 및 ALBERT와 같은 pre-train된 언어 모델이 NLP task에 큰 발전을 가져왔다. 이것들의 성공 요인은 대규모 언어 corpus에 대한 효과적인 pre-training task와 문맥화된 텍스트 표현을 학습하기 위한 Transformer 사용이다.

 

최근에는 대규모 image/video와 텍스트 쌍에 대한 pre-training을 통해 multimodal task를 위한 self-supervised learning에 대한 관심이 급증했으며 이를 downstream task에 finetuning하고 있다. 예를 들어, VideoBERT와 CBT는 BERT를 적용하여 video-text 쌍에서 비디오 프레임 특징과 언어적 토큰에 대한 분포를 학습한다. ViLBERT와 LXMERT는 두 개의 Transformer가 각각 이미지와 텍스트에 독립적으로 적용되며 나중 단계에서 세 번째 Transformer에 의해 결합되는 two-stream 아키텍처를 도입했다. 반면, B2T2, VisualBERT, Unicoder-VL 및 VL-BERT는 단일 Transformer가 이미지와 텍스트 모두에 적용되는 single-stream 아키텍처를 제안했다. VLP는 이미지 캡셔닝과 VQA 모두에 pre-train된 모델을 적용했다. 최근에는 성능을 더욱 향상시키기 위해 multi-task 학습 및 적대적 학습이 사용되었다. VALUE는 pre-train된 모델을 이해하기 위한 일련의 탐색 task를 개발했다.

 

Our Contributions

UNITER 모델과 다른 방법들 간의 주요 차이점은 두 가지이다.

(1) UNITER는 MLM 및 MRM에 조건부 마스킹을 사용하여 하나의 모달리티만 마스킹하고 다른 모달리티는 건드리지 않은 상태로 유지한다.

(2) 이전 연구에서 이러한 정렬이 특정 task loss에 의해 암묵적으로 적용되는 것과 달리, Optimal Transport를 사용하여 새로운 Word-Region Alignment pre-training task를 도입한다.

추가적으로, 철저한 ablation study를 통해 pre-training task의 최적 조합을 검토하고 여러 V+L 데이터셋에서 SOTA 성능을 달성하며 종종 이전 연구와 큰 차이로 능가한다.

3. UNiversal Image-TExt Representation

이 섹션에서는 먼저 UNITER 모델 아키텍처를 소개하고(section 3.1), 설계된 pre-training task와 V+L 데이터셋에 대해 설명한다(section 3.2와 3.3).

3.1 Model Overview

UNITER의 모델 아키텍처는 Figure 1에 설명되어 있다. 이미지와 문장 쌍이 주어지면, UNITER는 이미지의 시각적 영역과 문장의 텍스트 토큰을 input으로 받는다. 이미지 임베더와 텍스트 임베더를 설계하여 각각의 임베딩을 추출한다. 이러한 임베딩은 multi-layer Transformer에 입력되어 시각적 영역과 텍스트 토큰 간의 cross-modality contextualized 임베딩을 학습한다. Transformer의 self-attention 메커니즘은 순서가 없기 때문에, 추가 input으로 토큰의 위치와 영역의 위치를 명시적으로 인코딩하는 것이 필요하다.

 

구체적으로, 이미지 임베더에서는 먼저 Faster R-CNN을 사용하여 각 영역에 대한 시각적 특징(풀링된 ROI 특징)을 추출한다. 또한 7차원 벡터를 통해 각 영역의 위치 특징을 인코딩한다. 시각적 특징과 위치 특징 모두 동일한 임베딩 공간으로 투영되기 위해 fully-connected (FC) layer를 통과한다. 각 영역에 대한 최종 시각적 임베딩은 두 개의 FC output 값을 합산한 후 layer normalization (LN) layer를 통과하여 얻는다. 텍스트 임베더에서는 BERT 모델과 같이 input 문장을 WordPieces로 토큰화를 한다. 각 sub-word 토큰에 대한 최종 표현은 단어 임베딩과 position 임베딩을 합산한 후 또 다른 LN layer를 통과하여 얻는다.

 

모델을 pre-train하기 위해 이미지 영역을 조건으로 한 Masked Language Modeling (MLM), 입력 테스트 조건으로 한 Masked Region Modeling (MRM), Image-Text Matching (ITM), 그리고 Word-Region Alignment (WRA)와 같이 네 가지 주요 task를 도입한다. Figure 1에서 볼 수 있듯이 MRM과 MLM은 BERT와 유사하며 input에서 일부 단어나 영역을 무작위로 마스킹하고 Transformer의 output으로 단어나 영역을 복원하는 것을 학습한다. 구체적으로, 단어 마스킹은 토큰을 special token [MASK]로 교체하여 실현되며 영역 마스킹은 시각적 특징 벡터를 모두 0으로 교체하여 구현된다. 각 task마다 하나의 모달리티만 마스킹하고 다른 모달리티는 그대로 두어 다른 pre-training 방법에서 사용되는 것처럼 두 모달리티를 무작위로 마스킹하는 것을 피한다. 이는 마스킹된 영역이 마스킹된 단어로 설명될 때 발생할 수 있는 잠재적 불일치를 방지한다(section 4.2에서 자세히 설명).

 

ITM을 통해 이미지와 문장 간의 instance-level 정렬(각 이미지와 그에 대응하는 문장이 맞는지 판별)을 학습한다. 훈련 과정에서 positive와 negative 이미지, 문장 쌍을 모두 샘플링하여 이들에 대한 점수를 학습한다. 더 세밀한 단어 토큰과 이미지 영역 간의 정렬을 제공하기 위해 Optimal Transport를 사용한 WRA를 제안한다. 이는 문맥화된 이미지 임베딩을 단어 임베딩으로 (그 반대도 마찬가지) 이동하는 데 필요한 최소 비용을 효과적으로 계산한다. 이는 더 나은 cross-modal 정렬을 위한 추진력 역할을 한다. 경험적으로, 조건부 마스킹과 WRA가 성능 향상에 기여함을 보여준다(section 4.2). 이러한 task들로 UNITER를 pre-train하기 위해 각 미니 배치에 대해 하나의 task를 무작위로 샘플링하고 각 SGD 업데이트 당 하나의 objective만을 훈련한다.

 

3.2 Pre-training Tasks

Masked Language Modeling (MLM)

이미지 영역을 v = {v1, ..., vk}, input 단어를 w = {w1, ..., wT}, 마스킹 인덱스를 m 으로 나타낸다. MLM에서는 input 단어를 15% 확률로 무작위 마스킹을 하고 마스킹된 단어 wm을 special token [MASK]로 교체한다. 마스킹 되지 않은 주변 단어들과 모든 이미지 영역을 기반으로 마스킹된 단어를 예측하는 것을 목표로 하며 negative log-likelihood를 최소함으로써 진행한다.

 

여기서 세타는 학습 가능한 파라미터이고 각 쌍 (w,v)는 전체 훈련 세트 D에서 샘플링된다.

 

Image-Text Matching (ITM)

ITM에서는 추가적인 special 토큰 [CLS]를 모델에 입력하는데 이는 두 모달리티의 융합된 표현을 나타낸다. ITM의 input은 문장과 이미지 영역의 집합이며 output은 샘플링된 쌍이 일치하는지 여부를 나타내는 binary label {0,1}이다. [CLS] 토큰의 표현을 추출하여 입력된 이미지-텍스트 쌍의 표현으로 사용하고 이를 FC layer와 sigmoid 함수를 통해 0과 1 사이의 점수를 예측한다. 출력 점수를 s(w,v)로 나타낸다. ITM supervision은 [CLS] 토큰에 의해 이루어진다. 학습 과정에서 각 step마다 데이터셋 D에서 positive 또는 negative 쌍 (w,v)를 샘플링한다. negative 쌍은 짝지어진 샘플에서 이미지나 텍스트를 다른 샘플에서 무작위로 선택한 것으로 대체하여 생성된다. optimization을 위해 binary cross-entropy를 적용한다.

 

Word-Region Alignment (WRA)

WRA에 Optimal Transport (OT)를 사용하여 w와 v간의 정렬을 최적화하는 T를 학습한다. OT는 WRA에 적합한 몇 가지 독특한 특성을 가지고 있다.

(1) Self-normalization : T의 모든 요소의 합은 1이다.

(2) Sparsity : 정확하게 해결될 때, OT는 최대 (2r-1)개의 non-zero 요소들을 포함하는 희소 솔루션 T를 제공한다. 여기서 r = max(K,T)이며 이는 더 해석 가능하고 견고한 정렬을 가능하게 한다.

(3) Efficiency : 기존의 선형 프로그래밍 해법과 비교할 때, 본 논문의 솔루션은 행렬-벡터 곱셈만 요구하는 반복 절차를 사용하여 쉽게 얻을 수 있어 대규모 모델 pre-training에 적용할 수 있다.

 

구체적으로, (w,v)는 두 개의 이산 분포로 간주될 수 있으며 이는 다음과 같이 공식화된다.

가중치 벡터 a 및 b는 각각 T 차원, K 차원 simplex에 속한다. 이는 위 두 개가 확률 분포이기 때문이다. 위 두 개 간의 OT 거리((w,v) 쌍의 정렬 손실)는 다음과 같이 정의된다.

여기서 c(w,v)는 w와 v 사이의 거리를 평가하는 cost function이다. 실험에서는 cosine 거리가 사용되었다. 행렬 T는 두 모달리티 간의 정렬을 해석하는 운송 계획으로 표시된다. 불행히도, T에 대한 정확한 최소화는 계산적으로 불가능하며 OT 거리를 근사하기 위해 IPOT 알고리즘을 고려한다. T를 해결한 후, OT 거리는 WRA 손실로 사용되어 매개변수 세타를 업데이트하는 데 사용된다.

 

Masked Region Modeling (MRM)

MLM과 유사하게, 이미지 영역을 샘플링하고 15% 확률로 해당 시각적 특징을 마스킹한다. 모델은 남은 영역과 모든 단어를 기반으로 마스킹된 영역을 복원하도록 학습된다. 마스킹된 영역의 시각적 특징은 0으로 대체된다. 텍스트 토큰은 이산적인 레이블로 표현되지만, 시각적 특징은 고차원이고 연속적이기 때문에 class likelihood로 감독할 수 없다. 대신, MRM에 대해 동일한 objective 기반을 공유하는 세 가지 변형을 제안한다.

 

1) Masked Region Feature Regression (MRFR)

각 마스킹된 영역의 Transformer output을 해당 시각적 특징으로 회귀 학습을 한다. 구체적으로, Transformer output을 input ROI 풀링된 특징과 동일한 차원의 벡터로 변환하기 위해 FC layer를 적용한다. 그런 다음 두 벡터 간의 L2 회귀를 적용한다.

 

2) Masked Region Classification (MRC)

MRC는 각 마스킹된 영역의 객체 의미 클래스를 예측하도록 학습한다. 먼저 마스킹된 영역의 Transformer output을 FC layer에 입력하여 K개의 객체 클래스 점수를 예측하고, 이는 softmax 함수를 통해 정규화된 분포로 변환된다. 객체 카테고리는 제공되지 않기 때문에 Faster R-CNN의 객체 탐지 출력을 사용하고 탐지된 객체 카테고리(가장 높은 신뢰도 점수)를 마스킹된 영역의 레이블로 취하여 이를 원-핫 벡터로 변환한다. 최종 objective는 cross-entropy (CE) loss를 최소화하는 것이다.

 

3) Masked Region Classification with KL-Divergence (MRC-kl)

MRC는 객체 탐지 모델에서 가장 가능성이 높은 객체 클래스를 하드 레이블로 사용하여(확률 0 또는 1) 해당 영역의 레이블로 가정한다. 그러나 이는 진짜 레이블이 제공되지 않기 때문에 항상 맞지 않을 수 있다. 따라서 MRC-kl에서는 탐지기의 output을 소프트 레이블로 사용하여 이 가정을 피하고 이는 객체 클래스의 분포이다. MRC-kl은 두 분포 간의 KL 발산을 최소화하여 이러한 지식을 UNITER에 증류하는 것을 목표로 한다.

 

3.3 Pre-training Datasets

네 가지 V+L 데이터셋 COCO, Visual Genome (VG), Conceptual Captions (CC), SBU Captions를 기반으로 pre-training 데이터셋을 구성한다. pre-training 과정에서 이미지와 문장 쌍만을 사용하여 추가적인 이미지-문장 쌍을 쉽게 수집할 수 있어 모델 프레임워크의 확장성이 높아진다.

 

다양한 데이터셋이 pre-training에 미치는 영향을 연구하기 위해 네 가지 데이터셋을 두 가지 카테고리로 나눈다. 첫 번째 카테고리는 COCO의 이미지 캡셔닝 데이터와 VG의 캡셔닝 데이터를 포함한다. 이를 "In-domain" 데이터라고 부르며 대부분의 V+L task들은 두 데이터셋을 기반으로 구축된다. "fair" 데이터 분할을 얻기 위해 COCO의 훈련 및 검증 분할을 병합하고 downstream task에 나타나는 모든 검증 및 테스트 이미지를 제외한다. 또한 COCO와 Flickr30K 이미지가 모두 Flickr에서 수집되었기 때문에 URL 매칭을 통해 모든 중복되는 Flickr30K 이미지를 제외한다. Visual Genome에도 동일하게 적용되었다. 이러한 방식으로, 훈련을 위해 560만 개의 이미지-텍스트 쌍과 내부 검증을 위해 13만 1천 개의 이미지-텍스트 쌍을 확보하였으며 이는 중복 이미지를 필터링하고 이미지-텍스트 쌍만 사용하기 때문에 LXMERT에서 사용된 데이터셋의 절반 크기이다. 또한 모델 훈련을 위해 Conceptual Captions 및 SBU Captions에서 추가적인 Out-of-domain 데이터를 사용한다. 정리된 데이터 분할에 대한 통계는 Table 1에 제공된다.

 

4. Experiments

pre-train된 UNITER 모델을 각 타겟 task에 적용하고 end-to-end를 통해 finetuning하여 여섯 가지 V+L task에서 UNITER를 평가한다. 두 가지 모델 크기(12개 layer로 구성된 UNITER-base, 24개 layer로 구성된 UNITER-large)의 실험 결과를 보고한다.

4.1 Downstream Tasks

VQA, VCR 및 NLVR2 task에서는 input 이미지(또는 이미지 쌍)와 자연어 질문(또는 설명)이 주어지면, 모델은 이미지의 시각적 내용을 기반으로 답을 예측하거나 설명의 정확성을 판단한다. Visual Entailment에서는 SNLI-VE 데이터셋을 평가한다. 목표는 주어진 이미지가 input 문장을 의미적으로 포함하는지 여부를 예측하는 것이다. "Entailment", "Neural", "Contradiction"의 세 가지 클래스에 대한 분류 정확도를 사용하여 모델 성능을 측정한다. 이미지-텍스트 검색에서는 두 가지 데이터셋 COCO와 Flickr30K를 고려하고 Image Retrieval (IR)과 Text Retrieval (TR) 두 가지 설정에서 모델을 평가한다. Referring Expression (RE) 이해 작업은 쿼리 설명이 주어졌을 때 이미지 영역 제안 세트에서 타겟을 선택하는 것이다. 모델은 실제 객체와 탐지된 제안 모두에서 평가된다.

 

 VQA, VCR, NLVR2, Visual Entailment 및 이미지-텍스트 검색을 위해 [CLS] 토큰의 표현에서 multi-layer perceptron (MLP)를 통해 input 이미지-텍스트 쌍의 임베딩을 추출한다. RE 이해를 위해 MLP를 사용하여 영역별 점수를 계산한다. 이러한 MLP layer는 finetuning 단계에서 학습된다. 구체적으로, VQA, VCR, NLVR2, Visual Entailment 및 RE 이해 작업을 분류 문제로 공식화하고 정답/응답에 대한 cross-entropy를 최소화한다. 이미지-텍스트 검색에서는 이를 순위 문제로 공식화한다. finetuning 과정에서 데이터셋에서 하나의 긍정 쌍과 문장/이미지를 다른 것으로 무작위로 교체한 두 개의 부정 쌍을 샘플링하여 세 쌍의 이미지와 텍스트를 샘플링한다. 긍정 및 부정 쌍 모두에 대해 유사성 점수(joint 임베딩을 기반으로)를 계산하고 triplet loss를 통해 그들 간의 마진을 최대화한다.

4.2 Evaluation on Pre-training Tasks

VQA, NLVR2, Flickr30K 및 RefCOCO+를 대표적인 V+L 벤치마크로 사용하여 ablation study를 통해 다양한 pre-training 설정의 효과를 분석한다. 각 벤치마크에 대한 표준 metric 이외에도, 모든 벤치마크의 점수를 합산한 Meta-Sum을 글로벌 metric으로 사용한다.

 

먼저, 두 가지 baseline을 설정한다. Table 2의 Line 1 (L1)은 pre-training 없는 경우를 나타내며 Line 2 (L2)은 BERT에서 pre-train된 가중치로 초기화된 MLM의 결과를 보여준다. 텍스트만으로 학습된 MLM은 pre-training 중에 이미지 정보를 흡수하지 않았지만 L1에 비해 Meta-Sum에서 약 +30의 증가를 보였다. 따라서, 후속 실험을 위해 L2의 pre-train된 가중치를 사용하여 모델을 초기화한다.

 

두 번째로, 철저한 ablation study를 통해 각 pre-training task의 효과를 검증한다. L2와 L3를 비교하면 MRFR (L3)은 NLVR2에서만 MLM (L2)보다 더 나은 결과를 얻었다. 반면, ITM (L4) 또는 MLM (L5)만으로 pre-train되었을 때, 모든 task에서 L1 및 L2 기준선에 비해 유의미한 향상을 관찰할 수 있었다. 다양한 pre-training task를 결합할 때, MLM + ITM (L6)은 단일 ITM (L4) 또는 MLM (L5)보다 향상되었다. MLM, ITM 및 MRM을 함께 학습했을 때 (L7-L10), 모든 벤치마크에서 일관된 성능 향상을 보였다. MRM의 세 가지 변형 중 (L7-L9), MRC-kl (L9)은 MLM + ITM과 결합했을 때 가장 좋은 성능(397.09)을 기록했으며, MRC (L7)는 가장 낮은 성능 (393.97)을 보였다. MRC-kl과 MRFR을 MLM 및 ITM과 결합했을 때 (L10), 상호 보완적인 효과가 나타나며 두 번째로 높은 Meta-Sum 점수를 얻었다. WRA를 추가함으로써 특히 VQA와 RefCOCO+에서 상당한 성능 향상이 있었다. 이는 pre-training 과정에서 WRA를 통해 학습된 단어와 영역 간의 세밀한 정렬이 영역 수준의 인식 또는 추론을 포함하는 downstream task에 유리함을 나타낸다. 후속 실험을 위해 최적의 pre-training 설정을 사용한다.

 

추가적으로, 조건부 마스킹의 기여도를 비교 연구를 통해 검증한다. pre-training 과정에서 두 모달리티 모두에 랜덤 마스킹을 수행할 때, 즉 조건부 마스킹 없이 (L12), 조건부 마스킹을 사용했을 때보다 Meta-Sum 점수(396.51)가 감소했다(조건부 마스킹:399.97). 이는 조건부 마스킹 전략이 모델이 더 나은 이미지-텍스트 표현을 효과적으로 학습할 수 있게 함을 나타낸다.

 

마지막으로, pre-training 데이터셋의 효과를 연구한다. 지금까지의 실험은 In-domain 데이터에 집중되었다. 이 연구에서는 Out-of-domain 데이터(Conceptual Captions + SBU Captions)로 모델을 pre-train한다. In-domain 데이터(COCO + Visual Genome)로 학습된 모델(400.93 in L11)에 비해 Out-of-domain 데이터로 학습된 모델(396.91 in L13)의 성능 저하는, Out-of-domain 데이터가 더 많은 이미지를 포함하고 있음에도 불구하고 pre-training 과정에서 유사한 downstream 이미지에 노출되는 것이 모델에 더 많은 이점을 제공함을 보여준다. In-domain 및 Out-of-domain 데이터 모두로 모델을 추가로 pre-train한다. 데이터 크기를 두 배로 늘리면 모델 성능이 계속 향상된다(405.24 in L14).

 

4.3 Results on Downstream Tasks

Table 3은 모든 downstream task에서 UNITER의 결과를 보여준다. base 모델과 large 모델 모두 In-domain+Out-of-domain 데이터셋에서 pre-train되었으며 최적의 pre-training 설정인 MLM+ITM+MRC-kl+MRFR+WRA를 사용했다. 각 task의 구현 세부 사항은 보충 파일에 제공된다. 각 downstream task에서 task별 모델과 다른 pre-train된 모델과 비교한다. task별 SOTA 모델에는 VQA용 MCAN, NLVR2용 MaxEnt, VCR용 B2T2, 이미지-텍스트 검색용 SCAN, SNLI-VE용 EVE-Image, 그리고 RE 이해(RefCOCO, RefCOCO+, RefCOCOg)용 MAttNet이 포함된다. 다른 pre-train된 모델에는 ViLBERT, LXMERT, Unicoder-VL, VisualBERT, VL-BERT가 포함된다.

 

결과는 UNITER-large 모델이 모든 벤치마크에서 SOTA 성능을 달성했음을 보여준다. UNITER-base 모델도 VQA를 제외한 모든 task에서 다른 모델들을 큰 차이로 능가한다. 특히, UNITER-base 모델은 VCR의 Q->AR에서 약 +2.8%, NLVR2에서 +2.5%, SNLI-VE에서 +7%, 이미지-텍스트 검색의 R@1에서 +4% (+15% 제로샷 설정), 그리고 RE 이해에서 +2%로 SOTA 성능을 능가한다.

 

LXMERT는 downstream VQA(+VG+GQA) 데이터를 사용하여 pre-train되었기 때문에 VQA task에 적응하는 데 도움이 될 수 있다. 그러나 NLVR2와 같은 보지 못한 task에서 평가할 때, UNITER-base는 LXMERT보다 3% 더 높은 성능을 달성한다. 또한, 이미지-텍스트 쌍만으로 pre-train된 모든 모델 중에서 UNITER-base는 VQA에서 다른 모델들보다 1.5% 이상 더 높은 성능을 보인다.

 

ViLBERT와 LXMERT는 two-stream 모델이 single-stream 모델보다 더 높은 성능을 보인다고 관찰했지만 본 논문의 결과는 pre-training 설정으로 single-stream 모델이 훨씬 적은 매개변수 (UNITER-base: 86M, LXMERT: 183M, ViLBERT: 221M)로 SOTA 성능을 달성할 수 있음을 보여준다.

 

VCR에 대해서는 two-stage pre-training 접근 방식을 제안한다.

(1) 표준 pre-training 데이터셋에서 pre-train한 후

(2) downstream VCR 데이터셋에서 추가 pre-train을 한다.

흥미롭게도, VLBERT와 B2T2는 pre-train이 VCR에서 큰 도움이 되지 않는다고 관찰했지만 본 연구는 두 번째 단계 pre-train이 모델 성능을 크게 향상시킬 수 있으며 첫 번째 단계 pre-train도 여전히 도움이 되지만 제한된 효과가 있음을 발견했다(Table 4의 결과 참조). 이는 제안된 two-stage 접근 방식이 pre-training 데이터셋에서 보지 못한 새로운 데이터에서 매우 효과적임을 나타낸다.

 

다른 task들과 달리 NLVR2는 두 개의 이미지를 input으로 받는다. 따라서, 이미지-문장 쌍으로 pre-train된 UNITER를 직접 finetuning하면 최적의 성능을 발휘하지 못할 수 있다. 이는 pre-training 단계에서 쌍으로 된 이미지 간의 상호 작용을 학습하지 않았기 때문이다. 따라서, NLVR2에서 세 가지 수정된 설정으로 실험했다.

(1) Triplet : 이미지 쌍과 쿼리 캡션의 공동 임베딩

(2) Pair : 각 이미지와 각 쿼리 캡션의 개별 임베딩

(3) Pair-biattn : 쌍으로 된 이미지 간의 상호 작용을 학습하기 위해 Pair 모델에 양방향 attention을 추가

 

비교 결과는 Table 5에 제시되어 있다. Pair 설정은 이미지 쌍 간의 cross-attention 없이도 Triplet 설정보다 더 나은 성능을 발휘했다. 이는 UNITER가 이미지-텍스트 쌍으로 pre-train되어 있기 때문이라고 가정한다. 따라서, 쌍 기반 pre-train된 모델을 triplet input에 맞게 finetuning하는 것은 어렵다. 그러나 Pair-biattn 설정의 양방향 attention 메커니즘은 이미지 간의 cross-attention 부족을 보완하여 큰 차이로 최고의 성능을 제공한다. 이는 UNITER의 top layer에 최소한의 수정을 가하여 pre-training task와 매우 다른 새로운 task에 적응할 수 있음을 보여준다.

 

4.4 Visualization

UNITER 모델의 attention 맵에서 몇 가지 패턴을 관찰했다. 이는 Figure 2에 나와 있다. attention 메커니즘은 inter-modality(모달리티 간)와 intra-modality(모달리티 내) 방식으로 작동한다. 완정성을 위해 각 패턴을 간략히 설명한다.

  • Vertical : special token [CLS] 또는 [SEP]에 대한 attention
  • Diagonal : 토큰/영역 자체 또는 이전/다음 토큰/영역에 대한 attention
  • Vertical + Diagonal : vertical과 diagonal의 혼합
  • Block : intra-modality attention, i.e., textual self-attention과 visual self-attention
  • Heterogeneous : 범주화될 수 없고 실제 input에 크게 의존하는 다양한 attention
  • Reversed Block : inter-modality attention, i.e., text-to-imag 및 image-to-text attention

 

Reversed Block (Fig. 2f)은 토큰과 영역 간의 cross-modality 정렬을 보여준다. Figure 3에서는 영역과 토큰 간의 지역적 cross-modality 정렬을 보여주기 위해 text-to-image attention의 여러 예를 시각화한다.

 

5. Conclusion

본 논문에서는 Vision-and-Language task를 위한 UNiversal Image-TExt Representations을 제공하는 대규모 pre-train된 모델 UNITER를 소개한다. 네 가지 주요 pre-training task를 제안하고 광범위한 ablation study를 통해 평가한다. in-domain 및 out-of-domain 데이터셋 모두로 학습된 UNITER는 여러 V+L task에서 SOTA 모델들을 크게 능가한다. 후속 연구로는 원시 이미지 픽셀과 문장 토큰 간의 초기 상호작용을 연구하고 더 효과적인 pre-training task를 개발하는 것이 포함된다.

 

A. Appendix

보충 자료는 여덟 개의 섹션으로 구성되어 있다. Section A.1은 데이터셋 수집의 세부 사항을 설명한다. Section A.2는 각 downstream task에 대한 구현 세부 사항을 설명한다. Section A.3은 조건부 마스킹과 공동 랜덤 마스킹 간의 정량적 비교를 자세히 제공한다. Section A.5는 VCR 및 NLVR2에 대한 추가 결과를 제공한다. Section A.6은 VLBERT 및 ViLBERT와의 직접 비교를 제공한다. Section A.7은 optimal transport (OT) 및 OT 거리를 계산하는 데 사용된 IPOT 알고리즘에 대한 배경 정보를 제공한다. Section A.8은 추가 시각화 예제를 제공한다.

 

A.1 Dataset Collection

앞서 소개했듯이, 전체 데이터셋은 COCO, Visual Genome, Conceptual Captions, SBU Captions로 네 가지 V+L 데이터셋으로 구성된다. 데이터셋 수집은 단순히 이들을 결합하는 것이 아니라 pre-training 과정에서 downstream 평가 이미지가 포함되지 않도록 해야 한다. 이 중 COCO는 가장 까다로운 정리 작업이 필요한데 여러 downstream task가 이를 기반으로 구축되었기 때문이다. Figure 4는 VQA, 이미지-텍스트 검색, COCO 캡셔닝, RefCOCO/RefCOCO+/RefCOCOg, 그리고 bottom-up top-down (BUTD) 탐지의 분할을 COCO 이미지에서 모두 나열한다.

 

관찰한 바와 같이, 다양한 task의 검증 및 테스트 분할은 원시 COCO 분할에 걸쳐 흩어져 있다. 따라서 downstream task에 등장한 모든 평가 이미지를 제외했다. 추가적으로, URL 매칭을 통해 중복되는 모든 Flickr30K 이미지를 제외하여 Flickr에서 zero-shot 이미지-텍스트 검색 평가가 공정하도록 했다. 나머지 이미지는 Figure 4의 하단 행에 표시된 대로 전체 데이터셋 내의 COCO 하위 집합이 된다. 이러한 방법을 Visual Genome, Conceptual Captions, SBU Captions에도 적용했다.

 

A.2 Implementation Details

모델은 PyTorch 기반으로 구현되었다. 학습 속도를 높이기 위해 Nvidia Apex18을 사용하여 혼합 정밀도 학습을 수행한다. 모든 pre-training 실험은 Nvidia V100 GPU에서 실행된다. finetuning 실험은 동일한 하드웨어 또는 Titan RTX GPU에서 구현된다. 학습 속도를 더욱 높이기 위해, 동적 시퀀스 길이를 구현하여 패딩을 줄이고 input 단위(텍스트 토큰 + 이미지 영역) 수에 따라 배치 예제를 구성한다. 대규모 pre-training 실험의 경우, Horovod + NCCL을 사용하여 최대 4개의 노드에 걸쳐 4x V100 서버에서 수행한다. 또한 다중 GPU 통신 오버헤드를 줄이기 위해 그래디언트 누적을 적용한다.

 

Visual Question Answering (VQA)

가장 빈번한 3129개의 답변을 후보로 선택하고 10명의 인간 응답과의 관련성에 따라 각 후보에 soft target 점수를 할당한다. VQA 데이터셋을 finetuning하기 위해 최대 5000 step에서 batch size 10240 input 단위로 다중 레이블 분류기를 학습시키기 위해 binary cross-entropy loss를 사용한다. learning rate는 3e-4, weight decay 0.01로 AdamW optimizer를 사용한다. inference시에는 가장 확률이 높은 답변을 예측된 답변으로 선택한다. test-dev와 test-std 분할에 대한 결과를 위해 훈련 및 검증 세트를 모두 사용하여 훈련하고 Visual Genome의 추가 질문-답변 쌍을 데이터 증강에 사용한다.

 

Visual Commonsense Reasoning (VCR)

VCR은 question-answering task (Q -> A)와 answer-justification task (QA -> R)과 같이 두 개의 다중 선택 sub-task로 분해될 수 있다. 전체 설정 (Q -> AR)에서는 모델이 먼저 답변 선택지에서 답변을 선택한 다음, 선택한 답변이 맞으면 선택지에서 논리를 선택해야 한다. 두 가지 설정에서 동시에 모델을 학습시킨다. 전체 설정에서 테스트할 때, 먼저 모델을 적용하여 답변을 예측하고 예측된 답변과 주어진 질문을 기반으로 같은 모델에서 논리를 얻는다. VCR 데이터셋을 finetuning하기 위해, 질문(질문과 정답)과 네 개의 가능한 답변(논리) 후보 각각을 연결한다. 'modality embedding'을 확장하여 질문, 답변 및 논리를 구분하는 데 도움을 준다. 최대 5K step에서 batch size 4096 input 단위로 각 질문-답변 쌍(질문-답변-논리 삼중항)에 대해 두 클래스('맞음' 또는 '틀림')의 분류기를 학습시키기 위해 cross-entropy loss를 사용한다. learning rate는 1e-4, weight decay는 0.01로 하여 AdamW optimizer를 사용한다.

 

VCR 데이터셋의 이미지와 텍스트는 pre-training 데이터셋과 매우 다르기 때문에 VCR에서 모델을 추가로 pre-train하며 pre-training task로 MLM, MRFR 및 MRC-kl을 사용한다. ITM은 VCR의 텍스트가 명시적으로 이미지를 설명하지 않기 때문에 제외된다. VCR에 대한 두 번의 pre-traing 결과는 Table 4에 보고되며 본문에서 논의된다. 결론적으로, pre-training 데이터셋과 매우 다른 새로운 데이터를 포함하는 downstream task의 경우, 두 번째 단계 pre-training이 성능 향상에 도움이 된다.

 

두 번째 단계 pre-training은 최대 60K step동안 batch size 4096 input 단위, learning rate는 3e-4 및 weight decay는 0.01로 수행된다. 두 번째 pre-training 후, 최대 8K step동안 learning rate 6e-5로 모델을 finetuning한다.

 

Natural Language for Visual Reasoning for Real (NLVR2)

NLVR2는 visual 추론을 위한 새로운 도전 task이다. 목표는 자연어 문장이 주어진 이미지 쌍에 대해 참인지 여부를 결정하는 것이다. 여기서 NLVR2 finetuning의 세 가지 아키텍처 변형을 자세히 논의한다. UNITER는 pre-train시 하나의 이미지와 하나의 텍스트 입력만 처리하므로 NLVR2 task에서 추가로 제공되는 이미지를 구별하기 위해 'modality embedding'을 확장했다. Triplet 설정에서는 이미지 영역을 연결한 후 UNITER 모델에 입력한다. 이진 분류를 위해 [CLS] 출력에 MLP 변환을 적용한다. Pair 설정에서는 하나의 입력 예제를 텍스틀 반복하여 두 개의 텍스트-이미지 쌍으로 처리한다. UNITER의 두 개의 [CLS] output을 깊이 연결하여 예제의 공동 임베딩으로 사용한다. 또 다른 MLP는 이 임베딩을 최종 분류를 위해 추가 변환한다. Pair-biattn 설정에서는 input 형식이 Pair 설정과 동일하다. 공동 표현을 위해 두 [CLS] output만 사용하는 대신, multi-head attention layer를 하나의 이미지-텍스트 임베딩 시퀀스에 적용하여 다른 시퀀스에 attend하게 한다. 이러한 '양방향' attention 상호 작용 후, 각 출력 시퀀스에 단순 추가적인 풀링을 적용한 다음 최종 concat+MLP layer가 cross-attend된 공동 표현을 참/거짓 분류로 변환한다.

 

NLVR2에서 UNITER를 batch size 10K input 단위로 8K step동안 finetuning한다. AdamW optimizer를 learning rate 1e-4와 weight decay 0.01로 하여 사용한다.

 

Image-Text Retrieval

이 task를 위해 두 가지 데이터셋 COCO와 Flickr30K을 고려한다. COCO는 123K 이미지를 포함하며 각 이미지에는 다섯 개의 인간이 작성한 캡션이 첨부되어 있다. 데이터를 82K/5K/5K로 훈련/검증/테스트 이미지로 나눈다. MSCOCO 검증 세트에서 추가로 30K 이미지를 포함하여 훈련을 향상시킨다. Flickr30K 데이터셋은 Flickr 웹사이트에서 수집된 31K 이미지를 포함하며 각 이미지에는 다섯 개의 텍스트 설명이 있다. 이러한 데이터를 30K/1K/1K 훈련/검증/테스트로 나눈다. finetuning 과정에는 각각의 이미지와 텍스트 측에서 두 개의 부정적인 이미지-텍스트 쌍을 양성 샘플로 샘플링한다. COCO의 경우, batch size를 60으로 하고 learning rate를 2e-5로 모델을 20K step동안 finetuning한다. Flickr30K의 경우, batch size를 120으로 하고 learning rate를 5e-5로 모델을 최대 16K step동안 finetuning한다.

 

Table 3에서 최종 결과를 얻기 위해 추가로 hard negative를 샘플링하여 finetuning을 촉진한다. 매 N step마다, 텍스트 입력당 128개의 부정적인 이미지를 무작위로 샘플링하고 전체 훈련 세트에 대한 희소 점수 매트릭스를 얻는다. 각 이미지에 대해 상위 20개의 순위가 매겨진 부정적 문장을 hard negative 샘플로 선택한다. 마찬가지로, 각 문장에 대해 상위 20개의 부정적 이미지를 점수에 따라 얻는다. hard negative는 추가적인 부정적 샘플로 모델에 보내진다. 결국, positive sample당 두 개의 무작위 샘플과 두 개의 hard negative sample을 갖는다. Ndms COCO의 경우 4000, Flickr30K의 경우 2500으로 설정된다.

 

Visual Entailment (SNLI-VE)

Visual Entailment는 Flickr30K 이미지와 Stanford Natural Language Inference (SNLI) 데이터셋에서 파생된 작업으로 목표는 자연어 문장과 이미지 간의 논리적 관계를 결정하는 것이다. 자연어 추론 (NLI)을 위한 BERT와 유사하게, SNLI-VE를 세 가지 방식의 분류 문제로 처리하고 [CLS] output에 MLP 변환을 적용한다. UNITER 모델은 cross-entropy loss를 사용하여 finetuning한다. batch size는 10K input 단위로 설정되고 learning rate는 8e-5로 AdamW를 사용하여 3K step동안 훈련된다.

 

Referring Expression Comprehension

평가를 위해 세 가지 참조 표현 데이터셋인 RefCOCO, RefCOCO+, RefCOCOg를 사용한다. 모두 COCO 이미지에서 수집되었다. 이 task에서 UNITER를 finetuning하기 위해, Transformer의 영역 output을 기반으로 MLP layer를 추가하여 쿼리 문구/문장과 각 영역 간의 정렬 점수를 계산한다. 하나의 객체만이 쿼리 문구/문장과 쌍을 이루므로 정규화된 정렬 점수에 cross-entropy loss를 적용한다. finetuning은 효율적으로 이루어지며 batch size는 64로 설정하고 learning rate는 5e-5로 모델을 단 5 epoch동안 훈련하고 SOTA 성능을 달성한다.

 

본 연구를 포함한 모든 연구들은 COCO(및 Visual Genome)에서 훈련된 객체 탐지기를 사용하여 시각적 특징을 추출한다. 이는 다른 downstream task에 영향을 미치지 않지만, RefCOCO, RefCOCO+, RefCOCOg의 검증/테스트 이미지가 COCO의 훈련 분할의 하위 집합이기 때문에 RE 이해에는 문제가 된다. 엄밀히 말해, 본 연구의 객체 탐지기는 이러한 검증/테스트 이미지로 훈련할 수 없다. 그러나 동등한 연구와 "공정한" 비교를 위해, MAttNet의 결과를 업데이트했으며 정확도는 원래보다 1.5% 높다. 앞서 언급한 바와 같이, 문장과 이미지 간의 상호 작용은 추출된 특징 대신 토큰과 픽셀에서 시작할 수 있다. 이연구와 RE 이해에서 엄밀히 올바른 특징을 사용하는 것은 향후 연구로 남겨둔다.

 

A.3 Conditional Masking vs Joint Random Masking

LXMERT에서 사용된 공동 랜덤 마스킹에 비해 제안된 조건부 마스킹의 장점을 논의한다. 직관적으로, 조건부 마스킹은 두 모달리티 간의 개체(영역과 단어)에 대한 더 나은 잠재적 정렬을 학습한다. Figure 5는 "소파에 앉아 있는 남자와 그의 개와 고양이"라는 문장과 함께 예제 이미지를 보여준다. 조건부 마스킹을 사용하면 개의 영역이 마스킹되었을 때, 모델은 주변 영역과 전체 문장의 문맥을 기반으로 그 영역이 개라는 것을 추론할 수 있어야 하며(그 반대도 마찬가지) Figure 5(a)와 같다. 그러나 공동 마스킹 구현에서는 개의 영역과 개라는 단어가 모두 마스킹될 수 있다(Figure 5(b)). 이러한 경우, 모델은 무작위로 예측을 해야 하므로 정렬이 잘못될 수 있다.

 

이 직관을 검증하기 위해, Figure 6에서 MLM과 MRC-kl의 pre-training 동안의 검증 곡선을 보여준다. 각 하위 그림은 UNITER의 pre-training 과정동안 조건부 마스킹과 공동 랜덤 마스킹을 적용한 비교를 보여준다. MLM 정확도는 UNITER가 마스킹된 단어를 얼마나 잘 복원할 수 있는지를 측정하며 MRC-kl 정확도는 UNITER가 마스킹된 영역을 얼마나 잘 분류할 수 있는지를 측정한다. Figure 6에서 보여지듯이 두 경우 모두 조건부 마스킹이 더 빠르게 수렴하고 공동 랜덤 마스킹보다 더 높은 최종 정확도를 달성한다. 또한, 본 논문의 Table 2 (10행 및 11행)는 조건부 마스킹이 finetuning된 downstream task에서도 더 나은 성능을 보임을 보여준다.

 

A.4 More Ablation Studies on Pre-training Settings

MRC-only Pre-training

본 논문의 Table 2에 표시된 ablation study 외에도, In-domain 데이터에서 MRC만으로 pre-train된 UNITER-base의 결과를 포함한다. Table 7은 MRC-전용 pre-training이 MRFR-전용 pre-training과 유사한 downstream 성능을 보이며, 이는 In-domain 데이터를 사용한 다른 모든 pre-training 설정(Table 2의 4-12행)에 비해 weak baseline임을 보여준다.

 

Significance of WRA

본 논문의 Table 2에서 WRA를 추가하면 VQA와 RefCOCO+에서 모델 성능이 크게 향상되고 Flickr와 NLVR2에서는 유사한 결과를 얻는다는 것을 보여준다. 설계상, WRA는 각 이미지 영역과 문장의 각 단어 간의 로컬 정렬을 촉진한다. 따라서, WRA는 VQA와 같이 영역 수준의 인식 및 추론에 의존하는 downstream task에 주로 이점을 제공하며 Flickr와 NLVR2는 로컬 정렬보다는 글로벌 정렬에 더 중점을 둔다. Table 8에서 In-domain 및 Out-of-domain 데이터를 모두 사용하여 pre-train된 UNITER-large의 WRA에 대한 추가 ablation 결과를 추가한다. 이미지/텍스트 검색을 위한 zero-shot 설정에서 큰 성능 향상과 다른 모든 task에서 일관된 성능 향상을 관찰한다.

 

A.5 More Results on VCR and NLVR2

본 논문의 Table 4에 있는 VCR 설정에 따라, 10개의 UNITER-large를 사용하여 앙상블 모델을 구성한다. Table 9는 VLBERT, ViLBERT 및 UNITER의 VCR 성능 비교를 보여준다. 앙상블 모델의 Q -> AR 정확도는 ViLBERT 앙상블을 7.0%의 큰 차이로 능가한다. 단일 UNITER-large 모델도 이미 ViLBERT 앙상블과 VLBERT-large를 3.0% 차이로 능가한다.

 

또한, Table 10에서 NLVR2의 추가 테스트 분할에서 UNITER-large와 LXMERT 및 VisualBERT를 비교한다. 모든 지표에서 이전 SOTA를 약 4.0%의 큰 차이로 일관되게 능가한다.

 

A.6 Direct Comparison to VLBERT and ViLBERT

본 연구의 아이디어를 더욱 입증하기 위해, Conceptual Captions에서 훈련된 ViLBERT 및 VLBERT와 직접 비교를 수행한다. 제안된 조건부 마스킹과 최적의 pre-training task를 사용하여 Conceptual Captions에서만 UNITER를 pre-train한다. Table 11은 UNITER가 VQA와 RefCOCO+에서 다른 모델들을 눈에 띄는 차이로 일관되게 능가한다는 것을 보여준다.

 

A.7 Review of Optimal Transport and the IPOT Algorithm

Optimal Transport

먼저, domain X (시퀀스 공간)에서 확률 분포 사이의 거리를 정의하는 optimal transport에 대해 간략히 설명한다. 두 확률 분포에 대한 optimal transport 거리는 다음과 같이 정의된다.

 

The IPOT algorithm

안타깝게도, T에 대한 정확한 최소화는 일반적으로 계산적으로 실행 불가능하다. 이러한 실행 불가능성을 극복하기 위해, OT 거리를 근사하는 효율적인 반복 접근 방식을 고려한다. 최근에 도입된 Inexact Proximal point method for Optimal Transport (IPOT) 알고리즘을 사용하여 OT 행렬 T*와 OT 거리를 계산할 것을 제안한다. 구체적으로, IPOT는 근접 점 방법을 사용하여 다음 최적화 문제를 반복적으로 해결한다.

 

A.8 Additional Visualization