본문 바로가기
Paper Review/Multi-modal

[Paper Review] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 논문 리뷰

by BangGeuk 2023. 10. 21.

본 글은 https://arxiv.org/abs/2205.12005 내용을 기반으로 합니다.

혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.


본 논문은 cross-modal 이해와 생성을 위한 새로운 vision-language 기반으로 하는 mPLUG 모델을 제시한다.

대부분 pre-trained 모델들은 낮은 계산 효율성과 정보 비대칭 문제를 가지고 있다.

이러한 문제들을 해결하기 위한 mPLUG는 cross-modal skip-connection을 가진 vision-language 아키텍쳐를 가진다.

mPLUG는 image captiong, image-text retrieval, visual grounding, visual question answering과 같은 다양한 vision-language task에서 SOTA 성능을 달성하였다.

1. Introduction

cross-modal 정렬을 위한 이전 연구들은 pre-trained object detector를 사용하여 image에서 두드러진 지역들을 추출하고 언어 대응항목들에 정렬하였다. 이는 object detector의 성능에 의해 한계가 있으며 계산 비용이 많이 든다. 최근 연구들은 pre-trained object detection의 요구사항을 줄이고 직접 image와 text 표현들을 정렬할 수 있도록 한다. 그러나, 이것들은 낮은 계산 효율성과 정보 비대칭 문제가 존재한다.

 

Multi-modal fusion 방법들 중 간단한 방법은 (a)와 같이 connected-attention network이다. Input으로 시각적 특징과 언어적 특징을 연결함으로써 단일 Transformer를 사용한다. 이는 시간이 오래 걸리고 정보 비대칭을 야기할 수 있다.

 

다른 방법으로는 (b)와 같이 시각적 특징과 언어적 특징을 위해 분리된 Transformer를 사용하고 cross-modal 상호작용을 위해 cross-attention을 사용한다. 이는 정보 비대칭 문제를 완화하였으나 계산 비효율성을 가지고 있다.

 

mPLUG는 vision-language 이해와 생성을 위한 통일된 multi-modal pre-training framework이다. 정보 비대칭 문제를 해결하기 위해 새로운 corss-modal skip-connection을 사용한다. (c)와 같이 Vision Encoder에는 co-attention을 제거함으로써 효율적인 비대칭 co-attention 아키텍쳐를 사용한다.

 

Key contributions은 다음과 같다.

  • mPLUG는 cross-modal 학습에서 효율적이고 효과적인 vision-language pre-trained model이다.
  • 본 논문은 정보 비대칭과 계산 비효율성을 해결하기 위한 새로운 비대칭 vision-language 아키텍쳐를 소개한다.
  • mPLUG는 다양한 vision-language task에서 SOTA 성능을 달성하였다.

2. Method

아래 그림과 같이 mPLUG는 image와 text를 위한 두 개의 uni-modal encoder와 cross-modal skip-connected network, text 생성을 위한 decoder가 존재한다. 

 

모델 학습 순서

1. ITC(Image-Text Contrastive)를 통해 Visual Encoder와 Text Encoder의 표현을 연관성을 가지게 하며 학습한다.

2. Skip-connected network를 통해 학습된 것들을 서로 매칭이 잘 될 수 있도록 ITM(Image-Text Matching)을 통해 학습한다.

3. MLM(Masked Language Model)을 통해 문장의 이해 능력을 잘 이해할 수 있게 학습한다.

4. PrefixLM(Prefix Language Model)를 통해 Decoder 부분에서 Text를 잘 생성할 수 있게 학습한다.

3. Experiments

Data : In-domain dataset(MS COCO, Visual Genome), Web out-domain dataset(Conceptual Captions, Conceptual 12M, SBU Captions)

Model : Visual Enocder(ViT-B/16), Text Encoder(first 6 layers of BERT), Skip-connected Network(last 6 layers of BERT), Decoder(12 layer Transformer)

Setup : 16 NVIDIA A100 GPUs, Optimizer(AdamW), Learning rate(ViT: 1e-5, BERT: 1e-4), Augmentation(Random image crop, RandAugment), Queue size(65,536)

 

Visual Question Answering, Image captioning, Image-text retrieval, Visual grounding, Visual reasoning 분야에서 좋은 성능을 가지며 running time과 zero-shot transfer 성능도 좋았다.

4. Conclusion

새로운 cross-modal skip-connections를 가진 mPLUG는 cross-modal 이해 및 생성에서 effective하고 efficient하다.

mPLUG는 다양한 vision-language tasks에서 SOTA 성능을 달성하고 zero-shot transfer 능력도 좋았다.