본 글은 https://arxiv.org/abs/2310.03744 내용을 기반으로 합니다. 본 논문은 CVPR 2024에서 highlight로 소개되었습니다.
혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.
본 논문의 contribution은 다음과 같다.
- LLaVA 프레임워크 기반으로 더 강력한 baseline 구축
- LMM의 해결되지 않은 문제들에 대해 탐구
Abstract
Large multimodal models (LMM)은 최근 visual instruction tuning을 통해 진전을 보여주었다. 본 논문에서는 LLaVA 프레임워크에 따라 통제된 설정에서 LMM의 design 선택을 조사하기 위한 최초의 체계적인 연구를 제시한다. LLaVA에서 fully-connected vision-language connector가 놀라울정도로 강력하고 data-efficient하다. LLaVA에 대한 간단한 수정, 즉 MLP projection과 함께 CLIP-ViT-L-336px를 사용하고 응답 형식 prompt와 함께 academic-task-oriented VQA data를 추가함으로써 11개 벤치마크에서 SOTA 성능을 달성하는 더 강력한 baseline을 설정한다. 최종 13B checkpoint는 공개적으로 사용 가능한 1.2M개의 데이터만 사용하고 single A100 8개에서 하루 만에 전체 학습을 완료한다. 또한 더 높은 해상도 input으로의 확장, 구성 기능 및 model hallucination 등을 포함하여 LMM의 문제에 대한 몇 가지 초기 탐색을 제시한다. 이를 통해 SOTA LMM 연구에 더 쉽게 접근할 수 있기를 바란다. code와 model은 공개적으로 이용 가능하다.
* data-efficient : 적은 양의 데이터로도 높은 성능을 발휘할 수 있는 능력
1. Introduction
Large multimodal models (LMMs)는 연구 커뮤니티에서 점점 인기를 끌고 있으며, 범용적인 assistant를 구축하는 데 중요한 구성 요소로 자리 잡고 있다. LMM에 대한 최근 연구는 visual instruction tuning이라는 핵심 개념에 집중하고 있다. LLaVA와 MiniGPT-4와 같은 모델들이 자연스러운 instruction-following과 visual reasoning 능력에서 뛰어난 성과를 보였다. LMM의 능력을 더 잘 이해하기 위해, 다양한 벤치마크들이 제시되고 있다. 추가로 최근 연구들은 pretraining data, instruction-following data, visual encoders, or language models를 각각 확장시킴으로써 향상된 성능을 보여주었다. LLaVA 아키텍처는 region-level과 pixel-level 이해, biomedical assistants, image generation, adversarial 연구를 포함한 다양한 downstream task와 도메인에서 활용되었다.
그러나 다양한 벤치마크와 개발에도 불구하고, 범용적인 assistant의 목표를 향해 LMM을 훈련하는 가장 좋은 방법이 무엇인지는 불분명하다. 예를 들어, LLaVA는 대화식 visual reasoning에서 탁월하고 심지어 MM-Vet benchmark에서 InstructBLIP과 같은 접근법보다 더 좋은 성능을 보여준다. 반면에, single-word 혹은 short answer를 요구하는 전통적인 VQA benchmark에서는 InstructBLIP이 더 좋다. 이러한 두 모델 사이에는 모델 아키텍처와 훈련 데이터에서 상당한 차이가 있으며, 이러한 성능 차이의 원인이 무엇인지 아직 정확히 밝혀지지 않았다. 몇 가지 가설(훈련 데이터의 양, Qformer와 같은 resampler의 사용 등)이 제시되고 있지만, 실제 차이의 근본적인 원인은 아직 불명확하다. 이를 해결하기 위해, 통제된 환경에서 LMM의 design 선택을 조사하는 최초의 체계적인 연구를 제시한다. 이 연구는 LLaVA에서 출발하여 input, model, data 관점에서 효과적인 기여를 신중히 조정해 나가며 로드맵을 구축한다.
* resampler : 모델이 입력 데이터를 특정 방식으로 재구성하거나 조정하여 모델이 학습에 더 적합하게 처리하도록 돕는 구성 요소. BLIP-2 논문 리뷰 글에서 Q-Former를 참고하면 이해할 듯 싶다.
첫 번째로, LLaVA에서 fully-connected vision-language connector가 놀랍도록 강력하고 data-efficient하다는 것을 밝히고 LLaVA 프레임워크 기반으로 더 강력하고 실행 가능한 baseline을 구축한다. 두 가지 간단한 개선점, 즉 MLP cross-modal connector와 VQA와 같은 학술 task 관련 데이터를 추가하는 것이 LLaVA 프레임워크와 독립적으로 적용될 수 있으며 LLaVA와 함께 사용할 경우 더 나은 multimodal 이해 능력을 이끌어낸다는 점을 보고한다. 수억개 혹은 수십억 개의 image-text 쌍 데이터에 대해 특별히 설계된 visual resampler를 훈련하는 InstructBLIP 혹은 Qwen-VL과 반대로, LLaVA는 LMM을 위한 가장 간단한 아키텍처 설계 중 하나를 사용한다. 이는 단지 600k개의 image-text 쌍에 대해 fully-connected projection layer만 훈련하면 된다. 본 논문의 최종 모델은 A100 8개로 하루 만에 훈련을 마칠 수 있으며 다양한 benchmark에서 SOTA 성능을 달성한다. 게다가, in-house data를 학습에 포함하는 Qwen-VL과 달리 LLaVA는 공개적으로 사용 가능한 데이터만 활용한다.
* in-house data : 특정 연구 기관이나 회사에서 자체적으로 수집하고 보유한 데이터를 의미.
다음으로, LMM의 해결되지 않은 문제들에 대해 초기 탐구를 탐구한다.
(1) Scaling to high-resolution image inputs.
LLaVA의 아키텍처가 단순히 이미지를 격자로 나누는 것만으로도 고해상도로 확장할 수 있는 유연성을 가지고 있으며 데이터 효율성을 유지한다는 것을 보여준다. 해상도가 높아짐에 따라, 모델의 세밀한 인식 능력이 향상되고 hallucination이 줄어든다.
(2) Compositional capabilities.
LMM이 구성적 능력(compositional capabilities)으로 일반화할 수 있다는 것을 발견했다. 예를 들어, 장문의 언어 추론과 짧은 시각적 추론을 함께 학습하면 multimodal 질문에 대한 모델의 작성 능력이 향상될 수 있다.
(3) Data efficiency.
LLaVA의 학습 데이터를 무작위로 최대 75%까지 다운샘플링해도 모델 성능이 크게 저하되지 않음을 보여준다. 이는 더 정교한 데이터셋 압축 전략이 LLaVA의 이미 효율적인 학습 파이프라인을 더욱 개선할 가능성을 시사한다.
(4) Data scaling.
데이터의 세분화 수준(data granularity)을 모델의 능력과 함께 확장하는 것이 hallucination과 같은 오류를 일으키지 않으면서 모델 성능을 개선하는 데 중요하다는 경험적 증거를 제공한다.
* 구성적 능력(compositional capabilities) : 모델이 복잡한 개념이나 task를 여러 단순한 요소로 분해하고, 이를 조합하여 새로운 상황에서도 잘 작동하는 능력을 의미.
* 데이터 세분화 수준(data granularity) : 데이터를 얼마나 상세하게 쪼개어 사용하는지를 의미. 데이터의 세분화 수준이 높을수록, 더 많은 세부 정보를 포함한 작은 단위로 데이터를 나누어 사용. 데이터의 세분화 수준을 적절히 조정하면 모델이 중요한 정보에 더 집중하고 불필요한 오류(ex. hallucination)을 줄이면서 더 정교한 학습이 가능.
요약하면, LMM 학습에 대해 체계적인 연구를 수행하고 LMM에 대한 multitask 학습과 효과적인 확장의 균형을 맞추는 간단하면서도 효과적인 접근법을 소개한다. 본 연구의 개선된 baseline인 LLaVA-1.5는 공개 데이터셋만 사용하고 광범위한 11개 task에서 SOTA 성능을 달성하며 이전 접근 방식보다 훨씬 더 데이터 효율성이 높다. 기존 접근 방식을 재고하고 visual instruction tuning의 미해결 문제를 탐구함으로써, LMM을 위한 더 견고하고 강력한 시스템을 구축하는 길을 열었다. 이러한 개선되고 쉽게 재현 가능한 baseline이 open-source LMM에 대한 향후 연구를 위해 참고 자료가 되기를 바란다.
* multitask learning and effective scaling for LMM : LMM을 학습할 때 multitask를 효과적으로 학습하는 것과 모델을 확장하여 성능을 극대화하는 것을 동시에 달성하는 방법을 의미.
2. Related Work
Instruction-following large multimodal models (LMMs).
일반적인 아키텍처는
visual feature를 인코딩하기 위한 pre-trained visual backbone,
user instruction을 이해하고 응답을 생성하기 위한 pre-trained LLM,
vision encoder output을 language model에 align하기 위한 vision-language cross-modal connector가 있다.
Figure 1에서 볼 수 있듯이, LLaVA는 아마도 LMM을 위한 가장 간단한 아키텍처이다. 선택적으로, visual resampler(e.g. Qformer)를 사용하여 visual 패치 수를 줄일 수 있다. instruction-following LMM을 훈련하는 것은 일반적으로 two-stage 단계를 따른다. First stage(vision-language alignment pretraining stage)는 image-text 쌍을 활용하여 visual feature를 language model의 word embedding 공간에 align한다. 초기 연구들은 상대적으로 덜 image-text 쌍(e.g. ~600K or ~6M)을 활용한다. 반면에, 최근 연구들은 LMM의 성능을 최대화하기 위해 대규모 image-text 쌍(e.g. 129M and 1.4B)을 사용하여 특정 언어 모델에 vision-language connector를 사전학습한다. Second stage(visual instruction tuning stage)는 모델을 visual instruction에 조정하여 시각적 내용이 포함된 instruction에 대해 user의 다양한 요청을 따를 수 있도록 모델을 학습한다. LMM에서 그리드를 사용하여 더 높은 해상도를 처리하는 방법은 con-current work에서 연구된다.
Multimodal instruction-following data.
NLP 분야 연구에 따르면 instruction-following data의 품질은 instruction-following model의 성능에 크게 영향을 미친다. visual instruction tuning을 위해, LLaVA는 text-only GPT-4를 활용하여 기존의 COCO bounding box와 caption dataset을 multimodal instruction-following dataset으로 확장한 최초의 사례이다. 이는 conversational-style QA, detailed description, complex reasoning이라는 세 가지 유형의 instruction-following data를 포함한다. LLaVA의 파이프라인은 textual understanding, million-scales, and region-level conversation으로 확장하기 위해 탐구되어왔다. InstructBLIP은 학문적 task 중심의 VQA dataset을 통합하여 모델의 visual 성능을 더욱 향상시킨다. 반대로, 한 연구에서는 이러한 단순한 데이터 병합은 모델이 VQA dataset에 과적합되어 자연스러운 대화에 참여할 수 없게 만드는 결과를 초래할 수 있음을 지적한다. 이 저자들은 VQA dataset을 대화형 스타일로 변환하기 위해 LLaVA 파이프라인을 활용할 것을 추가로 제안한다. 이는 훈련에 효과적인 것으로 입증되었지만 데이터 확장에 복잡성이 추가되었다. 그러나, NLP에서 FLAN 모델은 instruction tuning을 위해 많은 학술적 언어 task를 추가하는 것이 일반화 능력을 효과적으로 향상시킬 수 있음을 보여준다. 이를 바탕으로, 본 연구는 multimodal 모델에서 자연스러운 대화와 학문적 task 간의 균형을 맞추지 못하는 근본적인 원인을 조사하는 것을 고려한다.
3. Approach
3.1 Preliminaries
visual instruction tuning의 획기적인 연구인 LLaVA는 실제 visual instruction-following task에 대한 다양한 benchmark에서 최신 모델들을 뛰어넘는 뛰어난 visual reasoning 능력을 보여준다. LLaVA는 visual feature들을 language space에 project하여 single linear layer를 사용하고 visual instruction tuning으로 전체 LLM을 최적화한다. 그러나, LLaVA는 일반적으로 단답형 응답(e.g. single-word)을 요구하는 학술적 benchmark에서 부족한 성능을 보이며 훈련 데이터 분포에 이러한 데이터가 부족하여 yes/no 질문에 대해 yes라고 답하는 경향이 있다.
반면에, InstructBLIP은 VQA-v2와 같은 academic-task-oriented dataset을 LLaVA-Instruct와 함께 도입한 최초의 모델로 VQA benchmark에서 향상된 성능을 보여준다. 129M image-text 쌍을 이용해 Qformer를 사전학습하고 visual instruction tuning을 위해 instruction-aware Qformer만 파인튜닝한다. 하지만, 최근 연구에서 실제 시각적 대화 task에 참여하는 데 LLaVA만큼 성능이 좋지 않다는 것을 보여준다. 더 구체적으로는 Table 1a에서 볼 수 있듯이, 세부적인 응답을 요구되는 요청에서도 단답형 VQA training set에 과적합이 될 수 있다.
* instruction-aware : instruction을 이해하고 처리할 수 있는 능력. instruction-aware Qformer는 user instruction을 인식하고 그에 따라 적절하게 반응하도록 학습된 Qformer
3.2 Response Format Prompting
InstructBLIP과 같이 자연스러운 응답과 단답형 응답 모두 포함하는 instruction following data를 활용하는 접근 방식이 단답형 및 장문형 VQA 간의 균형을 맞추지 못하는 이유가 주로 다음과 같다는 것을 발견했다.
First, ambiguous prompts on the response format.
예를 들어, "Q: {Question} A: {Answer}."과 같은 프롬프트는 원하는 output 형식을 명확하게 나타내지 않는다. 그리고 자연스러운 시각적 대화에서 LLM을 행동적으로 짧은 형태로 대답하는 것으로 과적합할 수 있다.
Second, not finetuning the LLM.
첫 번째 이슈는 InstructBLIP이 instruction-tuning을 위해 Qformer만 파인튜닝하기 때문에 악화된다. Qformer의 visual output token이 prefix tuning과 같이 LLM의 output 길이를 장문 또는 단문으로 조절하도록 요구하지만, Qformer는 LLaMA와 같은 LLM에 비해 용량이 제한적이기 때문에 이를 제대로 수행할 능력이 부족하다.
따라서, LLaVA가 단답형 응답을 더 잘 처리하고 InstructBLIP의 문제를 해결할 수 있도록, output 형식을 명확하게 나타내는 단일 응답 형식 지정 prompt를 사용할 것을 제안한다. 이는 단답형 응답을 유도할 때 VQA 질문 마지막에 추가되며 "Answer the question using a single word or phrase."라는 형식으로 사용된다. LLM이 이러한 프롬프트로 파인튜닝될 때, LLaVA는 user의 instruction에 따라 output 형식을 적절하게 조정할 수 있음을 발견했다(Table 1b). 이는 ChatGPT를 사용하여 VQA 답변을 추가로 처리할 필요가 없으므로 다양한 데이터로 확장할 수 있다. Table 2에서 볼 수 있듯이, 학습에 VQAv2를 포함하는 것만으로도 LLaVA의 MME 성능이 크게 향상되었으며(1323.8 vs 809.6), InstructBLIP보다 111점 더 높은 성능을 보인다.
3.3 Scaling the Data and Model
MLP vision-language connector.
linear projection에서 MLP로 변경함으로써 self-supervised learning에서 성능이 향상된 것에 영감받아, two-layer MLP를 사용해 vision-language connector의 representation을 향상시키는 것이 기존 linear projection에 비해 LLaVA의 multimodal 성능을 개선할 수 있음을 발견했다.
Academic task oriented data.
Table 2에서 볼 수 있듯이 다양한 방식으로 모델의 성능을 향상시키기 위해 VQA, OCR, region-level perception을 위한 academic-task-oriented VQA dataset을 추가적으로 포함한다. 먼저, InstructBLIP에서 사용된 네 가지 추가 데이터셋을 포함한다. open-knowledge VQA (OKVQA, A-OKVQA)와 OCR(OCRVQA, TextCaps). A-OKVQA는 객관식 질문으로 변환되며 특정 응답 형식 prompt "Answer with the option's letter from the given choices directly."가 사용된다. InstructBLIP이 사용하는 dataset의 subset만으로 LLaVA는 이미 Table 2의 세 가지 task에서 모두 이를 능가하며 LLaVA의 효과적인 설계를 제안한다. 또한, region-level VQA datasets(Visual Genome, RefCOCO)를 추가로 포함하면 모델의 세밀한 시각적 세부사항을 지역화하는 능력이 향상됨을 발견했다.
* 모델의 세밀한 시각적 세부사항을 지역화하는 능력(model's capability of localizing fine-grained visual details) : 이미지 내에서 특정한 작은 영역이나 세부적인 요소를 정확히 찾아내는 능력.
Additional scaling.
vision encoder를 CLIP-ViT-L-336px(CLIP에서 사용할 수 있는 가장 높은 해상도)로 교체하여 input image 해상도를 336x336으로 확장함으로써 LLM이 이미지의 세부 사항을 더 명확하게 볼 수 있도록 한다. 추가로, 추가적인 시각적 지식으로 GQA dataset을 추가한다. ShareGPT data를 통합하고 LLM을 13B으로 확장한다. MM-Vet 결과에서 LLM을 13B으로 확장했을 때 가장 큰 개선이 나타났으며 이는 시각적 대화를 위한 기본 LLM의 성능이 중요하다는 것을 시사한다.
* LLM이 이미지의 세부 사항을 더 명확하게 볼 수 있도록 : LLM은 텍스트 기반이기 때문에 이미지를 직접 볼 수 없지만 위 문장에서 이미지의 세부 사항을 더 명확하게 본다는 뜻은 vision encoder가 이미지에서 세부 정보를 더 잘 추출하고 이 정보를 LLM이 이해할 수 있는 형태로 전달한다는 의미이다.
LLaVA-1.5.
모든 수정사항이 포함된 최종 모델을 LLaVA-1.5 (Table 2에서 마지막 두 행)으로 지칭한다. 이는 original LLaVA보다 훨씬 뛰어난 성능을 달성한다.
Computational cost.
LLaVA-1.5의 경우, 동일한 pretraining dataset을 사용하고 LLaVA와 마찬가지로 instruction tuning을 위해 training iteration과 batch size를 대체로 동일하게 유지한다. image input 해상도를 336x336으로 증가시켜주기 때문에, LLaVA-1.5의 학습 시간은 LLaVA의 약 2배가 된다. 사전학습은 약 6시간, visual instruction tuning은 약 20시간이 소요되며 8개의 A100을 사용한다.
3.4 Scaling to Higher Resolutions
Section 3.3에서 input image 해상도를 확장시키는 것이 모델 능력을 향상시킨다는 이점을 발견했다. 하지만, 기존 open source CLIP vision encoder의 image 해상도는 336x336으로 제한되어 있어 Section 3.3과 같이 vision encoder를 교체하는 것만으로는 더 높은 해상도의 image를 지원할 수 없다. 이 section에서는 LLaVA-1.5의 데이터 효율성을 유지하면서 LMM을 더 높은 해상도로 확장하는 초기 탐구를 제시한다.
vision encoder를 ViT로 사용할 때, 해상도를 확장하기 위해 이전 접근법들은 대부분 positional embedding interpolation을 수행하고 파인튜닝 과정에서 ViT backbone을 새로운 해상도에 맞추는 방식을 선택한다. 하지만, 이를 위해서는 보통 대규모 image-text paired dataset에서 모델을 파인튜닝해야한다. 이는 inference 중에 LMM이 수용할 수 있는 고정된 크기로 이미지 해상도를 제한한다.
대신, Figure 2에서 볼 수 있듯이, 이미지를 vision encoder가 원래 학습된 해상도의 더 작은 이미지 패치로 나누어 각각 독립적으로 인코딩하는 방법으로 이를 극복한다. 개별 패치의 feature map을 얻은 후, 이를 결합하여 target 해상도의 하나의 큰 특징 맵을 만들고 이를 LLM에 입력한다. LLM에 전역적 맥락을 제공하고 split-encode-merge 작동에서 발생하는 인위적인 왜곡을 줄이기 위해, downsampling된 이미지 특징을 병합된 특징 맵에 추가로 연결한다. 이를 통해 input을 임의의 해상도로 확장(특정 해상도에 제한되지 않고 다양한 크기의 이미지 해상도를 처리)하면서 LLaVA-1.5의 데이터 효율성을 유지할 수 있다. 이러한 결과 모델을 LLaVA-1.5-HD라고 부른다.
4. Empirical Evaluation
4.1 Benchmarks
LLaVA-1.5를 academic-task-oriented benchmark와 최근에 instruction-following LMM을 위해 특별히 제안된 benchmark 총 12개 benchmark에 대해 평가한다. academic-task-oriented benchmark의 경우, VQA-v2와 GQA는 open-ended 단답형 응답에서 모델의 시각적 인식 능력을 평가한다. VizWiz는 시각 장애가 있는 사람들이 묻는 시각적 질문에 대한 모델의 zero-shot 일반화를 평가하기 위한 8,000개 이미지가 포함되어 있다. InstructBLIP에 따라, ScienceQA의 이미지 하위 집합과 객관식 문제가 과학 질의응답에 대한 zero-shot 일반화를 평가하는 데 사용된다. TextVQA는 텍스트가 풍부한 시각적 질의 응답이 포함되어 있다.
최근 instruction-following LMM을 위해 제안된 benchmark의 경우, POPE는 COCO에서 샘플링된 세 가지 하위 집합(random, common, adversarial)에서 모델의 hallucination 정도를 평가하며 이 세 가지 분할에 대한 F1 score를 보고한다. 다른 benchmark에서는 다양한 응답 형식을 사용하여 광범위한 domain 및 application에서 모델의 성능을 평가한다. MME-Perception은 yes/no 질문으로 모델의 시각적 인식을 평가한다. MMBench는 객관식 답변에 대한 all-round shuffling(전반적인 순서 변경)을 통해 모델의 답변 robustness(견고성)을 평가한다. MMBench-CN은 MMBench의 중국어 번역 버전이다. SEED-Bench는 객관식으로 이미지와 비디오에 대해 모델의 성능을 평가하고 중간의 프레임을 샘플링하여 비디오의 정확도를 평가한다. LLaVA-Bench-in-the-Wild와 MM-Vet은 다양한 task에서 시각적 대화에 참여하는 모델의 능력을 평가하며 GPT-4 평가를 통해 응답의 정확성과 유용성을 측정한다.
* COCO에서 샘플링된 세 가지 하위 집합(random, common, adversarial) : random은 무작위로 샘플링된 데이터, common은 일반적으로 많이 등장하는 데이터, adversarial은 모델이 잘못된 응답을 생성하기 쉽게 설계된 어려운 데이터.
* all-round shuffling : 객관식 질문에서 선택지의 순서를 전반적으로 변경하는 방식. 이를 통해 답변 선택지의 순서에 의존하지 않고 실제로 질문과 선택지의 내용에 따라 정답을 추론할 수 있는지를 평가.
4.2 Results
다른 방법들에 비해 더 적은 pretraining and instruction tuning data를 사용했음에도 불구하고, LLaVA-1.5가 12개 benchmark에서 전반적으로 최고 성능을 달성하는 것을 보여준다. LLaVA-1.5는 instruction-following LMM에 대한 모든 benchmark에서 LLaVA보다 훨씬 뛰어난 성능을 발휘한다. open-ended short answer를 요구하는 VQA-v2 같은 academic dataset에서 original LLaVA를 평가하는 것은 어렵다.
LLaVA-1.5-HD로 image 해상도를 448x448까지 확장할 때, 모든 benchmark에서 전반적으로 성능이 향상된다. 특히, 이미지의 세부사항에 대한 인식을 요구하는 task(e.g. OCR in MM-Vet, detailed description in LLaVA-Bench-in-the-Wild)에서 더 성능이 향상된다. 또한, global context를 추가하는 것이 split-and-merge 과정에서 발생하는 왜곡을 효과적으로 복구하고 모델이 고해상도 특징에서 관련 영역을 더 쉽게 찾아낼 수 있도록 돕는다는 것을 발견했다(see appendix).
LLaVA-1.5가 가장 간단한 아키텍처, 학술적 계산자원, 그리고 public dataset만으로도 최고 성능을 달성하고 향후 연구를 위해 재현 가능하고 비용 효율적인 baseline을 제공한다는 점에서 고무적이다. 이러한 결과는 visual instruction tuning이 LMM의 성능을 향상시키는 데 중요한 역할을 한다는 것을 보여주며 vision encoders (e.g. CLIP, OpenCLIP, EVA-CLIP, etc.)가 이미 web-scale image-text paired data로 사전학습되었음에도 불구하고 LMM이 상당한 양의 vision-language alignment pretraining을 필요로 한다는 일반적인 믿음에 의문을 제기한다. LLaVA-1.5(심지어 7B model조차도)는 cross-modal 연결을 위해 수십억 개의 학습가능한 파라미터를 가진 Flamingo와 같은 LMM인 80B IDEFICS를 능가한다. 이는 또한 multimodal instruction-following 성능 측면에서 vision sampler의 이점과 추가적인 large-scale pretraining의 필요성을 다시 생각하게 만든다.
Global context.
고해상도를 위해, 224x224의 image로 padding 및 resize하고 이를 고해상도 특징과 연결하여 global context를 제공한다. 7B 모델에 대한 소거 실험은 global context가 세 가지 검증 benchmark 모두에서 효과적으로 성능을 증진시켜주는 것을 보여준다.
* 이미지를 패치로 나눠 각각 인코딩한 것은 이미지의 세부 정보를 담는다. 또 단일 이미지를 padding과 resize를 하여 전체적인 구조와 전역적인 정보를 담는다. 이 두 가지를 특징 공간에서 concatenate를 한다. 즉, 세부 정보(고해상도 특징)과 global context를 하나로 합쳐 모델이 이미지를 분석할 때 전역적인 시각과 세부적인 분석을 동시에 활용할 수 있도록 한다.
4.3 Emerging Properties
Format instruction generalization.
비록 LLaVA-1.5가 제한된 수의 format instruction(단답형, 대화형, 다지선다 등)으로 훈련되었음에도 불구하고, 다른 형식에도 일반화가 된다. 먼저, VizWiz는 제공된 내용이 질문에 답하기 불충분할 때 모델이 "Unanswerable"이라는 ouput으로 출력되도록 요구한다. 본 논문의 모델 응답 형식 prompt(see appendix)는 모델이 이를 효과적으로 수행하도록 지시한다(답변 불가능한 질문에서 11.1%에서 prompt를 통해 정확도가 67.8%로 향상). LLaVA-1.5가 까다로운 질문을 검증하도록 지시하는 예시(Figure 5), 제한된 JSON 형식으로 응답하는 예시(Figure 6), 그리고 기타 예시들을 appendix에 추가로 제시한다.
Multilingual multimodal capability.
LLaVA-1.5가 다국어 multimodal instruction following을 위해 파인튜닝된 적이 없음에도 불구하고(VQA를 포함한 모든 visual instruction은 영어), 다국어 instruction을 따를 수 있는 능력을 발견했다. 이는 부분적으로 ShareGPT에 포함된 다국어 instruction 덕분이다. ShareGPT는 instruction에 이미지를 포함하지 않지만, 이 데이터셋을 통해 모델은 사용자의 요청에 맞는 언어로 적응하여 응답하는 동작을 학습한다. 이러한 동작이 시각적 대화로 전이됨을 경험적으로 보여준다. 또한 MMBench의 질문을 중국어로 변환한 MMBench-CN에서 모델의 중국어 일반화 능력을 정량적으로 평가한다. 주목할 만한 점은 LLaVA-1.5는 중국어 multimodal instruction으로 파인튜닝되지 않았음에도 불구하고 중국어 multimodal instruction으로 파인튜닝된 Qwen-VL-Chat을 6.9% 차이로 능가했다(63.6% vs 56.7%). (Table 4에서 MMBench-CN 결과 참고)
4.4 Ablation on LLM Choices
NLP 분야에서, Llama2 연구에 대한 결과는 기본 LLM의 성능이 instruction으로 파인튜닝된 후속 모델에 영향을 미칠 수 있음을 시사한다. 이 section에서는 두 가지 LLM 계열을 탐구하고 최종 모델의 multimodal 성능에 대한 기여를 연구한다. LLaMA 기반 (Vicuna-v1.1, Vicuna-v1.3) and LLaMA-2 기반 (Vicuna-v1.5, LLaMA-2-Chat). Vicuna-v1.3과 Vicuna-v1.5는 동일한 약 15만 개의 ShareGPT data를 사용하며, 이는 v1.1에서 사용된 데이터의 2배이다. supervised instruction finetuning (SFT)로 순현된 Vicuna 계열과 달리, LLaMA-2-Chat은 reinforcement-learning from human-feedback (RLHF)를 통해 더욱 최적화된다. Figure 3에서 이러한 변형의 상대적 성능을 시각화한다.
먼저, Vicuna-v1.5가 전반적으로 최고 성능을 달성했고 LLaMA-2 기반 모델들이 일반적으로 LLaMA-1 기반보다 더 좋은 성능을 달성했음을 발견했다. 이는 기본 언어 모델의 중요성을 시사한다. 또한 MMBench-CN의 결과에서도 입증된다. Vicuna-v1.3과 v1.5가 instruction tuning을 위해 동일한 ShareGPT data를 사용했음에도 불구하고, 중국어에 대한 일반화 성능에서 Vicuna-v.13이 v1.5보다 현저히 낮다.
두 번째로, 언어 instruction-tuning이 각 데이터셋에서 요구되는 특정 성능에 중요하다. 예를 들어, LLaMA-2-Chat과 Vicuna-v1.5가 대부분 MMBench에서 같은 성능을 달성했음에도 불구하고, LLaMA-2-Chat의 MMBench-CN의 일반화는 Vicuna-v1.5보다 낮다. 이는 부분적으로 LLaMA-2-Chat의 SFT/RLHF 데이터 대부분이 영어로 이루어져 있으며 ShareGPT에 비해 다국어 데이터가 적기 때문이다. 또한, TextVQA는 이미지에서 텍스트 문자를 식별하는 능력과 OCR engine에서 나온 노이즈가 있는 output을 처리하는 능력을 모두 요구한다. 이러한 노이즈는 ChatGPT의 일상적인 사용에서 수집된 ShareGPT 데이터에서 더 흔하게 관찰될 수 있다.
* OCR engine : 이미지나 문서에 포함된 텍스트를 인식하고 이를 텍스트로 변환하는 기술.
5. Open Problems in LMMs
LLaVA-1.5의 성공적인 확장을 바탕으로, LLaVA-1.5의 모델 설계와 데이터 혼합을 활용하여 LMMs에서의 미해결 문제에 대한 추가 연구를 수행한다.
5.1 Data Efficiency
LLaVA-1.5는 InstructBLIP과 같은 접근법에 비해 data efficiency가 뛰어나지만, LLaVA와 비교했을 때 LLaVA-1.5의 학습은 두배가 된다. 이번 section에서는 LLaVA-1.5의 학습 데이터 혼합을 무작위로 하위 샘플링하여 샘플링 비율을 0.1에서 0.5로 설정함으로써 data efficiency를 더욱 향상시키기 위한 실험을 수행한다. Figure 4에서 다양한 샘플링 변화에 대한 상대적인 성능을 시각화한다.
첫 번째로, 전체 데이터 혼합은 가장 광범위한 지식 범위를 제공하며 모델이 전반적으로 최고 성능을 달성할 수 있도록 한다. 놀랍게도 샘플의 50%만 있어도 모델은 여전히 전체 데이터셋 성능의 98% 이상을 유지한다. 이는 데이터 효율성이 더욱 향상될 여지가 있음을 시사한다.
두 번째로, 데이터셋을 50%까지 다운샘플링할 때, MMBench, ScienceQA, POPE에서의 모델 성능은 전혀 감소하지 않으며 심지어 MMBench에서 약간의 성능 향상이 있다. 마찬가지로, 데이터를 50%에서 30%로 더 축소해도 모델 성능은 안정적으로 유지된다. 이러한 결과는 multimodal 모델에서도 less-is-more 라는 이점이 있을 가능성을 보여준다.
* less-is-more : 적을수록 더 낫다는 뜻으로 복잡하거나 많은 자원을 사용하지 않아도 더 나은 결과를 얻을 수 있다는 아이디어.
5.2 Rethinking Hallucination in LMMs
hallucination은 LLM 및 LMM이 해결해야할 중요한 문제이다. 종종 LMM에서는 모델의 hallucination을 training dataset에 있는 오류나 hallucination에서 비롯된다. 예를 들어, LLaVA-Instruct의 상세한 설명에는 소량의 hallucination 내용이 포함될 수 있으며, 이러한 데이터를 학습하는 것이 "describe the image in detail."는 요청을 받았을 때 hallucination을 일으키는 원인이 되었을 가능성이 있다고 여겨진다. 그러나, 모델 input을 448x448 같은 고해상도로 확장할 때, 이러한 hallucination이 감소한다는 것을 발견했다.
이러한 발견은 LMM이 학습 데이터에 포함된 소수의 이러한 오류에 대해 강건할 수 있음을 시사한다는 점에서 흥미롭다. 그러나, input 해상도가 모델이 학습 데이터의 모든 세부 사항을 구별하기에 충분하지 않고, 세분화 수준이 모델의 능력을 넘어설 정도로 input 해상도가 커질 경우 모델은 hallucination을 학습하게 된다. 이는 data annotation에 더 많은 세부 사항을 추가하는 것과 그러한 세분화 수준의 정보를 적절히 처리할 수 있는 모델의 능력 사이에 균형이 필요함을 시사한다. 이러한 발견이 hallucination 문제를 다루고 모델과 데이터의 확장을 진행하는 데 있어 향후 연구를 위한 참고 자료가 되기를 바란다.
* 세분화 수준이 모델의 능력을 넘어선다 : 1. 모델의 입력 해상도가 낮아 데이터의 세부 사항을 충분히 구별하지 못하는 경우. 2. 학습 데이터가 매우 세밀한 정보를 포함하고 있지만, 모델이 이를 효과적으로 처리할 수 없는 경우.
5.3 Compositional Capabilities
LLaVA-1.5에서 흥미로운 구성적 능력을 보여준다. 특정 task 집합에 대해 훈련된 모델이 명시적인 joint training 없이도 이러한 능력의 조합을 요구하는 task에 일반화된다. 아래에 몇 가지 finding을 보여준다.
첫째, ShareGPT 데이터를 포함한 후 시각적 대화에서 언어 능력이 향상되었으며 이는 Section 4.3에서 논의된 multimodal 다국어 능력을 포함한다. 또한, 모델은 시각적 대화에서 더 길고 상세한 응답을 제공하는 능력이 향상되었다. 둘째, academic-task-oriented dataset에서 추가된 시각적 지식은 LLaVA-1.5의 시각적 대화 응답의 시각적 근거성을 개선하며, 이는 Table 4에 나타난 MMVet과 LLaVA-Wild에서의 개선된 결과를 통해 정량적으로 입증된다.
그러나, 특정 능력의 조합을 요구하는 일부 task에서 이상적인 성능을 달성하는 데는 여전히 어려움이 있다. 예를 들어, VQA에서 특정 객체의 속성에 대해 올바르게 답할 수 있는 능력이 있다고 해서, 전체 이미지에 대한 상세 설명에서 해당 객체 속성을 정확히 묘사할 수 있다는 것을 보장하지는 않는다. 게다가, 특정 외국어(e.g. 한국어)로 대화를 진행하는 능력은 여전히 부족하다. 예시는 appendix를 참조하면 된다.
이러한 발견은 모든 task 조합을 포괄적으로 포함시키지 않고도 LMM의 구성적 능력을 활용하여 데이터를 크게 증가시키지 않고 모델의 성능을 향상시킬 수 있음을 시사한다. 그러나 이는 추가적인 연구가 필요하며, LMM의 구성적 능력 뒤에 숨겨진 메커니즘을 더 깊이 이해하면 LLaVA-1.5의 성능과 데이터 효율성을 더욱 향상시킬 수 있을 것이다.
6. Conclusion
본 논문에서, large multimodal model의 설계를 이해하기 위한 한 걸음을 내딛으며 간단하고 효과적이며 데이터 효율적이며 기준점인 LLaVA-1.5를 large multimodal model을 위한 baseline으로 제안한다. 또한, visual instruction tuning에서의 해결되지 않은 문제들을 탐구하고 LMM을 더 높은 해상도로 확장하며 model hallucination과 LMM의 구성적 능력에 대한 흥미로운 발견들을 제시한다. 이러한 개선되고 재현이 용이한 baseline과 새로운 발견들이 open-source LMM 분야의 향후 연구를 위한 참고 자료가 되기를 바란다.
Limitations.
LLaVA-1.5가 보여준 유망한 결과에도 불구하고, 고해상도 이미지에 대한 장시간 학습, 다중 이미지 이해 부족, 특정 분야에서의 제한된 문제 해결 능력 등 여전히 한계가 있다. 또한, hallucination을 생성하는 문제가 완전히 배제되지 않으므로, 중요한 응용 분야(e.g. medical)에서 사용할 때는 주의가 필요하다. 자세한 discussion은 appendix를 참조하면 된다.
Appendix
A. Implementation Details
A.1 LLaVA-1.5-HD
A.1.1 Preprocessing
Overview.
base image encoder는 CLIP-ViT-L-14 (224x224)를 사용한다. 먼저 input image을 선택하고 세부 사항을 효과적으로 포착하는 target 해상도로 패딩한다음 이미지를 224x224 그리드로 분할한다. 모든 224x224 이미지 패치들은 각각 CLIP image encoder에 의해 인코딩된다. 이러한 특징들은 단일 feature map에 다시 병합된다. 그런 다음 결과로 나온 feature map을 평탄화된 특징 리스트로 후처리한다. 추가적으로, 모델에 global context를 제공하기 위해 고정된 해상도 이미지의 특징을 병합한다.
Target resolution selection.
최대 6개의 그리드 (1x1, 1x2, 1x3, 1x4, 1x5, 1x6, 2x2, 2x3 그리고 이걸 반대로 한 전치)를 지원하는 해상도 집합을 미리 정의한다. 이 시스템은 최대 672x448 (또는 448x672)의 해상도를 허용한다. target 해상도를 선택할 때 두 가지 기준이 적용된다.
(1) Detail presevation: 선택된 해상도가 원본 이미지의 세부 정보를 최대한 보존해야 함.
(2) Resource efficiency: 해상도가 지나치게 크지 않아야 하며, 불필요한 픽셀 및 메모리 소비를 피해야 함. (e.g. 224x224 input image에 대해 448x448 해상도를 선택해서는 안됨)
Postprocessing.
최종 feature가 언어 모델에 의해 효과적이고 효율적으로 처리될 수 있도록 하기 위해 세 가지 단계의 후처리를 수행한다.
(1) Padding removal.
패딩에만 해당하는 특징은 삭제된다. 이를 통해 언어 모델이 처리해야 할 시각적 토큰 수를 줄이고 효율성을 향상시킨다.
(2) Row-end Tokens.
각 특징의 feature의 끝에 special token을 추가하여 이미지의 형태를 명시적으로 나타낸다. 고정된 해상도를 사용하는 기존 LLaVA 및 LLaVA-1.5와 달리, LLaVA-1.5-HD는 가변 해상도를 사용하므로 이러한 표시는 언어 모델이 각 샘플의 이미지 형태와 크기를 정확히 파악할 수 있도록 한다.
(3) Flattening.
마지막으로, image feature map을 flatten한 후 언어 토큰 feature와 함께 언어 모델에 입력한다.
A.1.2 Training
vision encoder가 학습된 원래 해상도인 224x224에서 시각적 특징을 계산하기 때문에, 추가적인 사전학습을 수행하지 않는다. 또한, visual projector에 대해 추가적인 고해상도 사전학습을 수행하지 않고 고해상도 이미지에 대해 visual instruction tuning을 진행한다.
A.2 Data
최종 학습 데이터 혼합은 다양한 데이터셋이 포함된다. VQA, OCR, region-level VQA, visual conversation, language conversation data, 학습 비용을 줄이고 효율성을 높이기 위해 여러 가지 전략을 채택하였으며 자세한 내용은 아래와 같다.
1. 모든 VQA dataset 경우, 동일한 학습 이미지에서 나온 QA 쌍을 하나의 대화로 병합한다.
2. ShareGPT의 경우, 유효하지 않은 대화를 필터링한다. Vicuna와는 달리, 2048 토큰을 초과하는 긴 대화는 여러 대화로 나누지 않고 잘라낸다. 이를 통해 약 4만 개의 대화를 얻을 수 있다.
3. A-OKVQA의 각 QA 쌍은 질문 당 선택지 수(k)에 따라 k번 증강되며, 이는 다지선다 데이터 부족을 보완하기 위함이다.
4. OCRVQA에서 8만 개의 대화를 샘플링한다.
5. Visual Genome의 경우, 추가 주석이 있는 이미지에서 10개의 주석을 샘플링한다.
6. RefCOCO의 경우, 대화를 세분화하여 각 sement에 10개 미만의 대화가 포함되도록 한다.
7. 언어 대화가 시각적 대화보다 더 긴 경우가 많음을 관찰했다. 각 배치에서는 하나의 모달리티에서만 대화를 샘플링하며 이를 통해 학습 속도가 25% 빨라지고 최종 결과에는 영향을 미치지 않았다.
모든 데이터 분할은 함께 연결되며 동일한 확률로 샘플링된다. 최종 instruction-following data의 응답 형식 프롬프트는 Table 7에, 각 평가 벤치마크에 사용된 응답 형식 프롬프트는 Table 8에 제시된다.
A.3 Hyperparameters
최신 Vicuna v1.5를 기본 LLM으로 사용한다. LLaVA-1.5는 원래 LLaVA와 동일한 하이퍼파라미터를 사용하지만 기존 linear projection layer 대신 MLP projection layer를 사용함에 따라 사전학습 과정에서 learning rate를 절반으로 줄였다. first-stage vision-language alignment pretraining과 second-stage visual instruction tuning에 대한 training 하이퍼파라미터는 Table 9에 제시된다. 평가에서는 재현성을 보장하기 위해 greedy decoding을 사용한다.
B. Qualitative Results
B.1 Response Format Prompts
LLaVA-1.5가 보지 못한 다양한 응답 형식 프롬프트에 일반화하는 추가 예시를 제공한다.
첫째, Table 10에서 볼 수 있듯이, LLaVA-1.5는 user의 요청에 따라 다양한 세분화 수준에서 세부 정보를 제공할 수 있다. 또한, user의 요청에 따라 대화 중 응답 형식 간 전환도 가능하다.
둘째, Stable Diffusion 모델용 프롬프트를 생성하기 위한 제한된 프롬프트의 또 다른 예시를 제공한다. Table 12에서 애니메이션 프롬프트를 생성하는 예시를 보여준다.
B.2 Compositional Capabilities
LLaVA-1.5의 구성적 능력에 대한 정성적 예시를 제공한다. Figure 5에서 볼 수 있듯이, LLaVA-1.5는 다국어 시각적 대화에 참여하고 user의 input에 따라 출력 언어를 적응시키는 능력을 보여준다. 이는 다국어 visual instruction data로 학습되지 않았음에도 가능하다. 이러한 새로운 행동이 시각적 대화(영어 전용)과 텍스트 전용 ShareGPT data(다국어)로부터 학습된 구성적 능력에서 비롯되었다고 가설을 세운다. 그러나 일부 언어(e.g. 한국어)에서는 여전히 오류가 발생할 수 있으며, 이를 개선하기 위해 해당 언어 데이터를 더 많이 포함하는 것이 필요할 수 있다.
추가적으로, Table 11에서 ShareGPT data를 학습에 포함한 후 관찰된 또 다른 구성적 능력을 보여준다. LLaVA-1.5는 LLaVA보다 시각적 입력을 포함한 writing task에서 더 세부적이고 시각적으로 근거있는 응답을 생성할 수 있다.
C. Limitations
LLaVA-1.5가 보여준 유망한 결과에도 불구하고, 여러 한계를 인정해야 한다. 첫째, LLaVA-1.5는 전체 이미지 패치를 사용하여 각 학습 iteration이 길어질 가능성이 있다. 반면, visual resampler는 LLM에서 시각적 패치 수를 줄이는 데 효과적이지만, 현재로서는 LLaVA와 유사한 양의 학습 데이터로 동일한 수준의 수렴을 달성하지 못하고 있다. 이는 resampler에서 더 많은 학습 가능한 파라미터가 포함되어 있기 때문일 가능성이 높다. 샘플 효율적인 resampler의 개발은 instruction-following multimodal 모델의 확장을 위한 길을 열 수 있다. 둘째, LLaVA-1.5는 이러한 instruction-following data의 부족과 context 길이의 제한으로 인해 아직 여러 이미지를 처리할 수 없다. 셋째, LLaVA-1.5가 복잡한 지시를 따르는 데 뛰어난 능력을 보이지만, 특정 도메인에서는 문제 해결 능력이 여전히 제한적일 수 있다. 이는 더 강력한 언어 모델과 고품질, 목표 지향적인 visual instruction tuning data를 통해 개선될 수 있다. 마지막으로, hallucination의 발생 가능성이 크게 줄었음에도 불구하고, LLaVA-1.5는 여전히 hallucination을 일으키거나 때때로 잘못된 정보를 전달할 수 있다. 따라서 medical과 같은 중요한 응용 분야에서는 신중하게 사용해야 한다.