LLaVA1 [Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다. 그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다. LLaVA는 Science QA에서 SOTA 성능을 달성하였다. 1. Introduction 이 논문의 contribution을 요약하면 다음과 같다. Multimodal instruction-following data Vision-Language instruction-fol.. 2023. 11. 13. 이전 1 다음