llava-1.51 [Paper Review] Improved Baselines with Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2310.03744 내용을 기반으로 합니다. 본 논문은 CVPR 2024에서 highlight로 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.본 논문의 contribution은 다음과 같다.LLaVA 프레임워크 기반으로 더 강력한 baseline 구축LMM의 해결되지 않은 문제들에 대해 탐구 AbstractLarge multimodal models (LMM)은 최근 visual instruction tuning을 통해 진전을 보여주었다. 본 논문에서는 LLaVA 프레임워크에 따라 통제된 설정에서 LMM의 design 선택을 조사하기 위한 최초의 체계적인 연구를 제시한다. LLaVA에서 fully-connected.. 2024. 11. 21. 이전 1 다음