LLaVA1 [Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 본 논문은 NeurIPS 2023 oral에서 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다.그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다.LLaVA는 Science QA에서 SOTA 성능을 달성하였다. Abstractmachine이 생성한 instruction-following data를 사용한 instruction tuning LLM들은 새로운 task에.. 2024. 11. 8. 이전 1 다음