visual sketchpad1 [Paper Review] Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 본 글은 https://arxiv.org/abs/2406.09403 내용을 기반으로 합니다. NeurIPS 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.그리고 본 글은 computer vision task를 해결하는 method 위주로 작성합니다.Abstract현재 chain-of-thought 및 tool-use 패러다임은 중간 추론 스텝을 텍스트로만 처리한다. 본 연구에서는 MMLM에 visual SKETCHPAD와 이를 활용할 수 있는 도구를 제공하는 프레임워크인 SKETCHPAD를 소개한다. 이 모델은 스스로 그린 시각적 산물을 바탕으로 planning 및 reasoning을 수행한다. 기존의 text-to-image 모델을 활용해.. 2024. 12. 11. 이전 1 다음