본문 바로가기

multi-modal13

[Paper Review] Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 본 글은 https://arxiv.org/abs/2406.09403 내용을 기반으로 합니다. NeurIPS 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.그리고 본 글은 computer vision task를 해결하는 method 위주로 작성합니다.Abstract현재 chain-of-thought 및 tool-use 패러다임은 중간 추론 스텝을 텍스트로만 처리한다. 본 연구에서는 MMLM에 visual SKETCHPAD와 이를 활용할 수 있는 도구를 제공하는 프레임워크인 SKETCHPAD를 소개한다. 이 모델은 스스로 그린 시각적 산물을 바탕으로 planning 및 reasoning을 수행한다. 기존의 text-to-image 모델을 활용해.. 2024. 12. 11.
[Paper Review] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models 본 글은 https://arxiv.org/abs/2410.03176 내용을 기반으로 합니다. 본 논문은 EMNLP 2024에서 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.AbstractLarge Vision-Language Models (LVLMs)는 인상적인 성능을 달성했지만, 연구에 따르면 이러한 모델에서 object hallucination이라는 심각한 문제가 지적되고 있다. 그러나, 이러한 hallucination이 모델의 어느 부분에서 비롯되는지에 대한 명확한 결론이 없다. 본 논문에서는 많은 SOTA vision-language system의 기반이 되는 CLIP 모델에서 object hallucination 문제에 대한 심층적인 조사를 제시한다... 2024. 11. 29.
[Paper Review] Improved Baselines with Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2310.03744 내용을 기반으로 합니다. 본 논문은 CVPR 2024에서 highlight로 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.본 논문의 contribution은 다음과 같다.LLaVA 프레임워크 기반으로 더 강력한 baseline 구축LMM의 해결되지 않은 문제들에 대해 탐구 AbstractLarge multimodal models (LMM)은 최근 visual instruction tuning을 통해 진전을 보여주었다. 본 논문에서는 LLaVA 프레임워크에 따라 통제된 설정에서 LMM의 design 선택을 조사하기 위한 최초의 체계적인 연구를 제시한다. LLaVA에서 fully-connected.. 2024. 11. 21.
[Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 본 논문은 NeurIPS 2023 oral에서 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다.그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다.LLaVA는 Science QA에서 SOTA 성능을 달성하였다. Abstractmachine이 생성한 instruction-following data를 사용한 instruction tuning LLM들은 새로운 task에.. 2024. 11. 8.
[Paper Review] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본 글은 https://arxiv.org/abs/2301.12597 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract큰 모델을 end-to-end 학습하는 것으로 인해 VLP 비용은 점점 증가하고 있다. 본 논문은 frozen pre-trained image encoder와 frozen LLM을 사용하여 VLP를 bootstrap하는 일반적이고 효율적인 사전학습 전략이 BLIP-2를 제안한다. BLIP-2는 two-stage로 경량 Querying Transformer를 이용해 모달리티 격차를 줄인다. first stage는 frozen image encoder로부터 vision-language representation learning을 .. 2024. 10. 28.
[Paper Review] Flamingo: a Visual Language Model for Few-Shot Learning 본 글은 https://arxiv.org/abs/2204.14198 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract소수의 주석이 달린 예제만을 사용하여 새로운 task에 빠르게 적응할 수 있는 모델을 구축하는 것은 멀티모달 머신러닝 연구에서 풀리지 않은 과제이다. 본 논문은 이러한 능력을 가진 Visual Language Models (VLM)인 Flamingo를 소개한다. 본 논문은 다음과 같은 주요 구조적 혁신을 제안한다. (1) 강력하게 사전학습된 비전 전용 및 언어 전용 모델을 연결, (2) 임의로 교차된 시각적 및 텍스트 데이터 처리, (3) input으로 이미지나 비디오를 원활하게 수용. 이러한 유연성 덕분에 Flamingo 모.. 2024. 8. 30.
[Paper Review] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision 본 글은 https://arxiv.org/abs/2108.10904 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract최근 시각적 및 텍스트 표현의 공동 모델링의 진전으로 인해, Vision-Language Pretraining (VLP)은 많은 멀티모달 downstream task에서 인상적인 성능을 달성했다. 그러나 깨끗한 이미지 캡션과 regional label을 포함한 비싼 주석의 필요성은 기존 접근법의 확장성을 제한하고 여러 데이터셋별 objective의 도입으로 사전훈련 절차를 복잡하게 만든다. 이 연구에서는 이러한 제약을 완화하고 Simple Visual Language Model (SimVLM)이라는 최소한의 사전 훈련 프레임워.. 2024. 8. 2.
[Paper Review] Zero-Shot Text-to-Image Generation 본 글은 https://arxiv.org/abs/2102.12092 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstracttext-to-image 생성은 전통적으로 고정된 데이터셋으로 학습할 때 더 나은 모델링을 찾는 것에 중점을 둔다. 이러한 가정은 복잡한 아키텍처, auxiliary loss, 또는 학습 중에 제공되는 객체 부분 레이블이나 segmentation mask와 같은 부가 정보를 포함할 수 있다. 텍스트와 이미지 토큰을 single stream of data로 autoregressive하게 모델링하는 transformer에 기반한 간단한 접근 방식을 설명한다. 충분한 데이터와 규모가 주어지면, 본 연구의 접근 방식은 zero-sho.. 2024. 7. 28.
[Paper Review] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 본 글은 https://arxiv.org/abs/2107.07651 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract대규모 비전과 언어 표현 학습은 다양한 vision-language task에서 유망한 개선을 보여주었다. 대부분의 기존 방법들은 시각적 토큰(영역 기반 이미지 특징)과 단어 토큰들을 같이 모델링하기 위해 transformer 기반의 multimodal 인코더를 사용한다. 시각적 토큰과 단어 토큰이 정렬되지 않기 때문에, multimodal 인코더가 image-text 상호작용을 학습하는 것은 도전적이다. 본 논문에서는 cross-modal attention을 통해 이미지와 텍스트 표현을 융합하기 전에 contrastive l.. 2024. 7. 16.