본문 바로가기

multi-modal13

[Paper Review] Learning Transferable Visual Models From Natural Language Supervision 본 글은 https://arxiv.org/abs/2103.00020 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 더 광범위한 supervision을 활용하는 유망한 방법이다. 본 논문은 인터넷에서 수집한 4억 개의(이미지, 텍스트) 쌍 데이터셋을 사용하여 처음부터 최첨단 이미지 표현을 학습하는 효율적이고 확장 가능한 방법으로 어떤 캡션이 어떤 이미지와 일치하는지 예측하는 간단한 pre-training task를 보여준다. pre-training 후, 자연어를 사용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명할 수 있으며 이를 통해 모델을 downstream task에 zero.. 2024. 7. 6.
[Paper Review] UNITER: UNiversal Image-TExt Representation Learning 본 글은 https://arxiv.org/abs/1909.11740 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractimage-text 임베딩은 대부분의 Vision-and-Language (V+L) task의 기초로 multimodality input이 동시에 처리되어 시각적 및 텍스트 이해를 공동으로 수행한다. 본 논문에서는 네 가지 image-text 데이터셋(COCO, Visual Genome, Conceptual Captions, SBU Captions)에 대해 대규모 pre-training을 통해 학습된 UNITER(UNiversal Image-TExt Representation)를 소개한다. 이는 multimodal 임베딩을 통해 V+.. 2024. 6. 15.
[Paper Review] VisualBERT: A Simple and Performant Baseline for Vision and Language 본 글은 https://arxiv.org/abs/1908.03557 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract광범위한 vision-and-language task를 모델링 하기위한 간단하고 유연한 framework인 VisualBERT를 제안한다. VisualBERT는 self-attention을 통해 input text의 요소들과 연관된 input image의 영역을 정렬하는 Transformer layer로 구성된다. 추가적으로 image caption 데이터를 사용하여 VisualBERT를 pre-training을 하기 위한 두 가지 시각적으로 기반을 둔 언어 모델 objective를 제안한다. VQA, VCR, NLVR2, F.. 2024. 5. 23.
[Paper Review] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 논문 리뷰 본 글은 https://arxiv.org/abs/2205.12005 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 cross-modal 이해와 생성을 위한 새로운 vision-language 기반으로 하는 mPLUG 모델을 제시한다. 대부분 pre-trained 모델들은 낮은 계산 효율성과 정보 비대칭 문제를 가지고 있다. 이러한 문제들을 해결하기 위한 mPLUG는 cross-modal skip-connection을 가진 vision-language 아키텍쳐를 가진다. mPLUG는 image captiong, image-text retrieval, visual grounding, visual question answering과 같은 다양한.. 2023. 10. 21.