Paper Review26 [Paper Review] Zero-Shot Text-to-Image Generation 본 글은 https://arxiv.org/abs/2102.12092 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstracttext-to-image 생성은 전통적으로 고정된 데이터셋으로 학습할 때 더 나은 모델링을 찾는 것에 중점을 둔다. 이러한 가정은 복잡한 아키텍처, auxiliary loss, 또는 학습 중에 제공되는 객체 부분 레이블이나 segmentation mask와 같은 부가 정보를 포함할 수 있다. 텍스트와 이미지 토큰을 single stream of data로 autoregressive하게 모델링하는 transformer에 기반한 간단한 접근 방식을 설명한다. 충분한 데이터와 규모가 주어지면, 본 연구의 접근 방식은 zero-sho.. 2024. 7. 28. [Paper Review] BEIT: BERT Pre-Training of Image Transformers 본 글은 https://arxiv.org/abs/2106.08254 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.AbstractImage Transformer에서 양방향 인코더 표현을 의미하는 BEIT(Bidirectional Encoder representation from Image Transformers)라는 serlf-supervised vision representation 모델을 소개한다. 자연어 처리 분야에서 개발된 BERT를 따르며, vision Transformer를 사전 훈련하기 위해 masked image modeling task를 제안한다. 구체적으로, 사전 훈련에서는 각 이미지가 두 가지 뷰, 즉 이미지 패치(예: 16x16 픽.. 2024. 7. 20. [Paper Review] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 본 글은 https://arxiv.org/abs/2107.07651 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract대규모 비전과 언어 표현 학습은 다양한 vision-language task에서 유망한 개선을 보여주었다. 대부분의 기존 방법들은 시각적 토큰(영역 기반 이미지 특징)과 단어 토큰들을 같이 모델링하기 위해 transformer 기반의 multimodal 인코더를 사용한다. 시각적 토큰과 단어 토큰이 정렬되지 않기 때문에, multimodal 인코더가 image-text 상호작용을 학습하는 것은 도전적이다. 본 논문에서는 cross-modal attention을 통해 이미지와 텍스트 표현을 융합하기 전에 contrastive l.. 2024. 7. 16. [Paper Review] Learning Transferable Visual Models From Natural Language Supervision 본 글은 https://arxiv.org/abs/2103.00020 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 더 광범위한 supervision을 활용하는 유망한 방법이다. 본 논문은 인터넷에서 수집한 4억 개의(이미지, 텍스트) 쌍 데이터셋을 사용하여 처음부터 최첨단 이미지 표현을 학습하는 효율적이고 확장 가능한 방법으로 어떤 캡션이 어떤 이미지와 일치하는지 예측하는 간단한 pre-training task를 보여준다. pre-training 후, 자연어를 사용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명할 수 있으며 이를 통해 모델을 downstream task에 zero.. 2024. 7. 6. [Paper Review] UNITER: UNiversal Image-TExt Representation Learning 본 글은 https://arxiv.org/abs/1909.11740 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractimage-text 임베딩은 대부분의 Vision-and-Language (V+L) task의 기초로 multimodality input이 동시에 처리되어 시각적 및 텍스트 이해를 공동으로 수행한다. 본 논문에서는 네 가지 image-text 데이터셋(COCO, Visual Genome, Conceptual Captions, SBU Captions)에 대해 대규모 pre-training을 통해 학습된 UNITER(UNiversal Image-TExt Representation)를 소개한다. 이는 multimodal 임베딩을 통해 V+.. 2024. 6. 15. [Paper Review] LXMERT: Learning Cross-Modality Encoder Representations from Transformers 본 글은 https://arxiv.org/abs/1908.07490 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractvision과 language의 추론은 시각적 개념, 언어적 의미, 그리고 무엇보다도 두 가지 모달리티 간의 정렬과 관계를 이해하는 것을 요구한다. 따라서, 본 논문은 vision과 language의 연결을 학습하기 위해 LXMERT(Learning Cross-Modality Encoder Representations from Transformers)를 제안한다. LXMERT에서 object relationship encoder, language encoder, cross-modality encoder로 구성된 대규모 Tran.. 2024. 6. 15. [Paper Review] VisualBERT: A Simple and Performant Baseline for Vision and Language 본 글은 https://arxiv.org/abs/1908.03557 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract광범위한 vision-and-language task를 모델링 하기위한 간단하고 유연한 framework인 VisualBERT를 제안한다. VisualBERT는 self-attention을 통해 input text의 요소들과 연관된 input image의 영역을 정렬하는 Transformer layer로 구성된다. 추가적으로 image caption 데이터를 사용하여 VisualBERT를 pre-training을 하기 위한 두 가지 시각적으로 기반을 둔 언어 모델 objective를 제안한다. VQA, VCR, NLVR2, F.. 2024. 5. 23. [Paper Review] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 본 글은 https://aclanthology.org/2021.eacl-main.20/ 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 1. Introduction Few-shot Learning for LM - Pretrained Language Model(PLM)이 등장하면서 task description을 제공하는 idea가 실현 가능해짐 (GPT-2, GPT-3) Pattern-Exploiting Training (PET)를 소개 - Input 예제들을 cloze-style 구문으로 재구성하여 semi-supervised training (1) PLM을 small training set에 finetuning (2) 모든 모델들을 앙상블하여 la.. 2024. 3. 26. [Paper Review] GPT-2, GPT-3 본 글은 GPT-2, GPT-3 paper 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. OpenAI GPT paper review는 이전 글을 참고해주시길 바랍니다. https://byeonggeuk.tistory.com/16 Language Models are Unsupervised Multitask Learners (GPT-2) 1. Introduction 1. 기계학습 시스템은 큰 dataset, 고용량 모델, supervised learning 등을 통해 발전 - 이러한 방법들은 데이터 분포에 민감하고 특정 task에만 좋음 2. 현재 가장 성능이 좋은 시스템은 pre-training과 supervised fine-tuning의 조합 - 이.. 2024. 3. 26. 이전 1 2 3 다음