본문 바로가기

paper review12

[Paper Review] UNITER: UNiversal Image-TExt Representation Learning 본 글은 https://arxiv.org/abs/1909.11740 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractimage-text 임베딩은 대부분의 Vision-and-Language (V+L) task의 기초로 multimodality input이 동시에 처리되어 시각적 및 텍스트 이해를 공동으로 수행한다. 본 논문에서는 네 가지 image-text 데이터셋(COCO, Visual Genome, Conceptual Captions, SBU Captions)에 대해 대규모 pre-training을 통해 학습된 UNITER(UNiversal Image-TExt Representation)를 소개한다. 이는 multimodal 임베딩을 통해 V+.. 2024. 6. 15.
[Paper Review] LXMERT: Learning Cross-Modality Encoder Representations from Transformers 본 글은 https://arxiv.org/abs/1908.07490 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractvision과 language의 추론은 시각적 개념, 언어적 의미, 그리고 무엇보다도 두 가지 모달리티 간의 정렬과 관계를 이해하는 것을 요구한다. 따라서, 본 논문은 vision과 language의 연결을 학습하기 위해 LXMERT(Learning Cross-Modality Encoder Representations from Transformers)를 제안한다. LXMERT에서 object relationship encoder, language encoder, cross-modality encoder로 구성된 대규모 Tran.. 2024. 6. 15.
[Paper Review] VisualBERT: A Simple and Performant Baseline for Vision and Language 본 글은 https://arxiv.org/abs/1908.03557 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract광범위한 vision-and-language task를 모델링 하기위한 간단하고 유연한 framework인 VisualBERT를 제안한다. VisualBERT는 self-attention을 통해 input text의 요소들과 연관된 input image의 영역을 정렬하는 Transformer layer로 구성된다. 추가적으로 image caption 데이터를 사용하여 VisualBERT를 pre-training을 하기 위한 두 가지 시각적으로 기반을 둔 언어 모델 objective를 제안한다. VQA, VCR, NLVR2, F.. 2024. 5. 23.
[Paper Review] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 본 글은 https://aclanthology.org/2021.eacl-main.20/ 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 1. Introduction Few-shot Learning for LM - Pretrained Language Model(PLM)이 등장하면서 task description을 제공하는 idea가 실현 가능해짐 (GPT-2, GPT-3) Pattern-Exploiting Training (PET)를 소개 - Input 예제들을 cloze-style 구문으로 재구성하여 semi-supervised training (1) PLM을 small training set에 finetuning (2) 모든 모델들을 앙상블하여 la.. 2024. 3. 26.
[Paper Review] GPT-2, GPT-3 본 글은 GPT-2, GPT-3 paper 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. OpenAI GPT paper review는 이전 글을 참고해주시길 바랍니다. https://byeonggeuk.tistory.com/16 Language Models are Unsupervised Multitask Learners (GPT-2) 1. Introduction 1. 기계학습 시스템은 큰 dataset, 고용량 모델, supervised learning 등을 통해 발전 - 이러한 방법들은 데이터 분포에 민감하고 특정 task에만 좋음 2. 현재 가장 성능이 좋은 시스템은 pre-training과 supervised fine-tuning의 조합 - 이.. 2024. 3. 26.
[Paper Review] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(2020) 본 글은 https://arxiv.org/abs/2003.10555 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Abstract BERT와 같은 Masked language modeling(MLM) pre-training 방법은 일부 토큰을 [MASK]로 대체하여 학습한다. 이는 downstream NLP task에서 좋은 결과를 얻을 수 있지만 많은 양의 계산을 필요로한다. 본 논문은 input을 마스킹하지 않고 generator network를 이용하여 토큰을 적절한 대안으로 대체하여 해당 토큰이 생성된 토큰인지 기존 토큰인지 예측하는 discriminative model을 학습하는 방법을 제안한다. 모든 input 토큰을 판별하기 때문에 마스.. 2024. 1. 16.
[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019) 본 글은 https://arxiv.org/abs/1907.11692 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Language model pretraining은 상당한 성능 향상을 가져왔으나 학습에서 계산 비용이 많이 들고 모델마다 다양한 크기의 dataset을 통해 수행되는 경우가 많고 모델의 성능에서 하이퍼파라미터 선택이 상당한 영향을 미친다. 본 논문은 BERT의 여러 주요 하이퍼파라미터, training data size의 효과를 측정한 replication study를 제시한다. BERT가 상당히 훈련되지 않았고 모든 모델의 성능과 일치하거나 초과할 수 있음을 발견했다. 본 논문에서의 최고 모델은 GLUE, RACE 및 SQuAD에서 S.. 2024. 1. 16.
[Paper Review] Improving Language Understanding by Generative Pre-Training(2018) 본 글은 https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 자연어 이해는 textual entailment, question answering, semantic similarity assessment, 문서 분류 등 다양한 task로 이루어진다. Unlabeled text data는 풍부하지만 labeled text data는 적어서 훈련된 모델이 적절하게 수행하기 어렵다. 본 논문은 다양한 unlabeled text를 사용한 generative pre-training의 언어 모델과 각 .. 2024. 1. 16.
[Paper Review] Deep contextualized word representations(2018) 본 글은 https://arxiv.org/abs/1802.05365 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 유형의 deep contextualized word representation을 소개한다. deep contextualized word representation (1) 단어 사용의 복잡한 특성(syntax and semantics) (2) 이러한 단어가 언어적 맥락에 따라 어떻게 다른지(다의어) 문맥을 학습하기 위해 word vector들을 deep bidirectional language model(biLM)의 방법으로 학습한다. 이를 통해, 6가지 NLP 분야 task에서 SOTA 성능을 달성하였다. 1. Intr.. 2024. 1. 14.