본문 바로가기

Paper Review/Natural Language Processing8

[Paper Review] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 본 글은 https://aclanthology.org/2021.eacl-main.20/ 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 1. Introduction Few-shot Learning for LM - Pretrained Language Model(PLM)이 등장하면서 task description을 제공하는 idea가 실현 가능해짐 (GPT-2, GPT-3) Pattern-Exploiting Training (PET)를 소개 - Input 예제들을 cloze-style 구문으로 재구성하여 semi-supervised training (1) PLM을 small training set에 finetuning (2) 모든 모델들을 앙상블하여 la.. 2024. 3. 26.
[Paper Review] GPT-2, GPT-3 본 글은 GPT-2, GPT-3 paper 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. OpenAI GPT paper review는 이전 글을 참고해주시길 바랍니다. https://byeonggeuk.tistory.com/16 Language Models are Unsupervised Multitask Learners (GPT-2) 1. Introduction 1. 기계학습 시스템은 큰 dataset, 고용량 모델, supervised learning 등을 통해 발전 - 이러한 방법들은 데이터 분포에 민감하고 특정 task에만 좋음 2. 현재 가장 성능이 좋은 시스템은 pre-training과 supervised fine-tuning의 조합 - 이.. 2024. 3. 26.
[Paper Review] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(2020) 본 글은 https://arxiv.org/abs/2003.10555 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Abstract BERT와 같은 Masked language modeling(MLM) pre-training 방법은 일부 토큰을 [MASK]로 대체하여 학습한다. 이는 downstream NLP task에서 좋은 결과를 얻을 수 있지만 많은 양의 계산을 필요로한다. 본 논문은 input을 마스킹하지 않고 generator network를 이용하여 토큰을 적절한 대안으로 대체하여 해당 토큰이 생성된 토큰인지 기존 토큰인지 예측하는 discriminative model을 학습하는 방법을 제안한다. 모든 input 토큰을 판별하기 때문에 마스.. 2024. 1. 16.
[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019) 본 글은 https://arxiv.org/abs/1907.11692 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Language model pretraining은 상당한 성능 향상을 가져왔으나 학습에서 계산 비용이 많이 들고 모델마다 다양한 크기의 dataset을 통해 수행되는 경우가 많고 모델의 성능에서 하이퍼파라미터 선택이 상당한 영향을 미친다. 본 논문은 BERT의 여러 주요 하이퍼파라미터, training data size의 효과를 측정한 replication study를 제시한다. BERT가 상당히 훈련되지 않았고 모든 모델의 성능과 일치하거나 초과할 수 있음을 발견했다. 본 논문에서의 최고 모델은 GLUE, RACE 및 SQuAD에서 S.. 2024. 1. 16.
[Paper Review] Improving Language Understanding by Generative Pre-Training(2018) 본 글은 https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 자연어 이해는 textual entailment, question answering, semantic similarity assessment, 문서 분류 등 다양한 task로 이루어진다. Unlabeled text data는 풍부하지만 labeled text data는 적어서 훈련된 모델이 적절하게 수행하기 어렵다. 본 논문은 다양한 unlabeled text를 사용한 generative pre-training의 언어 모델과 각 .. 2024. 1. 16.
[Paper Review] Deep contextualized word representations(2018) 본 글은 https://arxiv.org/abs/1802.05365 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 유형의 deep contextualized word representation을 소개한다. deep contextualized word representation (1) 단어 사용의 복잡한 특성(syntax and semantics) (2) 이러한 단어가 언어적 맥락에 따라 어떻게 다른지(다의어) 문맥을 학습하기 위해 word vector들을 deep bidirectional language model(biLM)의 방법으로 학습한다. 이를 통해, 6가지 NLP 분야 task에서 SOTA 성능을 달성하였다. 1. Intr.. 2024. 1. 14.
[Paper Review] BERT: Pre-training of Deep Bidirectional transformers for Language Understanding(2019) 본 글은 https://arxiv.org/abs/1810.04805 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 언어 표현 모델인 Bidirectional Encoder Representations from Transformers(BERT)를 소개한다. BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥을 조정하여 레이블이 없는 텍스트에서 깊은 양방향 표현을 사전훈련하도록 설계되었다. BERT 모델이 등장하기 전 모델들은 문장을 학습할 때 순차적으로(Left to Right) 읽을 수 밖에 없었다. Word embedding의 경우 Transformer를 사용하여 관계성을 잘 파악할 수 있으나 예측을 할 때는 단방향으로 읽어서 예측해야.. 2024. 1. 11.
[Paper Review] Attention Is All You Need 본 글은 https://arxiv.org/abs/1706.03762 내용을 기반으로 합니다. 본 논문의 Architecture을 시각적으로 쉽게 표현한 https://jalammar.github.io/illustrated-transformer 글을 참고합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 attention 메커니즘을 이용하여 encoder와 decoder를 연결하여 새롭고 간단한 네트워크 아키텍처인 Transformer를 제안한다. Transformer는 WMT 2014 번역 작업에서 좋은 성능을 보여준다. 그리고 GPT, BERT 모델 등 엄청난 영향을 미치게 된다.. 1. Introduction RNN, LSTM, Gated RNN는 시퀀스 .. 2023. 12. 15.