본문 바로가기
Paper Review/Natural Language Processing

[Paper Review] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

by BangGeuk 2024. 3. 26.

본 글은 https://aclanthology.org/2021.eacl-main.20/ 내용을 기반으로 합니다.

혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.


1. Introduction

Few-shot Learning for LM

- Pretrained Language Model(PLM)이 등장하면서 task description을 제공하는 idea가 실현 가능해짐 (GPT-2, GPT-3)

 

Pattern-Exploiting Training (PET)를 소개

- Input 예제들을 cloze-style 구문으로 재구성하여 semi-supervised training

(1) PLM을 small training set에 finetuning

(2) 모든 모델들을 앙상블하여 large unlabeled dataset에 soft-labels로 annotate

(3) soft-labeled dataset을 이용해 standard clssifier를 훈련

 

2. Pattern-Exploiting Training

input 문장 s1 = Mia likes pie, s2 = Mia hates pie 라고 하자.

Label은 y0, y1으로 되어있고 이러한 Label은 Yes와 No로 매핑된다.

그리고 a? ___, b. 패턴을 s1과 s2에 적용하면 Mia likes pie? ____, Mia hates pie. 가 된다.

 

PVP Training and Inference

 

s함수를 softmax 취하면 q함수

모델이 pattern이 주어지면 masked token에 대한 v를 예측

이러한 로짓값에 softmax를 취하면 확률 분포 값으로 되고 이를 cross entropy loss로 학습

즉, masked 토큰을 맞추는 과정

 

Auxiliary Language Modeling

 

- 적은 수의 train example은 망각(catastrophic forgetting)이 발생할 수 있어 최종 loss function은 MLM loss를 추가

- 알파가 10^(-4)일 때 가장 좋은 결과

- CE loss는 PVP에 해당하는 대답 후보에 대한 로짓값만 가져와 loss 계산

- MLM loss는 모든 vocab에 대한 로짓값을 가져와 loss 계산

 

Combining PVPs

 

Iterative PET (iPET)

 

3. Experiments

Yelp dataset : Review dataest으로 1-5점까지 별점을 부여

 

MNLI datset : 가설과 전제 쌍으로 이루어진 dataset

 

AG's News dataset : 뉴스 주제 분류 dataset

v(1) = World, v(2) = Sports, v(3) = Business, v(4) = Tech

 

Yahoo : 문장 분류 dataset

 

Define a verbalizer that maps categories 1-10 (Society, Science, Health, … , Politics)

 

X-stance : 사회적 이슈에 대한 질문과 그에 대한 답변이 주어지면 답변이 질문에 찬성인지 반대인지 분류

4. Results

iPET는 모든 경우에서 좋은 성능을 보여줌

Average accuracy and standard deviation for RoBERTa large

 

Comparison of PET with two state-of-the-art semi-supervised methods using RoBERTa base

 

X-stance : 다국어 언어로 사회적 이슈에 대한 질문이 주어지면 대답하는 dataset

영어 이외의 언어에서도 작동하는지 training dataset의 크기가 중간일 때에도 개선을 가져오는지 실험