Roberta1 [Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019) 본 글은 https://arxiv.org/abs/1907.11692 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Language model pretraining은 상당한 성능 향상을 가져왔으나 학습에서 계산 비용이 많이 들고 모델마다 다양한 크기의 dataset을 통해 수행되는 경우가 많고 모델의 성능에서 하이퍼파라미터 선택이 상당한 영향을 미친다. 본 논문은 BERT의 여러 주요 하이퍼파라미터, training data size의 효과를 측정한 replication study를 제시한다. BERT가 상당히 훈련되지 않았고 모든 모델의 성능과 일치하거나 초과할 수 있음을 발견했다. 본 논문에서의 최고 모델은 GLUE, RACE 및 SQuAD에서 S.. 2024. 1. 16. 이전 1 다음