본문 바로가기

전체 글52

Stanford CS224N - Lecture 3. Backprop and Neural Networks 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 개체명 인식(Named entity recognition, NER) 각 개체의 유형을 인식하는 task로 어떤 단어가 사람, 장소, 조직 등을 의미하는 단어인지 찾을 수 있다. Simple NER: Window classification using binary logistic classifier - context window의 이웃 단어들을 이용하여 각 단어들을 분류 예를 들어 "the museums in Paris are amazing to see."라는 문장에서 "Pari.. 2024. 3. 4.
[미적분학] Back Propagation 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 이전 글에서 Loss Function, Optimization을 알아보았다. Feedforward를 통해 예측값을 얻고 Loss Function(실제값과 예측값 사이의 오차를 계산하기 위한 함수)를 이용해 오차를 계산한다. 그 후, Optimization(오차를 어떠한 방식으로 최소로 할지에 대한 알고리즘)을 통해 오차를 최소화한다. 오차를 최소화하기 위한 알고리즘까지 알아보았으니 오차를 최소화하는 과정. 즉, 가중치를 업데이트하는 과정을 알아보고자 한다..!!(Loss Function과 Optimization에 대해 저번에 작성한 글 참고) [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면.. 2024. 3. 2.
[미적분학] Optimization(GD, SGD) 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 예측값과 실제값의 차이를 계산해주는 함수이다. 모델은 Loss Function을 이용해 오차를 계산한 후 오차를 줄이는 방향으로 학습을 하게되는데 오차를 줄이는 과정에서 어떠한 알고리즘을 사용하는지 이번 글에서 알아보고자 한다. (Loss Function에 대해서는 저번에 작성한 글 참고)(다음 글을 스포하자면 Loss Function, Optimization Algorithm을 알아보았으니 Back Propagation..!!) [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 머신러닝, 딥러닝에서 필수.. 2024. 2. 29.
[확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 머신러닝, 딥러닝에서 필수적인 부분이고 논문에서도 자주 나오는 용어로 대표적인 것들만 정리하고자 한다. Loss Function이란 무엇일까? Loss Function(손실 함수)는 하나의 input data에서 나온 오차(예측값과 실제값의 차이)를 계산하는 함수이다. 즉, Loss Function의 값을 최소화되도록 가중치(weight)와 편향(bias)를 찾는 것이 목표 * Cost Function(비용 함수) : 모든 input dataset에서 나온 오차를 계산하는 함수 * Object Function(목적 함수) : 어떤 값을 최대화 혹은 최소화 시키기 위해 정의되는 함수 Loss Functi.. 2024. 2. 28.
[확률 및 통계학] Likelihood 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Likelihood, Maximum Likelihood Estimation(MLE), Log Likelihood, Negative Log Likelihood은 비슷한 이름을 가지며 딥러닝 논문들을 읽게되면 빈번하게 등장한다. Likelihood Likelihood는 가능도 또는 우도라고 표현하며 특정 사건들이 일어날 가능성을 의미한다. 위와 같은 그림에서 연속확률분포에서 확률은 x1과 x2 사이의 넓이를 의미하고 Likelihood는 x1과 x2의 확률분포 값의 곱을 의미한다. 여기서 Θ는 확률분포의 파라미터로 평균과 표준편차를 의미한다. Likelihood를 수식으로 표현하면 다음과 같다. 연속확률분포말고 이산확률분포에서도 똑.. 2024. 2. 27.
[Paper Review] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(2020) 본 글은 https://arxiv.org/abs/2003.10555 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Abstract BERT와 같은 Masked language modeling(MLM) pre-training 방법은 일부 토큰을 [MASK]로 대체하여 학습한다. 이는 downstream NLP task에서 좋은 결과를 얻을 수 있지만 많은 양의 계산을 필요로한다. 본 논문은 input을 마스킹하지 않고 generator network를 이용하여 토큰을 적절한 대안으로 대체하여 해당 토큰이 생성된 토큰인지 기존 토큰인지 예측하는 discriminative model을 학습하는 방법을 제안한다. 모든 input 토큰을 판별하기 때문에 마스.. 2024. 1. 16.
[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019) 본 글은 https://arxiv.org/abs/1907.11692 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Language model pretraining은 상당한 성능 향상을 가져왔으나 학습에서 계산 비용이 많이 들고 모델마다 다양한 크기의 dataset을 통해 수행되는 경우가 많고 모델의 성능에서 하이퍼파라미터 선택이 상당한 영향을 미친다. 본 논문은 BERT의 여러 주요 하이퍼파라미터, training data size의 효과를 측정한 replication study를 제시한다. BERT가 상당히 훈련되지 않았고 모든 모델의 성능과 일치하거나 초과할 수 있음을 발견했다. 본 논문에서의 최고 모델은 GLUE, RACE 및 SQuAD에서 S.. 2024. 1. 16.
[Paper Review] Improving Language Understanding by Generative Pre-Training(2018) 본 글은 https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 자연어 이해는 textual entailment, question answering, semantic similarity assessment, 문서 분류 등 다양한 task로 이루어진다. Unlabeled text data는 풍부하지만 labeled text data는 적어서 훈련된 모델이 적절하게 수행하기 어렵다. 본 논문은 다양한 unlabeled text를 사용한 generative pre-training의 언어 모델과 각 .. 2024. 1. 16.
[Paper Review] Deep contextualized word representations(2018) 본 글은 https://arxiv.org/abs/1802.05365 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 유형의 deep contextualized word representation을 소개한다. deep contextualized word representation (1) 단어 사용의 복잡한 특성(syntax and semantics) (2) 이러한 단어가 언어적 맥락에 따라 어떻게 다른지(다의어) 문맥을 학습하기 위해 word vector들을 deep bidirectional language model(biLM)의 방법으로 학습한다. 이를 통해, 6가지 NLP 분야 task에서 SOTA 성능을 달성하였다. 1. Intr.. 2024. 1. 14.