본문 바로가기

분류 전체보기28

[Paper Review Code] Attention Is All You Need (2) 본 내용은 https://arxiv.org/abs/1706.03762 논문을 기반으로 하고 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice에서 Transformer 구현 코드를 참고하였습니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Text 전처리와 Encoder 구현은 저번 글에서 알아보았으니 이젠 Decoder 부분을 구현하고 전체 Transformer를 이용해 학습해보는 것을 알아보겠다. (Encoder 부분은 이전 글 참고) 디코더 디코더는 인코더와 다르게 두 개의 attention 층을 가지고 있다. Masked Multi-head self-attention : timestep마다 지난 출.. 2024. 3. 11.
[Paper Review Code] Attention Is All You Need (1) 본 내용은 https://arxiv.org/abs/1706.03762 논문을 기반으로 하고 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice에서 Transformer 구현 코드를 참고하였습니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Transformer는 크게 인코더-디코더 아키텍처를 가진다. 아래 그림을 보면 상단이 인코더, 하단이 디코더이다. 인코더 인코더 층을 자세히 보면 아래 그림과 같다. 토큰화 import spacy spacy_en = spacy.load('en_core_web_sm') # 영어 토큰화 spacy_de = spacy.load('de_core_news_sm') # 독일어 토.. 2024. 3. 10.
Stanford CS224N - Lecture 3. Backprop and Neural Networks 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 개체명 인식(Named entity recognition, NER) 각 개체의 유형을 인식하는 task로 어떤 단어가 사람, 장소, 조직 등을 의미하는 단어인지 찾을 수 있다. Simple NER: Window classification using binary logistic classifier - context window의 이웃 단어들을 이용하여 각 단어들을 분류 예를 들어 "the museums in Paris are amazing to see."라는 문장에서 "Pari.. 2024. 3. 4.
[미적분학] Back Propagation 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 이전 글에서 Loss Function, Optimization을 알아보았다. Feedforward를 통해 예측값을 얻고 Loss Function(실제값과 예측값 사이의 오차를 계산하기 위한 함수)를 이용해 오차를 계산한다. 그 후, Optimization(오차를 어떠한 방식으로 최소로 할지에 대한 알고리즘)을 통해 오차를 최소화한다. 오차를 최소화하기 위한 알고리즘까지 알아보았으니 오차를 최소화하는 과정. 즉, 가중치를 업데이트하는 과정을 알아보고자 한다..!!(Loss Function과 Optimization에 대해 저번에 작성한 글 참고) [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면.. 2024. 3. 2.
[미적분학] Optimization(GD, SGD) 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 예측값과 실제값의 차이를 계산해주는 함수이다. 모델은 Loss Function을 이용해 오차를 계산한 후 오차를 줄이는 방향으로 학습을 하게되는데 오차를 줄이는 과정에서 어떠한 알고리즘을 사용하는지 이번 글에서 알아보고자 한다. (Loss Function에 대해서는 저번에 작성한 글 참고)(다음 글을 스포하자면 Loss Function, Optimization Algorithm을 알아보았으니 Back Propagation..!!) [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 머신러닝, 딥러닝에서 필수.. 2024. 2. 29.
[확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 머신러닝, 딥러닝에서 필수적인 부분이고 논문에서도 자주 나오는 용어로 대표적인 것들만 정리하고자 한다. Loss Function이란 무엇일까? Loss Function(손실 함수)는 하나의 input data에서 나온 오차(예측값과 실제값의 차이)를 계산하는 함수이다. 즉, Loss Function의 값을 최소화되도록 가중치(weight)와 편향(bias)를 찾는 것이 목표 * Cost Function(비용 함수) : 모든 input dataset에서 나온 오차를 계산하는 함수 * Object Function(목적 함수) : 어떤 값을 최대화 혹은 최소화 시키기 위해 정의되는 함수 Loss Functi.. 2024. 2. 28.
[확률 및 통계학] Likelihood 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Likelihood, Maximum Likelihood Estimation(MLE), Log Likelihood, Negative Log Likelihood은 비슷한 이름을 가지며 딥러닝 논문들을 읽게되면 빈번하게 등장한다. Likelihood Likelihood는 가능도 또는 우도라고 표현하며 특정 사건들이 일어날 가능성을 의미한다. 위와 같은 그림에서 연속확률분포에서 확률은 x1과 x2 사이의 넓이를 의미하고 Likelihood는 x1과 x2의 확률분포 값의 곱을 의미한다. 여기서 Θ는 확률분포의 파라미터로 평균과 표준편차를 의미한다. Likelihood를 수식으로 표현하면 다음과 같다. 연속확률분포말고 이산확률분포에서도 똑.. 2024. 2. 27.
[Paper Review] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(2020) 본 글은 https://arxiv.org/abs/2003.10555 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Abstract BERT와 같은 Masked language modeling(MLM) pre-training 방법은 일부 토큰을 [MASK]로 대체하여 학습한다. 이는 downstream NLP task에서 좋은 결과를 얻을 수 있지만 많은 양의 계산을 필요로한다. 본 논문은 input을 마스킹하지 않고 generator network를 이용하여 토큰을 적절한 대안으로 대체하여 해당 토큰이 생성된 토큰인지 기존 토큰인지 예측하는 discriminative model을 학습하는 방법을 제안한다. 모든 input 토큰을 판별하기 때문에 마스.. 2024. 1. 16.
[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019) 본 글은 https://arxiv.org/abs/1907.11692 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Language model pretraining은 상당한 성능 향상을 가져왔으나 학습에서 계산 비용이 많이 들고 모델마다 다양한 크기의 dataset을 통해 수행되는 경우가 많고 모델의 성능에서 하이퍼파라미터 선택이 상당한 영향을 미친다. 본 논문은 BERT의 여러 주요 하이퍼파라미터, training data size의 효과를 측정한 replication study를 제시한다. BERT가 상당히 훈련되지 않았고 모든 모델의 성능과 일치하거나 초과할 수 있음을 발견했다. 본 논문에서의 최고 모델은 GLUE, RACE 및 SQuAD에서 S.. 2024. 1. 16.