Deep Learning Study12 [Lecture 1] Language Models and RNNs 오늘 강의에서 초점을 맞출 것은 Language Model이란 무엇인가. 그리고 가장 기본적인 형태의 Language Model은 무엇이 있고 RNN은 어떠한 형태로서 활용이 되면서 우리가 Language Model을 어떻게 만들어 나가는지 간략하게 설펴보도록 한다. 그래서 오늘 배울 것은 크게 두 가지이다.1. Language Modeling은 무엇인가.2. Recurrent Neural Networks (RNNs)는 어떤 형태로 구성되어 있는 네트워크인가. Language Modeling이라는 개념은 상당히 중요한 개념이다. 현재 사용하고 있는 도구들 혹은 방법론들이 Language Modeling을 기반으로 하고 있다(ex. BERT, GPT-3, ChatGPT 등).1. Language Model.. 2024. 10. 1. [미적분학] L1, L2 Regularization 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 글은 https://www.youtube.com/watch?v=swYILd-M2Ks 를 참고하여 만들었습니다. 저번 글에서 오차(예측값과 실측값의 차이)를 계산하는 Loss Function에 대해 알아보고 이를 이용해 오차를 어떠한 알고리즘으로 최소로 할지 계산하는 Optimization에 대해 알아보았다. 여기서 무조건적으로 오차를 줄이는 것이 좋을까? 아니다. 오차를 줄이고 0이 된다 해도 train dataset에만 잘 학습되고 일반화가 안된 모델이라면 좋지 않다. 이를 과적합이라 한다. 과적합을 줄이기 위해서는 여러 가지 방법들이 있다. 데이터 증가 : 더 많은 훈련 데이터를 사용하여 모델이 더 일반화된 패턴을 학습하.. 2024. 4. 21. [미적분학] 테일러 급수 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 미적분학에서 테일러 급수는 도함수들의 한 점에서의 값으로 계산된 항의 무한합으로 함수를 나타내는 방법이다. 테일러 급수는 어떠한 함수를 다항식으로 근사하는 방법을 제공한다. 단, 미분 가능한 함수여야 한다. f(x)를 다음과 같이 멱급수 형태로 나타낼 수 있다. (증명은 생략..) 위 식을 통해 f(a)=a0, f'(a)=a1, f''(a)=2a2라는 것을 알 수 있다. 이를 통해 일반화를 시킬 수 있다. 위 식을 통해 여러 가지 함수를 1차 미분 값과 2차 미분 값을 간단하게 구할 수 있다. 대표적인 테일러 급수의 예로는 다음과 같다. 2024. 4. 9. Stanford CS224N - Lecture 5. Recurrent Neural networks RNNs 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다.강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.강의 순서1. Neural dependency parsing2. A bit more about neural networks3. Language modeling + RNNs 1. Neural dependency parsing 문제점 #1: sparse문제점 #2: incomplete훈련 데이터에 따라 특정 feature가 존재하여 없는 feature가 존재. 예를 들어, 어떤 단어는 동사 앞에 나오지 않는 경우 해당 feature는 존재하지 않는다.문제점 #3: expensive.. 2024. 4. 6. Stanford CS224N - Lecture 4. Syntactic Structure and Dependency Parsing 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다.강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.강의 순서1. Syntactic Structure: Consistency and Dependency2. Dependency Grammar and Treebanks3. Transition-based dependency parsing4. Neural dependency parsing1. Syntactic Structure: Consistency and DependencyNLP 모델이 문장을 깊게 이해하기 위해서 구문 구조를 분석하는 것이 필요하다.구문 구조를 분석하는 것에는 두 가지.. 2024. 4. 4. Stanford CS224N - Lecture 3. Backprop and Neural Networks 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 개체명 인식(Named entity recognition, NER) 각 개체의 유형을 인식하는 task로 어떤 단어가 사람, 장소, 조직 등을 의미하는 단어인지 찾을 수 있다. Simple NER: Window classification using binary logistic classifier - context window의 이웃 단어들을 이용하여 각 단어들을 분류 예를 들어 "the museums in Paris are amazing to see."라는 문장에서 "Pari.. 2024. 3. 4. [미적분학] Back Propagation 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 이전 글에서 Loss Function, Optimization을 알아보았다. Feedforward를 통해 예측값을 얻고 Loss Function(실제값과 예측값 사이의 오차를 계산하기 위한 함수)를 이용해 오차를 계산한다. 그 후, Optimization(오차를 어떠한 방식으로 최소로 할지에 대한 알고리즘)을 통해 오차를 최소화한다. 오차를 최소화하기 위한 알고리즘까지 알아보았으니 오차를 최소화하는 과정. 즉, 가중치를 업데이트하는 과정을 알아보고자 한다..!!(Loss Function과 Optimization에 대해 저번에 작성한 글 참고) [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면.. 2024. 3. 2. [미적분학] Optimization(GD, SGD) 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 예측값과 실제값의 차이를 계산해주는 함수이다. 모델은 Loss Function을 이용해 오차를 계산한 후 오차를 줄이는 방향으로 학습을 하게되는데 오차를 줄이는 과정에서 어떠한 알고리즘을 사용하는지 이번 글에서 알아보고자 한다. (Loss Function에 대해서는 저번에 작성한 글 참고)(다음 글을 스포하자면 Loss Function, Optimization Algorithm을 알아보았으니 Back Propagation..!!) [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 머신러닝, 딥러닝에서 필수.. 2024. 2. 29. [확률 및 통계학] Loss Function 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Loss Function은 머신러닝, 딥러닝에서 필수적인 부분이고 논문에서도 자주 나오는 용어로 대표적인 것들만 정리하고자 한다. Loss Function이란 무엇일까? Loss Function(손실 함수)는 하나의 input data에서 나온 오차(예측값과 실제값의 차이)를 계산하는 함수이다. 즉, Loss Function의 값을 최소화되도록 가중치(weight)와 편향(bias)를 찾는 것이 목표 * Cost Function(비용 함수) : 모든 input dataset에서 나온 오차를 계산하는 함수 * Object Function(목적 함수) : 어떤 값을 최대화 혹은 최소화 시키기 위해 정의되는 함수 Loss Functi.. 2024. 2. 28. 이전 1 2 다음