본문 바로가기

Graduate Lectures(2024-2)/딥러닝영상인식111

[Lecture 11] Image Segmentation and Object Detection 본 강의 학습 목표는 다음과 같다.Semantic Segmentation: Fully Convolutional Network (FCN), In-Network Up-/Down-SamplingObject Detection: R-CNN, Fast R-CNN (RoI Align/Pooling), Faster R-CNN (Region Proposal Network)Instance Segmentation: Mask R-CNN Semantic Segmentation픽셀 하나만 보고 어떤 class에 속하는지 판단하기 어렵다. 픽셀 하나의 주변 것을 보면 class를 판단할 수 있다. 이미지의 작은 영역 패치를 CNN을 통과하여 class를 맞출 수 있다. 우리는 전체 이미지에 대해 모든 픽셀들에 대해 class를 맞.. 2024. 12. 17.
[Lecture 10] Attention Mechanism and Transformer 본 강의 학습목표는 다음과 같다.Sequence to Sequence (Seq2Seq) Model: Sequence to Sequence with RNNs, Sequence to Sequence with RNNs and Attention, Image Captioning with RNNs, Image Captioning with RNNs and AttentionTransformer: Transformer, Vision Transformer (ViT)Sequence to Sequence (Seq2Seq) ModelSequence to Sequence 모델은 input과 output 길이가 달라도 되며 시퀀스 데이터를 처리한다. 기계 번역이나 텍스트 요약에 사용할 수 있다.Sequence to Sequence.. 2024. 12. 16.
[Lecture 9] Recurrent Neural Network 본 강의 학습 목표는 다음과 같다.Video ProcessingRecurrent Neural Network (RNN): Types of RNN (One-to-many, Many-to-one, Many-to-many), Backpropagation in RNN, Applications of RNN, Problems of RNNLong-Short Term Memory (LSTM)Video Processing지금까지 강의는 3 x H x W 짜리 이미지를 input으로 받아 처리하였다. Video의 경우, 시퀀스가 존재하기 때문에 T x 3 x H x W 짜리로 input으로 받는다. T는 Time 축이다. 이러한 시퀀스 데이터를 처리하기 위해, RNN을 배운다.  Recurrent Neural Network.. 2024. 12. 16.
[Lecture 8] Training Neural Network 본 강의 학습 목표는 다음과 같다.Normalization: Input data, Feature map, Model weightDeep Learning Hardware: CPU vs GPU, Toeplitz matrixDistributed Training: Model parallelism, Data parallelismNormalization: Input dataInput data의 특징들이 매우 다양한 scale을 가지면 불안정한 학습을 할 수 있다. 따라서, 각 데이터들을 평균이 0이고 표준편차가 1로 normalization을 해준다. 즉, 데이터가 가지고 있는 범위를 조절하여 데이터 분포가 특정 boundary 안에 있게끔 해준다. 이를 통해, 데이터 scale의 민감성을 감소시키고 수렴을 더 빨.. 2024. 12. 16.
[Lecture 7] Training Neural Network 본 강의 학습 목표는 다음과 같다.Dataset splittingOptimizerLearning rate / schedulingLoss curve and OverfittingActivation functionsDropoutData augmentationDataset splitting기존 데이터셋을 train / validation / test set으로 분할한다.그러면 train set으로 어떻게 모델을 학습시킬까?전에 배웠던, backpropagation algorithm으로 모델을 학습한다. 단순하게 이미지 한장만으로 학습을 시키지 않는다. train set이 6,000장이 있다고 하면 하나의 이미지로 학습을 할 경우, 전체 데이터셋 분포를 반영하지 않고 불안정한 수렴으로 이끌 수 있다. 그러면 6,.. 2024. 12. 16.
[Lecture 6] Convolutional Neural Network & Training Neural Network Convolutional Neural NetworkLecture 5에서 못다룬 ResNet에 대해 알아본다. ResNet ResNet은 152개의 layer를 쌓아 처음으로 사람보다 뛰어난 성능을 보여주었다. AlexNet은 8 layer, GoogleNet은 22 layer를 쌓아올림으로써 성능 향상을 이루었다. 더 깊은 network를 쌓아올릴수록 더 좋은 성능을 이루어질거라고 생각했다. 하지만, 일정 깊이 이후, 성능 하락이 있는 것을 확인하였다. vanishing gradient를 해결하며 deep neural network에 대해 성능 향상을 이룬 "Deep Residual Learning for Image Recognition" 논문 (ResNet)이 등장한다. network가 깊어질수록 ba.. 2024. 12. 16.
[Lecture 5] Convolutional Neural Network (CNN) 본 강의 학습목표는 다음과 같다.LeNetILSVR Challenge - 2012: Alexnet, 2013: ZFNet, 2014: VGGNet, 2015: ResNetLeNetLeNet is not the very first neural network, it is widely considered one of the first successul applications of convolutional layers. LeNet is developed for handwritten digit recognition on the MNIST dataset.LeNet은 "Gradient-based learning applied to document recognition" 논문에서 1998년에 소개되었다. LeNet의 .. 2024. 10. 21.
[Lecture 4] Convolution 본 강의에서의 학습목표는 다음과 같다.The problem of the Linear classifierWhat is a Convolution layer - convolution, stride, paddingWhat is a Pooling layer - why do we need pooling?, max pooling, average poolingRecall: One Problem of the Linear ClassifierA linear classifier creates a straight decision boundary between the classesWhen the data points are not linearly separable, a linear classifier cannot perfectl.. 2024. 10. 21.
[Lecture 3] Backpropagation 이번 강의에서의 학습목표는 다음과 같다.What is Backpropagation Algorithm?Backpropagation with Linear ClassifierBackpropagation with Neural NetworkBackpropagation with Vector/MatrixBack-propagation은 1986년에 "Learning Representations by Back-Propagating Errors" 논문에서 소개된 방법이다. 보통 2012년에 딥러닝이 시작되었다하고 2016~2017년에 활발히 연구가 시작되었다. Image Classification에서는 Input과 weight가 곱해져서 output 값을 만든다. 그 후, 실제 값과 output 값의 차이를 loss fu.. 2024. 10. 20.