[Day16] DL Basic 10. Generative Model - 2 : VAE, GAN Latent Variable Models Variational Auto-encoder Variational Inference (VI) VI의 목적인 posterior distribution($p_{\theta}(z|x)$)을 찾는 것이다. 여기서 $z$는 latent vector이다. posterior distribution은 나의 obsesrvation이 주어졌을 때, 관심있어 하는 random variable의 확률분포이다. 조건이 바뀐 $p_{\theta}(x|z)$는 likelihood라고 부른다 하지만 일반적으로 posterior distribution은 구하기 어려운 경우가 많다. 그래서 posterior distribution에 근사하게 학습하는 variational distribution(.. [Day16] DL Basic 9. Generative Models - 1 : distribution, conditional independence, auto-regressive, NADE, pixel RNN Generative model 생성모델 Generation train data에 있지 않은 sample을 만들어내는 것 sampling으로 활용될 수 있다. 단순히 generate만 할 수 있는 모델이면 implicit model이라고 한다. Density estimation 이미지가 알고있는 분류와 같은지 아닌지 예측하는 확률 p(x)을 얻어낼 수 있다 -> explicit model anomaly detection으로 활용될 수 있다 구분할 수 있는 능력도 있다. Unsupervised representation learning feature learning Basic Discrete Distributions Bernoulli distribution 서로 의존적인 2개의 상태에 대한 확률을 나타내기 .. [Day15] DL Basic 8. Sequential Models - Transformer Trimmed sequence 길이가 다른 data Omitted sequence 중간이 없는 data Permuted sequence 밀리거나 순서가 바뀐 data 들로 인해서 sequential modeling이 어렵다. 이를 해결하고자 한 것이 Transformer이다. Transformer RNN은 재귀적으로 돌아갔는데, transformer은 attention을 사용해서 한 번에 모든 data를 찍어낼 수 있다. transformer은 sequential한 data를 처리하고 encoding하는 방법이기 떄문에 다양한 문제에 적용될 수 있다. 기계어 번역, 이미지 분류, detection, 문장에 맞는 이미지 생성 등에 이용된다. 문장이 주어지면 다른 문장으로 바꾸는 sequence to seq.. [Day15] DL Basic 7. Sequential Models - RNN Sequential Model 입력이 Sequential data이다. ex) audio, video sequential data 를 처리할 때 data 입력의 차원을 알 수 없다는 점이 가장 힘들다. 언제 말이나 소리가 끝날지 알기 어렵기 때문이다. Naive sequention model 입력이 여러개 들어왔을 때 다음에 들어올 입력을 예측하는 것 $$p(x_{t}|x_{t-1}, x_{t-1, \dotsb})$$ 그 전 입력들을 다 고려해야한다. Autoregressive model 과거 n개에만 의존하는 것 Markov model : first-order autoregressive model 바로 전 과거에만 의존 많은 정보를 버릴 수 밖에 없게 된다. Latent autoregressive mo.. [Day14] DL Basic 6. Computer Vision Applications : Semantic Segmentation, Detection Semantic Segmentation 이미지의 모든 픽셀마다 분류한다. 피카츄와 지우, 공책뿐 아니라 뒤의 배경에 대한 픽셀들에 대해서도 나누어 분류한다. 자율주행, 운전 보조장치 등에 사용된다. Fully Convolutional Network 원래 fully connected network에서는 마지막에 flat하게 펴서 dense layer로마지막에 label을 예측한다. Fully convolutional network에서는 dense layer가 없다. Convolutionalization : dense layer을 없애는 과정 dense layer 대신 convolution layer로 바꾼다. 바꾸어도 필요한 파라미터 수가 일치하고 output 모양도 일치한다. 그리고 output을 hea.. [Day14] DL Basic 5. Modern CNN AlexNet ReLU 선형 모델이 갖는 gradient가 커도 유지된다는 특성을 가진다. SGD, mini batch를 이용한 optimize가 쉽고 gradient vanishing 문제를 해결했다. 결과적으로 generalization performance가 좋다. 2 GPU Data Augmentation Dropout Overlapping pooling VGGNet 3x3 convolution filter만 사용했다. Receptive field : convolution 한 값이 영향을 받은 input의 크기 ex) 3x3을 2번하는 것과 5x5를 한 번 하는 것은 Receptive field는 같다. 하지만 파라미터는 1.5배 차이가 난다. 그래서 7x7이상으로는 거의 사용하지 않게 된다. l.. [Day14] DL Basic 4. Convolution은 무엇인가? Convolution 신호 처리에서 두 함수 f와 g를 섞어주는 것으로 나타난다. Continuous convolution $$(f*g)(t) = \int f(\tau)g(t-\tau)d\tau=\int f(t-\tau)g(t)d\tau$$ Discrete convolution $$(f*g)(t)=\displaystyle\sum^{\infty}_{i=-\infty} f(i)g(t-i)=\displaystyle\sum_{i=-\infty}^{\infty}f(t-i)g(i)$$ 2D image convolution $$(I*K)(i,j)=\displaystyle\sum_{m}\displaystyle\sum_{n}I(m,n)K(i-m, j-n)=\displaystyle\sum_{m}\displaystyle\s.. [Day13] DL Basic 3. Optimization - 3 : Regularization Regularization generalization을 잘 되게 규제를 건다 학습을 방해하지만, test data에서도 성능이 잘 나오도록 방해한다. 1. Early Stopping validation error를 보고 loss가 줄어들다가 커지려고 할 때 학습을 멈추는 방법이다 2. Parameter norm penalty 파라미터가 너무 커지지 않게 하는 것 $$total cost=loss(\mathcal{D};W) + \frac{\alpha}{2}\parallel W\parallel^{2}_{2}$$ 네트워크 안의 파라미터들을 모두 제곱하고 더한 수를 줄인다. 파라미터 크기를 줄이면 함수가 smooth해지고 generalization performance가 높을 것을 기대할 수 있다. $\frac{.. 이전 1 ··· 14 15 16 17 18 19 20 ··· 26 다음