6주차-Hyperparameters and Batch Norm

3-1/Deep Learning

Donghun Kang 2024. 5. 11. 16:13

중요도 순: alpha(학습률) > beta β, hidden units, mini-batch size > layer, learning rate decay

*Adam Optimization의 하이퍼 파라미터인 beta_1, beta_2, epsilonϵ은 값을 변경할 필요 없이, 대부분 기본값을 사용하기 때문에 수치를 변경할 필요가 적다.

어떤 하이퍼 파라미터가 더 중요한지 미리 알아내기 어렵기 때문에, 격자판 형식(grid)으로 샘플링하는 것보다는 무작위로(random) 샘플링하는 방법이 더 많은 하이퍼 파라미터 값을 탐색, 더 광범위하게 학습을 진행

-Coarse to find: 다음 공간에 대해 밀도를 높여서 샘플링 진행

-Hyperparameter tuning in pratice3

hidden layer에서의 정규화(regularization)를 하면 다음 신경망에서의 속도가 빨라짐.

-Covariate shift: 데이터의 분포를 바꾸는 것

-Batch norm의 일반화: mini-batch는 전체 데이터에서 훈련된게 이나기에 noise를 포함, 다음 훈련을 진행하는데 시간이 소요, dropout과 유사하게 noise를 가지고 있음.

-Batch norm 계산을 위해서 Exponentially weighted average(지수적 가중평균)을 사용

output layer의 unit개수 4이며 class, c로 정리

output layer의 4개의 class들의 확률을 나타냄(모두 더한 값은 1)

출력층에서 사용/ 결과를 확률로 해석할 수 있게 변환

Fit training set well on cost function

-> bigger network/ Adam optimization

Fit dev set well on cost function

-> Regularization/ bigger training set

Fit test set well on cost function

-> bigger dev set

Performs well in real word

-> change dev, test set/ change cost function

-dev set와 test set의 분포는 같아야 한다.

9주차-ML Strategy (0)	2024.05.11
7주차-Convolutional Neural Networks (1)	2024.05.11
5주차-Optimization Algorithms (1)	2024.05.11
4주차-Practical Aspects of Deep Learning (0)	2024.05.11
3주차-Deep Neural Networks (1)	2024.05.11

donghunkang

UNIVERSITY OF SEOUL, AI

donghunkang