Batch vs mini-batch gradient descentBatchMini-batchmini-batch size:1. small training set(m2. Typical mini-batch size: 64, 128, 256, 512, 10243. mini-batch가 cpu, gpu 메모리에 들어가도록 하는 것이 중요 Exponentially weighted averages (지수 가동 이동 평균법)베타 높이면 (초록색 그래프) 선이 약간 오른쪽으로 이동베타 줄이면 (노란색 그래프) 선 내에서 더 많은 진동이 발생Bias correction Gradient descentMomentumRMSpropAdom optimization algorithmMomentum과 RMSprop를 더해서 만든다.L..