RNN(Recurrent Neural Network)- sigmoid: 기울기 작아 더 빨리 "0"으로 소실. (Vanishing Gradient)- tanh: "0"으로 가는건 같지만 기울기 커 sigmid보단 느리게 "0"으로 간다. Vanilla RNN: 초기의 RNN 형태RNN 모델의 가중치는 모든 Cell에 대해 동일 - Back Propagation Through Time(BPTT)- 1보다 작은 값들이 많이 곱해진다, "0"으로 update=> 단 주기에는 괜찮지만 주기가 길어지면 "Vanishing/ Exploding Gradient"문제가 발생=> 결국 학습이 잘 되지 않는다. LSTM(Long Short Term Memory)- (Cell) State: 장기기억- (Hidden) ..