Introduction to MDPs- Markov Decision Process는 RL(강화학습)을 위한 environment(환경)을 공식적으로 설명- 거의 모든 RL문제는 MDP로 형식화할 수 있다.=> environmnet가 완전히 fully observable(관찰 가능)할때. 즉, 현재 상태가 과정을 완전히 설명 Markov Property(속성)"현재가 주어지면 미래는 과거와 독립적이다."상태 St가 Markov임을 의미하려면 다음 조건을 만족해야 함.- State는 과거로부터 얻는 모든 관련 정보를 포함- 현재 State를 알면, 과거의 정보는 무시할 수 있다.=> 즉, State는 미래 예측에 필요한 충분한 통계량이다. State Transition Matrix(상태 전이 행렬)State..