3-2/강화학습 2

3주차-Markov Decision Proce

Introduction to MDPs- Markov Decision Process는 RL(강화학습)을 위한 environment(환경)을 공식적으로 설명- 거의 모든 RL문제는 MDP로 형식화할 수 있다.=> environmnet가 완전히 fully observable(관찰 가능)할때. 즉, 현재 상태가 과정을 완전히 설명 Markov Property(속성)"현재가 주어지면 미래는 과거와 독립적이다."상태 St가 Markov임을 의미하려면 다음 조건을 만족해야 함.- State는 과거로부터 얻는 모든 관련 정보를 포함- 현재 State를 알면, 과거의 정보는 무시할 수 있다.=> 즉, State는 미래 예측에 필요한 충분한 통계량이다. State Transition Matrix(상태 전이 행렬)State..

3-2/강화학습 2024.10.08

1주차-Introduction to Reinforcement Learning

강화학습 구조 (Reinforcement Learning Structure)- Agent: 강화학습에서 학습을 수행하는 주체- Environment: 에이전트가 상호작용하는 공간이나 시스템- State: 에이전트가 인식하는 환경의 현재 상태- Action: 에이전트가 환경에 대해 취하는 행동- Reward: 에이전트가 행동의 결과로 받는 피드백- Observation: 에이전트는 환경에서 특정 데이터를 관찰하고, 이를 바탕으로 다음 행동을 결정주요 특징1.  No supervisor: 정답 레이블이 제공되지 않고, 에이전트가 보상만을 기반으로 학습.2.  Data-driven: 데이터 기반3. Discrete time space: 이산적인 시간 단계4. Sequential data scream: 데이터가..

3-2/강화학습 2024.09.25