'3-2/강화학습' 카테고리의 글 목록

3-2/강화학습 2

Introduction to MDPs- Markov Decision Process는 RL(강화학습)을 위한 environment(환경)을 공식적으로 설명- 거의 모든 RL문제는 MDP로 형식화할 수 있다.=> environmnet가 완전히 fully observable(관찰 가능)할때. 즉, 현재 상태가 과정을 완전히 설명 Markov Property(속성)"현재가 주어지면 미래는 과거와 독립적이다."상태 St가 Markov임을 의미하려면 다음 조건을 만족해야 함.- State는 과거로부터 얻는 모든 관련 정보를 포함- 현재 State를 알면, 과거의 정보는 무시할 수 있다.=> 즉, State는 미래 예측에 필요한 충분한 통계량이다. State Transition Matrix(상태 전이 행렬)State..

3-2/강화학습 2024.10.08

1주차-Introduction to Reinforcement Learning

강화학습 구조 (Reinforcement Learning Structure)- Agent: 강화학습에서 학습을 수행하는 주체- Environment: 에이전트가 상호작용하는 공간이나 시스템- State: 에이전트가 인식하는 환경의 현재 상태- Action: 에이전트가 환경에 대해 취하는 행동- Reward: 에이전트가 행동의 결과로 받는 피드백- Observation: 에이전트는 환경에서 특정 데이터를 관찰하고, 이를 바탕으로 다음 행동을 결정주요 특징1. No supervisor: 정답 레이블이 제공되지 않고, 에이전트가 보상만을 기반으로 학습.2. Data-driven: 데이터 기반3. Discrete time space: 이산적인 시간 단계4. Sequential data scream: 데이터가..

3-2/강화학습 2024.09.25

donghunkang

UNIVERSITY OF SEOUL, AI

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

donghunkang

3-2/강화학습 2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역