확률과정
-time step: 이벤트 발생 시점
-간격:시간 간격이 일정(현실은 다르지만)
-수:이벤트 수가 유한함(무한할 수 있는 경우도 존재)
-T:발생하는 이벤트의 총 숫자
State
-존재 가능한 모든 state의 집합
-개수가 유한하다고 가정
Action
-존재 가능한 모든 Action의 집합
-Discrete Action space:action유한하고 그중 한개를 택
-Continuous Action space:action이 무한하고 n차원 백터로 표현됨
Reward
-r t+1:st에서 at를 수행하였을 때의 가치
Transition Probability(전이 확률)
-P(궁금l조건)->확실하지 않아 확률 도입
-MDP시점에서는 다음 상태의 값은 직전 상태에서만 액션을 받고 그 이전 히스토리는 관계가 없다
-MDP가 강화학습에 성능이 좋음
감가상각
-reward는 항상 고유한가?
-적용: (rt)*(r의 T-t-1승)
Markov Decision Process(MDP)
-5개 듀플로 정의:M=(S,A,R,r,P)
-S:State
-A:Action
-R:Reward
-P:Transition probability
-r:감가상각
MDP의 목적
-reward합을 최대화 하고 싶음
-그러려면 action을 적절하게 잘 선택해야 함
-잘 선택하려면 현재 상황에 맞는 액션을 선택
-적절한 액션 선택이란 현재 상태에서 기워드 합을 최대화 하는 액션을 선택
-당장 근시안적으로 reward가 아닌 합을 최대화
Value Function
-state-value function: state의 가치 함수
state value를 최대화 하면서 행동을 수행해 나가고 싶음
-**Action-value function:state-action 쌍의 가치함수
-st에서 at를 수행한 뒤,지 속적으로 action을 수행해 sT에 도달했을때,discount facor를 고려한 미래 reward 총합
Q-value라 부른다:optimal action-value function(최적의 reward총합)
Value function 구하는 방법
Dynamic Programming(DP)-동적계획법
-최적화 분야 방법론 중 하나
-데이터가 많을 수록 계산량이 폭발하여 현실적으로 사용하기 힘듬
Reinforcement Learning(RL)-강화학습
-최적해를 근사하도록 가치 함수를 학습
-머신러닝 3분류 중 하나
강화학습이란
-연속적 의사결정 문제를 풀기 위한 머신러닝 기법
-(State, Action, Reward, Next state)->training data
-요소:Time(이산적), st, at, rt+1
transition(st, at, st+1, at+1...)
episode:싸이클(s1,a1,r2,s2)/a2....
-agent의 목표: 매st마다 미래 리워드 총합을 최대화 하는 at수행
-RL의 목표:agent의 목표를 만족하도록 학습시킴
-강화학습의 철학->Approximation(근사)
-Exploration
-Exploitaion
왜 지도학습보단 강화학습일까?
-현실에선 고급 데이터 구하기 힘드니 환경만 세팅해줘서 학습시킴
-연속적 의사결정 문제의 속성을 가진 문제를 해결하고자 할때
-환경 구축하여 데이터를 생성할 수 있을 때
'Major > Smart Factory' 카테고리의 다른 글
Meta-heuristic(2) (0) | 2024.06.08 |
---|---|
Meta-heuristic(1) (1) | 2024.06.08 |
Scheduling (0) | 2024.06.08 |
머신러닝 기본 개념 (0) | 2024.05.13 |
통계적 가설검정과 품질경영 (0) | 2024.05.13 |