-
[RL] Gantry Work Cell Scheduling through Reinforcement Learning with knowledge-guided Reward Setting(2018)Scheduling/Paper 2021. 4. 19. 09:19
논문/사례 제목
출간년도
저자
Gantry Work Cell Scheduling through Reinforcement Learning with knowledge-guided Reward Setting
2018
Xinyan Ou, Qing Chang, Jorge Arinez, Zing Zou
사용 방법론
-System Description
m개의 machine, m-1개의 buffer, n개의 gantry
Machine의 생산속도 차이에 의해 병목현상 발생
Real disruption event : machine 고장으로 인한 생산 delay
Virtual disruption event : 병목현상으로 인한 생산 delay-Gantry System Modeling
Gantry system을 state에 stochastic variable을 포함하는 stochastic dynamic system으로 정의
-> 시간에 따른 system output을 각 machine의 생산량(state), gantry 할당 여부(input), disruption 발생 여부(unkwnown disturbance)를 매개변수로하여 함수로 표현-
-Reward function
1. Permanent Production Loss(PL) : measure of efficiency
= production of ideal gantry system – production of real gantry system (ideal = no disruption)
2. Production Loss Risk(PLR) : measure of robustness
= 특정 시점에서 machine에 disruption이 발생했을 때 예상되는 production loss의 기댓값
-> r(reward fucntion)=-PL "-η" PLR-
-R/L algorithm : Q-learning
Action : ε-greedy algorithm
Value : off-policy TD algorithm실험결과
-Experimental settings
1개의 gantry, 4대의 machine, 3개의 buffer 환경에서 simulation 진행
real disruption(기기고장)의 경우 data를 기반으로 interarrival time을 측정하여 exponential distribution에서 발생시킴-Experiment result
-> iteration이 증가할수록 PL 감소
-> 강화학습을 적용한 정책이 FCFS보다 production loss를 줄임
'Scheduling > Paper' 카테고리의 다른 글