-
[RL] Simulation study on reward function of reinforcement learning in gantry work cell scheduling(2018)Scheduling/Paper 2021. 4. 19. 09:22
논문/사례 제목
출간년도
저자
Simulation study on reward function of reinforcement learning in gantry work cell scheduling
2018
Xinyan Ou, Qing Chang, Nilanjan Chakraborty
사용 방법론
-System Description, Gantry system modeling, R/L algorithm 논문1과 동일
-Reward function
1. Prioritize end-of-line output
-> impose a punishing reward once last machine is waiting for a gantry during two consecutive decision point.
-> 최종 생산단계를 담당하는 machine에 우선순위를 부여하여 완성품 개수 최대화.
2. Prioritize low-efficiency
-> the machine with lower production efficiency will be given a higher priority to mitigate the impact of waiting.
-> 생산 효율성이 떨어지는 제품에 우선수위를 부여하여 병목현상 제거 .
3. Minimize total waiting time
-> impose a prorated punishing reward according to machine efficiency during two consecutive decision point.
-> machine 효율성이 낮을수록 더 큰 waiting penalty를 부여, 모든 machine의 waiting penalty의 합을 최소화.
4. Production loss attribution
-> impose a punishing reward once M_pla=argmax┬(i≤j≤m)〖〖PLA〗_j (t)〗 is waiting for gantry during two consecutive decision points
-> M_pla 는 decision time t에서 이전에 발생한 disruptions(e_i)에 의해 발생한 production loss의 누적합이 가장 큰 machine.
5. Production loss risk(논문1과 동일한 reward)
-> r(reward fucntion)=-PL "-η" PLR실험결과
-Experimental settings
1개의 gantry, 4대의 machine, 3개의 buffer 환경에서 simulation 진행
real disruption(기기고장)의 경우 data를 기반으로 interarrival time을 측정하여 exponential distribution에서 발생시킴-
-Experiment result
Product count improvement는 machine의 waiting time을 줄이는 것과 적은 연관성.
'Scheduling > Paper' 카테고리의 다른 글