Episode(에피소드) : 여러 개의 step들이 모여 구성되는 하나의 완전한 시나리오-> 시작 상태에서 종료 상태까지 오기까지의 전체 과정-> Episode = 한 마디로 드라마 한 회Step(스텝) : 한 번의 상태 전이 즉, Agent가 하나의 행동을 수행하고, 환경으로부터 보상과 다음 상태를 받는 과정 -> 현 state -> 다음 state 까지의 과정-> Step = 드라마 한 장면보상(Reward) vs 가치 함수(Value function)보상(Reward) -> " 지금 바로 받은 점수"𝑟𝑡 ∶ 𝑡시점에서 얻게 되는 보상Agent가 한 행동을 했을 때 환경이 바로 주는 피드백(보상)Reward는 단기적이고, 단편적인 신호이기 때문에 지금 당장은 좋아 보여도 장기적으로는 안 좋을 수..