[Day38] Bandit for Recommendation 10-1 : MAB 개요 & MAB 알고리즘 기초 Bandit은 강화학습에서 많이 사용되지만 구현방법이 간단하면서 좋은 성능을 보이기 때문에 추천시스템에서도 종종 사용한다. Multi-Armed Bandit : MAB One-Armed Bandit =slot machine 한 번에 한 개의 slot machine의 arm을 당길 수 있고 그에 따른 보상을 받게 된다. one-armed bandit을 여러 개로 늘린 문제가 multi-armed bandit이다. 카지노에 k개의 slot machine을 n번 플레이 할 수 있을 때 어떻게 하면 가장 큰 보상을 받을 수 있을까? 보상을 최대화하기 위해서 arm을 어떤 순서로 어떤 정책(policy)에 의해 당겨야하는지를 학습하는 알고리즘이다. 하지만 슬롯머신이 얼마의 확률로 reward를 주는지 정확히는 알.. 이전 1 다음