[Day38] Bandit for Recommendation 10-2 : MAB 알고리즘 심화 : Thompson Samling, LinUCB Thompson Sampling 각 action에 대해 reward를 계산할 때 확률 분포를 사용한다. 주어진 k개의 action각각이 베타 분포를 따른다고 가정하고 확률분포를 업데이트한다. 베타 분포 두 개의 양의 변수 $\alpha$와 $\beta$로 표현할 수 있는 확률분포이며 0~1사이의 값을 갖는다. $$Beta(x\mid \alpha, \beta) = \frac{1}{B(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}$$ B($\alpha, \beta$)는 $\alpha$와 $\beta$에 의해 정해지는 베타함수 $\alpha$와 $\beta$값에 따라 확률분포의 모양과 sampling되는 값이 달라진다. 예시 각각의 아이템 별 추정치를 계산할 때 어떻게 베타분포를.. [Day38] Bandit for Recommendation 10-1 : MAB 개요 & MAB 알고리즘 기초 Bandit은 강화학습에서 많이 사용되지만 구현방법이 간단하면서 좋은 성능을 보이기 때문에 추천시스템에서도 종종 사용한다. Multi-Armed Bandit : MAB One-Armed Bandit =slot machine 한 번에 한 개의 slot machine의 arm을 당길 수 있고 그에 따른 보상을 받게 된다. one-armed bandit을 여러 개로 늘린 문제가 multi-armed bandit이다. 카지노에 k개의 slot machine을 n번 플레이 할 수 있을 때 어떻게 하면 가장 큰 보상을 받을 수 있을까? 보상을 최대화하기 위해서 arm을 어떤 순서로 어떤 정책(policy)에 의해 당겨야하는지를 학습하는 알고리즘이다. 하지만 슬롯머신이 얼마의 확률로 reward를 주는지 정확히는 알.. 이전 1 다음