[Day38] Bandit for Recommendation 10-2 : MAB 알고리즘 심화 : Thompson Samling, LinUCB Thompson Sampling 각 action에 대해 reward를 계산할 때 확률 분포를 사용한다. 주어진 k개의 action각각이 베타 분포를 따른다고 가정하고 확률분포를 업데이트한다. 베타 분포 두 개의 양의 변수 $\alpha$와 $\beta$로 표현할 수 있는 확률분포이며 0~1사이의 값을 갖는다. $$Beta(x\mid \alpha, \beta) = \frac{1}{B(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}$$ B($\alpha, \beta$)는 $\alpha$와 $\beta$에 의해 정해지는 베타함수 $\alpha$와 $\beta$값에 따라 확률분포의 모양과 sampling되는 값이 달라진다. 예시 각각의 아이템 별 추정치를 계산할 때 어떻게 베타분포를.. 이전 1 다음