[Day38] Bandit for Recommendation 10-1 : MAB 개요 & MAB 알고리즘 기초 Bandit은 강화학습에서 많이 사용되지만 구현방법이 간단하면서 좋은 성능을 보이기 때문에 추천시스템에서도 종종 사용한다. Multi-Armed Bandit : MAB One-Armed Bandit =slot machine 한 번에 한 개의 slot machine의 arm을 당길 수 있고 그에 따른 보상을 받게 된다. one-armed bandit을 여러 개로 늘린 문제가 multi-armed bandit이다. 카지노에 k개의 slot machine을 n번 플레이 할 수 있을 때 어떻게 하면 가장 큰 보상을 받을 수 있을까? 보상을 최대화하기 위해서 arm을 어떤 순서로 어떤 정책(policy)에 의해 당겨야하는지를 학습하는 알고리즘이다. 하지만 슬롯머신이 얼마의 확률로 reward를 주는지 정확히는 알.. [Day32] Collaborative Filtering 4-2 MF & MF for Implicit Feedback Matrix Factorization : MF 유저-아이템 행렬을 저차원의 user와 item의 latent factor 행렬의 곱으로 분해하는 방법 SVD와 달리 관측한 선호도만 모델링에 활용한다. 목표 : 관측되지 않은 선호도를 예측하는 일반적인 모델을 만드는 것 $$R \approx P \times Q^{T} = \widehat{R}$$ $P$ : User Matrix $Q$ : Item Matrix $|U|$ : user의 수 $|I|$ : item의 수 k : latent vector 수 $\widehat{r_{u,i}}$ : true rating = 유저가 매긴 실제 rating값 $p_{u}$ : 유저u의 latent vector $q_{i}$ : 아이템i의 latent vector $P \.. 이전 1 다음