본문 바로가기

[Day41] Movie Rec 5. Recommendations with Side-information Limitation of Collaborative Filtering CF는 기본적으로 user-item interaction matrix가 주어졌을 때, 이로부터 사용자와 아이템 간의 숨겨진 패턴을 찾아내고 이를 추천에 활용한다. 하지만 실제로 이런 가정이 성립하지 않는 추천도 존재한다. cold-start interaction data가 충분하지 않아서 user-item의 latent vector를 잘 학습할 수 없게 되는 cold-start problem이 존재한다. 새로운 사용자에게는 most popular item이 추천되는 현상이 일어난다. 그래서 이를 보완하기 위해서 item의 side-information을 활용하는 content-based 추천을 사용하면 된다. temporal evolut..
[Day41] Movie Rec 4. Collaborative Filtering (2) Deep Learning-based Collaborative Filtering 추천시스템에서 DL 모델의 장점 Nonlinear Transformation을 활용해서 복잡한 user-item interaction을 포착한다. 강력한 representation learning 능력을 가지고 있기 때문에 feature engineering에 많이 노력하지 않아도 된다. 비디오, 사진, 음성 등다양한 heterogeneous(여러 다른 종류들로 이뤄진) 정보를 포함할 수 있다. sequence modeling이 가능하다 다양한 network 구조들을 쉽게 결합할 수 있다. 추천시스템에서 DL 모델의 한계 어떤 weight가 어떤 의미를 갖는지 해석할 수 없다. 많은 양의 데이터가 성능을 위해 필요하다. 하이퍼..
[Day40] Movie Rec 3. Collaborative Filtering (1) Memory-based Collaborative Filtering 사용자나 아이템간의 similarity에 근거하고 있는 방법 이를 활용하여 rating prediction과 top-K ranking에 모두 적용될 수 있다. Similarity Metrics Jaccarrard similarity 집합들간의 포함관계 Cosine similarity 서로 다른 두 벡터 간의 각 거리 Pearson similairity cosine similarity와 유사하지만 평균을 뺀 잔차값을 다룬다 Memory-based CF for Rating Prediction memory기반 CF를 rating prediction에 적용할 때는 휴리스틱 룰을 사용한다. 사용자가 아이템에 부여할 평점은 다른 유사한 사용자가 직접..
[Day32] Collaborative Filtering 4-1 MBCF & SVD NBCF의 한계 Sparsity(희소성) 문제 데이터가 충분하지 않다면 추천성능이 떨어진다. 유사도 계산이 부정확하기 떄문에 성능도 떨어진다. 데이터가 부족하거나 혹은 아예 없는 유저, 아이템의 경우 추천이 불가능하다. (Cold Start) Scalability(확장성) 문제 유저와 아이템 수가 늘어날수록 유사도 계산도 늘어나 시간이 오래 걸린다 하지만 데이터양이 많아지기 때문에 정확한 예측을 한다. MBCF : Model Based Collaborative Filtering 항목 간 유사성을 비교하는 것에서 벗어나 데이터에 내재한 패턴을 이용해 추천하는 CF기법 SVD Matrix Factorization Deep learning NBCF MBCF non parametric 파라미터를 학습하지 않는다..
[Day32] Collaborative Filtering 3-2 K-Nearest Neighbors CF&Similarity Functions& Rating Prediction Rating Prediction ※ 설명은 user-based이지만 동작 방식은 user-based나 item-based나 같습니다. UBCF(User-based Collaborative Filter) - Absolute Rating 영화 V 영화 W 영화 X 영화 Y 영화 Z User A 5 4 5 2 1 User B 4 5 ? 1 2 User C 2 1 1 4 5 User D 4 2 3 2 4 Average 영화X를 본 다른 유저들의 평균을 내서 rating으로 사용 $$\frac{5+1+3}{3}$$ $$\hat{r}(u,i)=\frac{\Sigma_{u'\in\omega_{i} r(u',i)}}{|\Omega_{i}|}$$ ※전체 유저 : U, 아이템 : I, 유저 (여기서는 지금 rating p..
[Day31] 추천 시스템 Basic 2-2 TF-IDF를 활용한 컨텐츠 기반 추천 컨텐츠 기반 추천 Content-based Recommendation 사용자가 과거에 선호한 아이템과 비슷한 아이템을 그 사용자에게 추천 ex) 같은 장르의 음악 장점 단점 다른 유저의 데이터가 필요하지 않음 아이템의 적합한 피쳐를 찾는 것이 어려움 :이미지냐 텍스트냐에 따라 feature preprocessing도 달라져 시간이 오래 걸린다. 새로운 아이템이나 인기도가 낮은 아이템을 추천할 수 있음 한 분야의 추천 결과가 계속 나온다 overspecialization 설명 가능 다른 유저의 데이터 활용 불가 Item Profile item이 가진 부가정보로 feature를 찾아서 item profile을 만들어야 한다. 아이템이 가진 feature를 vector형태로 표현하는 것이 쉽다. 하나의 fea..