본문 바로가기

[Day40] Movie Rec 3. Collaborative Filtering (1) Memory-based Collaborative Filtering 사용자나 아이템간의 similarity에 근거하고 있는 방법 이를 활용하여 rating prediction과 top-K ranking에 모두 적용될 수 있다. Similarity Metrics Jaccarrard similarity 집합들간의 포함관계 Cosine similarity 서로 다른 두 벡터 간의 각 거리 Pearson similairity cosine similarity와 유사하지만 평균을 뺀 잔차값을 다룬다 Memory-based CF for Rating Prediction memory기반 CF를 rating prediction에 적용할 때는 휴리스틱 룰을 사용한다. 사용자가 아이템에 부여할 평점은 다른 유사한 사용자가 직접..
[Day40] Movie Rec 2. Research Directions and Resources Interesting Reseasrch Directions SOTA RecSys 연구의 근간이 되는 논문들을 살펴보자 Matrix Factorization 사용자와 아이템의 저차원 표현을 학습한다. 명시적인 아이템이나 사용자의 feature를 사용하지 않고도 잠재적인 표현을 학습하기 때문에 latent factor model이라고 한다. R이라는 상호작용 matrix를 $\gamma_U$와 $\gamma_I$로 분해했을 때 $\gamma_U$의 한 행은 유저의 preference를 의미하고 $\gamma_I$의 한 열은 아이템의 특징을 의미한다. $\gamma_U$와 $\gamma_I$를 같은 공간상에 도식화 했을 때, 각 축이 의미하는 것은 장르, 나이 등 하나의 의미를 갖는 축이 된다. explici..
[Day40] Movie Rec 1. 추천 시스템 개요 및 대회 소개 추천 시스템 소개 사용자가 사용한 아이템에 대해 제안을 제공하는 소프트웨어 도구나 기술 일상생활에서 접하고 있는 다양한 개인화된 서비스의 일종 목적 사용자의 선호를 모델링하고 이를 통해 비즈니스 목표를 달성하는 것 사례 netflix, facebook, alibaba Personalized Education : 지식 수준 모델링을 해서 학습 컨텐츠 제공 Personalized Healthcare : 질병 진단, 의약품 처방 이력을 종합해서 미래의 질병 예측 기존 ML 방법론과의 차이 사용자와 아이템의 로그 데이터를 바탕으로 사용자가 좋아할만한 아이템을 추천한다. 기존 ML 지도학습의 하나인 Logistic Regression으로 수행해보자 $$rating(user,item) = f(user,item)=W..
[Day22] 이미지분류 3. Dataset 파일로 존재하는 vanilla data를 모델에 학습하기 위해서 추가적은 과정을 작업한 dataset이 필요하다. pipeline중 Data processing 부분을 거치는 것이다. Pre-processing : 전처리 생각보다 시간이 오래걸리고 중요한 단계이다. 데이터의 반 정도만 쓸 수 있는 상태여도 다행인 정도로 현업에서는 noise가 많은 데이터들이 있다. 학생들은 모델이 주요 작업이라고 생각하지만, 실제로 일하는 사람들에게는 전처리가 가장 힘들고 어려운 과정이다. competition 데이터는 많이 정갈하게 분류된 데이터이다. 좋은 데이터를 모델에 넣어주는 것이 성능이 좋아지는 것은 자명한 사실이다. Image가 가질 수 있는 meta data Bounding Box 사진에서 원하는 objec..
[Day22] 이미지분류 2. Image Classification & EDA Pipeline중 Data Analysis와 관련된 EDA에 대해서 이야기한다. EDA (Exploratory Data Analysis) :탐색적 데이터 분석 :데이터를 이해하기 위한 노력 처음 데이터를 보게 되면 반드시 하게 된다. 데이터의 정보, 의미를 바로 알 수 없기 때문에 그런 호기심을 해결해 나가는 과정이다. 아주 대표적이고 잘 한 EDA 예시 EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 하지만 뭐부터 분석을 시작해야 할 지 감을 잡기 어려울 수 있다...
[Day22] 이미지분류 1. Competition with AI Stages! level1에서의 기본지식을 학습하는 U Stage가 끝나고 P Stage가 시작되었다. P stage에서는 competition(경진대회)을 기반으로 진행되며 U stage보다 코드를 더 많이 쳐보고 실습할 수 있는 기회가 주어진다. 전처리, 학습, 추론 등 전체적인 과정을 거치며 이론을 재구성할 수 있다. Competition 여러 도메인에 대한 competition들이 있고 많은 공부를 할 수 있다. 주어진 데이터로 문제를 해결하기 위해서 주최자(ex. 회사)가 참가자들에게 데이터를 제공하고 참가자들은 데이터를 활용해서 경쟁을 통해 해결한다. Platform Kaggle AI Stages Dacon AI Factory 등등이 있고 훨씬 많은 플랫폼들이 있다. 1. Overview 개요를 보지 않고 ..
[Day22] key파일로 SSH 서버 VS code에 연결 & Github 1.서버를 열면 key 파일이 download 폴더에 다운받아진다. 이 key를 원하는 폴더나 C:\Users\사용자이름\.ssh 폴더로 옮겨준다. 2. windows terminal 을 관리자로 열고 ubuntu로 켜준다. cd와 ls, pwd 명령어로 mnt 아래에 있는 C:\Users\사용자이름\.ssh 로 가서 ls -l 하면 이렇게 권한이 rwxrwxrwx인 것을 확인할 수 있는데, key파일은 보호되야하기 때문에 권한을 변경해주어야 한다. sudo mount -t drvfs C: /mnt/c -o metadata 이렇게 해서 이렇게 권한이 rw-------가 나오면 성공이다. 안 된다면, 이게 windows환경이어서 안 되는 것이기 때문에 ubuntu 서버에서 옮겨서 권한을 바꾸어준 후에 다시..