본문 바로가기

[Day31] 추천 시스템 Basic 1-2 추천시스템의 평가 지표와 인기도 기반 추천 추천시스템의 평가지표 비즈니스 / 서비스 관점 추천 시스템을 적용했을 때 매출인 PV(page view)가 증가했느냐 추천 아이템으로 인해 유저의 CTR(Click Through Rate:노출 대비 클릭)이 증가했느냐 품질 관점 연관성 Relevance ex) 40대 남성에게 화장품이 추천되는 상황 다양성 Diversity ex)너무 머그컵만 추천하는 상황 새로움 Novelty ex) 창을 새로고침 할 때 마다 같은 아이템만 추천되는 상황 참신함 Serendipity 품질평가에서의 주요 특징보단 재미요소이다. 연관성과 충돌할 수 있다. Offline Test : 추천 모델을 검증하기 위해 가장 우선적으로 수행되는 단계 데이터를 train/valid/test로 나누어 객관적인 지표로 평가한다. offlin..
[Day31] 추천 시스템 Basic 1-1 추천시스템이란 검색은 사용자의 의도가 담긴 query라는 키워드가 사용된다. 검색을 통해 아이템을 소비하는 것을 pull이라고 하고, 반대로 추천은 push이다. 의도를 가진 키워드를 제공하지 않더라도 item을 흥미나 의도를 고려해서 아이템을 제공한다. 과거에는 유저가 접근할 수 있는 상품이 적어서 추천이 딱히 필요하지 않았다. 하지만 검색 환경이 좋아지고, 상품과 컨텐츠들도 다양해졌다. 많은 아이템들이 Long tail로 분포되며 소비되고 있다. 이렇게 아이템의 갯수가 많아지면 정보를 찾는 시간이 오래 걸리게 되었다. 또한 유저가 원하는 아이템을 찾기위해 어떤 키워드로 검색해야할지 모를 수도 있다. 인기있는 소수의 아이템이 소비되는 면적보다 다수의 아이템이 적게 소비되는 면적이 넓어지게 하는 것이 Long-Tail..
[Day22] 이미지분류 3. Dataset 파일로 존재하는 vanilla data를 모델에 학습하기 위해서 추가적은 과정을 작업한 dataset이 필요하다. pipeline중 Data processing 부분을 거치는 것이다. Pre-processing : 전처리 생각보다 시간이 오래걸리고 중요한 단계이다. 데이터의 반 정도만 쓸 수 있는 상태여도 다행인 정도로 현업에서는 noise가 많은 데이터들이 있다. 학생들은 모델이 주요 작업이라고 생각하지만, 실제로 일하는 사람들에게는 전처리가 가장 힘들고 어려운 과정이다. competition 데이터는 많이 정갈하게 분류된 데이터이다. 좋은 데이터를 모델에 넣어주는 것이 성능이 좋아지는 것은 자명한 사실이다. Image가 가질 수 있는 meta data Bounding Box 사진에서 원하는 objec..
[Day22] 이미지분류 2. Image Classification & EDA Pipeline중 Data Analysis와 관련된 EDA에 대해서 이야기한다. EDA (Exploratory Data Analysis) :탐색적 데이터 분석 :데이터를 이해하기 위한 노력 처음 데이터를 보게 되면 반드시 하게 된다. 데이터의 정보, 의미를 바로 알 수 없기 때문에 그런 호기심을 해결해 나가는 과정이다. 아주 대표적이고 잘 한 EDA 예시 EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 하지만 뭐부터 분석을 시작해야 할 지 감을 잡기 어려울 수 있다...
[Day22] 이미지분류 1. Competition with AI Stages! level1에서의 기본지식을 학습하는 U Stage가 끝나고 P Stage가 시작되었다. P stage에서는 competition(경진대회)을 기반으로 진행되며 U stage보다 코드를 더 많이 쳐보고 실습할 수 있는 기회가 주어진다. 전처리, 학습, 추론 등 전체적인 과정을 거치며 이론을 재구성할 수 있다. Competition 여러 도메인에 대한 competition들이 있고 많은 공부를 할 수 있다. 주어진 데이터로 문제를 해결하기 위해서 주최자(ex. 회사)가 참가자들에게 데이터를 제공하고 참가자들은 데이터를 활용해서 경쟁을 통해 해결한다. Platform Kaggle AI Stages Dacon AI Factory 등등이 있고 훨씬 많은 플랫폼들이 있다. 1. Overview 개요를 보지 않고 ..
[Day22] key파일로 SSH 서버 VS code에 연결 & Github 1.서버를 열면 key 파일이 download 폴더에 다운받아진다. 이 key를 원하는 폴더나 C:\Users\사용자이름\.ssh 폴더로 옮겨준다. 2. windows terminal 을 관리자로 열고 ubuntu로 켜준다. cd와 ls, pwd 명령어로 mnt 아래에 있는 C:\Users\사용자이름\.ssh 로 가서 ls -l 하면 이렇게 권한이 rwxrwxrwx인 것을 확인할 수 있는데, key파일은 보호되야하기 때문에 권한을 변경해주어야 한다. sudo mount -t drvfs C: /mnt/c -o metadata 이렇게 해서 이렇게 권한이 rw-------가 나오면 성공이다. 안 된다면, 이게 windows환경이어서 안 되는 것이기 때문에 ubuntu 서버에서 옮겨서 권한을 바꾸어준 후에 다시..
[Day21] AI 서비스 기초 5. MLflow MLflow가 없을 때 각각 코드를 돌리고, 모델 학습시 사용했던 파라미터나 metric을 따로 기록한다. 학습하며 생긴 weight file을 공유해야하는 상황도 있고, versioning을 귀찮아서 하지 않게 되는 경우도 많다. 또한, 메모리 초과로 학습이 중단되니까 중간에 기록을 하면 좀 더 상황이 좋아질 수 있다. MLflow : 머신러닝 실험, 배포를 쉽게 관리하는 오픈소스 MLflow는 실험 재현 코드 재현 모델 패키징 & 배포 모델 관리를 위한 중앙 저장소 을 위해서 만들어졌다. 해당 기능을 제공하며 머신러닝 라이프 사이클을 관리한다. 모델의 파라미터와 결과를 기록을 해야한다. MLflow에서 자동으로 기록된 기록들을 보고 best 성능을 가져와서 사용하면 된다. MLflow는 모델 메타 정..
[Day21] AI 서비스 기초 특강 5. AI 시대의 커리어 빌딩 Careers in AL AI를 직업으로 가지려면 학교로 가야할까 회사로 가야할까? 논문 -> 학교 상품/서비스 -> 회사 AI를 다루는 회사의 종류 AI for X AI로 기존 비즈니스를 더 잘하려는 회사 AI가 보조수단으로, 비용을 줄이고 품질을 높히는데 활용 AI centric AI로 새로운 비즈니스를 창출하는 회사 AI가 비즈니스의 중심 새로운 가치창출을 AI로 같은 ML Engineer라고 부르더라도 자세히 보면 다른 일들을 하는 경우가 많다. 각 position에 대한 공통적인 표현이 정립되지 않았기 때문에 채용 공고를 잘 읽어보아야 한다. Trends in AI engineering positions 현재는 데이터 준비, 모델링, 평가에 많은 인력이 투입되지만, autoML 등으로 앞으로는 ..