본문 바로가기

[DB] Data Modeling : Conceptual 강의자료 : https://drive.google.com/open?id=1GJmHMa2GwkHKNPYEweuPEvY5jZ-_z43t&authuser=delab%40kookmin.ac.kr&usp=driData Modeling: 데이터 베이스를 설계하는 일련의 과정아래 두 단계로 나뉘어 수행된다.Conceptual ModelingLogical ModelingDatabase : DB : 데이터 저장소: 데이터 및 데이터간 관계의 집합데이터가 많을 때 효율적으로 관리하기 위해서 DB 필요대용량의 데이터를 많은 사용자들이 동시에 접속할 일이 있을 때 Database를 사용한다 Database SystemDBMS : Database Management Systems사용자가 Database에 접근할 수 있도록 지원..
[Day80] Product Serving 1-2 MLOps 개론 MLOps 개론 모델 개발 프로세스(Research) 문제정의 EDA 데이터 특성 확인 Feature Engineering Train Predict 보통 주피터 노트북으로 GPU instance 안에서 고정된 데이터를 사용해 학습했을 것이다. 학습된 모델을 웹 등의 서비스에서 사용할 수 있도록 하는 과정을 real world환경 / production 환경에 모델을 배포한다고 한다. 모델 개발 프로세스(Production) 문제정의 EDA Feature Engineering Train Predict Deploy 웹이나 앱에서 활용할 수 있게 만드는 과정 모델에 input을 제공하고 output을 요청 모델이 배포되었다고 가정하면 모델의 결과값이 이상할 수 있다. 그럴 때는 원인을 알아보고, input값을..
[Day22] 이미지분류 3. Dataset 파일로 존재하는 vanilla data를 모델에 학습하기 위해서 추가적은 과정을 작업한 dataset이 필요하다. pipeline중 Data processing 부분을 거치는 것이다. Pre-processing : 전처리 생각보다 시간이 오래걸리고 중요한 단계이다. 데이터의 반 정도만 쓸 수 있는 상태여도 다행인 정도로 현업에서는 noise가 많은 데이터들이 있다. 학생들은 모델이 주요 작업이라고 생각하지만, 실제로 일하는 사람들에게는 전처리가 가장 힘들고 어려운 과정이다. competition 데이터는 많이 정갈하게 분류된 데이터이다. 좋은 데이터를 모델에 넣어주는 것이 성능이 좋아지는 것은 자명한 사실이다. Image가 가질 수 있는 meta data Bounding Box 사진에서 원하는 objec..
[Day22] 이미지분류 2. Image Classification & EDA Pipeline중 Data Analysis와 관련된 EDA에 대해서 이야기한다. EDA (Exploratory Data Analysis) :탐색적 데이터 분석 :데이터를 이해하기 위한 노력 처음 데이터를 보게 되면 반드시 하게 된다. 데이터의 정보, 의미를 바로 알 수 없기 때문에 그런 호기심을 해결해 나가는 과정이다. 아주 대표적이고 잘 한 EDA 예시 EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 하지만 뭐부터 분석을 시작해야 할 지 감을 잡기 어려울 수 있다...
[Day15] DL Basic 7. Sequential Models - RNN Sequential Model 입력이 Sequential data이다. ex) audio, video sequential data 를 처리할 때 data 입력의 차원을 알 수 없다는 점이 가장 힘들다. 언제 말이나 소리가 끝날지 알기 어렵기 때문이다. Naive sequention model 입력이 여러개 들어왔을 때 다음에 들어올 입력을 예측하는 것 $$p(x_{t}|x_{t-1}, x_{t-1, \dotsb})$$ 그 전 입력들을 다 고려해야한다. Autoregressive model 과거 n개에만 의존하는 것 Markov model : first-order autoregressive model 바로 전 과거에만 의존 많은 정보를 버릴 수 밖에 없게 된다. Latent autoregressive mo..
[Day12] Data Viz 4-1. Seaborn 소개 Seaborn python matplotlib 기반 통계 데이터분석 라이브러리 통계적인 정보나 데이터를 살피는데에 적합하다. 문법이 쉽고 디자인이 깔끔하다. pip install seaborn==0.11 0.10과 0.11이 많이 다르다. import seaborn as sns 를 관용적으로 많이 사용한다.
[Day12] Data Viz 3-4. More Tips Grid 이해하기 단순히 x, y축만 있는 것이 아니다. Default Grid 축과 평행한 선을 사용해서 값 정보를 보조적으로 알 수 있게 해준다. 무채색 plot에 나타나는 표현과 겹치지 않게 하기 위해서 회색 점선 맨 아래 layer zorder를 순서 상 맨 밑에 오도록 조정하기 다양한 타입의 grid matplotlib에서는 제공하지 않는 grid x+y=c feature의 절대적인 값(합)이 중요한 경우 y=cx feature의 비율이 중요한 경우 기울기가 중요한 경우 극좌표계와 같이 사용 (x-x')^2 + (y-y')^2 = c 동심원 그리드 특정 값을 기준으로 거리를 살펴볼 수 있다. 가까울 수록 그 값과 비슷하다고 여겨진다. cluster를 만들 때 가독성이 좋다. Simple한 처리 ..
[Day12] Data Visualization 3-2. Color 사용하기 Color에 대한 이해 데이터를 구분하는데 있어서 가장 중요한 요소는 색이다. 색 조합, 깔끔함이 중요하다. 화려한 것이 좋은 것은 아니다. 원하는 인사이트를 전달할 수 있게 적재적소에 사용하는 것이 좋다. 이미 사람들은 색에 대한 공통적인 감각을 가지고 있으니 이를 활용하는 것이 좋다. Color Palette의 종류 범주형 Categorical =discrete, qualitative 범주에 따라 구분을 지어주어야하기 때문에 독립된 색상으로 구성되어 있다 채도나 명도로 차이를 두는 것은 좋지 않다. 연속형 Sequential 정렬된 값을 가지는 연속형, 순서형에 적합하다 색상은 단일한 색조로 표현하되 검정이나 흰색으로 시작을 해서 그라데이션을 주면 좋다 발산형 Diverge 상반된 값을 표현하는데 적..