본문 바로가기

[Day62] DKT 3. Baseline (LGBM, LSTM, Transformer) Sequence 모델링 transcaction data 같은 sequence data를 사용하기 위해서는 feature engineering을 통해 집계해서 non-sequence하게 만들어 사용할 수도 있다. 집계 : Aggregation 다음과 같은 방법으로 feature engineering을 해서 사용할 수 있다. 여러 유저의 신용카드 사용 내역이 있다고 하면 한 유저에 대해서 여러 사용내역이 있게 되고 이것을 한 유저에 대해서 집계할 수 있다. categorical 변수같은 경우는 많이 나온 한 카테고리를 선택할 수도 있다. null이 아닌 것의 횟수를 센다 연속형 변수면 평균을 취한다 하지만 집계하는 과정에서 정보들이 많이 손실된다. 집계하지 않고 transaction을 그대로 sequence..
[Day22] 이미지분류 2. Image Classification & EDA Pipeline중 Data Analysis와 관련된 EDA에 대해서 이야기한다. EDA (Exploratory Data Analysis) :탐색적 데이터 분석 :데이터를 이해하기 위한 노력 처음 데이터를 보게 되면 반드시 하게 된다. 데이터의 정보, 의미를 바로 알 수 없기 때문에 그런 호기심을 해결해 나가는 과정이다. 아주 대표적이고 잘 한 EDA 예시 EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 하지만 뭐부터 분석을 시작해야 할 지 감을 잡기 어려울 수 있다...
[Day11] Data visualization 1-2. 시각화의 요소 데이터 시각화를 위해서는 당연히 데이터가 필요하다 시각화를 진행할 데이터를 보는 관점 데이터셋 관점 Global 전체 데이터의 대해서 개별 데이터의 관점 Local Dataset 종류 정형 데이터 : Tabular 테이블형태이다. csv, tsv 파일 한 행(row)가 데이터 1개, 한 열(column)은 feature 통계적 특성(분포, 평균), feature 사이 관계(수치형 간의 관계, 수치형과 범주형 간의 관계), 데이터간 비교 등을 시각화 할 수 있다. 시계열 데이터 : Time-Series 시간 흐름에 따른 데이터 정형데이터 뿐만 아니라 비디오 같은 비정형 데이터도 시계열로 존재할 수 있다. 추세(Trend), 계절성(Seasonality), 주기성(Cycle)등을 분석할 수 있다. 지리 데이..