데이터 시각화를 위해서는 당연히 데이터가 필요하다
시각화를 진행할 데이터를 보는 관점
- 데이터셋 관점 Global
전체 데이터의 대해서 - 개별 데이터의 관점 Local
Dataset 종류
- 정형 데이터 : Tabular
테이블형태이다. csv, tsv 파일
한 행(row)가 데이터 1개, 한 열(column)은 feature
통계적 특성(분포, 평균), feature 사이 관계(수치형 간의 관계, 수치형과 범주형 간의 관계), 데이터간 비교 등을 시각화 할 수 있다. - 시계열 데이터 : Time-Series
시간 흐름에 따른 데이터
정형데이터 뿐만 아니라 비디오 같은 비정형 데이터도 시계열로 존재할 수 있다.
추세(Trend), 계절성(Seasonality), 주기성(Cycle)등을 분석할 수 있다. - 지리 데이터 : Geospatial
지도정보와 시각화
거리, 경로, 분포 등 어떻게 실제로 사용할 수 있을지에 초점 - 관계형(네트워크) 데이트 : graph/network visualization
객체와 객체 간의 관계를 시각화한다.
객체는 node, 관계는 link로 표시한다.
지리데이터나 정형데이터 등을 관계데이터로 바꿔서 볼 수 있다.
json, 2d array, linked list 등으로 전달된다.
크기, 색, 수 등으로 객체와 관계의 가중치를 표현할 수 있다. - 계층적 데이터
네트워크 시각화로도 가능하지만 그 안에서도 포함관계가 분명한 데이터에 쓰인다
tree, treemap,sunburst와 같은 데이터 시각화 방법을 사용한다 - 비정형데이터
데이터의 종류
수치형 numerical
- 연속형 continuous
사이의 모든 실수 값들이 가능함
길이, 무게 등 - 이산형 discrete
소수점이 없는 것
주사위, 횟수, 사람 수 등
범주형 categorical
수로 표현되지만 텍스트로 되어 있는 것, 연속성이 없음
- 명목형 nominal
순서가 중요하지 않음, 크기 비교가 없음
혈액형 등 - 순서형 ordinal
순서가 중요
등급, 학년 등
시각화 구성요소
마크 mark
그래픽에서 가장 기본적인 요소 -> 점, 선, 면
채널 channel(visual channel)
마크에서 변형할 수 있는 것
모양, 길이, 색 등
- 전주의적 속성 : pre-attentive attribute
주의를 주지 않아도 인지하게 되는 요소
ex) 기울기, 길이, 모양, 색 등
동시에 사용하면 인지하기 어려워서 적절하게 사용해서 visual pop-out(시각적 분리)을 잘 일어나게 하면 가독성이 좋아진다.
'부스트캠프 AI Tech 3기 > 이론 : U-stage' 카테고리의 다른 글
[Day11] Data Visualization 2-2. Line Plot (0) | 2022.02.04 |
---|---|
[Day11] Data Visualization 2-1. Bar plot (0) | 2022.02.03 |
[Day10] Pytorch 10. Troubleshooting (0) | 2022.01.28 |
[Day10] Pytorch 9. Hyperparameter Tuning (0) | 2022.01.28 |
[Day10] Pytorch 8. Multi-GPU 학습 (0) | 2022.01.28 |