Scatter Plot
=산점도
점을 사용해서 두 feature간의 관계를 나타낼 수 있다.
.scatter()
scatter components
- 색 : color
연속은 gradient, 이산은 개별 색상으로 표현
가장 뚜렷하게 잘 구분할 수 있다 - 모양 : marker
구별이 힘들고 점이 많아질수록 더 어렵다
또한 마커마다의 면적차이 때문에 인지차이가 있다 - 크기 : size
버블 차트(bubble chart)
구별은 쉽지만 오해하기 쉽다.
원의 크기가 작다고 값의 크기가 작은 것은 아닐 수 있다
Scatter plot의 목적
1. 상관관계 확인
- 정비례 : 양의 상관관계 : positive correlations
x값이 커지면 y도 커지는 경향성 - 음의 상관관계 : negative correlations
x값이 커지면 y은 작아지는 경향성 - 상관관계 없음 : No correlation
피어슨계수, 공분산 등을 확인해서 상관관계를 수치화할 수 있다
2. 군집 파악 : Cluster
데이터가 어떻게 묶여있는지 확인
DBSCAN, KNN, TSNE 등의 군집 알고리즘과 같이 많이 사용한다.
3. Gap In Values
값 간의 차이를 파악해서 전처리나 보간을 할지 결정할 수 있다.
4. 이상치 : Outlier
데이터과 많이 떨어져 있음
Scatterplot 사용법
1. Overplotting
점이 많아질수록 겹쳐서 잘 안 보여서 분포를 파악하기 어렵다
- 투명도 조정 : transparency
겹쳤을 때 조금 더 진해져서 밀도가 높다는 것을 파악할 수 있다.
- 지터링 : jittering
점의 위치를 약간씩 변경해서 보이게 해준다.
- 2차원 히스토그램
x,y축에 구간을 나누어서 heatmap형식으로 표현한다.
- contour plot
=등고선 그래프
등고선이 좁을수록 데이터가 조밀한 것이다.
2. 인과관계와 상관관계
인과관계와 상관관계는 다르다
- 인과 관계 : causal relation
ex)x축 때문에 y축이 변한다 - 상관 관계 : correlation
ex)x축이 커지면 y축 값도 커진다
상관관계가 꼭 인과관계로 연결되는 것은 아니다.
3. 추세선
상관관계가 있을 때 추세선으로 패턴을 보여주는 것이 좋다.
선과 uncertainty 정보를 같이 제공할 수 있다.
추세선이 2개 이상 한 그래프에 그려지게 되면 가독성이 떨어지기 때문에
한 개의 그룹의 분포를 살필 떄만 사용하는 것이 좋다.
4. Grid
grid는 scatter plot에서는 사용하지 않는 것이 좋다.
'부스트캠프 AI Tech 3기 > 이론 : U-stage' 카테고리의 다른 글
[Day12] Data Visualization 3-2. Color 사용하기 (0) | 2022.02.06 |
---|---|
[Day12] Data visualization 3-1. Text 사용하기 (0) | 2022.02.04 |
[Day11] Data Visualization 2-2. Line Plot (0) | 2022.02.04 |
[Day11] Data Visualization 2-1. Bar plot (0) | 2022.02.03 |
[Day11] Data visualization 1-2. 시각화의 요소 (0) | 2022.02.03 |