본문 바로가기

부스트캠프 AI Tech 3기/이론 : U-stage

[Day11] Data Visualization 2-3. Scatter Plot

Scatter Plot

=산점도

점을 사용해서 두 feature간의 관계를 나타낼 수 있다.

.scatter()

 

scatter components

  • 색 : color
    연속은 gradient, 이산은 개별 색상으로 표현
    가장 뚜렷하게 잘 구분할 수 있다
  • 모양 : marker
    구별이 힘들고 점이 많아질수록 더 어렵다
    또한 마커마다의 면적차이 때문에 인지차이가 있다
  • 크기 : size
    버블 차트(bubble chart)
    구별은 쉽지만 오해하기 쉽다.
    원의 크기가 작다고 값의 크기가 작은 것은 아닐 수 있다

Scatter plot의 목적

1. 상관관계 확인

  • 정비례 : 양의 상관관계 : positive correlations
    x값이 커지면 y도 커지는 경향성
  • 음의 상관관계 : negative correlations
    x값이 커지면 y은 작아지는 경향성
  • 상관관계 없음 : No correlation

피어슨계수, 공분산 등을 확인해서 상관관계를 수치화할 수 있다

2. 군집 파악 : Cluster

데이터가 어떻게 묶여있는지 확인

DBSCAN, KNN, TSNE 등의 군집 알고리즘과 같이 많이 사용한다.

3. Gap In Values

값 간의 차이를 파악해서 전처리나 보간을 할지 결정할 수 있다.

4. 이상치 : Outlier

데이터과 많이 떨어져 있음

Scatterplot 사용법

1. Overplotting

점이 많아질수록 겹쳐서 잘 안 보여서 분포를 파악하기 어렵다

  • 투명도 조정 : transparency
    겹쳤을 때 조금 더 진해져서 밀도가 높다는 것을 파악할 수 있다.
  • 지터링 : jittering
    점의 위치를 약간씩 변경해서 보이게 해준다.
    https://www.statworx.com/en/content-hub/blog/how-not-to-overplot/
  • 2차원 히스토그램
    x,y축에 구간을 나누어서 heatmap형식으로 표현한다.
  • contour plot
    =등고선 그래프
    등고선이 좁을수록 데이터가 조밀한 것이다.

2. 인과관계와 상관관계

인과관계와 상관관계는 다르다

  • 인과 관계 : causal relation
    ex)x축 때문에 y축이 변한다

  • 상관 관계 : correlation
    ex)x축이 커지면 y축 값도 커진다

상관관계가 꼭 인과관계로 연결되는 것은 아니다.

 

3. 추세선

상관관계가 있을 때 추세선으로 패턴을 보여주는 것이 좋다.

선과 uncertainty 정보를 같이 제공할 수 있다.

추세선이 2개 이상 한 그래프에 그려지게 되면 가독성이 떨어지기 때문에

한 개의 그룹의 분포를 살필 떄만 사용하는 것이 좋다.

 

4. Grid

grid는 scatter plot에서는 사용하지 않는 것이 좋다.