본문 바로가기

부스트캠프 AI Tech 3기/이론 : U-stage

[Day11] Data visualization 1-2. 시각화의 요소

데이터 시각화를 위해서는 당연히 데이터가 필요하다

시각화를 진행할 데이터를 보는 관점

  • 데이터셋 관점 Global
    전체 데이터의 대해서
  • 개별 데이터의 관점 Local

Dataset 종류

  • 정형 데이터 : Tabular
    테이블형태이다. csv, tsv 파일
    한 행(row)가 데이터 1개, 한 열(column)은 feature
    통계적 특성(분포, 평균), feature 사이 관계(수치형 간의 관계, 수치형과 범주형 간의 관계), 데이터간 비교 등을 시각화 할 수 있다. 
  • 시계열 데이터 : Time-Series
    시간 흐름에 따른 데이터
    정형데이터 뿐만 아니라 비디오 같은 비정형 데이터도 시계열로 존재할 수 있다.
    추세(Trend), 계절성(Seasonality), 주기성(Cycle)등을 분석할 수 있다.
  • 지리 데이터 : Geospatial
    지도정보와 시각화
    거리, 경로, 분포 등 어떻게 실제로 사용할 수 있을지에 초점
  • 관계형(네트워크) 데이트 : graph/network visualization
    객체와 객체 간의 관계를 시각화한다.
    객체는 node, 관계는 link로 표시한다.
    지리데이터나 정형데이터 등을 관계데이터로 바꿔서 볼 수 있다.
    json, 2d array, linked list 등으로 전달된다.
    크기, 색, 수 등으로 객체와 관계의 가중치를 표현할 수 있다.
  • 계층적 데이터
    네트워크 시각화로도 가능하지만 그 안에서도 포함관계가 분명한 데이터에 쓰인다
    tree, treemap,sunburst와 같은 데이터 시각화 방법을 사용한다
  • 비정형데이터

데이터의 종류

수치형 numerical

  • 연속형 continuous
    사이의 모든 실수 값들이 가능함
    길이, 무게 등
  • 이산형 discrete
    소수점이 없는 것
    주사위, 횟수, 사람 수 등

범주형 categorical

수로 표현되지만 텍스트로 되어 있는 것, 연속성이 없음

  • 명목형 nominal
    순서가 중요하지 않음, 크기 비교가 없음
    혈액형 등
  • 순서형 ordinal
    순서가 중요
    등급, 학년 등

시각화 구성요소

마크 mark

그래픽에서 가장 기본적인 요소 -> 점, 선, 면

채널 channel(visual channel)

마크에서 변형할 수 있는 것

모양, 길이, 색 등

  • 전주의적 속성 : pre-attentive attribute
    주의를 주지 않아도 인지하게 되는 요소
    ex) 기울기, 길이, 모양, 색 등
    동시에 사용하면 인지하기 어려워서 적절하게 사용해서 visual pop-out(시각적 분리)을 잘 일어나게 하면 가독성이 좋아진다.