본문 바로가기

[Day12] Data Viz 4-1. Seaborn 소개 Seaborn python matplotlib 기반 통계 데이터분석 라이브러리 통계적인 정보나 데이터를 살피는데에 적합하다. 문법이 쉽고 디자인이 깔끔하다. pip install seaborn==0.11 0.10과 0.11이 많이 다르다. import seaborn as sns 를 관용적으로 많이 사용한다.
[Day12] Data Viz 3-4. More Tips Grid 이해하기 단순히 x, y축만 있는 것이 아니다. Default Grid 축과 평행한 선을 사용해서 값 정보를 보조적으로 알 수 있게 해준다. 무채색 plot에 나타나는 표현과 겹치지 않게 하기 위해서 회색 점선 맨 아래 layer zorder를 순서 상 맨 밑에 오도록 조정하기 다양한 타입의 grid matplotlib에서는 제공하지 않는 grid x+y=c feature의 절대적인 값(합)이 중요한 경우 y=cx feature의 비율이 중요한 경우 기울기가 중요한 경우 극좌표계와 같이 사용 (x-x')^2 + (y-y')^2 = c 동심원 그리드 특정 값을 기준으로 거리를 살펴볼 수 있다. 가까울 수록 그 값과 비슷하다고 여겨진다. cluster를 만들 때 가독성이 좋다. Simple한 처리 ..
[Day12] Data Viz 3-3. Facet 사용하기 Facet : 분할 화면에 대한 분할 여러 개의 view로 다양한 관점을 전달한다. 또한 자세한 정보를 추가 전달할 수 있다. 같은 dataset에서 다른 encoding을 통해 다른 인사이트를 전달 ex) 막대그래프(비율 비교) vs Pie chart(백분위 비교) 같은 방법으로 동시에 여러 feature를 볼 수 있다 ex)multiple bar plot 큰 틀에서 볼 수 없는 부분을 세세하게 보여줄 수 있다 ex) line plot을 smoothing한 부분을 일부 보여주기 Facet 만들기 결국 분할을 하는 것이 subplot 을 만드는 것이다. plt.subplot() 을 여러 개 plt.figure + fir.add_subplot()으로 여러 개 추가 plt.subplots()로 한 번에 많이..
[Day12] Data Visualization 3-2. Color 사용하기 Color에 대한 이해 데이터를 구분하는데 있어서 가장 중요한 요소는 색이다. 색 조합, 깔끔함이 중요하다. 화려한 것이 좋은 것은 아니다. 원하는 인사이트를 전달할 수 있게 적재적소에 사용하는 것이 좋다. 이미 사람들은 색에 대한 공통적인 감각을 가지고 있으니 이를 활용하는 것이 좋다. Color Palette의 종류 범주형 Categorical =discrete, qualitative 범주에 따라 구분을 지어주어야하기 때문에 독립된 색상으로 구성되어 있다 채도나 명도로 차이를 두는 것은 좋지 않다. 연속형 Sequential 정렬된 값을 가지는 연속형, 순서형에 적합하다 색상은 단일한 색조로 표현하되 검정이나 흰색으로 시작을 해서 그라데이션을 주면 좋다 발산형 Diverge 상반된 값을 표현하는데 적..
[Day12] Data visualization 3-1. Text 사용하기 잘못된 이해를 방지하기 위해 사용 시각적 자료로 할 수 없는 설명을 추가할 수 있다 Figure에서의 text Title subplot의 title과 전체 figure의 title 을 다르게 줄 수 있다 Label x축, y축이 이야기 하고 있는 것 축 라벨(tick label)보다는 크고 잘 보여야 한다. Legend 범례 보조 정보를 제공 annotation, text 두 요소가 다르지만 편한 것 사용하기
[Day11] Data Visualization 2-3. Scatter Plot Scatter Plot =산점도 점을 사용해서 두 feature간의 관계를 나타낼 수 있다. .scatter() scatter components 색 : color 연속은 gradient, 이산은 개별 색상으로 표현 가장 뚜렷하게 잘 구분할 수 있다 모양 : marker 구별이 힘들고 점이 많아질수록 더 어렵다 또한 마커마다의 면적차이 때문에 인지차이가 있다 크기 : size 버블 차트(bubble chart) 구별은 쉽지만 오해하기 쉽다. 원의 크기가 작다고 값의 크기가 작은 것은 아닐 수 있다 Scatter plot의 목적 1. 상관관계 확인 정비례 : 양의 상관관계 : positive correlations x값이 커지면 y도 커지는 경향성 음의 상관관계 : negative correlations ..
[Day11] Data Visualization 2-2. Line Plot Line Plot Line Plot =Line chart = Line graph =꺾은선 그래프 = 선그래프 연속적으로 변화하는 값을 점으로 나타내고 선으로 이은 그래프 시간과 순서에 대한 변화를 살핀다. 점간의 기울기, 차이가 중요한 정보로 사용된다. Line Plot의 요소 선은 중첩되면 잘 보이지 않는다. 그래서 잘 구분하기 위해서 색상 : color 마커 : marker, marker size 선의 종류 : linestyle, linewidth 를 다르게 사용해서 구분한다. Line Plot 을 위한 전처리 시간단위가 너무 작으면 노이즈나 에러가 심해져서 패턴 파악이 잘 되지 않는다. 그래서 smoothing을 한다. sliding window, moving average(이동 평균)과 같은 방법..
[Day11] Data Visualization 2-1. Bar plot 막대 그래프 = Bar chart, Bar graph, bar plot 직사각형 막대를 사용해서 데이터를 표현하는 그래프 범주(category)형을 비교하기에 적합하다. 방향에 따른 분류 .bar() : 수직 방향 : vertical x축에 범주, y축에 값 .barh() : 수평 방향 : horizontal y축에 범주, z축에 값 다양한 Bar Plot 1. Multiple Bar plot 그룹별로 각각 plot을 그려 여러 개의 bar plot을 그리는 방법 stacked bar plot 각 그룹을 같은 범주끼리 쌓아준다 쌓는 순서를 같게 유지하고 수량을 annotation을 달아주는 것이 효과적이다. .bar(bottom='') .barh(left='')​ 로 구현한다. Overlapped Bar..