파이썬의 대표적인 시각화 도구로는 matplotlib과 seaborn이 있다.
seaborn은 matplotlib에 비해 쉽게 그래프를 그리고 그래프 스타일을 설정할 수 있다.
정교하게 그래프의 크기나 각 축의 범례 값을 조절할 떄에는 matplotlib을 함께 사용해야 한다.
Seaborn 라이브러리에서 제공해주는 그래프의 종류
라이브러리 임포트
import seaborn as sns
#seaborn에서 제공하는 flights 데이터 셋을 사용
flights = sns.load_dataset('flights')
#그래프 사이즈 설정
plt.figure(figsize=(12, 3))
Barplot - 막대그래프
sns.barplot(data=flights, x='year', y='passengers')
flights 데이터 프레임의 x축에는 year 칼럼의 값을, y축에는 passengers 컬럼의 값을 도식화한다. x축에 사용한 year값은 정수형 데이터로 barplot을 그리기 적합한 형태의 데이터이다. 만약 x축으로 사용할 값이 소수점을 포함한 실수형의 연속데이터라면 barplot이 굉장히 세밀하게 표시되어 그래프를 이해하기 어려운 형태가 되기 때문에 barplot과 같이 Categorical Plot을 사용할 때에는 실수타입의 연속형 데이터가 x축에 설정되지 않도록 하는 것이 좋다.
각각의 값에 검정색 막대가 꽂혀 있는 것은 데이터의 신뢰구간을 나타낸다.
(신뢰구간: 모수가 실제로 포함될 것으로 예측되는 범위)
Boxplot
sns.boxplot(data=flights, x="year", y="passengers")
Violineplot
sns.violinplot(data=flights, x="year", y="passengers")
Swarmplot
sns.swarmplot(data=flights, x="year", y="passengers")
Boxplot, Violinplot, Swarmplot은 barplot과 유사하게 x축(연도)별 y축(승객 수) 값을 표시하지만, 하나의 대표값으로 표시하는 것이 아니라 데이터의 분포를 확인할 수 있도록 표시한다.
Lineplot - 선 그래프를 도식화
sns.lineplot(data=flights, x="year", y="passengers")
barplot의 가장 상위 점을 하나의 선으로 이은 형태의 그래프이다. 선 주변의 옅은 파란색은 데이터의 신뢰구간을 표시한 것이다.
Distplot
sns.distplot(flights["passengers"])
displot은 하나의 데이터에 대해 분포를 확인할 때 사용한다.
displot에서는 막대(bin)를 사용한 히스토그램과 밀도를 선으로 이은 kde plot이 함께 그려진다. 파라미터 설정을 통해 막대의 개수와 kde선 표시 여부 등을 추가로 설정할 수 있다.
참조
03. 데이터시각화(seaborn)
파이썬 데이터 시각화 라이브러리 중 하나인 [Seaborn](https://seaborn.pydata.org/index.html)에 대해서 살펴보겠습니다. ![](htt…
wikidocs.net
'데이터 분석' 카테고리의 다른 글
박스플롯 (Boxplot) 이란 ? (0) | 2024.03.20 |
---|---|
[데이터 분석] LabelEncoding, fillna, inplace 옵션 (1) | 2024.03.13 |
[데이터 분석] 영화 관객수 예측 (0) | 2024.03.07 |
One-hot Encoding / get_dummies (0) | 2024.03.07 |
[데이터 분석] 파이 차트, 산점도 (1) | 2024.02.07 |