박스플롯 차트는 스피어 스타일, 튜키 스타일 두 가지 유형으로 구분할 수 있다.
박스플롯 차트는 전체 데이터에서 이상치를 확인하기 위해 주로 사용하기 때문에 튜키 스타일의 박스플롯을 알아보자.
박스플롯은 데이터의 분포와 이상치를 동시에 보여주면서 서로 다른 데이터군을 쉽게 비교할 수 있는 데이터 시각화 유형이다. 로우 데이터를 그대로 사용하지 않고 다섯숫자요약(Five-Number Summary)이라는 통계학적 개념으로 데이터를 가공하여 시각화한다.
다섯숫자요약(Five-Number Summary)이란
다섯가지 통계로 데이터를 나타내는 방법으로, 최솟값과 최댓값, 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)로 구성된다. 박스플롯은 이 다섯숫자요약의 개념을 바탕으로 데이터를 시각화하여 보여준다.
박스플롯에서 가장 중요한 수치는 2사분위수 (중앙값)이다. 가운데 상자는 중앙값을 기준으로 상하위 25%지점에 있는 데이터의 범위를 표시한다. 전체 데이터를 작은 값에서 큰 값으로 나열했을 때 전체 데이터의 25% 지점은 1사분위수, 75% 지점은 3사분위수를 나타낸다.
상자의 양 끝과 연결된 선은 수염이라고 부르는데, 이 수염은 상자 길이 (IQR)의 1.5배만큼 떨어진 지점을 나타낸다.
1사분위수에서 상자 길이의 1.5배 떨어진 거리 안에 있는 데이터의 최댓값과 최솟값을 기준으로 수염을 표시한다.
수염 밖에 표시한 데이터를 이상점이라고 부른다. 이상점 중에서도 가장 바깥쪽에 위치한 데이터를 극단점이라고 한다. 극단점은 이상치 가운데서도 유달리 높거나 낮은 값을 보이는 특이한 데이터이다.
박스플롯 사용 이유
보통 통계를 낼 때 평균이나 표준편차를 많이 사용하나, 데이터에 이상치가 있으면 왜곡된 의미를 전달할 가능성이 높다. 그래서 이상치가 있는지 확인할 필요가 있고, 박스플롯을 활용하면 이상치가 얼마나 포함되어 있는지를 쉽게 판단할 수 있다.
또한, 전체 데이터의 항목별 분포를 보고 싶을 땐 히스토그램을 선택하는 것이 유용하다. 데이터의 값이 둘 이상의 점 주위에 모여 있는 경우 박스플롯으로는 구분하기 어려울 수 있기 때문이다.
라이브러리 불러오기
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
plt.rc('font', family = 'Malgun Gothic') # window
plt.rc('font', size = 12)
plt.rc('axes', unicode_minus = False) # -표시 오류 잡아줌
단일 박스플롯 그리기
plt.figure(figsize = (10, 5))
plt.boxplot(train['income_total'])
plt.show()
참조
https://newsjel.ly/archives/newsjelly/14177
낯선 시각화, 박스플롯(Boxplot)과 친해지기 - 뉴스젤리 : 데이터 시각화 전문 기업
박스플롯 개념 정의부터 해석하는 법까지 데이터 시각화 전문 기업 뉴스젤리에서 알려드립니다. 낯선 시각화 유형이라도 차근차근 살펴보며 해석하는 재미를 찾아보세요! 데이터 시각화를 보
newsjel.ly
'데이터 분석' 카테고리의 다른 글
분류 모델 성능 평가 지표 (Confusion Matrix) (0) | 2024.04.02 |
---|---|
[데이터 분석] Train, Validation, Test Set / train_test_split 모듈 (0) | 2024.03.27 |
[데이터 분석] LabelEncoding, fillna, inplace 옵션 (1) | 2024.03.13 |
[데이터 분석] 데이터 시각화 Seaborn 라이브러리 (0) | 2024.03.10 |
[데이터 분석] 영화 관객수 예측 (0) | 2024.03.07 |