분류 모델 성능 평가 지표 (Confusion Matrix)
·
데이터 분석
분류 모델에 대한 성능을 평가할 때에는 여러 방법이 있지만, 대표적으로 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 score가 있다. 1. Confusion Matrix (오차행렬) Confusion Matrix란 Training을 통한 Prediction 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표이다. 여기서 ACTUAL VALUES는 실제값, PREDICTIVE VALUES는 예측값을 의미하며, T는 True, F는 False, P는 Positive, N은 Negative를 의미한다. 즉, TP, TN은 실제값과 맞게 예측한 부분이며, FP, FN은 실제값과 다르게 예측한 부분을 의미한다. 2. Accuracy (정확도) Accuracy란 전체 ..
[데이터 분석] Train, Validation, Test Set / train_test_split 모듈
·
데이터 분석
Train, Validation, Test Set 우리는 모델을 개발할때, 범용적으로 사용할 수 있는 모델을 만들려고 한다. Unseen data에 대하여 예측 또는 분류를 하는 것이 목표이기 때문이다. 여기서 unseen data란, 우리의 모델이 처음 보는 데이터셋, 또는 학습해 보지 않은 데이터를 말한다. 모델이 실제로 적용되었을때는 처음보는 데이터에 대하여 예측 또는 분류를 할 것이기 때문에, 그만큼 모델의 unseen data에 대한 성능이 좋아야 한다는 것을 우리는 알 수 있다. 따라서 dataset을 나누지 않고 전부 학습에 사용한다면 해당 dataset에 대해서만 성능이 좋은 모델을 만들게 될 것이고, 개발한 모델에 대한 성능을 점검할 수 없을 뿐만 아니라 실제로 모델이 적용되었을 때 좋은..
박스플롯 (Boxplot) 이란 ?
·
데이터 분석
박스플롯 차트는 스피어 스타일, 튜키 스타일 두 가지 유형으로 구분할 수 있다. 박스플롯 차트는 전체 데이터에서 이상치를 확인하기 위해 주로 사용하기 때문에 튜키 스타일의 박스플롯을 알아보자. 박스플롯은 데이터의 분포와 이상치를 동시에 보여주면서 서로 다른 데이터군을 쉽게 비교할 수 있는 데이터 시각화 유형이다. 로우 데이터를 그대로 사용하지 않고 다섯숫자요약(Five-Number Summary)이라는 통계학적 개념으로 데이터를 가공하여 시각화한다. 다섯숫자요약(Five-Number Summary)이란 다섯가지 통계로 데이터를 나타내는 방법으로, 최솟값과 최댓값, 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)로 구성된다. 박스플롯은 이 다섯숫자요약의 개념을 바탕으로 데이터를 시각화하여 보..
[데이터 분석] LabelEncoding, fillna, inplace 옵션
·
데이터 분석
https://dacon.io/competitions/official/235713/talkboard/402821?page=1&dtype=recent 데이콘 대회 데이터로 공부하며 새로 접한 개념 정리피처 (feature)데이터의 특성을 나타내는 것으로 데이터 표에서 열(column)을 지칭데이터 분석에서 표는 데이터의 특성을 나타내는 feature가 항상 열에 온다.  Label Encoding scikit learn의 대표적인 인코딩 방법 중 하나어떤 피처의 n개의 범주형 데이터를 0 ~ n-1개의 수치형 데이터로 변환한다.이 변환값이 수치적 차이를 나타내는 것은 아님.따라서 선형회귀 등의 알고리즘에 적용하기에 적합하지 않고, 트리 계열의 알고리즘에 적용하기 괜찮은 방법   from sklearn.pr..
[데이터 분석] 데이터 시각화 Seaborn 라이브러리
·
데이터 분석
파이썬의 대표적인 시각화 도구로는 matplotlib과 seaborn이 있다. seaborn은 matplotlib에 비해 쉽게 그래프를 그리고 그래프 스타일을 설정할 수 있다. 정교하게 그래프의 크기나 각 축의 범례 값을 조절할 떄에는 matplotlib을 함께 사용해야 한다. Seaborn 라이브러리에서 제공해주는 그래프의 종류 라이브러리 임포트 import seaborn as sns #seaborn에서 제공하는 flights 데이터 셋을 사용 flights = sns.load_dataset('flights') #그래프 사이즈 설정 plt.figure(figsize=(12, 3)) Barplot - 막대그래프 sns.barplot(data=flights, x='year', y='passengers') ..
[데이터 분석] 영화 관객수 예측
·
데이터 분석
https://dacon.io/competitions/open/235536/overview/description 영화 관객수 예측 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io
One-hot Encoding / get_dummies
·
데이터 분석
범주형 데이터가 존재할 경우 이를 수치화하는 대표적인 방법은 One-hot Encoding이다. One-hot Encoding은 범주의 개수만큼 dummy variable을 만들어 0 또는 1을 각 범주마다 할당해서 새로운 특성으로 바꾸는 방법이다. dummy variable: 범주형 변수를 연속형 변수로 변환한 것. ( 범주형 변수로는 사용할 수 없고 연속형 변수로만 가능한 분석 기법을 사용할 수 있게 해준다.) Pandas에서는 get_dummies라는 one_hot encoding을 실행하는 함수를 지원한다. 참조 https://hongl.tistory.com/89 Pandas - get_dummies 함수 범주형 (categorical) 데이터가 존재할 경우 이를 수치화하는 대표적인 방법은 One..
[데이터 분석] 파이 차트, 산점도
·
데이터 분석
pie() 함수 pie() 함수는 전체 데이터 중 특정 데이터의 비율을 보기 쉽게 표현함 import matplotlib.pyplot as plt plt.pie([10, 20]) plt.show() axis() 함수: 파이 차트를 동그란 원으로 표현 레이블 추가하기 import matplotlib.pyplot as plt plt.rc('font', family='Malgun Gothic') plt.pie([1000, 1300, 800, 1500], labels=['A형', 'B형', 'AB형', 'O형']) plt.axis('equal') plt.show() 비율 및 범례 표시하기 pie() 함수의 autopct 속성을 이용해 각 항목의 비율 표시 legend() 함수로 범례 추가 %.1f%% : 소수점..