범주형 데이터가 존재할 경우 이를 수치화하는 대표적인 방법은 One-hot Encoding이다.
One-hot Encoding은 범주의 개수만큼 dummy variable을 만들어 0 또는 1을 각 범주마다 할당해서 새로운 특성으로 바꾸는 방법이다.
dummy variable: 범주형 변수를 연속형 변수로 변환한 것. ( 범주형 변수로는 사용할 수 없고 연속형 변수로만 가능한 분석 기법을 사용할 수 있게 해준다.)
Pandas에서는 get_dummies라는 one_hot encoding을 실행하는 함수를 지원한다.
참조
Pandas - get_dummies 함수
범주형 (categorical) 데이터가 존재할 경우 이를 수치화하는 대표적인 방법은 One-hot Encoding 입니다. One-hot encoding은 범주의 개수만큼 dummy variable을 만들어 0 또는 1을 각 범주마다 할당해서 새로운 특
hongl.tistory.com
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 데이터 시각화 Seaborn 라이브러리 (0) | 2024.03.10 |
---|---|
[데이터 분석] 영화 관객수 예측 (0) | 2024.03.07 |
[데이터 분석] 파이 차트, 산점도 (1) | 2024.02.07 |
[데이터 분석] 다양한 형태로 시각화하기 (막대 그래프, 항아리 그래프) (0) | 2024.01.31 |
[데이터 분석] 우리 동네 인구 구조 시각화하기 (2) | 2024.01.29 |