CH03 비지도 학습과 데이터 전처리

학습 내용

목차

01. 비지도 학습이란?
02. 비지도 학습의 종류
03. 데이터 전처리와 스케일 조정
04. 데이터 변환 실습 (cancer 데이터)

01. 비지도 학습이란?

목차로 이동하기

02. 비지도 학습의 종류

목차로 이동하기

비지도 변환(unsupervised transformation)과 군집(clustering), 연관 알고리즘

비지도 변환(unsupervised transformation)

A. 비지도 변환은 데이터를 새롭게 표현하여, 
B. 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘이다.

사용 분야

많이 사용되는 분야는 특성이 많은 고차원 데이터의 특성(feature)의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법인 차원 축소(dimensionality reduction)이다.

현재 어려운 부분

(가) 알고리즘이 좋은지 나쁜지를 학습한 내용에 대한 평가
(나) 우리가 뭔가 원하는 것을 알려줄 수 없다.
-> 비지도 학습 알고리즘은 데이터 과학자가 데이터를 잘 이해하고 싶을 때 분석 단계에서 많이 사용

소셜 미디어에서 선거, 총기, 팝스타 같은 주제로 일어나는 토론을 추적, 텍스트 문서에서 주제를 추출

군집 알고리즘(Clustering)

데이터를 비슷한 것끼리 그룹(클러스터)으로 묶는 것.

03. 데이터 전처리와 스케일 조정

목차로 이동하기

(가) StandardScaler - 표준화

(가) 각 특성(feature)의 평균을 0, 분산을 1로 변경
(나) 이 방법은 feature(특성)의 최솟값과 최댓값 크기를 제한하지 않는다.

(나) RobustScaler

(가) 같은 스케일을 갖는다. StandardScaler과 비슷
(나) 이 방법은 평균과 분산 대신 중간 값(median)과 사분위 값(quantile)을 사용.
--> 중앙값을 선택하므로 전체 데이터와 아주 동떨어진 데이터 포인트에 영향을 받지 않음.

(다) MinMaxScaler - 정규화

(가) 모든 특성이 정확하게 0과 1사이에 위치하도록 데이터를 변경.

(라) Normalizer

(가) 유클리디안 길이가 1이 되도록 데이터 포인트를 조정.
(나) 지름이 1인 원에 데이터 포인트를 투영한다.
--> 정규화는 특성 벡터의 길이는 상관없고 데이터의 방향(또는 각도)만이 중요할 때 많이 사용.

04. 데이터 변환 실습 (cancer 데이터)

목차로 이동하기

데이터 전처리와 스케일 조정

MinMaxScaler(정규화)를 이용

실제로 학습 데이터의 스케일을 조정하려면, 스케일 객체의 transform 메서드를 사용.

변환전 후, 시각화

메서드 단축해서 사용

표준화 수행

시각화 한 결과, 2번째, 3번째 결과는 같다.

주의해야할 것

교육용으로 작성된 것으로 배포 및 복제시에 사전 허가가 필요합니다.
Copyright 2021 LIM Co. all rights reserved.