CH03 비지도학습 - PCA

학습 내용

목차

01 왜 비지도학습을 사용하는가?
02 PCA(Principal component analysis)
03 PCA를 적용한 유방암 데이터셋 시각화
04 IRIS 데이터 셋을 이용한 PCA 예제 실습

01. 왜 비지도학습을 사용하는가?

목차로 이동하기

가. 시각화한다.
나. 데이터를 많은 feature를 몇개의 압축적인 feature(특성)으로 줄인다.
다. 추가적인 처리(주로 지도학습에 이용하기 위해)

02. PCA(Principal component analysis)

목차로 이동하기

위의 네 개의 그래프는 주성분 1을 찾아가는 과정을 보여준다.

첫번째 그래프

PCA 알고리즘

두번째 그래프

PCA는 주성분의 일부만 남기는 차원 축소 용도로 사용된다.

세번째 그래프

네번째 그래프

이러한 변환은 데이터에서 노이즈를 제거하거나 주성분에서 유지되는 정보를 시각화

03. PCA를 적용한 유방암 데이터셋 시각화

목차로 이동하기

PCA를 적용하여 유방암 데이터 셋 시각화하기

유방암 특성들을 히스토그램 시각화를 이용하여 특성을 확인(악성.양성정보 포함)

데이터 전처리 및 PCA 변환

데이터 변환 - 표준화

PCA 적용

PCA로 얻어진 2개의 주성분 내용 확인

주성분

실습

04 IRIS 데이터 셋을 이용한 PCA 예제 실습

목차로 이동하기

주성분을 데이터 프레임으로 변환 후, 시각화

PCA 차원 축소로 4개의 feature를 2개의 feature로 줄여보기

위의 그래프와 상관계수를 통해 확인해 보면, PCA1과 PCA2는 상관관계를 거의 없는 독립적 관계이다.

붓꽃에 대한 기본 정보가 없음에도 PCA를 활용하여 2차원으로 표현한 내용이 잘 구분되어 있음을 볼 수 있다.

REF