ch04 데이터 표현 특성공학

학습 내용

01 용어 이해해보기

1-1. 연속형, 범주형 feature

1-2. 특성 공학(feature engineering)

1-3. Label Encoding을 알아보기

1-4. What is One Hot Encoding?(One Hot Encoding은 무엇인가?)

가. One Hot Encoding은 머신러닝 알고리즘에서 더 나은 예측을 위해 제공되는 하나의 과정입니다.
나. One-Hot Encoding은 범주형 변수를 바이너리벡터(0,1)로 표현한 것.
다. Label Encoding이 범주형 구분을 숫자로 변경하는 것이라면, OneHotEncoding은 
   KR  => ( 1 , 0, 0, 0 )
   US  => ( 0, 1, 0, 0 )
   UK  => ( 0, 0, 1, 0 )
   CN  => ( 0 , 0, 0, 1 ) 
로 벡터의 요소로 변경하는 것이다.

1-5. Why do you need one hot encoding?

(왜 필요할까?)

Label 인코딩의 오류

Label 의 인코딩의 문제는 범주값이 높을수록 카테고리가 더 우수하다고 가정합니다.

(가) 범주형 값에 의해 가장 가치 있는 모델은 값이 높은 값이 가치있다고 생각합니다.
  VW > Acura > Honda이다.
  - 이 내용은 오류가 발생합니다. 이 값을 가지고 모델을 예측한다는 것은 많은 오류가 있다.
(나) 하지만 순서가 없을 경우, 문제가 될 수 있습니다.
  - (dog, cat, bird..)
(다) 이 경우, 표현력이 있는 one-hot encoding를 이용하면 더 정밀한 예측이 가능해 질 수 있다.

02 왜 사용하나?

03 레이블 인코딩, 원핫 인코딩 실습해 보기(1)

LabelEncoder 사용하기

데이터를 전처리

원핫 인코딩(OneHotEncoding) 실습

04 레이블 인코딩, 원핫 인코딩 실습해 보기(2)

OneHotEncoding

05 Keras를 활용한 원핫 인코딩

실습

집을 선택할 때, 다음과 같은 유형의 조건이 있다. Inside, Corner, FR2, CulDSac 이에 대한 정보를 레이블 인코딩, OneHotEncoding를 해보자.

06. Pandas를 활용한 원핫 인코딩

과제

History