Kaggle 입문하기 - 데이터 분석 입문

학습 내용

목차

01 데이터 시각화 및 피처 추출
02 생성된 특징을 활용한 모델 구축
03 최종 모델 구축 및 제출
04 추가 특징 생성 함수 이용하여 모델 구축
05 자동 특징 추출 클래스
06 대표적인 모델 xgboost 사용해보기

Data Fields

필드명 설명
datetime hourly date + timestamp
season 1 = spring(봄), 2 = summer(여름), 3 = fall(가을), 4 = winter(겨울)
holiday whether the day is considered a holiday(휴일인지 아닌지)
workingday whether the day is neither a weekend nor holiday(주말도 휴일도 아닌 날인지)
weather
1: Clear, Few clouds, Partly cloudy, Partly cloudy
2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
temp temperature in Celsius (온도)
atemp "feels like" temperature in Celsius (체감온도)
humidity relative humidity (습도)
windspeed wind speed (바람속도)
casual number of non-registered user rentals initiated (비가입자 사용유저)
registered number of registered user rentals initiated (가입자 사용유저)
count number of total rentals (전체 렌탈 대수)

01 데이터 시각화 및 피처 추출

범주형 특징(변수)의 시각화

수치형 데이터 시각화

데이터 복제하기

특징 추출 - 날짜 특징(변수)로부터 정보 추출

특징 추출 - 날짜 특징(변수)로부터 정보 추출

02 생성된 특징을 활용한 모델 구축

선형 회귀 모델 구축

RandomForestRegressor 모델의 mse의 값이 가장 적다. (오차가 적음)

03 최종 모델 구축 및 제출

제출 score : 0.43006

04 추가 특징 생성 함수 이용하여 모델 구축

실습 : PolynomialFeatures를 사용하여 특징을 추가 생성해 보자.

score : 0.41328

05 자동 특징 추출 클래스

다양한 특징 중에 모델을 활용한 중요한 특징을 선택해 보자.

전 제출 점수에 비해 약간 더 향상되었다.

06 대표적인 모델 xgboost 사용해 보기

사이킷런 기반 파라미터 설명

파라마터명 설명 사이킷런 기본값(파이썬기반)
learning_rate(or eta) 0~1사이의 값. 과적합을 방지하기 위한 학습률 값 기본값 : 0.1(0.3)
n_estimators(or num_boost_rounds) 트리의 수 기본값 100(10)
max_depth 각각의 나무 모델의 최대 깊이 기본값 3(6)
subsample 각 나무마다 사용하는 데이터 샘플 비율
낮은 값은 underfitting(과소적합)을 야기할 수 있음.
기본값 : 1
colsample_bytree 각 나무마다 사용하는 feature 비율.
High value can lead to overfitting.
기본값 : 1
reg_alpha(or alpha) L1 규제에 대한 항
피처가 많을 수록 적용을 검토한다.
기본값 : 0
reg_lambda(or lambda) L2 규제의 적용 값. 피처의 개수가 많을 경우 적용 검토 기본값 : 1
scale_pos_weight 불균형 데이터셋의 균형 유지 기본값 : 1

학습 태스크 파라미터

파라마터명 설명 사이킷런 기본값(파이썬기반)
objective(목적함수) reg:linear for regression problems(회귀 문제),
reg:logistic for classification problems with only decision(분류 문제),
binary:logistic for classification problems with probability.(이진 분류)

학습

실습

최종 모델

파라미터를 변경해 가며 실습해보기 - 아래 각각의 경우에 대한 score확인해 보기

History

교육용으로 작성된 것으로 배포 및 복제시에 사전 허가가 필요합니다.
Copyright 2021 LIM Co. all rights reserved.