평가 지표 및 측정

1.1.1 이진 분류의 평가지표

1.1.2 임계값과 평가지표

1.1.3 평가지표 - ROC 커브, AUC

1.1.4 다중 분류의 평가지표

학습 내용

목차

01. 데이터 준비 및 라이브러리 임포트
02. 다양한 모델의 평가 수행
03. 오차행렬(confusion matrix)을 이용하기
04. F1-score 확인

01. 데이터 준비 및 라이브러리 임포트

목차로 이동하기

데이터 셋

Target 값을 이진값으로 만들기

데이터 셋의 Target(타깃)을 9:1의 비율로 나누기

02. 다양한 모델의 평가 수행

목차로 이동하기

02-01 기본 모델 DummyClassifier

02-02 DummyClassifier를 이용한 예측

02-03 실제 모델 - DecisionTreeClassifier

02-04 LogisticRegression(로지스틱 회귀) 모델

하나만 예측하는 기본 모델도 90% 이상의 정확도를 갖는다.

정확도 대신에 사용할 지표가 무엇이 있을까?

03 오차행렬(confusion matrix)을 이용하기

목차로 이동하기

confusion_matrix 를 이용한 오차(혼동) 행렬 구하기

3-1 각각의 예측값에 대한 오차행렬을 확인해보기

3-2 분류의 다양한 평가지표를 살펴보기

Classification(분류)의 평가지표를 살펴보자.

정확도(accuracy) : 정확하게 예측/전체 예측수

\begin{equation} \text{accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}} \end{equation}

정밀도(precision) : 예측을 양성(Positive)으로 한것 전체(TP+FP)중에 잘 예측한 것(TP)

\begin{equation} \text{정밀도(precision)} = \frac{\text{잘 예측(TP)}}{ \text{예측을 양성으로 한 것 전체(TP+FP) } } \end{equation}

민감도(sensitivity), 재현율(recall, TPRate), 진짜 양성 비율(TPR)

\begin{equation} \text{민감도(recall, 재현율)} = \frac{\text{잘 예측(TP)}}{ \text{전체 양성 샘플 전체(TP+FN) } } \end{equation}

특이도

\begin{equation} \text{특이도} = \frac{\text{잘 예측(TN)}}{ \text{실제 값이 음성인것 전체(FP + TN) } } \end{equation}

FPRate

\begin{equation} \text{FPRate} = \frac{\text{틀린 예측(FP)}}{ \text{실제 값이 음성인것 전체(FP + TN) } } \end{equation}

다양한 분류 측정 방법

04. f1-score를 확인해보기

목차로 이동하기

F-score

\begin{equation} \text{F} = 2 * \frac{\text{정밀도*재현율}}{ \text{정밀도 + 재현율 } } \end{equation}
\begin{equation} \text{위의 공식을 우리는}f_1 점수라고 한다. \end{equation}

각각의 모델 예측값을 f1-score로 예측

f1-score를 요약해서 보여주기

dummyClassifier 모델

의사결정트리

로지스틱 회귀

교육용으로 작성된 것으로 배포 및 복제시에 사전 허가가 필요합니다.
Copyright 2022 LIM Co. all rights reserved.