군집 알고리즘의 비교와 평가

학습 내용

01 라이브러리 불러오기 및 데이터 준비

02 평균이 0, 분산이 1이 되도록 데이터의 스케일을 조정

03 데이터 시각화

04 ARI(adjusted rand index)를 확인해 보기

데이터 준비

무작위 할당한 클러스터 확인

군집 알고리즘 비교 (ARI 지표를 활용한)

확인

클러스터를 무작위 할당했을 때는 ARI 점수는 0이다.
DBSCAN은 완벽하게 군집을 만들어냈으므로) 점수가 1이다.

실수 주의***
군집 모델 평가할 때, 흔히하는 실수는 ARI(adjusted_rand_score)나 NMI(normalized_mutual_info_score) 같은 군집용 측정도구를 사용하지 않고, accuracy_score를 사용하는 것이다. 

정확도를 사용하면 할당된 클러스터의 레이블 이름이 실제 레이블과 맞는지 확인한다.
그러나 클러스터 레이블은 그 자체로 의미가 있는 것이 아니며 포인트들이 같은 클러스터에 속해
있는가만이 중요하다.

문제 발생!!!

ARI, NMI같은 지표는 애플리케이션의 성능 평가가 아니라 알고리즘을 개발할 때 도움이 된다.

05 실루엣 점수를 이용한 평가

타깃값이 필요없는 군집용 지표.

그래프 알아보기

(가) DBSCAN의 결과가 k-평균 실루엣 점수보다 높다. 
     클러스터 평가에 더 적합한 전략은 견고서 기반(robustness-based)의 지표이다.

클러스터 평가에 더 적합한 전략은 견고성 기반(robustness-based)의 지표