ch03 DBSCAN : density-based clustering applications with noise

학습 목표

학습 내용

목차

01. DBSCAN은 무엇인가?
02. DBSCAN의 원리 이해
03. 알고리즘 동작 이해
04. 실습해 보기

01. DBSCAN은 무엇인가?

목차로 이동하기

DBSCAN에 대한 장점

02. DBSCAN의 원리 이해

목차로 이동하기

알고리즘은 방문하지 않은 임의의 지점에서 시작한다. 주변 정보는 eps의 매개변수에 의해 검색된다.
(가) 특성 공간에서 가까이 있는 데이터가 많아 붐비는 지역의 포인트를 찾는다.
(나) 밀집 지역(dense region) - 붐비는 지역을 말한다.
(다) DBSCAN의 아이디어는 데이터의 밀집 지역이 한 클러스터를 구성하며 비교적 비어있는 지역을 경계로 다른 클러스터와 구분된다는 것이다.

03. 알고리즘 동작 이해

목차로 이동하기

그림 설명

(1) core point(핵심 포인트) : 밀집 지역에 있는 포인트
   한 데이터 포인트에서 eps 거리 안에 데이터가 min_samples 개수만큼 들어 있다면.. 이 데이터를 핵심 샘플로 분류
(2) 잡음 포인트는 횐색으로 표시
(3) eps보다 가까운 핵심 샘플은 DBSCAN에 의해 동일한 클러스터로 합쳐진다.
(4) 핵심 샘플은 크게 표시. 경계 포인트는 작게 표시
(5) eps를 증가시키면 하나의 클러스터에 더 많은 포인트가 포함.
(6) min_samples설정은 포인트들이 잡음 포인트가 될지, 아니면 하나의 클러스터가 될지 결정하는데 중요 역할

포인트의 종류

핵심 샘플
경계 포인트 (핵심 포인트에서 eps 거리 안에 있는 포인트)
잡음 포인트 

 * core point(핵심 샘플) : eps안에 min_samples보다 같거나 많다.
 * border point(경계 포인트) : eps안에 min_samples보다 작은데, core point가 있다.
 * noise point(잡음 포인트) : eps안에 min_samples보다 작고, 포인트중에 core point 가 없다. 어떤 클래스에소 소속되지 않는다.

04. 실습해보기

목차로 이동하기

데이터 준비 및 스케일 조정

실습

REF

실습 풀이