Kong Eunho

비지도학습 - Clustering

2025년 11월 11일 13시
카테고리 - LECTURE, 인공지능개론


인공지능개론(정명희) 11주차 강의내용

주요 비지도 학습(Unsupervised Learning) 방법

군집화(Clustering)

비지도 학습 기법으로, 비슷한 데이터들을 그룹(클러스터)으로 자동 분류하는 방법
레이블 없이(unlabeled) 데이터의 자연스러운 묶음을 찾는 방법

목적 : 군집 내 유사성 최대화, 군집 간 유사성 최소화
입력 : 정답(라벨)이 없는 데이터
출력 : 각 데이터가 속하는 그룹(클러스터) 정보

필요한 이유

활용 분야

군집화의 종류






K-평균 군집화(K-means Clustering)

개체들 간 거리가 가까운 것끼리 K개의 그룹을 만드는 군집화의 한 방법

원리

  1. 클러스터 개수 K 선택
  2. 임의로 K개의 중심점 초기화
  3. 각 데이터 → 가장 가까운 중심점에 할당
  4. 중심점 새로 계산 (평균값)
  5. 중심점이 더 이상 변하지 않으면 종료

목적함수

\[\min_C \sum_{i=1}^K \sum_{x \in C_i} \|x - \mu_i\|^2\]



원리

1 유사도 측정

\[D(s_1, \mu_1) = \sqrt{(x_1 - x_1^c)^2 + (y_1 - y_1^c)^2}\]

2 군집화 절차

장단점

표준 알고리즘



$k$를 결정하는 방법
“팔꿈치 방법”(elbow method)에서는 k를 1부터 증가시키면서 K-means 클러스터링을 수행한다.
각 $k$의 값에 대하여 SSE(sum of squared errors)의 값을 계산한다.

\[WSS(k) = \sum_{s_i \in C_k} D(s_i, \mu_k)^2\] \[TWSS = \sum_{k=1}^K WSS(k)\]
◀ 이전 글 LECTURE, 인공지능개론
Decision Tree, Random Forest
2025-11-11
목록으로 다음 글 ▶ LECTURE, 객체지향프로그래밍II
C++ 입출력 시스템
2025-11-20