Kong Eunho

Decision Tree, Random Forest

2025년 11월 11일 12시
카테고리 - LECTURE, 인공지능개론


인공지능개론(정명희) 11주차 강의내용

의사결정트리(Decision Tree)

정의 : 데이터를 조건에 따라 분류하거나 예측하기 위해, 트리(tree) 구조를 사용하는 알고리즘
형태 : 질문(조건)을 기준으로 데이터를 분할해 나가며, 마지막에는 결과(클래스 또는 숫자)를 예측
활용 분야 : 분류(Classification) + 회귀(Regression) 모두 가능
장점 : 직관적이고 이해하기 쉬움, 시각화 가능, 데이터 스케일 조정 불필요
단점 : 과적합(overfitting) 위험, 작은 변화에도 결과가 크게 달라질 수 있음

주요 구성 요소 :


작동 원리 :

  1. 데이터를 보고 가장 중요한 질문(특성)을 선택
  2. 답(Yes/No, 숫자 범위)에 따라 데이터를 두 그룹으로 분리
  3. 다시 다음 질문을 선택하고 분리 → 반복
  4. 더 이상 나눌 수 없거나 결과가 동일하면 리프 노드(leaf node) 생성

결정트리 구축

결정트리 학습의 목표
“같은 특성을 가진 데이터끼리 모이도록” 데이터를 분할해 나간다.
-> 데이터를 나눌수록 각 그룹이 하나의 클래스로만 구성되는 ‘순수한’ 상태가 되는 것이 목표



결정트리 구축 기준

\[\text{Information Gain} = \text{원래 엔트로피} - \sum \left( \frac{n_{child}}{n_{total}} \times \text{자식 노드의 엔트로피} \right)\]

1 현재 데이터가 얼마나 섞여 있는지 엔트로피(Entropy) 계산
2 각 특징(날씨, 온도, 습도 등)으로 나눴을 때의 엔트로피 변화량 계산
3 엔트로피를 가장 많이 줄여주는 특징 = 정보이득이 가장 큰 특징 선택
4 그 특징이 첫 번째 질문(루트 노드)이 된다
5 남은 데이터에 대해 같은 방식 반복 → 중간 노드/리프 노드 생성



엔트로피(Entropy) : 확률변수의 불확실성을 수치로 나타낸 것

\[I = -\sum_c p(c) \log_2 p(c)\]

정보획득량(Information Gain)

\[Gain(T, X) = \text{Entropy}(T) - \text{Entropy}(T, x)\] \[Entropy(T, X) = \sum P(i)E(i)\]



결정트리의 절차



장단점

활용 분야

랜덤 포레스트(Random Forest)



작동 방식

  1. 데이터 랜덤 추출(Bootstrap)
    전체 데이터 중 일부를 복원추출하여 트리마다 다른 데이터를 학습
  2. 랜덤하게 특성 선택(Feature Randomness)
    노드를 분할할 때 모든 특성을 보는 것이 아니라 일부만 랜덤 선택
  3. 트리 여러 개 생성
    각기 다른 데이터 + 특성으로 트리 생성
  4. 최종 예측
    분류 : 다수결 투표
    회귀 : 평균값 사용

장단점

◀ 이전 글 LECTURE, 서버프로그래밍
소프트웨어 관리
2025-11-07
목록으로 다음 글 ▶ LECTURE, 인공지능개론
비지도학습 - Clustering
2025-11-11