[인공지능개론] information based learning - Decision tree

 

information based learning - Decision tree 도입

서론: 'Guess Who?' 게임으로 배우는 decision tree

정보 기반 학습은 정보 이론을 기반으로 예측 모델을 구축하는 머신러닝 방법이다. 그 중심에는 결정 트리(Decision Tree)가 있다. 결정 트리는 트리 구조를 이용하여 데이터를 분류하고 예측하는 모델로, 정보 이론의 핵심 개념인 엔트로피(Entropy)와 정보 이득(Information Gain)을 기반으로 한다. (자세한 내용은 다음에 배워보겠다)

이 개념들을 쉽게 이해하기 위해 'Guess Who?' 게임을 예시로 살펴보자. 이 게임은 두 명의 플레이어가 각자 캐릭터 카드를 하나씩 선택하고, 상대방의 카드가 어떤 캐릭터인지 질문을 통해 맞추는 게임이다. 질문은 "남자입니까?", "안경을 썼습니까?"와 같이 '예/아니오'로 답할 수 있는 질문만 가능하다.

Guess Who? 게임: 최적의 질문 전략

Guess who?

만약 위와 같이 4장의 캐릭터 카드(Brian, John, Aphra, Aoife)로 게임을 한다면, 어떤 질문을 먼저 하는 것이 유리할까? 직관적으로는 "Brian입니까?"와 같이 특정 캐릭터를 지목하는 질문이 유리할 것으로 생각할 수 있다. 하지만 이러한 질문은 답이 '예'일 확률이 1/4에 불과하며, '아니오'일 경우 남은 3장의 카드 중에서 다시 추측해야 한다.

반면, "남자입니까?"와 같은 질문은 답이 '예'일 경우 Brian과 John, '아니오'일 경우 Aphra와 Aoife로 경우의 수를 절반으로 줄여준다. 즉, 질문의 답을 통해 얻는 정보량이 더 많기 때문에, 평균적으로 더 적은 질문으로 정답을 맞출 수 있다.

실제로 계산해보면, "Brian입니까?"와 같은 질문으로 시작하는 경우 평균 2.75개의 질문이 필요하지만, "남자입니까?"로 시작하는 경우 평균 2개의 질문만으로 충분하다.

"Brian"만 구분한 경우


"남자입니까?"로 시작한 경우

정보 기반 머신러닝 알고리즘

정보 기반 머신러닝 알고리즘도 'Guess Who?' 게임과 같은 원리를 사용한다. 즉, 데이터를 가장 효과적으로 분류할 수 있는 질문, 즉 정보 이득이 가장 높은 설명 변수를 선택하여 결정 트리를 구축한다.

결정 트리: 이메일 스팸 예측 모델

결정 트리는 노드(node)와 가지(branch)로 구성된 트리 구조를 갖는다. 각 노드는 설명 변수에 대한 질문을 나타내며, 가지는 질문의 답에 따라 다음 노드로 연결된다. 최종적으로 도달하는 노드인 잎 노드(leaf node)는 예측 결과를 나타낸다.

예를 들어, 이메일 스팸 예측 모델을 결정 트리로 나타낼 수 있다. 설명 변수로는 '의심스러운 단어 포함 여부', '발신자 미등록 여부', '이미지 포함 여부' 등을 사용할 수 있다. 각 노드에서 이러한 변수들을 이용하여 질문을 하고, 가지를 따라 내려가면서 스팸 여부를 판단한다.

Spam prediction decision tree

최적의 결정 트리: 정보 이득을 이용한 선택

'Guess Who?' 게임에서 평균 질문 횟수가 가장 적은 전략이 최적의 전략이었던 것처럼, 결정 트리에서도 트리의 높이가 가장 낮은 것이 최적의 트리다. 트리의 높이가 낮다는 것은 예측에 필요한 질문(설명 변수)의 개수가 적다는 것을 의미하며, 이는 정보 이득이 높은 설명 변수를 상위 노드에 배치함으로써 가능하다. 위 스팸 예측 모델에서 (b)는 단 하나의 질문만으로 구분한 반면, (a) & (c)는 2개의 질문이 필요하다는 점에서 (b)가 최적의 트리임을 알 수 있다.

따라서 최적의 결정 트리를 구축하기 위해서는 각 설명 변수의 정보 이득을 계산하고, 정보 이득이 높은 변수를 루트 노드(root node)에 배치해야 한다. 이를 통해 트리의 높이를 최소화하고 예측 성능을 향상시킬 수 있다.


결론: 정보 이득 기반 결정 트리 학습

결정 트리는 정보 이득을 기반으로 데이터를 분류하고 예측하는 효과적인 모델이다. 정보 이득이 높은 설명 변수를 상위 노드에 배치함으로써 트리의 높이를 최소화하고 예측 성능을 향상시킬 수 있다. 이러한 정보 기반 학습 방법은 데이터 마이닝, 의료 진단, 자연어 처리 등 다양한 분야에서 활용되고 있다.

추천글 : 
[인공지능개론] Artificial Intelligence Basics
(https://hyeonb.blogspot.com/2024/09/artificial-intelligence-basics.html)

[인공지능개론] What is machine learning?
hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2