제목: 확률 기반 학습: 베이즈 정리를 이용한 예측
서론: 'Find the Lady' 게임과 확률
확률 기반 학습은 데이터로부터 확률을 추정하고, 이를 이용하여 예측 모델을 구축하는 머신러닝 방법이다. 이러한 접근 방식은 베이즈 정리(Bayes' Theorem)에 기반을 두고 있으며, 데이터를 통해 얻은 증거를 활용하여 예측을 수정하고 개선하는 데 중점을 둔다.
'Find the Lady' 카드 게임을 예시로 들어보자. 이 게임은 딜러가 퀸 1장과 에이스 2장, 총 3장의 카드를 가지고 진행하며, 플레이어는 딜러가 카드를 엎어 놓았을 때 퀸이 어디에 있는지 맞춰야 한다. 처음에는 퀸이 세 위치에 있을 확률이 동일하다고 가정하지만, 딜러가 30번 게임을 하는 것을 관찰한 결과, 퀸이 오른쪽 위치에 놓일 확률이 훨씬 높다는 것을 알게 되었다고 가정해보자. 이러한 관찰 결과는 퀸의 위치에 대한 우리의 믿음을 수정하게 만든다. 즉, 퀸이 오른쪽에 있을 확률이 가장 높다고 예측하게 된다.
하지만 만약 갑자기 바람이 불어 오른쪽 카드가 에이스로 밝혀졌다면 어떨까? 이 새로운 증거는 다시 한번 우리의 예측을 수정하게 만든다. 즉, 퀸이 오른쪽에 있을 확률은 0이 되고, 나머지 두 위치에 있을 확률을 다시 계산해야 한다.
![]() |
Find the Lady |
이 예시는 확률 기반 학습의 핵심 아이디어를 잘 보여준다. 즉, 데이터를 수집하고 새로운 증거를 얻을 때마다 예측을 수정하고 개선하는 것이 확률 기반 학습의 핵심이다.
베이즈 정리: 조건부 확률을 이용한 예측
베이즈 정리는 조건부 확률을 이용하여 사건의 확률을 계산하는 방법을 제공한다. 조건부 확률은 어떤 사건 A가 발생했다는 조건 하에 다른 사건 B가 발생할 확률을 의미하며, P(B|A)로 표기한다.
확률 분포는 특징이 가질 수 있는 각 값에 대한 확률을 나타낸다. 예를 들어, 주사위를 던졌을 때 나올 수 있는 눈의 확률 분포는 P(1) = P(2) = ... = P(6) = \( \frac{1}{6} \) 이다.
결합 확률 분포는 두 개 이상의 특징에 대한 확률 분포를 나타낸다. 예를 들어, 동전 두 개를 던졌을 때 각각 앞면(H) 또는 뒷면(T)이 나올 확률 분포는 다음과 같이 나타낼 수 있다.
P(HH) = \( \frac{1}{4} \), P(HT) = \( \frac{1}{4} \), P(TH) = 1/4, P(TT) = \( \frac{1}{4} \)
결합 확률 분포를 이용하면 조건부 확률을 계산할 수 있다. 예를 들어, 첫 번째 동전이 앞면이 나왔을 때 두 번째 동전도 앞면이 나올 확률은 다음과 같이 계산한다.
P(두 번째 동전이 H | 첫 번째 동전이 H) = P(HH) / P(첫 번째 동전이 H) = \( \frac{1}{4} \) / \( \frac{1}{2} \) = \( \frac{1}{2} \)
베이즈 정리는 다음과 같이 정의된다.
P(A|B) = [P(B|A) * P(A)] / P(B)
베이즈 정리는 어떤 증거 B가 주어졌을 때 사건 A의 확률을 계산하는 데 유용하다. 특히, 사건 A에서 증거 B가 발생할 확률 P(B|A)를 알고 있을 때, 증거 B로부터 사건 A의 확률 P(A|B)를 계산할 수 있다.
베이즈 정리의 장점: 역확률 계산
베이즈 정리의 주요 장점 중 하나는 역확률(inverse probability)을 쉽게 계산할 수 있다는 것이다. 일반적으로 사건 A가 발생했을 때 증거 B가 나타날 확률 P(B|A)는 계산하기 쉽지만, 반대로 증거 B가 나타났을 때 사건 A가 발생했을 확률 P(A|B)는 계산하기 어렵다. 베이즈 정리는 이러한 역확률을 계산하는 방법을 제공한다.
의료 진단 예시: 베이즈 정리 적용
베이즈 정리를 이용한 예측을 설명하기 위해 의료 진단 예시를 들어보자. 한 환자가 심각한 질병에 대해 양성 반응을 보였고, 검사의 정확도는 99%라고 가정하자. 하지만 이 질병은 매우 드물어서 10,000명 중 1명꼴로 발생한다. 이때 환자가 실제로 질병에 걸렸을 확률은 얼마일까?
베이즈 정리를 사용하여 이 질문에 답할 수 있다. P(d|t)는 검사 결과가 양성(t)일 때 환자가 질병에 걸렸을 확률(d)을 나타낸다. 베이즈 정리에 따라 다음과 같이 계산할 수 있다.
P(d|t) = [P(t|d) * P(d)] / P(t)
여기서 P(t|d)는 환자가 질병에 걸렸을 때 검사 결과가 양성일 확률, P(d)는 환자가 질병에 걸릴 확률, P(t)는 검사 결과가 양성일 확률이다.
문제에서 주어진 정보를 이용하면 P(d) = 0.0001, P(¬d) = 0.9999, P(t|d) = 0.99, P(t|¬d) = 0.01 이다. P(t)는 전체 확률의 법칙을 사용하여 계산할 수 있다.
P(t) = P(t|d)P(d) + P(t|¬d)P(¬d)
= (0.99 * 0.0001) + (0.01 * 0.9999)
= 0.0101
이 값들을 베이즈 정리에 대입하면 다음과 같다.
P(d|t) = (0.99 * 0.0001) / 0.0101 = 0.0098
계산 결과, 검사 결과가 양성이더라도 환자가 실제로 질병에 걸렸을 확률은 1% 미만이다. 이는 질병 자체가 매우 드물기 때문에, 양성 반응을 보이더라도 실제 질병에 걸렸을 확률은 낮다는 것을 의미한다.
결론
확률 기반 학습은 베이즈 정리를 이용하여 데이터로부터 예측 모델을 구축하는 방법이다. 데이터를 통해 얻은 증거를 바탕으로 예측을 수정하고 개선하며, 특히 역확률을 계산하는 데 유용하다. 다음 시간에는 이를 일반화하여 모델로 구축해보겠다.
[인공지능개론] information based learning - Decision tree
(https://hyeonb.blogspot.com/2024/10/information-based-learning-decision-tree.html)