[인공지능개론] probability based learning - Bayes' theorem

 

제목: 확률 기반 학습: 베이즈 정리를 이용한 예측

서론: 'Find the Lady' 게임과 확률

확률 기반 학습은 데이터로부터 확률을 추정하고, 이를 이용하여 예측 모델을 구축하는 머신러닝 방법이다. 이러한 접근 방식은 베이즈 정리(Bayes' Theorem)에 기반을 두고 있으며, 데이터를 통해 얻은 증거를 활용하여 예측을 수정하고 개선하는 데 중점을 둔다.

'Find the Lady' 카드 게임을 예시로 들어보자. 이 게임은 딜러가 퀸 1장과 에이스 2장, 총 3장의 카드를 가지고 진행하며, 플레이어는 딜러가 카드를 엎어 놓았을 때 퀸이 어디에 있는지 맞춰야 한다. 처음에는 퀸이 세 위치에 있을 확률이 동일하다고 가정하지만, 딜러가 30번 게임을 하는 것을 관찰한 결과, 퀸이 오른쪽 위치에 놓일 확률이 훨씬 높다는 것을 알게 되었다고 가정해보자. 이러한 관찰 결과는 퀸의 위치에 대한 우리의 믿음을 수정하게 만든다. 즉, 퀸이 오른쪽에 있을 확률이 가장 높다고 예측하게 된다.

하지만 만약 갑자기 바람이 불어 오른쪽 카드가 에이스로 밝혀졌다면 어떨까? 이 새로운 증거는 다시 한번 우리의 예측을 수정하게 만든다. 즉, 퀸이 오른쪽에 있을 확률은 0이 되고, 나머지 두 위치에 있을 확률을 다시 계산해야 한다.

Find the Lady

이 예시는 확률 기반 학습의 핵심 아이디어를 잘 보여준다. 즉, 데이터를 수집하고 새로운 증거를 얻을 때마다 예측을 수정하고 개선하는 것이 확률 기반 학습의 핵심이다.


베이즈 정리: 조건부 확률을 이용한 예측

베이즈 정리는 조건부 확률을 이용하여 사건의 확률을 계산하는 방법을 제공한다. 조건부 확률은 어떤 사건 A가 발생했다는 조건 하에 다른 사건 B가 발생할 확률을 의미하며, P(B|A)로 표기한다.

확률 분포는 특징이 가질 수 있는 각 값에 대한 확률을 나타낸다. 예를 들어, 주사위를 던졌을 때 나올 수 있는 눈의 확률 분포는 P(1) = P(2) = ... = P(6) = \( \frac{1}{6} \) 이다.

결합 확률 분포는 두 개 이상의 특징에 대한 확률 분포를 나타낸다. 예를 들어, 동전 두 개를 던졌을 때 각각 앞면(H) 또는 뒷면(T)이 나올 확률 분포는 다음과 같이 나타낼 수 있다.

P(HH) = \( \frac{1}{4} \), P(HT) = \( \frac{1}{4} \), P(TH) = 1/4, P(TT) = \( \frac{1}{4} \)

결합 확률 분포를 이용하면 조건부 확률을 계산할 수 있다. 예를 들어, 첫 번째 동전이 앞면이 나왔을 때 두 번째 동전도 앞면이 나올 확률은 다음과 같이 계산한다.

P(두 번째 동전이 H | 첫 번째 동전이 H) = P(HH) / P(첫 번째 동전이 H) = \( \frac{1}{4} \) / \( \frac{1}{2} \) = \( \frac{1}{2} \)


베이즈 정리는 다음과 같이 정의된다.

P(A|B) = [P(B|A) * P(A)] / P(B)

베이즈 정리는 어떤 증거 B가 주어졌을 때 사건 A의 확률을 계산하는 데 유용하다. 특히, 사건 A에서 증거 B가 발생할 확률 P(B|A)를 알고 있을 때, 증거 B로부터 사건 A의 확률 P(A|B)를 계산할 수 있다.

베이즈 정리의 장점: 역확률 계산

베이즈 정리의 주요 장점 중 하나는 역확률(inverse probability)을 쉽게 계산할 수 있다는 것이다. 일반적으로 사건 A가 발생했을 때 증거 B가 나타날 확률 P(B|A)는 계산하기 쉽지만, 반대로 증거 B가 나타났을 때 사건 A가 발생했을 확률 P(A|B)는 계산하기 어렵다. 베이즈 정리는 이러한 역확률을 계산하는 방법을 제공한다.

의료 진단 예시: 베이즈 정리 적용

베이즈 정리를 이용한 예측을 설명하기 위해 의료 진단 예시를 들어보자. 한 환자가 심각한 질병에 대해 양성 반응을 보였고, 검사의 정확도는 99%라고 가정하자. 하지만 이 질병은 매우 드물어서 10,000명 중 1명꼴로 발생한다. 이때 환자가 실제로 질병에 걸렸을 확률은 얼마일까?

베이즈 정리를 사용하여 이 질문에 답할 수 있다. P(d|t)는 검사 결과가 양성(t)일 때 환자가 질병에 걸렸을 확률(d)을 나타낸다. 베이즈 정리에 따라 다음과 같이 계산할 수 있다.

P(d|t) = [P(t|d) * P(d)] / P(t)

여기서 P(t|d)는 환자가 질병에 걸렸을 때 검사 결과가 양성일 확률, P(d)는 환자가 질병에 걸릴 확률, P(t)는 검사 결과가 양성일 확률이다.

문제에서 주어진 정보를 이용하면 P(d) = 0.0001, P(¬d) = 0.9999, P(t|d) = 0.99, P(t|¬d) = 0.01 이다. P(t)는 전체 확률의 법칙을 사용하여 계산할 수 있다.

P(t) = P(t|d)P(d) + P(t|¬d)P(¬d) 
     = (0.99 * 0.0001) + (0.01 * 0.9999) 
     = 0.0101

이 값들을 베이즈 정리에 대입하면 다음과 같다.

P(d|t) = (0.99 * 0.0001) / 0.0101 = 0.0098

계산 결과, 검사 결과가 양성이더라도 환자가 실제로 질병에 걸렸을 확률은 1% 미만이다. 이는 질병 자체가 매우 드물기 때문에, 양성 반응을 보이더라도 실제 질병에 걸렸을 확률은 낮다는 것을 의미한다.

결론

확률 기반 학습은 베이즈 정리를 이용하여 데이터로부터 예측 모델을 구축하는 방법이다. 데이터를 통해 얻은 증거를 바탕으로 예측을 수정하고 개선하며, 특히 역확률을 계산하는 데 유용하다. 다음 시간에는 이를 일반화하여 모델로 구축해보겠다.



추천글 : 
[인공지능개론] similarity based learning - feature space, measures of similarity

[인공지능개론] information based learning - Decision tree
(https://hyeonb.blogspot.com/2024/10/information-based-learning-decision-tree.html)

hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2