[인공지능개론] Naive Bayes Model

 

나이브 베이즈 모델: 조건부 독립을 이용한 효율적인 확률 기반 학습

확률 기반 학습의 과제: 차원의 저주와 데이터 단편화

인공지능 시스템에서 불확실성을 다루는 것은 매우 중요하다. 확률 기반 학습은 불확실성을 명시적으로 모델링하고, 데이터로부터 확률 분포를 학습하여 예측을 수행하는 방법이다. 그러나 확률 기반 학습은 차원의 저주(curse of dimensionality)데이터 단편화(data fragmentation)라는 두 가지 주요 문제에 직면한다.

차원의 저주는 변수의 수가 증가함에 따라 확률 분포를 표현하고 학습하는 데 필요한 데이터의 양이 기하급수적으로 증가하는 현상을 말한다. 데이터 단편화는 고차원 데이터 공간에서 데이터가 희소하게 분포되어 특정 조합의 값에 대한 관측 빈도가 낮아지는 현상을 말한다.

problem in probability-based learning


나이브 베이즈 모델: 조건부 독립 가정의 힘

나이브 베이즈 모델은 이러한 문제를 해결하기 위해 조건부 독립이라는 가정을 도입한다. 조건부 독립은 특정 변수가 주어졌을 때 다른 변수들이 서로 독립이라는 가정이다.(자세한 내용은 지난 포스팅을 참조하자.) 즉, 나이브 베이즈 모델은 목표 변수가 주어졌을 때 모든 설명 변수들이 서로 조건부 독립이라고 가정한다.

이러한 가정은 "Naive(순진한)" 가정이라고 볼 수 있지만(그래서 모델 이름이 Naive Bayes이다), 나이브 베이즈 모델은 놀라울 정도로 다양한 분야에서 효과적인 것으로 나타났다. 조건부 독립 가정을 통해 나이브 베이즈 모델은 차원의 저주와 데이터 단편화 문제를 완화하고, 적은 데이터로도 효율적인 학습이 가능하다.



나이브 베이즈 모델의 장점: 결측값 처리와 간결한 표현

나이브 베이즈 모델은 결측값을 쉽게 처리할 수 있다는 장점도 있다. 결측값은 데이터에서 특정 변수의 값이 없는 경우를 말한다. 나이브 베이즈 모델은 결측값을 무시하고 나머지 변수들을 사용하여 확률을 계산할 수 있다.

또한, 나이브 베이즈 모델은 매우 간결한 표현을 갖는다. 조건부 독립 가정 덕분에 전체 결합 확률 분포를 저장할 필요 없이, 각 변수에 대한 조건부 확률만 저장하면 된다.


사기 탐지 예제: 적은 수의 확률로 효과적인 분류

나이브 베이즈 모델을 사용하여 사기 탐지 문제를 해결하는 예제를 살펴보자. 사기 탐지 모델은 대출 신청서가 사기인지 여부를 예측한다.

대출 신청서 데이터에는 신용 기록, 보증인/공동 신청자 유무, 거주 형태 등의 변수가 포함될 수 있다. 나이브 베이즈 모델은 각 변수에 대한 조건부 확률을 계산하여 사기일 확률을 예측한다.

dataset

예를 들어, 신용 기록이 "양호"이고, 보증인/공동 신청자가 "없음"이고, 거주 형태가 "자가"일 경우 사기일 확률을 계산한다고 가정하자. 나이브 베이즈 모델은 각 조건에 대한 조건부 확률을 곱하여 사기일 확률을 계산한다.

calculation example


이 예제에서 나이브 베이즈 모델은 단 22개의 확률만 사용하여 사기 탐지 문제를 해결할 수 있다. 이는 나이브 베이즈 모델이 매우 효율적인 학습 방법임을 보여준다.

conclusion

마치며

이번 포스팅에서는 나이브 베이즈 모델에 대해 알아보았다. 나이브 베이즈 모델은 조건부 독립 가정을 사용하여 차원의 저주와 데이터 단편화 문제를 해결하는 효율적인 확률 기반 학습 방법이다. 나이브 베이즈 모델은 결측값 처리가 용이하고 간결한 표현을 갖는다는 장점이 있으며, 다양한 분야에서 효과적인 것으로 나타났다.
하지만 여기에는 모든 확률이 조건부 독립이라는 Naive한 가정을 했기에, 이를 보다 일반화하여 Bayesian Networks라는 방법이 등장했다.


추천글:

[인공지능개론] probability based learning - Conditional independence, Factorization
(
https://hyeondev.blogspot.com/2024/10/probability-based-learning-conditional.html)

[인공지능개론] probability based learning - Bayes' theorem
(https://hyeonb.blogspot.com/2024/10/probability-based-learning-bayes-theorem.html)

[인공지능개론] probability based learning - Generalized Bayes' Theorem, MAP
(https://hyeonb.blogspot.com/2024/10/probability-based-learning-generalized.html)

hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2