[인공지능개론] probability based learning - Conditional independence, Factorization

 

확률 기반 학습의 심화: 조건부 독립과 팩터화

들어가며

인공지능 시스템에서 불확실성을 다루는 것은 매우 중요하다. 확률 기반 학습은 불확실성을 명시적으로 모델링하고, 데이터로부터 확률 분포를 학습하여 예측을 수행하는 방법이다. 이전 포스팅에서는 확률 기반 학습의 기본 개념과 베이즈 정리를 이용한 예측 모델에 대해 알아보았다. 하지만, 훈련 데이터셋에 없는 값 조합이 입력으로 들어올 경우, 조건부 확률 값이 0이 되어 예측 결과가 왜곡될 수 있다는 문제점을 확인했다. 이번 포스팅에서는 이러한 문제를 해결하기 위한 조건부 독립(Conditional independence)팩터화(Factorization) 개념에 대해 논의하고자 한다.

조건부 독립: 확률 변수 간의 관계 이해

조건부 독립은 확률 변수 간의 관계를 이해하는 데 중요한 개념이다. 두 변수 X와 Y가 주어졌을 때, Z라는 변수에 대한 X와 Y의 조건부 확률 분포가 같다면, X와 Y는 Z가 주어졌을 때 조건부 독립이라고 한다. 즉, Z에 대한 정보가 주어진 경우, X와 Y는 서로 영향을 미치지 않는다는 것을 의미한다.

예를 들어, '뇌수막염'이라는 질병을 진단하는 모델을 생각해 보자. '두통'과 '발열'은 뇌수막염의 증상일 수 있다. 뇌수막염 여부를 모르는 상태에서 두통이 있다는 정보는 발열 확률을 높일 수 있다. 왜냐하면 두통은 뇌수막염 확률을 높이고, 뇌수막염은 발열 확률을 높이기 때문이다.(Casual chain이라고 한다) 그러나 이미 뇌수막염이라는 사실을 알고 있다면, 두통이 있다는 정보는 발열 확률에 영향을 미치지 않는다. 즉, 뇌수막염이라는 조건이 주어졌을 때, 두통과 발열은 서로 독립적인 것이다.

fever & headache

팩터화: 확률 분포의 효율적인 표현

팩터화는 조건부 독립을 이용하여 복잡한 확률 분포를 간결하게 표현하는 방법이다. 전체 결합 확률 분포를 계산하고 저장하는 대신, 분포를 팩터라는 데이터 구조로 분해하여 부분 집합에 대한 분포를 정의한다. 팩터는 변수들의 부분 집합에 대한 확률 분포를 나타내는 테이블 또는 함수이다.

factorization

예를 들어, 뇌수막염 진단 데이터셋에서 '두통', '발열', '구토', '뇌수막염'이라는 네 가지 이진 변수가 있다고 가정하자. 전체 결합 확률 분포는 16개의 항목을 갖는다. 그러나 두통, 발열, 구토가 뇌수막염이 주어졌을 때 조건부 독립이라고 가정하면, 4개의 팩터, 즉 P(뇌수막염), P(두통|뇌수막염), P(발열|뇌수막염), P(구토|뇌수막염)만 저장하면 된다. 이러한 팩터들을 이용하여 전체 결합 확률 분포의 모든 요소를 다시 계산할 수 있다.

Only need 4 factor

팩터화의 이점: 지수적 증가 vs. 선형적 증가

팩터화는 확률 분포를 표현하는 데 필요한 확률의 수를 크게 줄여준다. 변수의 수가 증가함에 따라, 팩터화된 표현과 전체 결합 확률 분포에 필요한 확률 수의 차이는 기하급수적으로 커진다. 예를 들어, 1개의 목표 변수와 9개의 설명 변수가 있는 도메인에서, 모든 변수가 이진 변수일 경우 전체 결합 확률 분포는 1,024개의 확률을 갖는다.(전체 경우의 수) 그러나 모든 설명 변수가 목표 변수가 주어졌을 때 조건부 독립이라면, 팩터화된 분포는 단지 19개의 확률만으로 표현할 수 있다.(사전 확률 1개 + 각 설명 변수 별 조건부 확률 2개씩)

뇌수막염 분류 예제

이전 포스팅에서 사용했던 뇌수막염 분류 예제를 다시 살펴보자. 훈련 데이터셋에 없는 '두통=참', '발열=참', '구토=거짓' 조합이 입력으로 들어올 경우, 전체 결합 확률 분포를 사용하는 모델은 뇌수막염 확률을 0으로 예측한다. 그러나 조건부 독립을 가정하고 팩터화를 사용하면, 각 증상에 대한 개별적인 확률을 고려하여 뇌수막염 확률을 계산할 수 있다.

Only Meningitis is a false case.

예를 들어, 위의 데이터셋을 이용해 팩터를 다음과 같이 구할 수 있다.

Factor of Meningitis dataset

 이러한 확률 값들을 이용하여 베이즈 정리를 적용하면, 뇌수막염일 확률은 약 0.1948로 계산된다. 이는 0이 아닌 값이며, 데이터가 존재하지 않는 경우의 극단적인 결과를 피할 수 있게 해준다.

probability calculation

마치며

이번 포스팅에서는 조건부 독립과 팩터화 개념에 대해 알아보았다. 조건부 독립은 확률 변수 간의 관계를 이해하는 데 중요하며, 팩터화는 복잡한 확률 분포를 효율적으로 표현하는 방법이다. 팩터화를 통해 확률 기반 예측 모델은 훈련 데이터셋에 없는 조합에 대해서도 합리적인 확률을 계산할 수 있다.


추천글:

[인공지능개론] probability based learning - Bayes' theorem
(https://hyeonb.blogspot.com/2024/10/probability-based-learning-bayes-theorem.html)

[인공지능개론] probability based learning - Generalized Bayes' Theorem, MAP
(https://hyeonb.blogspot.com/2024/10/probability-based-learning-generalized.html)

hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2