[인공지능개론] similarity based learning - feature space, measures of similarity

 

유사성 기반 학습: 과거의 경험으로 미래를 예측하다

예측의 새로운 접근: 유사성 기반 학습

머신러닝에서 예측을 수행하는 가장 좋은 방법은 무엇일까? 유사성 기반 학습(similarity-based learning)은 과거에 효과적이었던 것을 기반으로 미래를 예측하는 아이디어에서 출발한다. 이는 마치 우리가 일상생활에서 과거의 경험을 바탕으로 의사 결정을 내리는 것과 유사하다. 예를 들어, 낯선 동물을 만났을 때, 과거에 만났던 동물들과의 유사성을 비교하여 그 동물이 위험한지 판단하는 것과 같은 이치이다.

탐험 중 낯선 동물과의 조우

강 유역을 탐험하던 중 한 탐험대원이 낯선 동물을 목격했다고 가정해보자. 탐험대원은 동물이 으르렁거려 가까이 다가가지 못했지만, 물갈퀴가 있는 발과 오리 주둥이를 가지고 있었다고 설명한다. 이 동물이 위험한지 판단하기 위해, 과거에 만났던 동물들과의 유사성을 비교해 볼 수 있다.

counting each animal's features

특징 공간(Feature Space): 데이터를 시각적으로 표현

유사성 기반 학습의 핵심 개념 중 하나는 특징 공간(feature space)이다. 특징 공간은 데이터셋의 각 설명 변수를 축으로 하는 좌표계를 사용하여 데이터를 시각적으로 표현한 것이다. 각 데이터 인스턴스는 특징 공간에서 하나의 점으로 표현된다.

feature space

예를 들어, 동물의 특징을 'SPEED', 'AGILITY'이라는 세 가지 설명 변수로 나타낸다면, 특징 공간은 2차원 공간이 된다. 각 동물은 이 2차원 공간에서 하나의 점으로 표현되며, 점의 위치는 해당 동물의 SPEED, AGILITY 값에 의해 결정된다.

특징 공간의 차원은 설명 변수의 개수와 같다. 따라서 설명 변수가 많을수록 특징 공간의 차원이 높아진다.

유사도 측정: 거리 측정 지표

특징 공간에서 두 점 사이의 거리는 두 인스턴스 간의 유사도를 측정하는 데 유용하다. 거리가 가까울수록 두 인스턴스는 더 유사하다고 판단할 수 있다.

유사도를 측정하는 데 사용되는 거리 측정 지표에는 유클리드 거리(Euclidean distance), 맨해튼 거리(Manhattan distance), 민코프스키 거리(Minkowski distance) 등이 있다.

  • 유클리드 거리: 두 점 사이의 직선 거리를 계산한다.

  • 맨해튼 거리: 두 점 사이의 거리를 각 축을 따라 이동한 거리의 합으로 계산한다.
  • 민코프스키 거리: 유클리드 거리와 맨해튼 거리를 일반화한 거리 측정 지표이다.

거리 측정 지표의 선택 기준

맨해튼 거리는 절대적인 차이를 구하기 때문에 거리를 구하는데 있어 뚜렷한 가중치를 두지 않는다는 특징이 있고, 계산이 간단하다. 반면 유클리드 거리는 제곱으로 비교하므로 거리차가 클수록 가중치가 높아지며, 계산량 또한 많다는 특징이 있다. 민코프스키 거리는 p 값을 조정하여 유클리드 거리와 맨해튼 거리의 특징을 모두 나타낼 수 있다.
(default : 유클리드 거리)

Euclidean vs Manhattan

결론

유사성 기반 학습은 과거 데이터를 기반으로 미래를 예측하는 머신러닝 방법이다. 특징 공간과 거리 측정 지표를 사용하여 데이터 인스턴스 간의 유사도를 측정하고, 이를 기반으로 예측을 수행한다. 다음 포스팅에서는 유사성 기반 학습의 대표적인 알고리즘인 최근접 이웃 알고리즘(Nearest Neighbor Algorithm)에 대해 자세히 알아보자.

추천글 : 

[인공지능개론] information based learning - ID3 algorithm의 개념(https://hyeonb.blogspot.com/2024/10/information-based-learning-id3-algorithm.html)

[인공지능개론] information based learning - Decision tree
(https://hyeonb.blogspot.com/2024/10/information-based-learning-decision-tree.html)
hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2