[데이터사이언스기초] Data Visualization - 불확실성의 시각화와 회귀/상관 분석

 

데이터 시각화: 불확실성 시각화와 기초 통계

지난 포스팅에서는 다양한 데이터 유형에 따른 시각화 방법을 살펴봤다. 오늘은 데이터 시각화의 마지막 주제인 불확실성 시각화와 이를 이해하기 위한 기초 통계 개념에 대해 알아보겠다. 또한, 회귀 분석과 상관 분석을 통해 데이터 간의 관계를 파악하는 방법도 소개하겠다.

1. 불확실성 시각화 (Visualization of Uncertainty)

데이터 시각화는 데이터의 정보를 명확하게 전달하는 것이 중요하지만, 데이터 자체의 불확실성을 표현하는 것 또한 중요하다. 불확실성을 시각화하는 대표적인 방법으로는 오차 막대(Error Bar)신뢰 대역(Confidence Band)이 있다.

  • Error Bar: 데이터의 평균값 주변에 표준 오차(Standard Error) 또는 표준 편차(Standard Deviation)를 나타내는 막대를 추가하여 데이터의 변동성을 보여준다.
Error bar

  • Confidence Band: 회귀 분석 등에서 예측 모델의 불확실성을 나타내는 영역을 표시한다. 신뢰 수준(Confidence Level)에 따라 대역의 폭이 달라진다.
Confidence band

1.1. 통계 개념

오차 막대와 신뢰 대역을 보면 표준 편차, 표준 오차, 신뢰 구간이라는 개념이 나온다. 각각은 무엇을 의미할까? 이를 이해하기 위해 몇 가지 기초 통계 개념을 알아보자.

  • Population & Sample: 모집단(Population)은 전체 데이터 집합을 의미하며, 표본(Sample)은 모집단에서 추출한 일부 데이터 집합이다. 일반적으로 모집단을 조사하는 것은 어렵기 때문에 표본을 사용하는데, 이 때 표본이 모집단을 대표하기 위해서는 Random sampling과 표본의 수를 높이는 것(큰 수의 법칙)이 필요하다.
  • Standard Error: 표준 오차(Standard Error)는 표본 평균의 표준 편차를 의미하며, 표본 평균이 모평균과 얼마나 차이가 날 수 있는지를 나타낸다.
    (즉, 표준 오차가 작을수록 모평균 추정값의 불확실성을 줄어든다)  
  • Confidence Interval: 신뢰 구간(Confidence Interval)은 모평균이 특정 확률(신뢰 수준)로 포함될 것으로 예상되는 구간이다.
신뢰 구간


2. 회귀 분석 (Regression Analysis)

회귀 분석(Regression Analysis)은 변수 간의 관계를 모델링하고 분석하는 통계 기법이다. 특히, 선형 회귀(Linear Regression)는 두 변수 간의 관계를 직선으로 모델링하는 방법이다.

2.1. Model

선형 회귀 모델은 다음과 같이 표현된다.

y = ax + b + ε
  • y: 종속 변수 (dependent variable)
  • x: 설명 변수, 독립 변수 (independent variable)
  • a: 기울기 (slope)
  • b: y 절편 (intercept)
  • ε: 오차 (error term)

2.2. Residual (잔차)

Residual(잔차)는 실제 데이터 값과 회귀 모델이 예측한 값 사이의 차이를 의미한다. 즉, 각 데이터 포인트에서 회귀선까지의 수직 거리를 나타낸다.

2.3. Model Fitting (모델 피팅)

회귀 분석의 목표는 잔차를 최소화하는 모델을 찾는 것이다. 잔차 제곱의 합(Sum of Squared Residuals)을 최소화하는 방법을 최소 자승법(Least Squares Method)이라고 한다. 이 내용에 대해서는 선형대수학에서 다룬 바 있으니 참고하길 바란다.

2.4. R-squared (결정 계수)

R-squared(결정 계수)는 회귀 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표이다. 0과 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다.

설명력


2.5. 선형 회귀 분석의 가정

선형 회귀 분석을 수행하기 위해서는 다음과 같은 가정이 만족되어야 한다.

  • 선형성(Linearity): 독립 변수와 종속 변수 간에 선형 관계가 존재해야 한다.
  • 독립성(Independence): 오차항은 서로 독립적이어야 한다.
  • 등분산성(Homoscedasticity): 오차항의 분산은 모든 독립 변수 값에 대해 일정해야 한다.
  • 정규성(Normality): 오차항은 정규 분포를 따라야 한다.

* 주의) Correlation is not Causation

상관관계(Correlation)는 두 변수가 함께 변화하는 경향을 나타내지만, 인과관계(Causation)를 의미하지는 않는다. 즉, 두 변수가 상관관계가 있다고 해서 한 변수가 다른 변수의 원인이 된다고 단정할 수 없다.

가짜 상관관계

2.6. Hypothesis Testing (가설 검정)

회귀 분석에서는 귀무 가설(H0): 설명 변수가 종속 변수에 영향을 미치지 않는다대립 가설(H1): 설명 변수가 종속 변수에 영향을 미친다를 설정하고, p-value(유의 확률)를 통해 귀무 가설을 기각할 수 있는지 판단한다. p-value는 낮을수록 귀무 가설을 기각하고 대립 가설을 채택할 근거가 강해진다. (즉, 낮을수록 관계가 있다는 얘기)


3. 상관 분석 (Correlation Analysis)

상관 분석(Correlation Analysis)은 두 변수 간의 선형적인 관계의 강도와 방향을 측정하는 통계 기법이다. 상관 계수(Correlation Coefficient)는 -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을, 1은 완벽한 양의 상관관계를, -1은 완벽한 음의 상관관계를 나타낸다.

3.1. Pearson's r (피어슨 상관 계수)

가장 일반적인 상관 계수는 Pearson's r(피어슨 상관 계수)이다. Pearson's r은 두 변수가 모두 연속형(continuous)일 때 사용된다.

Pearson's correlation

3.2. Scatterplot (산점도)

Scatterplot(산점도)은 두 변수 간의 관계를 시각적으로 보여주는 그래프이다. x축에는 독립 변수, y축에는 종속 변수를 나타내고, 각 데이터 포인트를 점으로 표시한다. 산점도를 통해 두 변수 간의 상관관계를 대략적으로 파악할 수 있다.

scatterplot

마무리

이번 포스팅에서는 불확실성 시각화, 회귀 분석, 상관 분석에 대해 알아보았다. 데이터 분석에서 불확실성을 고려하고 변수 간의 관계를 파악하는 것은 매우 중요하다. 이제 시각화하는 방법에 대해 전부 다뤄봤으니, 다음 포스팅부터는 더욱 심층적인 데이터 분석 기법에 대해 알아보겠다.

추천글 : 
[선형대수학] 최소자승법(Linear square problem)
(
https://hyeonb.blogspot.com/2024/05/linear-square-problem.html)
[데이터사이언스기초] Data Visualization
(
https://hyeonb.blogspot.com/2024/06/data-visualization.html)
[데이터사이언스기초] Data Visualization - 분포 & 비율 & 관계 & 추세 시각화
(
https://hyeonb.blogspot.com/2024/06/data-visualization_2.html)
hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2