[데이터사이언스기초] Data Visualization

 

Introduction to Data Visualization

오늘은 데이터 시각화(Data Visualization)라는 주제를 새로이 시작한다! 데이터 시각화는 단순히 데이터를 그림으로 표현하는 것을 넘어, 데이터에 숨겨진 의미와 패턴을 파악하고 효과적으로 전달하는 강력한 도구다. 오늘은 데이터 시각화의 기본적인 개념과 다양한 시각화 요소들에 대해 알아보겠다.

데이터 시각화란?

데이터 시각화는 복잡한 데이터를 직관적으로 이해하고 분석할 수 있도록 돕는 시각적인 표현 방법이다. 인간은 숫자 해석보다 그림을 더 빠르게 읽어내기 때문에, 시각화를 통해 데이터의 분포, 추세, 관계 등을 쉽게 파악할 수 있다.

좋은 데이터 시각화의 조건

  • 명확한 메시지 전달: 시각화를 통해 전달하고자 하는 메시지가 명확해야 한다.
  • 정확한 데이터 표현: 데이터를 왜곡 없이 정확하게 표현해야 한다.
  • 미적 탁월성: 보기 좋고 이해하기 쉬운 디자인을 적용해야 한다.
안좋은 예

그런 점에서 위 그림은 왜곡이 일어났기 때문에 좋은 데이터 시각화가 아니라고 할 수 있다.

데이터 시각화의 요소들

데이터 시각화에는 다양한 요소들이 사용된다. 이러한 요소들을 적절히 활용하여 데이터의 특징을 효과적으로 표현할 수 있다.

시각적 속성 (Visual Attributes)

시각적 속성은 데이터를 시각적으로 표현하는 데 사용되는 요소들이다. 위치, 크기, 형태, 색상, 선 유형 및 굵기 등 다양한 시각적 속성을 활용하여 데이터의 특징을 강조하고, 의미를 부여할 수 있다. 오늘은 데이터 시각화를 구성하는 다양한 요소 중에서도 위치 스케일(Position Scales)색상 스케일(Color Scales)에 대해 알아보수량 데이터 시각화에 대해 자세히 알아보겠다.

1. 위치 스케일 (Position Scales)

데이터 값을 좌표 평면 상의 위치로 표현하는 방법으로, 주로 좌표계를 사용한다. 좌표계는 데이터를 시각적으로 나타내는 데 중요한 역할을 하며, 다양한 종류가 있다.

1.1. 데카르트 좌표계 (Cartesian Coordinate System)

가장 일반적인 좌표계로, 2차원 평면에서 x, y 값을 조합하여 고유한 위치를 나타낸다. 두 축은 서로 직교하며, 각 축의 단위는 다를 수 있다. 하지만 두 축의 단위가 다를 경우, 반드시 한 축의 데이터 값을 다른 축 값에 비례하여 늘이거나 줄여야 시각적 타당성을 유지할 수 있다. 만약 x, y 축이 같은 단위를 사용한다면, 두 축의 격자 간격은 동일해야 한다.

1.2. 비선형 축 (Non-Linear Axes)

데이터 값을 선형으로 표현하는 것이 적절하지 않을 때 사용된다.
(long tail 특성 - 소수가 다수를 압도, 숫자가 큰 경우, 비율이 포함되는 경우)

  • 로그 스케일(Logarithmic Scale): 넓은 범위의 데이터를 표현하거나 비율 값을 나타낼 때 유용하다. 예를 들어, 1, 10, 100, 1000과 같이 값의 차이가 큰 데이터를 시각화할 때 로그 스케일을 사용하면 데이터 간의 비교가 용이해진다.
  • 제곱 스케일(Power Scale): 제곱값으로 산출되는 데이터를 표현하기에 적합하다. 예를 들어, 땅 면적 데이터를 제곱근 스케일로 나타내면 직선 거리에 비례하게 되어 면적 간의 비교가 쉬워진다.

1.3. 극좌표계 (Polar Coordinate System)

주기적으로 생성되는 데이터를 다룰 때 유용하다. 예를 들어, 시간에 따른 풍속이나 방향 데이터를 시각화할 때 극좌표계를 사용하면 주기적인 패턴을 쉽게 파악할 수 있다.


2. 색상 스케일 (Color Scales)

색상 스케일은 데이터 값을 색상으로 표현하는 방법이다. 데이터 유형에 따라 적절한 색상 스케일을 선택해야 한다.

2.1. 정성적 색상 스케일 (Qualitative Color Scale)

명목형(nominal) 데이터에 적합하며, 각 범주를 구분하기 위해 서로 다른 색상을 사용한다. 예를 들어, 파이 차트에서 각 조각의 색상은 서로 다른 범주를 나타낸다.

Categorical data

2.2. 순차적 색상 스케일 (Sequential Color Scale)

순서형(ordinal) 또는 연속형(continuous) 데이터에 적합하며, 데이터 값의 크기에 따라 색상의 밝기나 채도를 변화시킨다. 예를 들어, 히트맵에서 색상의 밝기는 데이터 값의 크기를 나타낸다.

Sequential data

2.3. 강조 색상 스케일 (Highlight Color Scale)

특정 데이터 값을 강조하기 위해 사용된다. 예를 들어, 막대 그래프에서 특정 막대의 색상을 다르게 표현하여 해당 막대를 강조할 수 있다.

Highlight data

2.4. 발산형 색상 스케일 (Diverging Color Scale)

두 가지 대조적인 색상을 사용하여 데이터 값의 양극단을 강조한다. 예를 들어, 지도에서 인구 증가와 감소를 나타낼 때 파란색과 빨간색을 사용하는 것이 발산형 색상 스케일의 예시다.

Diverging data


3. 수량 데이터 시각화

수량 데이터는 숫자로 표현되는 데이터로, 크기, 비율, 변화 등을 나타낸다. 수량 데이터를 시각화하는 대표적인 방법으로는 막대 도표, 점 도표, 히트맵 등이 있다.

* 이 때 모든 도표에는 제목, 범례, 단위 설정이 필수이다.

3.1. 막대 도표 (Bar Chart)

막대의 길이로 데이터 값을 나타내어 여러 범주의 데이터를 비교하는 데 유용하다. 막대 도표를 만들 때 고려해야 할 사항은 다음과 같다.

  • 순서: 막대의 순서는 데이터 값의 크기 순으로 정렬하거나, 범주의 의미에 따라 정렬할 수 있다.(ordinal data라면 order대로)
  • 방향: 막대는 수직 또는 수평 방향으로 나타낼 수 있다.
  • 잉크량 비례의 법칙: 색상으로 채워진 막대의 면적은 데이터 값에 비례해야 한다.(생략 불가)

3.2. 묶은 막대 도표 (Grouped Bar Chart)

두 개 이상의 범주형 변수를 동시에 비교할 때 사용된다. 각 범주는 서로 다른 색상으로 구분되며, 막대는 그룹별로 묶여서 표시된다.

  • Wide & Long Tables: 묶은 막대 도표를 만들기 위해서는 데이터를 Wide Format 또는 Long Format으로 변환해야 한다.
Wide & long table


  • Grouped Bar in Seaborn: 파이썬의 Seaborn 라이브러리를 사용하면 쉽게 묶은 막대 도표를 만들 수 있다.

3.3. 점 도표 (Dot Plot)

점으로 데이터 값을 표현하여 데이터의 분포를 파악하는 데 유용하다. 막대 도표와 달리, 점 도표는 데이터 값의 정확한 위치를 보여주므로 값의 차이를 더욱 명확하게 비교할 수 있다.
(잉크량 비례의 법칙으로 인한 한계 극복)

bar vs dot

3.4. 히트맵 (Heatmap)

데이터 값을 색상으로 표현하여 두 개 이상의 범주형 변수 간의 관계를 파악하는 데 유용하다. 막대 도표나 점 도표는 데이터 수가 많아지면 복잡해지지만, 히트맵은 데이터의 전체적인 추세를 한눈에 파악할 수 있도록 돕는다. (순서 신경쓰는거 잊지 않기!)

heatmap

마무리

이번 포스팅에서는 데이터 시각화의 기본 개념과 다양한 시각화 요소들에 대해 알아보았다. 데이터 시각화는 데이터 분석의 필수 도구이며, 데이터를 효과적으로 이해하고 전달하는 데 중요한 역할을 한다. 다음 포스팅에서는 다양한 종류의 데이터 시각화 기법과 실제 사례를 통해 데이터 시각화의 활용 방법을 더욱 자세히 알아보겠다.

추천글 : 
수포자, 수학이 막연한 분들을 위한 수학 완벽정리(feat. 수학 잘하는 법)

인공지능 시대 창의성이 중요한 이유
hyeon_B

안녕하세요! AI 기술을 이용해 더 나은 세상을 만들어 나가고 싶은 과기원생 Hyeon이라고 합니다. 저는 앞으로 인공지능 시대에는 지식을 '활용'하는 능력이 중요해질 것이라고 생각합니다. 대부분의 일들은 인공지능이 뛰어난 모습을 보이지만, 인공지능은 데이터로 부터 연관관계를 학습하기 때문에 지식들을 새로 통합해서 활용하는 능력이 부족합니다. 인공지능이 뉴턴 전에 만들어졌다면 사과가 떨어지는 이유에 대답하지 못했을 것이고, 아인슈타인 전에 만들어졌다면 중력이 어떻게 생기는지 설명하지 못했을 것입니다. 따라서 앞으로 우리는 '본질'을 탐구하고 그 본질로부터 다른 곳에 적용하며 인공지능을 현명하게 활용해야 할 것입니다. 함께 인공지능 시대를 준비합시다!

댓글 쓰기

다음 이전

POST ADS1

POST ADS 2