탐색적 데이터 분석
EDA(Exploratory Data Analysis)란?
탐색적 데이터 분석(EDA)은 작업 중인 데이터의 특성을 이해할 수 있게 해주기 때문에 데이터 분석의 중요한 첫 번째 단계입니다. EDA는 추가 분석 및 모델링을 안내할 수 있는 데이터의 패턴, 추세 및 이상을 식별하는 데 도움이 됩니다. EDA의 목표는 데이터에 대한 통찰력과 이해를 얻고, 질문에 답하고, 가설을 세우는 것입니다.
데이터 시각화
데이터 시각화는 EDA에서 사용되는 가장 중요한 기술 중 하나입니다. 이를 통해 데이터를 시각적으로 탐색하고 패턴, 추세 및 이상값을 식별할 수 있습니다. 시각화 기술을 사용하여 변수 간의 관계를 탐색하고 잠재적인 상관 관계 또는 인과 관계를 식별할 수 있습니다. 예를 들어 산점도(Scatter Plot)를 사용하여 두 연속 변수 간의 관계를 시각화 할 수 있는 반면 막대 차트(Bar Plot)를 사용하여 범주형 변수(Categorical Data)의 분포를 시각화할 수 있습니다.
그래프의 종류 |
특성 | 장점 | 단점 |
산점도 Scatter Plot |
두 연속 변수 간의 관계 표시 | 이해하기 쉽고, 데이터의 패턴과 경향을 보여주고, 이상치와 영향력 있는 관찰을 식별가능 | 두 변수 간의 관계 표시로 제한됨 |
선 그래프 Line Chart |
시간 경과에 따른 연속 변수 또는 다른 연속 변수의 변화 표시 | 해석하기 쉽고 시간 경과에 따른 추세 표시 | 두 변수 간의 관계를 표시하는 것으로 제한됨, 많은 데이터 포인트로 읽기 어려울 수 있음 |
막대 그래프 Bar Plot |
범주형 변수의 분포 표시 | 각 카테고리의 빈도를 이해하기 쉽게 표시 | 여러 변수 간의 관계를 표시할 수 없으며 범주가 많을 경우 읽기 어려울 수 있음 |
히스토그램 Histogram |
연속 변수의 분포 표시 | 데이터의 모양과 산포도를 표시하여 해석하기 쉬움 | 여러 변수 간의 관계를 표시할 수 없으며 왜곡되거나 비정규 데이터로 해석하기 어려울 수 있음 |
박스플롯 Box Plot |
중앙값, 사분위수 및 이상값을 포함한 연속 변수의 분포 표시 | 데이터의 범위와 산포 표시, 이상값 식별 | 한 번에 하나의 변수 표시로 제한, 많은 데이터 포인트로 해석하기 어려울 수 있음 |
히트맵 Heatmap |
색상을 사용하여 두 범주형 변수 간의 관계를 표시 | 변수 간의 패턴과 관계를 이해하기 쉽게 표현 | 두 변수 사이의 관계를 표시하는 것으로 제한됨, 많은 범주로 해석하기 어려울 수 있음 |
버블 차트 Bubble Chart |
거품의 크기와 색상을 사용하여 세 변수 간의 관계 표시 | 해석하기 쉬운 세 변수 간의 관계 표시 | 세 변수 간의 관계를 표시하는 것으로 제한됨, 많은 데이터 포인트로 해석하기 어려울 수 있음 |