본문 바로가기
카테고리 없음

탐색적 데이터 분석(EDA)

by 겨남 2023. 3. 24.

탐색적 데이터 분석

EDA(Exploratory Data Analysis)란?

탐색적 데이터 분석(EDA)은 작업 중인 데이터의 특성을 이해할 수 있게 해주기 때문에 데이터 분석의 중요한 첫 번째 단계입니다. EDA는 추가 분석 및 모델링을 안내할 수 있는 데이터의 패턴, 추세 및 이상을 식별하는 데 도움이 됩니다. EDA의 목표는 데이터에 대한 통찰력과 이해를 얻고, 질문에 답하고, 가설을 세우는 것입니다.

 

데이터 시각화

데이터 시각화는 EDA에서 사용되는 가장 중요한 기술 중 하나입니다. 이를 통해 데이터를 시각적으로 탐색하고 패턴, 추세 및 이상값을 식별할 수 있습니다. 시각화 기술을 사용하여 변수 간의 관계를 탐색하고 잠재적인 상관 관계 또는 인과 관계를 식별할 수 있습니다. 예를 들어 산점도(Scatter Plot)를 사용하여 두 연속 변수 간의 관계를 시각화 할 수 있는 반면 막대 차트(Bar Plot)를 사용하여 범주형 변수(Categorical Data)의 분포를 시각화할 수 있습니다.

그래프의
종류
특성 장점 단점
산점도
Scatter Plot
두 연속 변수 간의 관계 표시 이해하기 쉽고, 데이터의 패턴과 경향을 보여주고, 이상치와 영향력 있는 관찰을 식별가능 두 변수 간의 관계 표시로 제한됨
선 그래프
Line Chart
시간 경과에 따른 연속 변수 또는 다른 연속 변수의 변화 표시 해석하기 쉽고 시간 경과에 따른 추세 표시 두 변수 간의 관계를 표시하는 것으로 제한됨, 많은 데이터 포인트로 읽기 어려울 수 있음
막대 그래프
Bar Plot
범주형 변수의 분포 표시  각 카테고리의 빈도를 이해하기 쉽게 표시 여러 변수 간의 관계를 표시할 수 없으며 범주가 많을 경우 읽기 어려울 수 있음
히스토그램
Histogram
연속 변수의 분포 표시 데이터의 모양과 산포도를 표시하여 해석하기 쉬움 여러 변수 간의 관계를 표시할 수 없으며 왜곡되거나 비정규 데이터로 해석하기 어려울 수 있음
박스플롯
Box Plot
중앙값, 사분위수 및 이상값을 포함한 연속 변수의 분포 표시 데이터의 범위와 산포 표시, 이상값 식별 한 번에 하나의 변수 표시로 제한, 많은 데이터 포인트로 해석하기 어려울 수 있음
히트맵
Heatmap
색상을 사용하여 두 범주형 변수 간의 관계를 표시 변수 간의 패턴과 관계를 이해하기 쉽게 표현 두 변수 사이의 관계를 표시하는 것으로 제한됨, 많은 범주로 해석하기 어려울 수 있음
버블 차트
Bubble Chart
거품의 크기와 색상을 사용하여 세 변수 간의 관계 표시 해석하기 쉬운 세 변수 간의 관계 표시 세 변수 간의 관계를 표시하는 것으로 제한됨, 많은 데이터 포인트로 해석하기 어려울 수 있음

 

산점도
산점도

요약 통계

요약 통계는 EDA에서 사용되는 또 다른 중요한 기술입니다. 평균, 중앙값, 모드, 표준 편차 및 범위와 같은 데이터의 주요 기능을 요약하고 설명할 수 있습니다. 요약 통계는 데이터의 전체 모양과 분포는 물론 잠재적인 이상치를 설명하는 빠르고 쉬운 방법을 제공합니다.

EDA에 사용되는 다른 기술에는 정규화(Normalization) 또는 표준화(Standardization)와 같은 데이터 변환이 포함되며, 이는 공통 척도에서 변수를 비교하는 데 도움이 될 수 있습니다. 또한 주성분 분석 또는 t-SNE와 같은 차원 축소 기술을 사용하면 고차원 데이터를 저차원으로 시각화하여 패턴과 관계를 쉽게 식별할 수 있습니다.

전반적으로 EDA는 작업 중인 데이터에 대한 통찰력과 이해를 얻는 데 도움이 되므로 데이터 분석의 필수 단계입니다. 시각화 및 요약 통계는 EDA에서 사용되는 두 가지 중요한 기술이지만 분석 중인 데이터의 특정 특성에 따라 사용할 수 있는 다른 많은 기술이 있습니다.