머신러닝Machine Learning의 절차와 이해 - 탐색적 데이터 분석Exploratory Data Analysis, EDA

728x90
반응형

탐색적 데이터 분석(EDA) 로드맵

 

서론

 

머신러닝(Machine Learning)의 절차와 이해 - 탐색적 데이터 분석(Exploratory Data Analysis, EDA)에 대해 다뤄보겠습니다. 머신러닝을 위해서는 어떤 문제를 해결할 것인지와 그에 적합한 데이터들을 수집하는 것이 중요합니다. 이렇게 수집된 데이터를 어떻게 활용할 것인지 생각하는 단계가 탐색적 데이터 분석(EDA) 입니다.

분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용

 이 단계에서는 데이터를 활용하는 방안을 본격적으로 수립하고, 활용 가능한 상태로 데이터를 1차적인 가공하는 단계로 이해할 수 있습니다. 때문에, 그 데이터의 전체적인 구성과 형태, 연관성 등에 대해 큰 틀에서의 설계를 해야합니다. 자세히 알아보도록 하겠습니다.

 

탐색적 데이터 분석(EDA)

 

탐색적 데이터 분석(EDA)은 데이터를 이해하고, 데이터의 패턴을 찾으며, 이상치를 감지하고, 가설을 검증하는 과정입니다. EDA는 다음의 4가지 단계로 주로 진행합니다.

1. 데이터 크기 확인: 이 단계에서는 데이터의 행과 열의 수를 확인합니다. 이를 통해 데이터의 규모를 파악하고, 데이터 처리에 필요한 자원을 예측할 수 있습니다. 또한, 각 열의 데이터 타입을 확인함으로써 적절한 데이터 처리 방법을 결정할 수 있습니다.

2. 데이터 분포 확인: 이 단계에서는 데이터의 분포를 확인합니다. 이를 위해 평균, 중앙값, 최빈값, 분산, 표준편차 등의 통계량을 사용할 수 있습니다. 데이터의 분포를 파악함으로써 데이터의 특성을 이해하고, 이상치를 감지하며, 데이터 전처리 방법을 결정할 수 있습니다.

3. 데이터 시각화: 이 단계에서는 그래프나 차트를 사용해 데이터를 시각화합니다. 데이터 시각화를 통해 데이터의 패턴을 더 쉽게 파악할 수 있으며, 이상치를 더욱 명확하게 감지할 수 있습니다. 또한, 데이터 시각화를 통해 가설을 검증하고, 데이터의 관계를 이해하는데 도움이 됩니다.

4. 통계량 분석: 이 단계에서는 t-검정, 카이제곱 검정, 상관 계수 계산 등의 통계적 방법을 사용해 데이터를 분석합니다. 이를 통해 변수 간의 관계를 확인하고, 가설을 검증하며, 데이터의 특성을 더욱 깊게 이해할 수 있습니다.

 

이 4가지 단계를 통해 EDA를 수행하면, 데이터를 더욱 체계적이고 효과적으로 이해하고 분석할 수 있습니다. 

 

예시

 

탐색적 데이터 분석(EDA)의 이해를 돕기 위해 고객들의 신용카드 사용 데이터 분석을 위해 진행하는 것으로 예시를 들어보겠습니다.

 

1. 데이터 크기 확인: 신용카드 사용 데이터를 분석한다고 가정해봅시다. 이 데이터에는 고객 ID, 사용 날짜, 사용 금액, 사용처 등의 정보가 있을 것입니다. 데이터 크기 확인 단계에서는 이 데이터가 몇 행과 몇 열로 이루어져 있는지, 각 열의 데이터 타입은 무엇인지를 확인합니다. 이를 통해 데이터가 얼마나 큰지, 어떤 형태의 정보를 담고 있는지를 파악할 수 있습니다.

2. 데이터 분포 확인: 사용 금액 데이터의 분포를 확인해봅시다. 평균 사용 금액은 얼마인지, 중앙값은 얼마인지, 가장 많이 나타나는 사용 금액은 얼마인지를 확인합니다. 또한, 사용 금액의 분산과 표준편차를 계산하여 데이터의 퍼짐 정도를 파악합니다. 이런 정보를 통해 고객들의 소비 패턴을 이해할 수 있습니다.

3. 데이터 시각화: 사용 날짜와 사용 금액을 xy 축으로 하는 산점도를 그려봅시다. 이를 통해 특정 날짜에 사용 금액이 증가하는 패턴이 있는지, 아니면 랜덤하게 분포되어 있는지를 한 눈에 파악할 수 있습니다. 또한, 이상치가 있는지도 확인할 수 있습니다.

4. 통계량 분석: 사용 금액과 다른 변수, 예를 들어 고객의 나이나 성별 간의 관계를 분석해봅시다. 상관 계수를 계산하여 두 변수 간의 선형적 관계가 있는지를 확인하고, t-검정을 통해 남성과 여성 고객의 평균 사용 금액에 차이가 있는지를 검증합니다.

 

이런 분석을 통해 데이터의 복잡한 구조를 이해하고, 유의미한 인사이트를 도출할 수 있습니다.

 

결론

 

오늘은 머신러닝(Machine Learning)의 절차와 이해 - 탐색적 데이터 분석(Exploratory Data Analysis, EDA)에 대해 알아보았습니다. 탐색적 데이터 분석(EDA)은 분석 문제 정의와 데이터 수집 후, 머신러닝 절차에서 중요한 역할을 하는 세번째 단계입니다. 데이터 크기 확인, 데이터 분포 확인, 데이터 시각화, 통계량 분석 등을 통해 데이터를 깊게 이해하고, 이상치를 찾아내며, 가설을 검증합니다. EDA는 이후의 피처 엔지니어링과 예측 모델 개발에 큰 영향을 미칩니다. EDA를 통해 얻은 데이터의 이해는 피처 엔지니어링에서 중요한 변수 선택과 변환 방법을 결정하는 데 큰 도움이 됩니다. 또한, EDA에서 발견된 패턴과 이상치는 예측 모델의 성능을 크게 좌우할 수 있으므로, 이를 고려하여 모델을 개발하는 것이 중요합니다.

 

마지막으로, EDA는 서비스 적용 단계에서도 중요합니다. EDA를 통해 얻은 인사이트는 최종 서비스 제공에 있어 중요한 역할을 합니다. 예를 들어, 고객의 행동 패턴, 시장의 트렌드 등을 파악하여 서비스를 개선하는 데 사용될 수 있습니다. 따라서, EDA는 머신러닝 절차에서 중요한 단계로, 데이터를 깊게 이해하고, 모델 개발에 필요한 중요한 기반을 마련해주며, 최종적으로는 서비스 향상에 기여하게 됩니다.

반응형