반응형
서론 데이터 분석과 머신러닝 알고리즘 적용은 현대의 다양한 분야에서 중요한 역할을 하고 있습니다. 특히 부동산 가격 예측은 지역 경제, 개인의 재산 관리, 그리고 투자 결정 등에 있어서 중요한 정보를 제공합니다. 하지만 실제로 부동산 가격을 예측하는 과정은 매우 복잡하며, 대량의 데이터와 다양한 변수들을 다루어야 합니다. 이러한 복잡성을 관리하기 위해 데이터 사이언티스트들은 데이터를 체계적으로 가공하고, 효율적으로 분석할 수 있는 다양한 기법을 사용합니다. 이전 글에서는 과거의 방법처럼 데이터의 특성을 이해하고 중요한 피처들을 선별하기 위해 직접 데이터를 시각화하고, 다양한 통계적 방법을 사용하여 핵심적인 변수를 선택하는 과정이 필요했습니다. 이 과정은 매우 시간이 많이 소요되며, 주관적인 판단이 개입될..
지난 글 https://10yp.tistory.com/manage/newpost/142?type=post&returnURL=https%3A%2F%2F10yp.tistory.com%2F142 https://10yp.tistory.com/manage/newpost/142?returnURL=https%3A%2F%2F10yp.tistory.com%2F142&type=post 10yp.tistory.com 에서는 많은 피처들이 있는 것을 파악하고, 타겟의 데이터 분포 형태와 타겟과 피처간의 관계의 경향성을 파악하였습니다. 이렇게 파악한 정보를 바탕으로 세부적으로 피처를 선별하여서 타겟 예측에 활용할 수 있습니다. 이번에는 1차적으로 선별된 피처들을 바탕으로 타겟과의 관계를 파악해보겠습니다. 지난 글에서 타겟과 피..
서론 데이터를 접하다보면, 피처가 많은 경우가 있습니다. 너무 많은 피처를 어떻게 선택할 것인지, 그리고 어떻게 다룰 것인지에 대해 알아보겠습니다. 예시로 캐글의 대회 중 House Prices - Advanced Regression Techniques 데이터를 활용하겠습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 1. 데이터 파악하기 데이터 프레임을 train로 지정하였습니다. train = pd.read_csv('train 데이터 경로/train.csv') train.sha..
서론 머신러닝은 데이터로부터 학습하여 예측이나 분류 등의 작업을 수행하는 알고리즘을 연구하는 분야입니다. 이를 위해 데이터의 특성을 분석하고, 적합한 모델을 선택하며, 모델의 성능을 향상시키는 등의 과정이 필요합니다. 본문에서는 이런 과정들을 자세히 설명하고 있습니다. 먼저, 데이터를 이해하는 것이 중요합니다. 데이터의 특성을 파악하기 위해 탐색적 데이터 분석(EDA)을 수행합니다. 이 과정에서 데이터의 기본 정보와 통계량을 확인하며, 데이터 분포와 각 특성 간의 관계를 시각화하여 분석합니다. 다음으로, 적합한 모델을 선택하고 학습합니다. 이때 모델 선택은 문제의 특성과 데이터의 특성에 따라 달라집니다. 본문에서는 아이리스 품종 분류 문제를 다루며, 이 문제에 적합한 모델로 결정 트리 기반의 Rando..
서론 이 글은 "캐글 실전 자전거 공유 수요 예측"에 대한 내용을 담고 있습니다. 데이터 분석의 중요성이 갈수록 높아지는 현재, 데이터의 통찰력을 바탕으로 실제 문제를 해결하는 능력은 매우 중요한 역량입니다. 이 글에서는 실제 캐글 경진대회에서 사용되었던 자전거 대여 수요 데이터를 활용하여 탐색적 데이터 분석과정부터 모델 학습, 검증, 그리고 예측까지의 전체 프로세스를 담고 있습니다. 데이터 전처리부터 시작하여, 변수들의 상관관계 분석, 시간대별/요일별/계절별 대여 패턴 분석, 그리고 기온, 습도, 풍속 등의 연속적인 특징들의 분포 확인 등 다양한 방법으로 데이터를 탐색합니다. 이후 데이터 인코딩, 스케일링을 통해 모델이 학습할 수 있는 형태로 데이터를 변환하고, RandomForestRegressor라..
서론 안녕하세요, 이번 글에서는 Google Colab 환경에서 Python을 활용하여 머신러닝 알고리즘을 이용해 타이타닉호의 생존자를 예측하는 과정을 상세하게 설명하려 합니다. 이 과정은 대표적인 머신러닝 프로젝트의 흐름을 그대로 따르며, 데이터 분석부터 모델의 성능 평가까지 일련의 과정을 거치게 됩니다. 우선, 탐색적 데이터 분석(EDA)를 통해 데이터를 깊이 있게 이해하고, 이를 바탕으로 전처리 과정에서 결측치와 이상치를 수정합니다. 이후, 데이터 인코딩으로 데이터를 머신러닝 알고리즘이 이해할 수 있는 형태로 변환하며, 데이터 스케일링을 통해 모든 데이터를 동일한 범위로 정규화합니다. 데이터의 준비가 완료되면, 데이터를 학습용과 테스트용으로 분리하고, 적절한 머신러닝 모델을 선택하여 학습을 진행합니..