반응형
서론 데이터 분석과 머신러닝 알고리즘 적용은 현대의 다양한 분야에서 중요한 역할을 하고 있습니다. 특히 부동산 가격 예측은 지역 경제, 개인의 재산 관리, 그리고 투자 결정 등에 있어서 중요한 정보를 제공합니다. 하지만 실제로 부동산 가격을 예측하는 과정은 매우 복잡하며, 대량의 데이터와 다양한 변수들을 다루어야 합니다. 이러한 복잡성을 관리하기 위해 데이터 사이언티스트들은 데이터를 체계적으로 가공하고, 효율적으로 분석할 수 있는 다양한 기법을 사용합니다. 이전 글에서는 과거의 방법처럼 데이터의 특성을 이해하고 중요한 피처들을 선별하기 위해 직접 데이터를 시각화하고, 다양한 통계적 방법을 사용하여 핵심적인 변수를 선택하는 과정이 필요했습니다. 이 과정은 매우 시간이 많이 소요되며, 주관적인 판단이 개입될..
서론 데이터를 접하다보면, 피처가 많은 경우가 있습니다. 너무 많은 피처를 어떻게 선택할 것인지, 그리고 어떻게 다룰 것인지에 대해 알아보겠습니다. 예시로 캐글의 대회 중 House Prices - Advanced Regression Techniques 데이터를 활용하겠습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 1. 데이터 파악하기 데이터 프레임을 train로 지정하였습니다. train = pd.read_csv('train 데이터 경로/train.csv') train.sha..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.