반응형
서론 데이터 사이언스는 정보의 바다에서 유의미한 인사이트를 추출해 내는 핵심 기술로 자리 잡았습니다. 이 분야에서 중요한 역할을 하는 것 중 하나가 바로 프로그래밍 언어이며, 그중에서도 파이썬은 데이터 사이언스와 머신러닝의 세계에서 빼놓을 수 없는 도구로 자리매김했습니다. 파이썬의 인기는 그 간결함, 다재다능함, 그리고 강력한 라이브러리 생태계 덕분에 데이터 사이언티스트와 머신러닝 엔지니어들 사이에서 높아졌습니다. 본 글에서는 파이썬이 무엇인지, 어떻게 그리고 왜 발명되었는지, 그리고 이전에 사용되던 프로그래밍 언어들과 비교했을 때 어떤 점이 개선되었는지를 살펴보며, 파이썬의 장점과 단점에 대해서도 깊이 있게 탐구할 것입니다. 파이썬의 발명 배경부터 시작해보자면, 1991년 귀도 반 로섬(Guido va..
서론 데이터 분석과 머신러닝 알고리즘 적용은 현대의 다양한 분야에서 중요한 역할을 하고 있습니다. 특히 부동산 가격 예측은 지역 경제, 개인의 재산 관리, 그리고 투자 결정 등에 있어서 중요한 정보를 제공합니다. 하지만 실제로 부동산 가격을 예측하는 과정은 매우 복잡하며, 대량의 데이터와 다양한 변수들을 다루어야 합니다. 이러한 복잡성을 관리하기 위해 데이터 사이언티스트들은 데이터를 체계적으로 가공하고, 효율적으로 분석할 수 있는 다양한 기법을 사용합니다. 이전 글에서는 과거의 방법처럼 데이터의 특성을 이해하고 중요한 피처들을 선별하기 위해 직접 데이터를 시각화하고, 다양한 통계적 방법을 사용하여 핵심적인 변수를 선택하는 과정이 필요했습니다. 이 과정은 매우 시간이 많이 소요되며, 주관적인 판단이 개입될..
지난 글 https://10yp.tistory.com/manage/newpost/142?type=post&returnURL=https%3A%2F%2F10yp.tistory.com%2F142 https://10yp.tistory.com/manage/newpost/142?returnURL=https%3A%2F%2F10yp.tistory.com%2F142&type=post 10yp.tistory.com 에서는 많은 피처들이 있는 것을 파악하고, 타겟의 데이터 분포 형태와 타겟과 피처간의 관계의 경향성을 파악하였습니다. 이렇게 파악한 정보를 바탕으로 세부적으로 피처를 선별하여서 타겟 예측에 활용할 수 있습니다. 이번에는 1차적으로 선별된 피처들을 바탕으로 타겟과의 관계를 파악해보겠습니다. 지난 글에서 타겟과 피..
서론 데이터를 접하다보면, 피처가 많은 경우가 있습니다. 너무 많은 피처를 어떻게 선택할 것인지, 그리고 어떻게 다룰 것인지에 대해 알아보겠습니다. 예시로 캐글의 대회 중 House Prices - Advanced Regression Techniques 데이터를 활용하겠습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 1. 데이터 파악하기 데이터 프레임을 train로 지정하였습니다. train = pd.read_csv('train 데이터 경로/train.csv') train.sha..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.