반응형
클러스터링(Clustering)이란? 클러스터링(Clustering)이라는 용어는 '클러스터(Cluster)'라는 단어에서 유래되었습니다. '클러스터'는 영어로, 서로 가까이 모여 있는 일련의 사물이나 개체들을 의미하는 단어입니다. 이 용어는 본래 생물학, 지리학 등에서 물리적으로 가까운 개체들의 집합을 설명하는 데 사용되었습니다. 데이터 과학과 통계학에서는 이 개념을 빌려와 비슷한 특성을 가진 데이터 포인트들을 그룹화하는 과정을 가리키게 되었습니다. 클러스터링의 어원을 좀 더 자세히 살펴보면, '클러스터'는 원래 군집, 무리, 집단과 같은 의미를 가진 영단어입니다. 이 단어는 중세 라틴어의 'clustrum'이라는 단어에서 유래되었으며, 이는 다시 고대 게르만어에서 온 것으로 추정됩니다. 고대 ..
서론 데이터 사이언스는 정보의 바다에서 유의미한 인사이트를 추출해 내는 핵심 기술로 자리 잡았습니다. 이 분야에서 중요한 역할을 하는 것 중 하나가 바로 프로그래밍 언어이며, 그중에서도 파이썬은 데이터 사이언스와 머신러닝의 세계에서 빼놓을 수 없는 도구로 자리매김했습니다. 파이썬의 인기는 그 간결함, 다재다능함, 그리고 강력한 라이브러리 생태계 덕분에 데이터 사이언티스트와 머신러닝 엔지니어들 사이에서 높아졌습니다. 본 글에서는 파이썬이 무엇인지, 어떻게 그리고 왜 발명되었는지, 그리고 이전에 사용되던 프로그래밍 언어들과 비교했을 때 어떤 점이 개선되었는지를 살펴보며, 파이썬의 장점과 단점에 대해서도 깊이 있게 탐구할 것입니다. 파이썬의 발명 배경부터 시작해보자면, 1991년 귀도 반 로섬(Guido va..
서론 데이터 분석과 머신러닝 알고리즘 적용은 현대의 다양한 분야에서 중요한 역할을 하고 있습니다. 특히 부동산 가격 예측은 지역 경제, 개인의 재산 관리, 그리고 투자 결정 등에 있어서 중요한 정보를 제공합니다. 하지만 실제로 부동산 가격을 예측하는 과정은 매우 복잡하며, 대량의 데이터와 다양한 변수들을 다루어야 합니다. 이러한 복잡성을 관리하기 위해 데이터 사이언티스트들은 데이터를 체계적으로 가공하고, 효율적으로 분석할 수 있는 다양한 기법을 사용합니다. 이전 글에서는 과거의 방법처럼 데이터의 특성을 이해하고 중요한 피처들을 선별하기 위해 직접 데이터를 시각화하고, 다양한 통계적 방법을 사용하여 핵심적인 변수를 선택하는 과정이 필요했습니다. 이 과정은 매우 시간이 많이 소요되며, 주관적인 판단이 개입될..
지난 글 https://10yp.tistory.com/manage/newpost/142?type=post&returnURL=https%3A%2F%2F10yp.tistory.com%2F142 https://10yp.tistory.com/manage/newpost/142?returnURL=https%3A%2F%2F10yp.tistory.com%2F142&type=post 10yp.tistory.com 에서는 많은 피처들이 있는 것을 파악하고, 타겟의 데이터 분포 형태와 타겟과 피처간의 관계의 경향성을 파악하였습니다. 이렇게 파악한 정보를 바탕으로 세부적으로 피처를 선별하여서 타겟 예측에 활용할 수 있습니다. 이번에는 1차적으로 선별된 피처들을 바탕으로 타겟과의 관계를 파악해보겠습니다. 지난 글에서 타겟과 피..
서론 데이터를 접하다보면, 피처가 많은 경우가 있습니다. 너무 많은 피처를 어떻게 선택할 것인지, 그리고 어떻게 다룰 것인지에 대해 알아보겠습니다. 예시로 캐글의 대회 중 House Prices - Advanced Regression Techniques 데이터를 활용하겠습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 1. 데이터 파악하기 데이터 프레임을 train로 지정하였습니다. train = pd.read_csv('train 데이터 경로/train.csv') train.sha..
서론 이 글에서는 순환 신경망(RNN)의 한 종류인 Long Short Term Memory(LSTM)와 그 확장형인 Bidirectional LSTM에 대해 다루고 있습니다. 이들은 시퀀스 데이터를 처리하는 데 있어서 중요한 도구로 널리 사용되고 있습니다. 시퀀스 데이터는 순서가 중요한 정보를 가진 데이터로, 자연어 처리, 시계열 예측, 음성 인식 등 다양한 분야에서 활용되는 데이터 유형입니다. 이러한 시퀀스 데이터를 처리하기 위해 고안된 신경망 중 하나가 바로 LSTM입니다. LSTM은 기존의 RNN이 가진 장기 의존성 문제를 해결하기 위해 고안되었으며, 이를 위해 '셀 상태'라는 개념과 '게이트'라는 구조를 도입하였습니다. 이를 통해 LSTM은 장기 의존성 문제를 해결하고, 필요한 정보를 유지하면서..
서론 본 글에서는 Recurrent Neural Network(RNN)에 대해 알아보겠습니다. RNN은 시계열 데이터나 순차적 데이터를 처리하는 데 특화된 딥러닝 모델로, 과거의 정보를 기억하고 이를 현재의 정보 처리에 활용하는 고유의 특성을 가지고 있습니다. 이를 통해, 텍스트에서 (BOX)에 들어갈 적절한 단어를 예측하는 등의 문제를 효과적으로 해결할 수 있습니다. 이번 글에서는 RNN의 기본적인 동작 원리와 역사, 그리고 그 한계점에 대해 살펴보도록 하겠습니다. Recurrent Neural Network(RNN) Recurrent Neural Network(RNN)는 시계열 데이터나 순차적 데이터를 처리하는 데 특화된 딥러닝 모델입니다. RNN은 이전의 정보를 기억하고 이를 현재의 정보 처리에 활..