반응형
서론 머신러닝(Machine Learning)의 절차와 이해 - 탐색적 데이터 분석(Exploratory Data Analysis, EDA)에 대해 다뤄보겠습니다. 머신러닝을 위해서는 어떤 문제를 해결할 것인지와 그에 적합한 데이터들을 수집하는 것이 중요합니다. 이렇게 수집된 데이터를 어떻게 활용할 것인지 생각하는 단계가 탐색적 데이터 분석(EDA) 입니다.분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 이 단계에서는 데이터를 활용하는 방안을 본격적으로 수립하고, 활용 가능한 상태로 데이터를 1차적인 가공하는 단계로 이해할 수 있습니다. 때문에, 그 데이터의 전체적인 구성과 형태, 연관성 등에 대해 큰 틀에서의 설계를 해야합니다. 자..
서론 머신러닝(Machine Learning)의 절차와 이해 - 데이터 수집에 대해 글을 작성하겠습니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 데이터 수집은 머신러닝 절차 중 분석 문제 정의 다음의 단계이며, 이 단계에서는 정의한 문제를 해결하기 위한 데이터들을 수집하는 단게입니다. 어떤 데이터를 수집하느냐에 따라 문제 해결을 위한 접근 방식이 달라지며, 이것은 데이터의 유형도 신경써야할 필요가 있습니다. 데이터 수집 머신러닝 프로젝트에서 두 번째 단계인 '데이터 수집'은 분석의 기반이 되는 데이터를 확보하는 과정입니다. 이 과정은 다음과 같은 4가지 단계로 이루어집니다.1. 데이터 마트 생성: 데이터 마트는 특정 주제나 ..
서론 머신러닝(Machine Learning)의 절차와 이해 - 3편에서는 이전 1,2편에서 다룬 머신러닝의 6개 절차에 대해 좀 더 세부적으로 알아보겠습니다. 머신러닝을 위한 단계는 다음과 같습니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 각 단계를 통해 알고 싶은 결과에 도달하기 위해 선택과 집중을 할 수 있으며, 결론적으로 좀 더 효과적으로 미래를 예측할 수 있습니다. 각 단계의 세부적인 단계에 대해 다루도록 하겠습니다. 분석 문제 정의 분석 문제 정의는 머신러닝 프로젝트에서 매우 중요한 단계입니다. 이 단계는 다음의 4가지 단계로 구성됩니다. 1. 이슈 파악 및 문제 도출: 이 단계에서는 주어진 도메인에서 발생하는 문..
서론 머신러닝이 등장하게된 이유 및 머신러닝은 무엇인지( 머신러닝(Machine Learning)은 무엇일까요? (tistory.com))와 그 절차( 머신러닝(Machine Learning)의 절차와 이해 - 1편 (tistory.com))에 대해서 다루고 있습니다. 머신러닝(Machine Learning)의 절차와 이해 - 2편으로는 이전 글에서 소개했던 절차 중 EDA 이후의 절차에 대해 간략히 소개하고, 머신러닝의 바탕이 되는 모델별 이론들을 다루도록 하겠습니다. 피처 엔지니어링 피처 엔지니어링은 머신러닝 모델의 성능을 향상시키는 중요한 단계로, 모델이 이해할 수 있는 형태로 데이터를 변환하거나 새로운 피처를 생성하는 과정을 포함합니다. 아래는 피처 엔지니어링 단계에서 중요하게 고려해야 할 사항들..
서론 머신러닝(Machine Learning)은 전산을 이용한 빅데이터가 발전하면서 함께 부상하였습니다. 축적되는 데이터를 바탕으로 미래를 예측할 수 있는 모델을 이용하여 다양한 산업에 사용되고 있으며, 이로 인해 우리의 생활 양식에 큰 영향을 주고 있습니다. 오늘은 머신러닝(Machine Learning)의 절차와 이해를 위해 1,2편에 걸쳐 글을 작성하겠습니다. 머신러닝(Machine Learning)의 절차 머신러닝은 다음과 같은 통상적인 절차로 진행됩니다.1. 분석 문제 정의 → 2. 데이터 수집 → 3. 탐색적 데이터 분석(EDA) → 4. 피처 엔지니어링 → 5. 예측 모델 개발 → 6. 서비스 적용 염두해야할 점은 해당 절차에서는 데이터 축적과 같은 데이터 엔지니어링은 별도로 수행되어야합니다..
서론 머신러닝(Machine Learning)은 무엇일까요? 머신러닝은 데이터를 다루는 방법 중 하나입니다. 데이터는 우리가 세상을 이해하고 예측하는 데 필요한 중요한 도구입니다. 이러한 데이터를 통해 우리는 과거의 패턴을 분석하고 미래를 예측할 수 있으며, 이는 다양한 분야에서 의사결정을 내리는 데 큰 도움이 됩니다. 이런 과정에서 핵심적인 역할을 하는 것이 바로 통계학과 머신러닝입니다. 통계학은 데이터로부터 패턴이나 통찰력을 얻는 과학의 한 분야로, 이는 세기 동안 수많은 발전을 이룩해 왔습니다. 그러나 최근 몇 년 사이에, 통계학의 전통적인 접근법에는 한계가 드러나기 시작했습니다. 특히, 빅데이터 시대에 접어들면서 데이터의 양과 복잡성이 급격히 증가하였고, 이에 따라 통계학만으로는 데이터에서 유용한..
서론 분류(Classification)은 무엇일까요? 분류와 회귀는 기계학습 알고리즘의 두 가지 주요한 유형으로, 서로 다른 문제를 해결하기 위해 개발되었습니다. 회귀 분석은 19세기에 Sir Francis Galton이 개발하였습니다. 그는 부모와 자식 간의 키와 같은 유전적 특성에 대한 관계를 이해하고자 하는 연구에서 회귀 분석을 도입하였습니다. 이 관계를 이해하는 것은 연속적인 결과를 예측하는 데 있어 중요한 문제였습니다. 예를 들어, 부모의 키가 주어졌을 때 자식의 키를 예측하는 것은 연속적인 값을 예측하는 문제입니다. 이러한 문제를 해결하기 위해 Galton은 회귀 분석을 개발하였습니다. 반면에, 분류 문제는 다른 배경에서 발생하였습니다. 분류는 명확하게 구분된 범주나 클래스에 개체를 할당하는 ..