반응형
서론 머신러닝(Machine Learning)의 절차와 이해 - 예측 모델 개발은 과거 및 현재의 데이터를 바탕으로 미래의 결과를 예측하는 모델을 만드는 과정입니다. 이 과정은 주로 세 가지 단계로 이루어집니다: '모델 학습', '모델 성능 개선', 그리고 '성능 평가'. 이 단계들은 각각 다음과 같은 중요한 개념을 포함하고 있습니다. '모델 학습': 이 단계에서는 알고리즘이 데이터로부터 학습하게 됩니다. 이 과정에서 사용되는 핵심 개념은 '특성'과 '타겟'입니다. '특성'은 예측을 위해 사용되는 입력 변수를 의미하며, '타겟'은 예측하려는 결과 변수를 의미합니다. '모델 성능 개선': 이 단계에서는 '과적합'과 '하이퍼파라미터 최적화'와 같은 개념이 중요합니다. '과적합'은 모델이 학습 데이터에 너..
서론 머신러닝(Machine Learning)의 절차와 이해 - 피처 엔지니어링(feature engineering)에 대해 다루겠습니다. 피처 엔지니어링은 머신러닝의 절차 중 네번째 단계로, 이는 모델의 성능을 크게 좌우하는 중요한 과정입니다. 피처 엔지니어링의 중요성을 이해하기 위해서는 먼저 '차원의 저주'라는 개념을 알아야 합니다. '차원의 저주'는 데이터의 차원이 증가할수록 해당 공간의 부피가 기하급수적으로 증가하여 데이터의 분포가 점점 희박해지는 현상을 말합니다. 이로 인해 데이터 간의 거리가 멀어져 모델이 복잡해지고, 오버피팅(과적합) 문제가 발생할 가능성이 높아집니다. 이를 해결하기 위해서는 차원 축소와 같은 피처 엔지니어링 기법이 필요합니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데..
서론 머신러닝(Machine Learning)의 절차와 이해 - 탐색적 데이터 분석(Exploratory Data Analysis, EDA)에 대해 다뤄보겠습니다. 머신러닝을 위해서는 어떤 문제를 해결할 것인지와 그에 적합한 데이터들을 수집하는 것이 중요합니다. 이렇게 수집된 데이터를 어떻게 활용할 것인지 생각하는 단계가 탐색적 데이터 분석(EDA) 입니다.분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 이 단계에서는 데이터를 활용하는 방안을 본격적으로 수립하고, 활용 가능한 상태로 데이터를 1차적인 가공하는 단계로 이해할 수 있습니다. 때문에, 그 데이터의 전체적인 구성과 형태, 연관성 등에 대해 큰 틀에서의 설계를 해야합니다. 자..
서론 머신러닝(Machine Learning)의 절차와 이해 - 데이터 수집에 대해 글을 작성하겠습니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 데이터 수집은 머신러닝 절차 중 분석 문제 정의 다음의 단계이며, 이 단계에서는 정의한 문제를 해결하기 위한 데이터들을 수집하는 단게입니다. 어떤 데이터를 수집하느냐에 따라 문제 해결을 위한 접근 방식이 달라지며, 이것은 데이터의 유형도 신경써야할 필요가 있습니다. 데이터 수집 머신러닝 프로젝트에서 두 번째 단계인 '데이터 수집'은 분석의 기반이 되는 데이터를 확보하는 과정입니다. 이 과정은 다음과 같은 4가지 단계로 이루어집니다.1. 데이터 마트 생성: 데이터 마트는 특정 주제나 ..
서론 머신러닝(Machine Learning)의 절차와 이해 - 3편에서는 이전 1,2편에서 다룬 머신러닝의 6개 절차에 대해 좀 더 세부적으로 알아보겠습니다. 머신러닝을 위한 단계는 다음과 같습니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 각 단계를 통해 알고 싶은 결과에 도달하기 위해 선택과 집중을 할 수 있으며, 결론적으로 좀 더 효과적으로 미래를 예측할 수 있습니다. 각 단계의 세부적인 단계에 대해 다루도록 하겠습니다. 분석 문제 정의 분석 문제 정의는 머신러닝 프로젝트에서 매우 중요한 단계입니다. 이 단계는 다음의 4가지 단계로 구성됩니다. 1. 이슈 파악 및 문제 도출: 이 단계에서는 주어진 도메인에서 발생하는 문..
서론 머신러닝이 등장하게된 이유 및 머신러닝은 무엇인지( 머신러닝(Machine Learning)은 무엇일까요? (tistory.com))와 그 절차( 머신러닝(Machine Learning)의 절차와 이해 - 1편 (tistory.com))에 대해서 다루고 있습니다. 머신러닝(Machine Learning)의 절차와 이해 - 2편으로는 이전 글에서 소개했던 절차 중 EDA 이후의 절차에 대해 간략히 소개하고, 머신러닝의 바탕이 되는 모델별 이론들을 다루도록 하겠습니다. 피처 엔지니어링 피처 엔지니어링은 머신러닝 모델의 성능을 향상시키는 중요한 단계로, 모델이 이해할 수 있는 형태로 데이터를 변환하거나 새로운 피처를 생성하는 과정을 포함합니다. 아래는 피처 엔지니어링 단계에서 중요하게 고려해야 할 사항들..
서론 머신러닝(Machine Learning)은 전산을 이용한 빅데이터가 발전하면서 함께 부상하였습니다. 축적되는 데이터를 바탕으로 미래를 예측할 수 있는 모델을 이용하여 다양한 산업에 사용되고 있으며, 이로 인해 우리의 생활 양식에 큰 영향을 주고 있습니다. 오늘은 머신러닝(Machine Learning)의 절차와 이해를 위해 1,2편에 걸쳐 글을 작성하겠습니다. 머신러닝(Machine Learning)의 절차 머신러닝은 다음과 같은 통상적인 절차로 진행됩니다.1. 분석 문제 정의 → 2. 데이터 수집 → 3. 탐색적 데이터 분석(EDA) → 4. 피처 엔지니어링 → 5. 예측 모델 개발 → 6. 서비스 적용 염두해야할 점은 해당 절차에서는 데이터 축적과 같은 데이터 엔지니어링은 별도로 수행되어야합니다..