반응형
서론 머신러닝(Machine Learning) Loss function 기초에 대해 알아보겠습니다. 머신러닝은 인간의 학습 과정을 컴퓨터에 적용함으로써, 컴퓨터가 스스로 학습하고 문제를 해결하는 능력을 갖추게 하는 기술입니다. 이런 학습 과정에서 중요한 역할을 하는 것 중 하나가 Loss Function, 즉 손실 함수입니다. 손실 함수는 머신러닝 모델이 예측한 결과와 실제 값 사이의 차이, 즉 오차를 측정하는 방법입니다. 이 오차는 모델이 얼마나 잘 또는 잘못 작동하고 있는지를 나타내는 지표로, 이 값을 최소화하는 것이 머신러닝의 주요 목표 중 하나입니다. 이러한 손실 함수의 중요성은 머신러닝의 핵심 절차인 '추론(Inference)' 단계에서 특히 드러납니다. 모델이 학습 데이터를 바탕으로 새로운 데..
서론 머신러닝의 핵심적인 과정 중 하나는 바로 'Training'입니다. 이는 노래를 배우는 사람이 여러 번 연습을 통해 음정을 맞추고, 복잡한 곡을 연주하는 기술을 향상시키는 과정에 비유할 수 있습니다. 머신러닝에서의 'Training'은 모델이 데이터로부터 학습하고, 그 학습 결과를 바탕으로 성능을 향상시키는 과정을 의미합니다. 머신러닝(Machine Learning) 학습(Training) 기초를 이해하기 위해 머신러닝의 핵심 개념 중 하나인 선형 회귀 모델을 예로 들면, 이는 'y=wx+b'라는 간단한 수식으로 표현됩니다. 여기서 'w'와 'b'는 각각 가중치와 편향을 의미하는 파라미터입니다. 이 파라미터들은 주어진 데이터로부터 정보를 얻어서 성능이 향상될 수 있는 방향으로 업데이트되는 것이 'T..
서론 머신러닝(Machine Learning) 데이터 분할(Data Split) 기초를 알아보겠습니다. 데이터 과학의 세계에서 데이터는 모든 것의 기초입니다. 이러한 데이터를 효과적으로 활용하고 이해하는 것은 인공 지능과 머신러닝의 핵심적인 부분입니다. 그중에서도 '데이터 분할(Data Split)'은 특히 중요한 개념입니다. 이 글에서는 데이터 분할의 기본 개념과 그것이 왜 필요한지, 어떻게 발전해왔는지에 대해 다루겠습니다. 데이터 분할이란, 주어진 데이터를 훈련 데이터(training data), 검증 데이터(validation data), 테스트 데이터(test data) 등으로 나누는 과정을 말합니다. 이는 머신러닝 모델을 학습하고, 그 성능을 평가하는 데 필수적입니다. 즉, 모델이 학습한 것을..
서론 머신러닝(Machine Learning)의 절차와 이해 - 데이터 수집에 대해 글을 작성하겠습니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석(EDA) → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 데이터 수집은 머신러닝 절차 중 분석 문제 정의 다음의 단계이며, 이 단계에서는 정의한 문제를 해결하기 위한 데이터들을 수집하는 단게입니다. 어떤 데이터를 수집하느냐에 따라 문제 해결을 위한 접근 방식이 달라지며, 이것은 데이터의 유형도 신경써야할 필요가 있습니다. 데이터 수집 머신러닝 프로젝트에서 두 번째 단계인 '데이터 수집'은 분석의 기반이 되는 데이터를 확보하는 과정입니다. 이 과정은 다음과 같은 4가지 단계로 이루어집니다.1. 데이터 마트 생성: 데이터 마트는 특정 주제나 ..
서론 머신러닝(Machine Learning)은 전산을 이용한 빅데이터가 발전하면서 함께 부상하였습니다. 축적되는 데이터를 바탕으로 미래를 예측할 수 있는 모델을 이용하여 다양한 산업에 사용되고 있으며, 이로 인해 우리의 생활 양식에 큰 영향을 주고 있습니다. 오늘은 머신러닝(Machine Learning)의 절차와 이해를 위해 1,2편에 걸쳐 글을 작성하겠습니다. 머신러닝(Machine Learning)의 절차 머신러닝은 다음과 같은 통상적인 절차로 진행됩니다.1. 분석 문제 정의 → 2. 데이터 수집 → 3. 탐색적 데이터 분석(EDA) → 4. 피처 엔지니어링 → 5. 예측 모델 개발 → 6. 서비스 적용 염두해야할 점은 해당 절차에서는 데이터 축적과 같은 데이터 엔지니어링은 별도로 수행되어야합니다..