반응형
서론 머신러닝(Machine Learning) Evaluation metric 기초에 대해 알아봅시다. 머신러닝의 평가 지표(Evaluation metric)는 머신러닝 모델의 성능을 측정하고, 이를 바탕으로 모델을 최적화하는 데 중요한 역할을 합니다. 이러한 평가 지표 없이는 우리는 모델이 얼마나 잘 작동하는지, 어떤 문제가 있는지, 어떻게 개선할 수 있는지를 알 수 없습니다. 이해를 돕기 위해, 모델의 성능을 "측정"하는 것을 여행의 목표지점을 찾는 것에 비유할 수 있습니다. 여행자는 목표지점에 도달하기 위해 지도를 필요로 합니다. 이 지도 없이는 그들은 어디로 가야 하는지, 얼마나 멀리 떨어져 있는지, 어떤 방향으로 나아가야 하는지 알 수 없습니다. 비슷한 방식으로, 머신러닝 모델 역시 "지도"인 ..
서론 머신러닝(Machine Learning) Loss function 기초에 대해 알아보겠습니다. 머신러닝은 인간의 학습 과정을 컴퓨터에 적용함으로써, 컴퓨터가 스스로 학습하고 문제를 해결하는 능력을 갖추게 하는 기술입니다. 이런 학습 과정에서 중요한 역할을 하는 것 중 하나가 Loss Function, 즉 손실 함수입니다. 손실 함수는 머신러닝 모델이 예측한 결과와 실제 값 사이의 차이, 즉 오차를 측정하는 방법입니다. 이 오차는 모델이 얼마나 잘 또는 잘못 작동하고 있는지를 나타내는 지표로, 이 값을 최소화하는 것이 머신러닝의 주요 목표 중 하나입니다. 이러한 손실 함수의 중요성은 머신러닝의 핵심 절차인 '추론(Inference)' 단계에서 특히 드러납니다. 모델이 학습 데이터를 바탕으로 새로운 데..
서론 머신러닝의 핵심적인 과정 중 하나는 바로 'Training'입니다. 이는 노래를 배우는 사람이 여러 번 연습을 통해 음정을 맞추고, 복잡한 곡을 연주하는 기술을 향상시키는 과정에 비유할 수 있습니다. 머신러닝에서의 'Training'은 모델이 데이터로부터 학습하고, 그 학습 결과를 바탕으로 성능을 향상시키는 과정을 의미합니다. 머신러닝(Machine Learning) 학습(Training) 기초를 이해하기 위해 머신러닝의 핵심 개념 중 하나인 선형 회귀 모델을 예로 들면, 이는 'y=wx+b'라는 간단한 수식으로 표현됩니다. 여기서 'w'와 'b'는 각각 가중치와 편향을 의미하는 파라미터입니다. 이 파라미터들은 주어진 데이터로부터 정보를 얻어서 성능이 향상될 수 있는 방향으로 업데이트되는 것이 'T..
서론 머신러닝(Machine Learning) 데이터 분할(Data Split) 기초를 알아보겠습니다. 데이터 과학의 세계에서 데이터는 모든 것의 기초입니다. 이러한 데이터를 효과적으로 활용하고 이해하는 것은 인공 지능과 머신러닝의 핵심적인 부분입니다. 그중에서도 '데이터 분할(Data Split)'은 특히 중요한 개념입니다. 이 글에서는 데이터 분할의 기본 개념과 그것이 왜 필요한지, 어떻게 발전해왔는지에 대해 다루겠습니다. 데이터 분할이란, 주어진 데이터를 훈련 데이터(training data), 검증 데이터(validation data), 테스트 데이터(test data) 등으로 나누는 과정을 말합니다. 이는 머신러닝 모델을 학습하고, 그 성능을 평가하는 데 필수적입니다. 즉, 모델이 학습한 것을..
서론 그동안은 머신러닝의 절차에 대해 알아보았습니다. 머신러닝의 큰 그림을 알아보았으며, 앞으로는 세부적으로 알아보도록 하겠습니다. 머신러닝은 그 데이터에 대한 학습 방법에 따라 지도학습, 비지도학습, 강화학습의 알고리즘으 나뉩니다. 쉽게 분류하자면 정의된 문제가 정답을 예측하는 것인지, 데이터들을 활용하여 새로운 정보를 알아내기 위한 것인지, 최적화를 위한것인지에 따라 그 방법을 선택합니다. 지도학습은 입력 데이터와 그에 상응하는 출력 데이터, 즉 '정답'이 주어지는 상황에서 사용됩니다. 이러한 알고리즘은 주어진 입력에 대한 올바른 출력을 예측하도록 학습됩니다. 분류와 회귀가 대표적인 예시입니다. 비지도학습은 입력 데이터만 주어지고, 해당 데이터에서 유용한 패턴이나 구조를 찾아내는 방법입니다. 이 방법..
서론 머신러닝(Machine Learning)의 절차와 이해 - 예측 모델 개발은 과거 및 현재의 데이터를 바탕으로 미래의 결과를 예측하는 모델을 만드는 과정입니다. 이 과정은 주로 세 가지 단계로 이루어집니다: '모델 학습', '모델 성능 개선', 그리고 '성능 평가'. 이 단계들은 각각 다음과 같은 중요한 개념을 포함하고 있습니다. '모델 학습': 이 단계에서는 알고리즘이 데이터로부터 학습하게 됩니다. 이 과정에서 사용되는 핵심 개념은 '특성'과 '타겟'입니다. '특성'은 예측을 위해 사용되는 입력 변수를 의미하며, '타겟'은 예측하려는 결과 변수를 의미합니다. '모델 성능 개선': 이 단계에서는 '과적합'과 '하이퍼파라미터 최적화'와 같은 개념이 중요합니다. '과적합'은 모델이 학습 데이터에 너..
서론 머신러닝(Machine Learning)의 절차와 이해 - 피처 엔지니어링(feature engineering)에 대해 다루겠습니다. 피처 엔지니어링은 머신러닝의 절차 중 네번째 단계로, 이는 모델의 성능을 크게 좌우하는 중요한 과정입니다. 피처 엔지니어링의 중요성을 이해하기 위해서는 먼저 '차원의 저주'라는 개념을 알아야 합니다. '차원의 저주'는 데이터의 차원이 증가할수록 해당 공간의 부피가 기하급수적으로 증가하여 데이터의 분포가 점점 희박해지는 현상을 말합니다. 이로 인해 데이터 간의 거리가 멀어져 모델이 복잡해지고, 오버피팅(과적합) 문제가 발생할 가능성이 높아집니다. 이를 해결하기 위해서는 차원 축소와 같은 피처 엔지니어링 기법이 필요합니다. 분석 문제 정의 → 데이터 수집 → 탐색적 데..