반응형
서론 머신러닝의 핵심적인 과정 중 하나는 바로 'Training'입니다. 이는 노래를 배우는 사람이 여러 번 연습을 통해 음정을 맞추고, 복잡한 곡을 연주하는 기술을 향상시키는 과정에 비유할 수 있습니다. 머신러닝에서의 'Training'은 모델이 데이터로부터 학습하고, 그 학습 결과를 바탕으로 성능을 향상시키는 과정을 의미합니다. 머신러닝(Machine Learning) 학습(Training) 기초를 이해하기 위해 머신러닝의 핵심 개념 중 하나인 선형 회귀 모델을 예로 들면, 이는 'y=wx+b'라는 간단한 수식으로 표현됩니다. 여기서 'w'와 'b'는 각각 가중치와 편향을 의미하는 파라미터입니다. 이 파라미터들은 주어진 데이터로부터 정보를 얻어서 성능이 향상될 수 있는 방향으로 업데이트되는 것이 'T..
서론 머신러닝(Machine Learning) 데이터 분할(Data Split) 기초를 알아보겠습니다. 데이터 과학의 세계에서 데이터는 모든 것의 기초입니다. 이러한 데이터를 효과적으로 활용하고 이해하는 것은 인공 지능과 머신러닝의 핵심적인 부분입니다. 그중에서도 '데이터 분할(Data Split)'은 특히 중요한 개념입니다. 이 글에서는 데이터 분할의 기본 개념과 그것이 왜 필요한지, 어떻게 발전해왔는지에 대해 다루겠습니다. 데이터 분할이란, 주어진 데이터를 훈련 데이터(training data), 검증 데이터(validation data), 테스트 데이터(test data) 등으로 나누는 과정을 말합니다. 이는 머신러닝 모델을 학습하고, 그 성능을 평가하는 데 필수적입니다. 즉, 모델이 학습한 것을..
서론 그동안은 머신러닝의 절차에 대해 알아보았습니다. 머신러닝의 큰 그림을 알아보았으며, 앞으로는 세부적으로 알아보도록 하겠습니다. 머신러닝은 그 데이터에 대한 학습 방법에 따라 지도학습, 비지도학습, 강화학습의 알고리즘으 나뉩니다. 쉽게 분류하자면 정의된 문제가 정답을 예측하는 것인지, 데이터들을 활용하여 새로운 정보를 알아내기 위한 것인지, 최적화를 위한것인지에 따라 그 방법을 선택합니다. 지도학습은 입력 데이터와 그에 상응하는 출력 데이터, 즉 '정답'이 주어지는 상황에서 사용됩니다. 이러한 알고리즘은 주어진 입력에 대한 올바른 출력을 예측하도록 학습됩니다. 분류와 회귀가 대표적인 예시입니다. 비지도학습은 입력 데이터만 주어지고, 해당 데이터에서 유용한 패턴이나 구조를 찾아내는 방법입니다. 이 방법..
서론 머신러닝(Machine Learning)은 무엇일까요? 머신러닝은 데이터를 다루는 방법 중 하나입니다. 데이터는 우리가 세상을 이해하고 예측하는 데 필요한 중요한 도구입니다. 이러한 데이터를 통해 우리는 과거의 패턴을 분석하고 미래를 예측할 수 있으며, 이는 다양한 분야에서 의사결정을 내리는 데 큰 도움이 됩니다. 이런 과정에서 핵심적인 역할을 하는 것이 바로 통계학과 머신러닝입니다. 통계학은 데이터로부터 패턴이나 통찰력을 얻는 과학의 한 분야로, 이는 세기 동안 수많은 발전을 이룩해 왔습니다. 그러나 최근 몇 년 사이에, 통계학의 전통적인 접근법에는 한계가 드러나기 시작했습니다. 특히, 빅데이터 시대에 접어들면서 데이터의 양과 복잡성이 급격히 증가하였고, 이에 따라 통계학만으로는 데이터에서 유용한..
서론 분류(Classification)은 무엇일까요? 분류와 회귀는 기계학습 알고리즘의 두 가지 주요한 유형으로, 서로 다른 문제를 해결하기 위해 개발되었습니다. 회귀 분석은 19세기에 Sir Francis Galton이 개발하였습니다. 그는 부모와 자식 간의 키와 같은 유전적 특성에 대한 관계를 이해하고자 하는 연구에서 회귀 분석을 도입하였습니다. 이 관계를 이해하는 것은 연속적인 결과를 예측하는 데 있어 중요한 문제였습니다. 예를 들어, 부모의 키가 주어졌을 때 자식의 키를 예측하는 것은 연속적인 값을 예측하는 문제입니다. 이러한 문제를 해결하기 위해 Galton은 회귀 분석을 개발하였습니다. 반면에, 분류 문제는 다른 배경에서 발생하였습니다. 분류는 명확하게 구분된 범주나 클래스에 개체를 할당하는 ..
서론 회귀(Regression)은 무엇일까요? 회귀 분석은 통계학에서 가장 오래되고 널리 사용되는 예측 모델 중 하나입니다. 이는 두 변수 사이의 관계를 모델링하는 데 사용되며, 이 관계는 선형적이라는 가정에 기반합니다. 회귀 분석의 개념은 19세기에 Sir Francis Galton이 개발하였습니다. 그의 연구는 주로 유전학에 초점을 맞추었는데, 특히 부모와 자식 간의 키 관련 특성에 주목하였습니다. 그는 이런 특성이 부모에서 자식으로 어떻게 이어지는지에 대해 이해하려는 시도에서 회귀 분석을 개발하였습니다. Galton은 부모의 키와 자식의 키 사이에 선형적인 관계가 있다는 것을 발견하였습니다. 즉, 부모의 키가 평균보다 특정 단위만큼 클 때, 자식의 키도 평균보다 그와 동일한 단위만큼 크다는 것을 알..
서론 통계는 우리 일상에서 일어나는 많은 일들을 예측할 수 있게 해줍니다. 우리가 궁금한 것에 대해 표본을 통해 그 답을 주는 방식으로 우리는 실제로 모든 것을 알지 못하더라도 예측할 수 있게 됩니다. 이러한 통계는 그 필요에 따라 많은 방법들이 발전하였으며, 최근에는 컴퓨터 공학과 접목되어 데이터 사이언스로 발전하게 되었습니다. 저는 이 과정 중 통계의 어떤 부분에서 부족함이 있어 데이터 사이언스를 활용하게 되었는지 살펴보기 위해 통계를 우선적으로 공부하고 있습니다. 오늘은 통계학적으로 어떤 기법들이 사용되며, 예측을 위한 통계기법들은 어떨 때 사용되는지 살펴보도록 하겠습니다. 통계 기법설명 예시 1. 기술통계학 - 예시: 평균, 중앙값, 표준편차, 분위수 - 활용예시: 학급의 시험 점수를 분석하여 평..