반응형
서론 회귀(Regression)은 무엇일까요? 회귀 분석은 통계학에서 가장 오래되고 널리 사용되는 예측 모델 중 하나입니다. 이는 두 변수 사이의 관계를 모델링하는 데 사용되며, 이 관계는 선형적이라는 가정에 기반합니다. 회귀 분석의 개념은 19세기에 Sir Francis Galton이 개발하였습니다. 그의 연구는 주로 유전학에 초점을 맞추었는데, 특히 부모와 자식 간의 키 관련 특성에 주목하였습니다. 그는 이런 특성이 부모에서 자식으로 어떻게 이어지는지에 대해 이해하려는 시도에서 회귀 분석을 개발하였습니다. Galton은 부모의 키와 자식의 키 사이에 선형적인 관계가 있다는 것을 발견하였습니다. 즉, 부모의 키가 평균보다 특정 단위만큼 클 때, 자식의 키도 평균보다 그와 동일한 단위만큼 크다는 것을 알..
서론 통계는 우리 일상에서 일어나는 많은 일들을 예측할 수 있게 해줍니다. 우리가 궁금한 것에 대해 표본을 통해 그 답을 주는 방식으로 우리는 실제로 모든 것을 알지 못하더라도 예측할 수 있게 됩니다. 이러한 통계는 그 필요에 따라 많은 방법들이 발전하였으며, 최근에는 컴퓨터 공학과 접목되어 데이터 사이언스로 발전하게 되었습니다. 저는 이 과정 중 통계의 어떤 부분에서 부족함이 있어 데이터 사이언스를 활용하게 되었는지 살펴보기 위해 통계를 우선적으로 공부하고 있습니다. 오늘은 통계학적으로 어떤 기법들이 사용되며, 예측을 위한 통계기법들은 어떨 때 사용되는지 살펴보도록 하겠습니다. 통계 기법설명 예시 1. 기술통계학 - 예시: 평균, 중앙값, 표준편차, 분위수 - 활용예시: 학급의 시험 점수를 분석하여 평..
서론 통계학의 기본, 통계량을 주제로 다뤄보겠습니다. 통계량은 그 자체로는 단순한 숫자일 뿐이지만, 그것이 인간 사회의 다양한 현상을 설명하고 이해하는 데 필수적인 도구라는 사실을 이해하는 것이 중요합니다. 통계량은 관찰된 데이터로부터 얻어진 측정치로, 우리가 관심을 가지는 모집단의 특성을 요약하거나 추정하는 데 사용됩니다. 이것은 과학적 연구에서부터 사회과학, 의학, 경제학, 심지어는 정치학에 이르기까지 거의 모든 학문 분야에서 사용되며, 우리가 세상을 이해하고 예측하는 데 큰 도움을 줍니다. 통계량의 가치는 그것이 대표하는 데이터의 본질을 이해하고, 그것이 어떻게 수집되고 분석되었는지를 이해하는 데 있다는 사실을 명심해야 합니다. 이것은 우리가 통계량을 올바르게 해석하고 사용하는 데 결정적인 역할을 ..
서론 일상 생활에서 우리는 다양한 결정을 내리고 문제를 해결하기 위해 정보를 필요로 합니다. 이때 통계는 유용한 도구로서 우리에게 다양한 인사이트와 판단 기준을 제공해줍니다. 통계는 데이터를 수집, 분석, 해석하여 패턴과 추세를 파악하는 과정을 말하며, 이를 통해 우리는 더 효과적인 의사결정을 내릴 수 있습니다. 이 글에서는 통계가 일상을 어떻게 유용하게 만들어주는지 알아보겠습니다. 또한, 통계는 우리의 머리를 아프게 하는 그저 학문이 아니라 우리가 쉽게 활용할 수 있는 안경, 컴퓨터, 티비와 같이 유용한 도구입니다. 그 목적성에 맞게 활용할 곳을 찾고, 통계가 생겨난 그 시점으로 돌아가 그 활용의 가치를 느껴본다면, 우리의 일상을 유용하게 하는 도구: 통계 라는 것에 공감하실 수 있을 것입니다. 데이터..
서론 AI, 빅데이터 등으로 대변되는 현대 급변하는 시대입니다. Data Science는 거스를 수 없는 시대의 흐름에서 필수적인 요소입니다. 모든 정보들을 우리가 활용할 수 있는 형태로 가공하고, 다루는 것은 복잡한 상황에서 적절한 판단을 할 수 있도록 도와줍니다. 이런 정보들을 데이터라고 표현하며, 데이터는 관찰, 측정, 실험, 조사 등을 통해 수집된 정보를 의미하며, 다양한 형태와 형식으로 존재합니다. Data 데이터는 숫자, 텍스트, 이미지, 오디오, 비디오 등 다양한 형태로 표현될 수 있으며, 이는 컴퓨터, 스마트폰, 센서 등 다양한 방법을 통해 수집될 수 있습니다. 데이터는 다음과 같은 특성을 가집니다: 1. 원시성(Raw): 데이터는 원시적인 형태로 수집되며, 이는 아직 가공되지 않은 상태를..