회귀(Regression)은 무엇일까요?

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

728x90

직선 그래프

 

서론

 

회귀(Regression)은 무엇일까요? 회귀 분석은 통계학에서 가장 오래되고 널리 사용되는 예측 모델 중 하나입니다. 이는 두 변수 사이의 관계를 모델링하는 데 사용되며, 이 관계는 선형적이라는 가정에 기반합니다. 회귀 분석의 개념은 19세기에 Sir Francis Galton이 개발하였습니다. 그의 연구는 주로 유전학에 초점을 맞추었는데, 특히 부모와 자식 간의 키 관련 특성에 주목하였습니다. 그는 이런 특성이 부모에서 자식으로 어떻게 이어지는지에 대해 이해하려는 시도에서 회귀 분석을 개발하였습니다. Galton은 부모의 키와 자식의 키 사이에 선형적인 관계가 있다는 것을 발견하였습니다.

 

즉, 부모의 키가 평균보다 특정 단위만큼 클 때, 자식의 키도 평균보다 그와 동일한 단위만큼 크다는 것을 알게 되었습니다. 이런 관찰은 선형 회귀 분석의 기본 개념을 형성하는 데 기여하였습니다. 회귀 분석의 이런 개념은 이후 여러 분야에서 널리 활용되었습니다. 경제학, 공학, 의학 등 다양한 분야에서, 한 변수와 다른 변수 사이의 관계를 설명하고 예측하는 도구로 사용되었습니다. 예를 들어, 광고 지출과 판매량 사이의 관계, 환자의 나이와 치료 반응 사이의 관계 등을 회귀 분석을 통해 설명하고 예측하였습니다. 따라서, 회귀 분석은 관찰된 데이터 사이의 관계를 설명하고, 이를 바탕으로 미래를 예측하는 강력한 도구로서, 많은 분야에서 중요하게 활용되고 있습니다.

 

선형 회귀(Linear Regression)

 

선형 회귀(Linear Regression)는 통계학에서 가장 오래되고 널리 사용되는 예측 모델 중 하나입니다. 이는 두 변수 사이의 관계를 모델링하는 데 사용되며, 이 관계는 선형적이라는 가정에 기반합니다.

 

선형 회귀는 19세기에 Francis Galton에 의해 개발되었습니다. 그는 키와 같은 인간의 특성이 부모로부터 자식에게 어떻게 상속되는지를 연구하면서 선형 회귀 개념을 처음 소개했습니다. 그는 부모의 키와 자식의 키 사이에 선형 관계가 있다는 것을 발견하였고, 이를 통해 자식의 키를 예측하는 모델을 만들었습니다.

 

선형 회귀는 종속 변수 Y와 한 개 이상의 독립 변수 X 사이의 관계를 모델링하는 데 사용됩니다. 이 관계는 다음과 같은 선형 방정식으로 표현될 수 있습니다: Y = β0 + β1*X1 + β2*X2 + ... + βn*Xn + ε 여기서: - Y는 종속 변수입니다. - X1, X2, ..., Xn은 독립 변수입니다. - β0, β1, ..., βn은 선형 회귀 계수입니다. - ε는 오차 항입니다. 선형 회귀 계수는 최소 제곱법(Least Squares Method)을 사용하여 추정됩니다. 최소 제곱법은 실제 Y 값과 예측된 Y 값 사이의 차이(즉, 잔차)의 제곱 합을 최소화하는 회귀 계수를 찾는 방법입니다. 즉, 다음의 식을 최소화하는 β를 찾는 것입니다: Σ(yi - (β0 + β1*xi))^2 이 식을 최소화하는 β는 편미분을 통해 구할 수 있습니다. 이를 통해 선형 회귀 모델의 회귀 계수를 추정할 수 있습니다.

 

Lasso 회귀(Lasso Regression)는 회귀 계수의 절대값에 대한 제약을 추가함으로써, 회귀 계수의 크기를 줄이는 방법입니다. 이 방법은 일반적인 선형 회귀 모델에서 과적합 문제를 해결하고, 변수 선택을 수행하는 데 사용됩니다.

 

Lasso 회귀

 

Lasso 회귀는 1996년에 Robert Tibshirani에 의해 제안되었습니다. 그는 회귀 분석에서 과적합 문제를 해결하기 위해 Ridge 회귀를 사용하는 것에 영감을 받았습니다. Ridge 회귀는 회귀 계수의 제곱에 대한 제약을 추가하여 모델의 복잡성을 줄입니다. 그러나 Ridge 회귀는 회귀 계수를 0으로 만들지 않기 때문에, 모델에서 불필요한 변수를 제거하지 못합니다. 이 문제를 해결하기 위해 Tibshirani는 Lasso 회귀를 제안하였습니다. Lasso 회귀는 회귀 계수의 절대값에 대한 제약을 추가함으로써, 일부 회귀 계수를 0으로 만들고 변수 선택을 수행합니다.

 

Lasso 회귀는 선형 회귀에 L1 정규화를 추가한 것입니다. L1 정규화는 회귀 계수의 절대값의 합에 비례하는 패널티를 손실 함수에 추가합니다. 이 패널티는 모델의 복잡성을 줄이는 데 도움이 되며, 특정 계수를 0으로 만들어 변수 선택의 효과를 내는 것이 특징입니다.

 

선형 회귀의 목적 함수는 오차의 제곱합을 최소화하는 것입니다. 즉, 다음과 같습니다: Σ(yi - (β0 + β1*xi1 + β2*xi2 + ... + βp*xip))^2 여기서, yi는 i번째 관측치의 목표값, xi1, xi2, ..., xip는 i번째 관측치의 예측 변수들, 그리고 β0, β1, ..., βp는 회귀 계수입니다.

 

Lasso 회귀는 위의 목적 함수에 L1 패널티 항을 추가한 것입니다: Σ(yi - (β0 + β1*xi1 + β2*xi2 + ... + βp*xip))^2 + λΣ|βj| 여기서 λ는 정규화 파라미터로, 이 값이 크면 패널티 항의 영향이 커져 회귀 계수의 절대값이 작아집니다. 이 목적 함수를 최소화하는 β를 찾는 것이 Lasso 회귀의 목표입니다. Lasso 회귀의 목적 함수는 비선형이므로, 경사 하강법 등의 최적화 알고리즘을 사용하여 최소화합니다. 이 과정에서 일부 회귀 계수가 0이 되므로, Lasso 회귀는 변수 선택의 효과를 가집니다.

 

 

Ridge 회귀

 

Ridge 회귀는 선형 회귀의 한 형태이지만, 과적합 문제를 해결하기 위해 개발되었습니다. 과적합은 모델이 학습 데이터에 너무 잘 맞아 일반화 성능이 떨어지는 현상을 말합니다. Ridge 회귀는 이 문제를 해결하기 위해, 회귀 계수의 크기에 패널티를 부여하는 방식을 사용합니다. 이를 통해 모델의 복잡성을 줄이고, 일반화 성능을 높이는 효과를 얻을 수 있습니다.

 

Ridge 회귀의 유도 과정은 다음과 같습니다: 1. 선형 회귀의 목적 함수는 오차의 제곱합을 최소화하는 것입니다. 즉, 다음의 식을 최소화하는 회귀 계수를 찾습니다: Σ(yi - (β0 + β1*xi))^2 여기서, yi는 i번째 관측치의 목표값, xi는 i번째 관측치의 예측 변수, β0와 β1은 회귀 계수입니다. 2. Ridge 회귀는 이 목적 함수에 패널티 항을 추가합니다. 패널티 항은 회귀 계수의 제곱의 합에 비례하는 값입니다: Σ(yi - (β0 + β1*xi))^2 + λΣβj^2 여기서 λ는 정규화 파라미터로, 이 값이 크면 패널티 항의 영향이 커져 회귀 계수의 크기가 작아집니다. 3. 이 목적 함수를 최소화하는 회귀 계수를 찾는 것이 Ridge 회귀의 목표입니다. 이를 위해 경사 하강법 등의 최적화 알고리즘을 사용할 수 있습니다. 이렇게 Ridge 회귀는 선형 회귀를 확장하여 과적합 문제를 해결하고, 일반화 성능을 향상시키는 방법을 제공합니다.

 

결론

 

회귀(Regression)은 무엇일까요?에 대한 물음에 답을 해보았습니다. 회귀(Regression)는 두 변수 사이의 관계를 모델링하는 통계학적인 예측 모델입니다. 이는 가장 오래되고 널리 사용되는 분석 방법 중 하나로, 선형적인 관계를 가정합니다. 회귀 분석은 19세기에 Sir Francis Galton이 개발하였으며, 그의 연구는 유전학적인 특성인 키의 상속에 대한 이해를 목표로 하였습니다. Galton은 부모의 키와 자식의 키 사이에 선형적인 관계를 발견하고, 이를 통해 자식의 키를 예측하는 모델을 개발하였습니다. 선형 회귀(Linear Regression)는 회귀 분석의 한 종류로, 두 변수 사이의 선형적인 관계를 모델링합니다. 이는 종속 변수와 한 개 이상의 독립 변수 사이의 선형 방정식으로 표현되며, 최소 제곱법을 통해 회귀 계수를 추정합니다. 선형 회귀는 다양한 분야에서 사용되며, 예측과 설명을 위한 강력한 도구로 활용됩니다. Lasso 회귀(Lasso Regression)와 Ridge 회귀(Ridge Regression)는 선형 회귀의 변형 모델로, 과적합 문제를 해결하고 변수 선택을 수행하는 데 사용됩니다. Lasso 회귀는 L1 정규화를 통해 회귀 계수의 크기를 줄이고, 일부 계수를 0으로 만들어 변수 선택의 효과를 가집니다. 반면 Ridge 회귀는 L2 정규화를 통해 회귀 계수의 크기를 제어하여 과적합을 완화시킵니다. 결론적으로, 회귀 분석은 두 변수 사이의 관계를 모델링하고 예측하는데 사용되는 중요한 분석 방법입니다. 선형 회귀, Lasso 회귀, Ridge 회귀는 회귀 분석의 다양한 형태로서 각각의 특징과 활용 분야가 있습니다. 이를 통해 데이터 분석과 예측에 유용하게 활용할 수 있습니다.

반응형