단순 회귀 분석 | Spss 단순 선형 회귀분석(Simple Linear Regression) 방법 / 단순 회귀분석(Simple Regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남 답을 믿으세요

당신은 주제를 찾고 있습니까 “단순 회귀 분석 – SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남“? 다음 카테고리의 웹사이트 ppa.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 논문쓰는남자 [논쓰남] 이(가) 작성한 기사에는 조회수 41,587회 및 좋아요 792개 개의 좋아요가 있습니다.

회귀분석이 연속형 변수들에 대해 독립 변수와 종속 변수 사이의 상관관계를 나타내는 것이라면, 단순 회귀 분석은 독립 변수가 단일개일 때의 분석을 의미한다.

단순 회귀 분석 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남 – 단순 회귀 분석 주제에 대한 세부정보를 참조하세요

단순선형회귀분석 연구 가설
귀무가설 : 독립변수는 종속변수에 영향을 미치지 않는다
대립가설 : 독립변수는 종속변수에 영향을 미친다
[모형 요약]R 제곱(결정계수) = 회귀모형 설명력 판단
[ANOVA]F분포에 따른 유의확률 = 회귀분석모형의 적합성 판단
[계수]독립변수가 종속변수에 영향을 미치는지 판단
단순선형회귀분석 논문 표 양식
https://blog.naver.com/sub_om/221909568656

단순 회귀 분석 주제에 대한 자세한 내용은 여기를 참조하세요.

[SPSS 22] 단순회귀분석(Simple Regression Analysis)

상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면, 회귀분석은 선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다. 여기에서 원인이 …

+ 여기에 자세히 보기

Source: m.blog.naver.com

Date Published: 2/5/2022

View: 458

제16장 단순회귀분석

다중회귀분석(multiple regression analysis): 하나의 종속. 변수와 둘 이상의 독립변수간의 관계를 분석. ○ 단순회귀분석이 간단하고 결과의 해석도 명확하지만 종속.

+ 여기에 더 보기

Source: contents.kocw.or.kr

Date Published: 12/13/2021

View: 8139

단순회귀분석

단순회귀분석(simple regression analysis) 하나의 독립변수로 하나의 종속변수를 설명하는 모형이다. 예를 들면, 아버지의 키로 한 자녀의 키를 설명 …

+ 여기에 표시

Source: theyoonicon.com

Date Published: 7/6/2022

View: 285

[SPSS 분석] 단순회귀분석(Simple linear regression analysis)

단순회귀분석(Simple linear regression analysis)은 연속형 독립변수가 연속형 종속변수에 미치는 영향을 검증하는 분석 방법입니다.

+ 자세한 내용은 여기를 클릭하십시오

Source: thduddl2486.tistory.com

Date Published: 7/21/2021

View: 6350

단순회귀분석 : 이해용. 이필영 – AI Study

회귀분석에서 독립변수가 한 단위 변화함에 따라 종속변수에 미치는 영향력 크기를 회귀계수 (regression coefficient) 라 한다. 일반적으로 두 변수 사이에 상관관계가 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.aistudy.com

Date Published: 2/25/2022

View: 1153

[회귀분석] 단순선형회귀분석(Simple Linear Regression) 개념

Review 참고 포스팅 : 2020/09/15 – [Statistics/Regression Analysis] – [회귀분석] 회귀분석 모델의 소개 안녕하십니까, 간토끼입니다.

+ 여기에 표시

Source: datalabbit.tistory.com

Date Published: 8/2/2022

View: 2704

주제와 관련된 이미지 단순 회귀 분석

주제와 관련된 더 많은 사진을 참조하십시오 SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남
SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남

주제에 대한 기사 평가 단순 회귀 분석

  • Author: 논문쓰는남자 [논쓰남]
  • Views: 조회수 41,587회
  • Likes: 좋아요 792개
  • Date Published: 2020. 4. 14.
  • Video Url link: https://www.youtube.com/watch?v=R0teCe1SXCg

위키백과, 우리 모두의 백과사전

회귀분석이 연속형 변수들에 대해 독립 변수와 종속 변수 사이의 상관관계를 나타내는 것이라면, 단순 회귀 분석은 독립 변수가 단일개일 때의 분석을 의미한다.

기본적인 회귀모형은, y i = β 0 + β 1 X i + e i {\displaystyle y_{i}=\beta _{0}+\beta _{1}X_{i}+e_{i}} 이다. 여기서 추정 회귀식을 구하면, y i ∗ = β 0 ∗ + β 1 ∗ X i {\displaystyle y_{i}^{*}=\beta _{0}^{*}+\beta _{1}^{*}X_{i}} 이다.

전제 [ 편집 ]

독립변수는 연속형이어야한다.

종속변수는 연속형이어야 한다.

오차항은 정규분포를 가진다.

오차항은 등분산을 가진다.

오차항은 독립적이다.

오차항은 특이치가 존재하지 않는다.

회귀 계수의 추정 [ 편집 ]

회귀 계수를 추정하는 방법은 크게 최소제곱법(최소자승법)과 최대우도추정법 두 가지가 있다. 최소 제곱법은 ∑ i = 1 N ( e i ) 2 = ∑ i = 1 N ( y i − ( β 0 + β 1 X i ) ) 2 {\displaystyle \sum _{i=1}^{N}(e_{i})^{2}=\sum _{i=1}^{N}(y_{i}-(\beta _{0}+\beta _{1}X_{i}))^{2}} 식을 각각 β 1 {\displaystyle \beta _{1}} 과 β 0 {\displaystyle \beta _{0}} 로 각각 편미분하여 0과 같다고 놓는다. 그러면

∑ y i = n β 0 ∗ + β 1 ∗ ∑ x i {\displaystyle \sum y_{i}=n\beta _{0}^{*}+\beta _{1}^{*}\sum x_{i}}

∑ x i y i = β 0 ∗ ∑ x i + β 1 ∗ ∑ x i 2 {\displaystyle \sum x_{i}y_{i}=\beta _{0}^{*}\sum x_{i}+\beta _{1}^{*}\sum x_{i}^{2}} 의 식이 나타난다. 이를 정리하면

β 0 ∗ = E ( y ) − β 1 ∗ E ( x ) {\displaystyle \beta _{0}^{*}=E(y)-\beta _{1}^{*}E(x)}

β 1 ∗ = ∑ i = 1 n ( x i − E ( x ) ) ( y i − ( E ( y ) ) ∑ i = 1 n ( x i − E ( x ) ) 2 {\displaystyle \beta _{1}^{*}={\sum _{i=1}^{n}(x_{i}-E(x))(y_{i}-(E(y)) \over \sum _{i=1}^{n}(x_{i}-E(x))^{2}}} 로 나타난다.

이 회귀계수들은 Best linear unbiased estimators로 1. 선형성을 갖는다. 2. 불편추정량이다. 3. 최소 분산성을 갖는다.

회귀 모형의 적합 판정 [ 편집 ]

회귀 모형이 적합한지 아닌지를 판단하는 방법에는 여러 가지 방법이 있다. 먼저 회귀 계수들의 t검정 값을 통해 회귀 계수들이 유의미한 값을 갖는지 살펴보는 방법이 있다. 그리고 결정계수 r 2 {\displaystyle r^{2}} 와 ESS(error sum of square)를 살펴보는 방법이 있다.

[SPSS 22] 단순회귀분석(Simple Regression Analysis)

SPSS 23 버전을 발견하고 갑자기 블로깅에 힘이 나기 시작했다.

이걸 끝내야 Amos 에 도전할 수 있다.

그러나 두가지를 동시에 할 수는 없다.

어서 끝내고 나도 구조방정식 모델을 경험해보고 싶다.

회귀분석은 보건학 및 의료 분야에서 매우 유용한 분석법 중의 하나이다.

예를들어 보면,

어떤 두통약을 개발하여 두통이 있는 환자에게 투여하였을 때 증상이 호전되었다.

이때 두통약과 환자 증상의 호전과 인과관계를 증명할 수 있는가?

위와같은 문제에 직면하였을 때 회귀분석은 매우 적절한 분석법이 된다.

앞에서 기술한 상관분석과 비슷해 보이지만 상관분석은 단순히 연관성을 증명하는 것이고, 회귀분석은 반드시 원인 다음에 결과가 뒤따라야 한다.

내 아내는 두 아들의 키에 민감하다.. ㅡㅡ;

분명 9살, 7살임에도 또래 아이들보다 작다며 슬퍼한다. 물론 시선은 나를 향해 있다. ㅜㅜ

그러면서도 “5세 이하까지 무료” 라는 놀이공원 및 뷔페 식당 문구를 보면 흐믓한 미소를 짓기도 한다.

갈톤도 나의 키와 비슷했을까?

회귀분석은 갈톤의 “아버지와 아들의 키 연관성 연구”에서 비롯되었다고 한다.

아버지의 키가 크면 대체적으로 아들도 키가 크다. 아버지가 작으면 아들도 작다. 그러나 아버지가 매우 크다고 해서 아들이 반드시 큰 것은 아니었으며, 반대로 아버지가 매우 작다고 해서 아들 또한 매우 작은 것은 아니었다.

아버지의 키가 양 극단치로 갈수록 아들의 키는 인간의 평균적인 키로 되돌아 가려는 성질이 있다는 것을 갈톤이 연구를 통하여 발견하였고, 여기에서 회귀(regression)란 단어를 사용하였다고 한다.

가끔 아내가 아빠를 닮아서 키가 작다고 하소연하면 나는 갈톤의 연구를 들려준다… ^^

상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면, 회귀분석은 선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다. 여기에서 원인이 되는 독립변수와 결과가 되는 종속변수의 개념이 등장하며, 독립변수가 1개, 종속변수가 1개인것을 단순회귀분석이라 한다. 다중회귀분석은 종속변수가 1개로 같지만 독립변수가 2개 이상인 것을 의미한다.

변수의 수 및 종류에 따라 표현한 것으로 독립변수가 한개인것을 단순회귀 분석, 독립변수가 두개 이상인것을 다중회귀분석이라 한다. 그림에서 상관분석은 두 변수 사이의 원인과 결과가 아닌 서로 상관적 영향이 있는지를 분석하는 것이고, 회귀 분석은 인관관계로서 독립변수가 종속변수에 얼마만큼 영향을 주는지를 분석하는 것이다.

화살표의 방향을 보면 이해하는 데 도움이 될 것이다.

앞에서도 얘기했지만 독립변수는 영향을 미치는 변수 즉, 원인변수이며, 종속변수는 영향을 받는 변수 즉, 결과 변수이다. 따라서 아무런 상관이 없는 변수가 아닌 서로 논리적 타당성이 있는 변수를 독립변수와 종속변수로 설정해야 한다. 회귀분석의 가장 기본적인 과업은 상수 및 베타회귀계수를 구하는 것이다.

두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당성을 토대로 해야 하며, 논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정할 수 있으나, 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 주장할 수는 없는 것이다(회귀분석의 결과 만으로는 결코 인과관계를 규명할 수 없음).

위의 회귀식에서 엡실론(ε ; epsilon)은 잔차(residual)를 의미하며 종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다.

통계를 공부하다 보면 위와 같은 용어들이 많이 나온다. 뭔가 알듯 알듯 하면서도 정확하게 구분이 잘 안간다.

아래의 내용은 지현 블로그(http://blog.naver.com/jiehyunkim/203912614)에서 발췌 또는 요약하였다.

1. 범위(R)는 최대값에서 최소값을 뺀 값이다. 쉽고 단순해서 좋지만 범위는 같지만 분포되어 있는 특성이 다를 수 있으므로 주의가 필요하다.

2. 범위는 데이터가 중심(평균)으로부터 얼마나 떨어져 있는지에 대한 정보를 제공하지 못한다. 분산(V)은 이러한 단점을 보완해준다. 분산은 각 데이터에서 평균을 뺀 제곱 값을 모두 합하여 샘플사이즈(n-1)로 나눈 값이다. 그림을 보면 D 의 그래프가 가장 작은 분산을 나타내는 것을 확인할 수 있다.

3. 표준편차(SD)는 분산의 값에 제곱근을 취한 값으로, 실제 데이터 값과 동일한 조건 하에서의 평균으로부터 떨어진 정도를 파악할 수 있다. 아래 그림은 마찬가지로 동일한 데이터 셋에 대하여 오차막대(Error Bar)를 그린 것이며 막대 끝 상하 지점값이 1 표준편차가 된다. 즉, D그룹의 +1 시그마 값이 5.1 이다. 만약 데이터가 정규분포라면 +/- 1 표준편차는 전체 데이터의 68%를 포함하며 +/- 2 표준편차는 95% 그리고 3 표준편차는 99.7%가 된다.

4. 표준오차(SE)는 표본 평균이 모집단 평균을 얼마나 정확하게 추정하는지를 알기 위한 것이며, 모딥단 평균에 대한 신뢰구간을 작성하는데 사용된다.

표준편차와 표준오차가 조금은 혼동된다.

쉽게 말하면 모집단에서 샘플을 채취해 평균을 냈는데 그 샘플들의 평균과 어느 한 샘플과의 차이를 표준편차라 정의하고, 표준 오차는 각 표본들의 평균이 전체 모집단의 평균과 얼마나 떨어져 있는가를 나타내는 척도이다.

회귀분석에서 사용되는 데이터의 형태는 독립변수와 종속변수 모두 연속형 데이터만 사용할 수 있다.

다만, 성별같이 독립변수에서 명목척도로 측정된 경우 더미변수로 변환해서 사용할 수 있다.

더미변수로 변환하는 방법은 다음에 알아보기로 한다.

회귀분석에서 변수들은 다음과 같은 전제 조건을 필요로 한다.

첫번째로 독립변수와 종속변수는 서로 선형적 관계가 있어야 한다. 다시말해 독립변수값이 변하면 종속변수도 일정하게 변해야 한다는 것이다.

두번째로 종속변수의 관측치와 예측치 간의 차이를 오차항이라 하는데 이러한 오차항의 일정한 분산과 정규 분포를 해야 한다.

세번째로 오차항의 독립성이 필요한데 쉽게 말해 변수들이 통계적으로 서로 독립적이어야 한다는 것이다. 독립변수는 종속변수에 영향을 미쳐야 하는데 독립변수끼리 또는 종속변수끼리 영향을 서로 미치게 되면 안된다는 것이며, 이렇게 영향을 미치는 정도를 다중공선성이라 한다. 다중공선성은 독립변수가 여러개 즉, 다중회귀분석에서 적용되는 개념이므로 다음에 다시 언급할 것이다..

상관분석에서 상관관계의 정도를 나타내는 계수가 바로 상관계수(R ; correlation coefficient)였다. 이 상관계수를 제곱한 값이 바로 결정계수(R2 ; coefficient of determination) 이다. 이는 회귀식이 자료를 얼마나 잘 설명하고 있는가? 다시말해 독립변수가 종속변수를 얼마나 잘 설명하고 있는가를 나타낸 계수이다.

결정계수는 상관계수와 마찬가지로 0 < R2 < 1 사이의 값을 가지며, 일반적으로 0.65 (65%) 보다 클 경우 회귀식을 잘 설명한다고 판단한다. 하지만 명확한 기준은 없는것 같다. 결정계수가 조금은 낮게 나왔더라도 연구자가 그 이유에 대해 충분히 입증할 수 있으면 가능할 것이라 생각되며, 아래 슬라이드의 Dancey의 등급을 참고해도 좋을것 같다. 수정된 결정계수는 다중회귀분석에서 나오는 개념으로 독립변수의 수가 늘어날 수록 결정계수가 높아지는 단점이 있어 이를 보완하기 위해 도입되었다. 따라서 다중회귀분석에서는 결정계수가 아닌 수정된 결정계수를 논문에 언급해야 한다. 하지만 많은 논문에서 결정계수만 언급되고 있는데, 논문 심사자 및 학회지의 특성에 따라 적절하게 쓰면 될것 같다. 상관분석에서 언급했던 Dancey의 상관계수 등급이다. 결정계수 또한 상관계수의 제곱이므로 이 등급을 같이 사용할 수 있다. 결정계수는 최소한 Moderate 등급은 되어야 하며, P 값이 0.05보다 낮게 나왔더라도 Weak 등급 이하는 회귀식을 적용하는 의미가 없어진다. 예를들어 결정계수가 0.3 이라면, 독립변수가 종속변수를 설명하는 정도는 30%에 불과하며, 70% 다른 원인에 의해 변화된다는 얘기가 되어버리는 것이다. 회귀분석을 하게되면 결과에 분산분석 표가 등장한다. 여기에서의 분산분석은 세 그룹간의 평균차이 검정이 아닌 회귀선이 통계적으로 유의한지 여부를 검정하는 것이다. 따라서 분산분석의 P 값이 귀무가설을 기각 (P<0.05) 하여야 한다는 얘기가 된다. 이 분산분석의 가설은 다음과 같다. H0 : 회귀선이 유의하지 않다 (β1 = 0). H1 : 회귀선이 유의하다 (β1 ≠ 0). 다른 평균 분석들에서는 주로 정규성만 검증하면 됐었는데 회귀분석에서는 검증해야 할 항목이 많다. 회귀식을 다시 한번 살표보면, y = β0 + β1x + ε1 여기에서 y = 종속변수, β0 = 상수, β1 = 회귀계수, ε1 = 잔차를 의미한다. 회귀분석의 기본 가정사항 중 잔차의 독립성이 있다. 잔차가 다른 잔차에 영향을 미치게 되는 경우를 자기 상관이라고 하는데 자기 상관이 높으면 분석의 신뢰성을 잃게 된다. 잔차의 독립성은 Durbin-Watson 값으로 판단하게 되는데 0에 가까울수록 양의 자기상관, 4에 가까울수록 음의 자기상관이 있다고 판단하며, 2에 가까울수록 자기 상관이 없다고 판단한다. 보통 1.5 ~ 2.5 사이의 값을 적용하는것 같다. 잔차의 정규성은 데이터탐색 기능을 이용하는게 아니라 위와 같이 그래프를 보고 판단한다. 위와 같은 그래프를 정규 P-P 도표라고 하는데 대각선을 중심으로 데이터들이 균일하게 분포되어 있어야 한다. 만약 어느 한 데이터가 대각선으로부터 많이 떨어져 있다면 그 데이터를 삭제하거나 다시 측정해 볼 필요가 있다. 위와 같이 대각선에 다른 무리들과 떨어져 있는 값을 이상값이라 한다. 이상값이 많을수록 결정계수는 낮아지며, 그만큼 회귀식의 설명력 또한 낮아지게 된다. 이상값을 판별하는 것은 "표준화", "쿡의 거리", "표준화 DFFIT" 옵션을 통해 확인할 수 있다. 통계 옵션에서 위의 세가지를 체크하게 되면 SPSS의 데이터보기 창에 새로운 데이터가 생성되며, 표준화의 절대값이 3 미만이어야 하고, 쿡의 거리 절대값이 1 미만 그리고 표준화 DFFIT 절대값은 2 미만으로 나와야 한다. 마지막으로 회귀분석은 등분산을 하고 있어야 하는데, 이는 모두 회귀분석 결과에서 확인할 수 있다. 첨부파일을 다운로드 한다. 체표면적 BSA는 대동맥근의 Annulus의 직경과 연관성이 있다고 한다. BSA가 커질수록 Annulus 또한 커진다고 하는데 이 두 값을 측정하여 인과관계를 증명하고자 한다. 전체 80개의 케이스를 임의로 준비했으며, 독립변수는 BSA, 종속변수는 Annulus로 설정하였다. 두 변수 모수 연속형 데이터로 측정되었다. 연구가설을 위와 같다. 참고로 상관분석에서 로우(ρ)를 사용하였다면 여기서는 베타라는 회귀계수로 표현한다. 모수 검정의 평균분석에서 정규성 검정을 먼저 시행했다면 회귀분석에서는 산점도를 먼저 평가해야 한다. 산점도를 보고 선형성을 대략적으로 판단해야 한다. 물론 상관분석을 미리 시행해봐도 좋다. 산점도를 보고 선형성이 있다고 판단되면 단순회귀분석을 실시한다. "데이터 보기(D)" 화면이다. BSA와 Annulus가 연속적인 데이터로 측정되었음을 확인 할 수 있다. "변수 보기(V)" 화면이다. 연속형 데이터이므로 두 변수 모두 측도는 "척도(S)"로 설정되어 있다. "그래프(G)" ==> “차트 작성기(C)…” 를 차례로 클릭한다.

상관분석에서 보여주었던 “레거시 대화 상자(L)” 을 이용해도 무방하다.

“확인” 을 클릭한다.

차트 작성기 화면이 나왔다.

“산점도/점 도표” 를 클릭한다.

“단순 산점도” 그림을 클릭한다.

단순 산점도 그림을 마우스로 클릭한채로 차트 미리보기 창에다 가져다 놓는다.

그러면 위와같이 X축 Y축이 생성된다.

독립변수인 “BSA” 를 X축으로, 종속변수인 “Annulus” 를 Y축으로 마우스를 클릭한채로 옮긴다.

그리고 “확인” 을 클릭한다.

산점도 그래프가 그려졌다.

조금은 넓은 분포가 형성되었지만 양의 상관관계가 있을것 같은 느낌으로 데이터들이 형성되어 있다.

그런데 양쪽 끝을 중심으로 왠지 이상값이 있을것 같은 느낌도 든다.

일단, 회귀분석을 해본다.

“분석(A)” ==> “회귀분석(R)” ==> “선형(L)…” 을 차례대로 클릭한다.

선형 회귀분석 창이 나타났다.

독립변수와 종속변수를 제 위치에 놓는다.

오른쪽의 “통계” 를 클릭한다.

“추정값(E)”, “모형 적합(M)”, “기술통계(D)” 를 클릭한다.

잔차의 독립성(자기상관)을 평가하기 위해 “Durbin-Watson” 을 체크한다.

“계속” 을 클릭하여 빠져나온다.

다음 “도표(T)…” 를 클릭한다.

각 용어들의 설명은 위와 같다.

여기에서 *ZPRED 와 *ZRESID 만 주로 사용한다.

X축에 *ZPRED 를, Y축에 *ZRESID 를 위치 시킨다.

정규성을 확인할 P-P 도표를 그리기 위해 “정규 확률 도표(R)” 을 클릭한다.

“계속” 을 클릭하고 빠져 나온다.

다음 “저장” 을 클릭한다.

“저장” 을 클릭하면 위와 같이 많은 메뉴가 등장한다.

그 중 이상값을 판별하기 위해 “표준화(A)”, “쿡의 거리(K)”, “표준화 DFFIT” 을 선택한다.

1. 표준화 : 표준화 잔차를 데이터 파일에 저장한다.

2. 쿡의 거리 : 쿡의 거리 값을 데이터 파일에 저장한다.

3. 표준화 DFFIT : 표준화 DFFIT 값을 데이터 파일에 저장한다.

위의 세 값들은 회귀분석 후 “데이터 보기(D)” 창에서 확인이 가능하다.

“계속” 을 클릭학 빠져나온다.

“옵션” 을 클릭한다.

기본값 그대로 두고 “계속” 을 클릭하여 빠져 나온다.

“확인” 을 클릭하여 회귀분석을 실시한다.

“통계” 항목에서 체크했던 기술통계 표이다.

80개의 샘플 수와 평균 및 표준편차가 제시되어 있다.

회귀분석은 상관관계를 토대로 이루어지기 때문에 피어슨 상관계수를 제시해 준다.

BSA와 Annulus 사이에는 78.2% 만큼의 강한 상관관계가 있음을 알 수 있다.

단순회귀분석이므로 모든 변수가 입력된 것을 알 수 있다.

다중회귀분석에서는 이와 관련하여 여러가지 옵션이 있다.

1. R 계수는 상관계수를 의미한다.

2. R 제곱은 회귀식에 매우 중요한 결정계수를 의미한다. 이는 상관계수를 제곱한 값이다.

전체 독립변수의 변동 중 독립변수가 얼마나 잘 설명하는가를 나타낸다.

61.1%는 Moderate 급의 다소 높은 설명력이 있음을 나타낸다.

3. Durbin-Watson 을 통해 잔차의 독립성 즉, 자기상관을 검증한다.

1.689의 값은 2와 완전 근접해 있지는 않지만 1.5 이상으로서 독립성을 만족하는 것으로 볼 수 있다.

분산분석 표에서 통계량 F=122.685, P = 0.000 으로서 유의수준 0.05 보다 미만이므로 회귀식은 통계적으로 유의한 것이다. 다시 말해서 귀무가설을 기각할 수 있다는 뜻이고, 더 쉽게 말해서 이 회귀식은 쓸모가 있다는 것을 의미한다.

독립변수 BSA에 대한 종속변수 Annulus의 회귀계수 β1=26.405, P=0.000 으로서 β1≠0 라고 할 수 있다. 이는 분산분석의 P 값과 마찬가지로 회귀식이 유효함을 의미한다.

위의 결과를 토대로 회귀모형을 구성해보면

Annulus(y) = -14.632 + 26.405 * BSA(x)

와 같이 회귀식을 구성할 수 있으며, BSA가 한단계 증가하면 Annulus 의 크기는 26.405 cm 만큼 증가한다는 것을 알수 있게 된다.

아래의 표와 그래프는 기본 가정사항 들을 검증하는 항목이다.

정규 P-P 도표를 통해 정규성을 검증한다.

특별히 돌출된 이상값 없이 대각선을 중심으로 잘 분포되어 있어 정규성을 만족하는 것으로 판단한다.

산점도를 통해 등분산을 확인한다.

일반적으로 회귀분석 표준화 예측값(가로축)에서 -2와 +2 사이에 분포하고 있어야 하며, 회귀분석 표준화 잔차(세로축) 역시 -2와 +2 사이에 분포하고 있을때 등분산이 좋은 것으로 판단한다.

그런데 두 개 정도의 값이 -2와 +2를 벗어난듯 보인다.

일단 하나의 데이터를 확인하기 위해 산점도 그래프를 더블클릭한다.

산점도를 더블 클릭하면 위의 그림처럼 사선으로 줄무늬가 형성되면서, 옆으로 차트 편집기가 활성화 되는것을 볼 수 있다.

왼쪽 위에 있는 사각형 타겟 모양의 “데이터 레이블 모드”를 클릭하여 이상값이 있는 곳으로 간다.

이상값을 클릭한다.

그러면 위와 같이 “데이터 보기(D)” 에 있는 행의 번호를 보여준다.

위에서는 49 번째 값을 가리키고 있다.

그러면 “데이터 보기(D)” 창으로 이동하여 49번째 행을 확인한다.

삭제해도 괜찮은 값이라면 과감히 삭제한다. 아니면 다시 측정해 본다.

그리고 회귀분석을 다시 실행한다.

49번째 줄을 삭제했으므로 데이터가 80개에서 79개로 줄었다.

상관계수는 0.782 에서 0.799 로 소폭 상승했다.

이상값을 삭제함으로서 나타난 결과이다.

결정계수 R 제곱 값이 0.611 에서 0.638 로 상승했다.

그리고 Durbin-Watson 값이 1.689 에서 1.786 으로 2에 더 가까워져 자기 상관의 가능성을 약간 줄일 수 있었다.

Annulus(y) = -16.860 + 27.798 * BSA(x)

회귀식에서도 약간의 변화가 나타났다.

위와 같이 이상값을 판별하는 작업은 원하는 결과값을 위해 매우 중요한 작업이다.

다시 한번 산점도를 확인해본다.

여전히 왼쪽에 있는 값 하나가 거슬린다.

저 값을 삭제하고 다시 분석해보면 분명 더 좋은 결과를 얻을 수 있으리라 생각된다.

다만, 무조건 삭제만 하고 있을 수는 없다.

샘플 수가 줄어드는 단점이 있고, 마치 연구자의 의도에 맞도록 데이터를 조정하는 느낌도 든다.

따라서 이상값이 판별되면 무족건 삭제 하지 말고 측정을 제대로 했는지 확인해보고 특별히 연구 결과에 해를 가하지 않는다면 그대로 쓰는 것도 한 방법이다. 물론 그 데이터를 위한 연구자의 특별한 설명도 곁들이는 것도 잊지 말아야 한다.

마지막으로 이상값 판별을 위해 지정했던 표준화, 쿡의 거리, 표준화 DFFIT 값을 확인하기 위해 “데이터 보기(D)” 창으로 이동한다.

그러면 “ZRE_1”, “Coo_1”, “SDF_1” 이란 새로운 변수와 데이터가 생성된 것을 확인할 수 있다.

1. 표준화 ==> ZRE_1 의 값들이 3 보다 큰게 있는지 확인한다.

2. 쿡의거리 ==> Coo_1 의 값들이 1 보다 큰게 있는지 확인한다.

3. 표준화 DFFIT ==> SDF_! 의 값들이 2 보다 큰게 있는지 확인한다.

전체 데이터를 확인한 결과 범위를 벗어나는 이상값은 발견하지 못하였다.

만약 발견이 되었다면 삭제 또는 재 측정 후 다시 회귀분석을 실시해본다.

마지막으로 단순회귀분석을 정리하면 다음과 같다.

BSA가 Annulus의 직경에 미치는 영향을 알아보기 위하여 회귀분석을 실시한 결과(1개의 data가 이상값으로 판정이 되어, 이상값을 제외한 후 회귀분석을 실시), BSA는 Annulus의 직경에 유의한 영향을 주는 것으로 나타났다 (P < .000). BSA가 1m2 증가하면 Annulus의 직경은 27.798cm 증가하는 것으로 나타났으며, BSA가 Annulus를 설명할 수 있는 설명력은 63.8% 로 나타났다.

Medical Programmer

회귀분석

회귀분석에서는 원인이 되는 변수와 결과로 나타나는 변수를 구분한다. 결과에 영향을 미칠 것으로 예상되는 변수를 독립변수, 설명변수 또는 예측변수라 한다. 반면에, 독립변수의 영향을 받는 변수를 종속변수 또는 반응변수라 한다.

회귀분석에서는 경험이나 예비실험을 통하여 독립변수와 종속변수 간의 함수관계(또는 모형)를 수립한다. 이를 회귀식이라 하며, 개념적으로 로 나타낼 수 있다. 다음으로 실험이나 관측을 통해 얻은 확률표본을 통하여 회귀식의 모수 값을 추정한다. 예컨대 라면, 회귀계수 를 추정하는 것이다. 추정된 회귀식을 사용하여 독립변수가 종속변수에 미치는 영향을 분석하고, 독립변수의 값으로 종속변수의 값을 예측하며, 다양한 통계적 추론을 수행한다.

회귀분석의 유형은 매우 다양하지만, 기본적인 유형은 다음과 같이 구분할 수 있다.

단순회귀분석(simple regression analysis)

하나의 독립변수로 하나의 종속변수를 설명하는 모형이다. 예를 들면, 아버지의 키로 한 자녀의 키를 설명하는 경우에 해당한다. 다중회귀분석(multiple regression analysis)

두 개 이상의 독립변수로 하나의 종속변수를 설명하는 모형이다. 예를 들면, 아버지와 어머니의 키로 한 자녀의 키를 설명하는 경우에 해당한다. 곡선회귀분석(curvilinear regression analysis)

독립변수와 종속변수의 관계를 2차 이상의 함수로 설명하는 모형이다. 예를 들면, 과 같은 함수관계를 들 수 있다. 결국 다중회귀분석 기법을 사용하게 되지만, 독립변수 간의 종속성에 주의할 필요가 있다. 다변량회귀분석(multivariate regression analysis)

두 개 이상의 종속변수를 사용하는 모형으로서, 예를 들면, 아버지와 어머니의 키로 두 자녀의 키를 설명하는 경우에 해당한다.

단순회귀분석

단순회귀에서는 독립변수의 수준 에서 측정되는 종속변수 에 대하여 아래의 단순선형회귀 모형이 성립한다고 가정한다. 종속변수는 변량이므로 대문자로 표기하는 것이 원칙이지만 일단은 소문자로 표기한다.

여기서 절편 와 기울기 을 회귀계수(regression coefficient)라 하며, 오차항(error term) 들은 서로 독립이고 분포를 따른다고 가정한다.

위의 단순선형회귀 모형으로부터 다음과 같은 특성을 찾아볼 수 있다.

이므로 가 된다. 들이 서로 독립이므로 들도 서로 독립이다. 종합하면, 종속변수 들은 독립적으로 분포를 따른다.

회귀계수 의 추정치를 이라 하면, 다음과 같은 단순선형회귀 추정 모형을 얻는다.

여기서 들은 잔차(residual)라 하며, 오차의 관측치에 해당한다. 잔차들의 특성을 분석하면 오차에 대한 가정이 타당한지 판단할 수 있다.

1. 회귀계수의 추정

회귀계수의 추정에 보편적으로 사용되는 방법은 최소제곱법(least square estimation, LSE)으로서(이외에 기댓값과 공분산을 이용하는 방법이 있다, 결과는 동일), 오차의 제곱합을 최소화하는 회귀계수의 값을 구하는 방법이다. 잔차를 그대로 더하면 양의 값과 음의 값이 상쇄되어 0이 되므로, 오차의 제곱을 더한 후 이의 최솟값을 찾는다.

위 식을 최소로 하는 추정치 은 를 로 각각 편미분한 식을 으로 놓고 두 방정식을 연립하여 해를 구한다.

두 식을 정리하면 다음과 같으며 이를 정규방정식(normal equation)이라 한다.

먼저 을 소거하기 위해, 아래 식에 을 곱해서 위 식의 를 곱한식을 빼면

따라서

여기서 는 와 의 변동, 는 의 변동을 나타내며 다음과 같이 계산한다.

다음으로 을 구해보면 다음과 같다.

추정된 회귀식의 잔차는 가 되며, 다음과 같은 성질을 가진다.

단순선형회귀 모형의 최소제곱추정 최소제곱추정치(LSE):

추정 회귀식:

잔차의 특성: 추정된 회귀식은 다음과 같이 평균점 을 항상 지나게 된다.

2. 총편차의 분해

회귀식을 추정한 다음에는 추정된 모형에 대한 적합성 검정을 실시하여 모형의 타당성을 확인할 필요가 있다. 이를 위해 보편적으로 사용하는 방법은 분산분석으로서, 종속변수 관측치의 전체 변동을 회귀식에 의해 설명되는 변동과 설명되지 않는 변동으로 분해하여 비교하는 방법이다. 본격적인 적합성 검정에 앞서 검정통계량을 구하기 위해 총편차에 대해 알아보자.

총편차(total deviation)는 각각의 표본 데이터( )와 전체 평균( )과의 차이로서, 종속변수가 흩어져 있는 정도를 나타낸다. 총편차는 다음과 같이 두 개 편차의 합으로 나타낼 수 있다.

위 식에서 는 회귀직선에 의하여 설명이 되는 편차인 반면, 는 회귀직선에 의하여 설명되지 않는 잔차(residual)이다. 회귀식이 완벽하다면 모든 관측치들은 회귀직선상에 위치하게 되므로, 모든 잔차는 0이 되고, 총 편차는 회귀직선에 의하여 100% 설명이 된다.

총편차를 모두 더하면 0이 되므로, 총편자를 제곱하여 더함으로써 종속변수의 변동을 구할 수 있는데, 이를 총변동(total variation), 또는 총제곱합이라 한다. 이는 다음과 같이 계산된다.

총편차의 분해식으로부터 총제곱합을 계산하면

이므로, 우변의 마지막항은 다음과 같이 0이 됨을 보일 수 있다.

따라서 총제곱합의 분해식은 아래와 같다.

우변의 첫 번째 항은 회귀직선에 의하여 설명되는 회귀제곱합(regression sum of squares)으로서, 을 대입하여 다음과 같이 계산된다.

우변의 두 번째 항은 회귀직선에 의하여 설명되지 않는 오차제곱합(error sum of squares)이라 한다.

단순선형회귀 모형의 제곱합 분해 총제곱합 회귀제곱합 오차제곱합

분산분석을 수행하기 위해서는 각 제곱합의 자유도를 구할 필요가 있다.

먼저 총제곱합 의 자유도는 이 된다. 총제곱합을 구성하는 개의 항 중에 하나의 제약 이 있기 때문이다. 다음으로 회귀제곱합 의 자유도는 회귀계수의 개수 2에서 1을 제하여 이 된다. 절편의 추정치는 로 구해지므로 독립적인 모수의 개수는 1개 뿐이기 때문이다. 마지막으로 오차제곱합 의 자유도는 개의 항 충에서 추정된 모수의 개수 2만큼 제약이 발생하므로 가 된다.

3. 모형의 적합성 검정(분산분석)

단순 선형회귀 모형이 의미를 갖기 위해서는 회귀식의 기울기가 0이 아니어야 한다. 회귀직선의 기울기가 0이면 독립변수가 변화하더라도 종속변수는 영향을 받지 않기 때문에 회귀식은 무의미해진다. 따라서 단순선형회귀 모형의 적합성을 검정하기 위해 귀무가설을 “회귀식은 무의미하다”로 설정하면 이는 으로 나타낼 수 있다.

만약 귀무가설이 참이라면 회귀식의 기울기는 0이 가깝게 나타나서 회귀제곱합( )이 작아지고, 총제곱합( )에서 오차제곱합( )이 차지하는 비중이 커지게 될 것이다. 반대로 회귀식이 의미를 갖는다면 표본 데이터가 회귀직선으로 잘 설명되어 총제곱합에서 회귀제곱합이 차지하는 비중이 클 것이다. 따라서 회귀모형의 적합성에 대한 검정은 회귀제곱합과 오차제곱합의 상대적인 크기를 비교하여 결정한다.

제곱합을 자유도로 나눈 값을 평균제곱(mean square)이라 하는데, 회귀평균제곱( )과 오차평균제곱( )의 비율은 귀무가설 하에서 자유도 1과 를 갖는 F-분포를 따른다. 만약 이면 귀무가설 을 기각하고 대립가설 을 채택한다. 귀무가설이 기각되면 기울기 이 의미가 있으므로 회귀직선이 적합한 모형이라는 증거가 있다고 판단할 수 있다. 단순회귀모형의 적합성 검정을 위한 분산분석표는 다음과 같다.

요인 제곱흡( ) 자유도 평균제곱( ) 검정통계량 기각역 회귀 잔차 계

총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율을 결정계수(coefficient of determination)라 한다. 결정계수는 추정된 회귀직선이 종속변수의 변동을 어느 정도로 잘 설명해주는가를 나타내는 척도로서, 다음과 같이 계산된다.

단순선형회귀 모형의 결정계수는 표본상관계수의 제곱과 같다.

[SPSS 분석] 단순회귀분석(Simple linear regression analysis)

반응형

1. 단순회귀분석

1) 상관분석의 한계

두 변수 사이에 비선형적 관계가 존재할 경우, 실제로 유의미한 관계일지라도 상관계수는 0일 수 있으며, 상관계수가 기울기가 아니므로 변수 x의 특정 값이 주어질 때 그와 관계를 갖고 변하는 y의 값이 무엇인지 예측할 수 없습니다. 이러한 이유들로 더 풍부한 정보를 제공하는 회귀분석을 실시합니다.

2) 정의

회귀(regression)란 19세기 영국의 유전학자 Francis Galton이 키 큰 선대 부모들이 낳은 자식들의 키가 점점 더 커지지 않고, 다시 평균 키로 회귀하는 경향을 보고 발견한 개념으로, 보통 평균으로의 회귀(regression toward mean)의 뜻으로 쓰입니다. 단순회귀분석(Simple linear regression analysis)은 연속형 독립변수가 연속형 종속변수에 미치는 영향을 검증하는 분석 방법입니다. 독립변수의 변화에 의해 종속변수가 어떻게 변화하는지를 검증하는 분석 방법입니다.

3) 가설 설정

직장 내 역할 갈등이 팀 성과에 영향을 미치는지 검정하고자 한다면, 독립변수인 역할 갈등은 연속형 자료, 종속변수인 팀 성과도 연속형 자료이기 때문에 회귀분석을 합니다. 단, 독립변수가 역할 갈등으로 1개이기 때문에 단순회귀분석이라고 합니다.

① 가설 : 독립변수가 종속변수에 유의한 영향을 미칠 것이다.

② 귀무가설 : 역할 갈등이 팀 성과에 유의한 영향을 미치지 않을 것이다.

③ 대립가설 : 역할 갈등이 팀 성과에 유의한 영향을 미칠 것이다.

4) 단순회귀분석

① 메뉴를 선택합니다.

② ‘독립변수’ 입력칸에 독립변수인 ‘역할 갈등’, ‘종속변수’ 입력칸에 종속변수인 ‘팀 성과’를 지정합니다.

③ ‘통계량’을 클릭합니다.

④ ‘공선성 진단’, ‘Durbin-Watson’을 지정하고, ‘계속’을 클릭합니다.

⑤ ‘확인’을 클릭합니다.

⑥ ‘모형 요약b’에서 ‘R제곱’, ‘Durbin-Watson’, ‘ANOVAa’에서 ‘F’값과 ‘유의확률’을 확인해줍니다.

⑦ 회귀모형의 적합도는 F값이 5.162, 유의확률이 .024로 나타났습니다. 유의확률이 .024로 .05보다 작으므로 회귀모형은 적합하다고 할 수 있습니다.

⑧ R 제곱은 독립변수가 종속변수를 얼마나 설명하는지를 나타내는 설명력으로, 이 회귀모형에서는 .020이며, 약 2%를 설명한다고 할 수 있습니다. 사회과학에서 하나의 변수가 3%만 되어도 영향력이 있다고 할 수 있는데, 2%로 설명력이 낮다고 할 수 있습니다.

⑨ Durbin-Watson 통계량은 잔차의 독립성 여부를 판단하기 위한 수치이며, 통계량이 2에 근사할수록 잔차에 독립성이 있다고 할 수 있습니다. 이 회귀모형에서는 Drubin-Watson 통계량이 1.951로 잔차의 독립성 가정을 만족한다고 할 수 있습니다.

⑩ 유의확률이 .024로 .05보다 낮으므로 이 회귀모형은 유의미한 값을 가지며, 비표준화 계수의 B값은 -.114이므로 종속변수에 -.114만큼의 영향을 미친다고 할 수 있습니다. 즉, 회귀계수는 -.114로 독립변수인 역할 갈등이 1단위 증가할 때마다 팀 성과가 0.114만큼 감소하는 것으로 해석할 수 있습니다.

단순회귀분석 : 이해용. 이필영

단순회귀분석

이야기로 배우는 통계학 : 이해용. 이필용 공저, 자유아카데미, 2003, page 425~482

1. 회귀분석 첫걸음

(1) 회귀분석

(2) 회귀모형

2. 단순회귀분석

(1) 단순회귀모형

(2) 최소자승법

(3) 최소자승법 성립조건

3. 회귀계수 성격

(1) 정확성

(2) 표본회귀선의 적합성

(3) 회귀계수 특성

이번 장에서는 자료 분석기법 중에서 가장 많이 쓰이는 회귀분석을 살펴보자.

에스키모 속담에 “펭긴 아버지, 연어 어머니” 라는 말이 있다. 남을 위해서 희생하는 경우를 가리키는 말이다. 엄마 펭긴은 알을 낳고는 먹이를 찾아 먼 여행을 떠난다. 알을 품고 부화시키고 새끼를 돌보는 일은 아빠 펭긴 몫이다. 꼼작도 하지 않고 굶주린 채로, 며칠 후 엄마 펭긴은 먹이를 가득 담고 돌아온다. 그리고는 뱃속에 담아온 먹이를 새끼에게만 먹인다. 기진맥진한 아빠 펭긴은 그 옆에서 굶어죽는다.

엄마 연어 또한 강을 따라 내려가 바다에서 살다가 알을 낳을 때가 되면 고향인 강가로 돌아온다. 하루에 14 km 정도 급류를 타고 필사적으로 헤엄친다. 연어가 고향에 다다르고는 곧 알을 낳는다. 그리고는 기진맥진한 상태로 서서히 죽어간다. 자기가 낳은 알을 흐믓하게 바라보며 죽는다. 위대한 희생이요 자연의 섭리다.

이러한 현상이 ‘회귀’ 다. 회귀란 무엇인가? 한마디로 ‘다시 본디 상태로 되돌아 온다’ 는 뜻이다. 즉, 본디 모습으로 되돌아가려는 성향을 말한다. 중국 송나라 때 시인 도연명 (365 ~ 427) 은 관직을 버리고 고향 땅으로 되돌아가는 심경을 <귀거래사> 에 담았다. 그 귀거래사의 주제가 바로 회귀이다. 우리 나라에서도 매년 설날과 추석이 되면 고향으로 발걸음을 향하는 귀성 행렬이 끝없이 이어지는데, 고향 땅에 안기고 싶은 심경이 바로 회귀인 것이다.

서양에서는 영국의 유명한 유전학자 갈톤 (F. Galton, 1822 ~ 1891) 에 의해서 회귀라는 용어가 등장하였다. 그는 유전에 관한 논문 「Family Likeness in Stature (1886)」에서 처음 회귀에 대하여 정의하였다.

일반적으로 키가 큰 부모에게서 키 큰 자녀가, 키가 작은 부모에게서 키 작은 자녀가 태어난다. 그렇지만 자녀들의 평균 키는 전체 인구의 평균 키로 회귀하는 경향이 있다. 다시 설명하면 키가 큰 부모이든 작은 부모이든 그들에게서 태어난 자녀들의 평균 키는 전체 평균 키 수준에 접근하는 현상으로 나타난다는 것이다. 이러한 현상을 ‘보편적 회귀법칙 (law of universal regression)’ 이라 한다.

보편적 회귀법칙은 피어슨 (K. Pearson, 1857 ~ 1936) 에 의해서 체계적인 회귀분석 이론으로 정립되었다. 피어슨은, 1,078 개 가족 구성원 자료를 수집하여 아버지 키와 아들 키 사이에 존재하는 회귀법칙을 규명하였다. 피어슨의 회귀법칙 결론은 다음과 같다.

아버지 키가 비교적 큰 집단에서 태어난 아들들의 평균 키는 그 아버지 평균 키보다는 작고, 아버지 키가 비교적 작은 집단에서 태어난 아들들의 평균 키는 그 아버지 평균 키보다 크다는 결론이다.

따라서 아들의 키는 전체 평균 키 수준을 향하여 회귀하는 현상을 나타난다는 것이다. 그런데 회귀분석에서 분명하게 구분할 것이 있다. 아버지 키가 아들 키에 영향을 주는 것이지, 아들 키가 아버지 키에 영향을 주는 것이 아니다. 또한 아들 키는 아버지뿐만 아니라 어머니의 키, 성장 과정에서 환경 및 인종에 따라 영향을 받는다. 그러므로 회귀분석에서는 변수를 반드시 영향을 주는 변수와 영향을 받는 변수로 구분한다.

영향을 주는 변수를 독립변수 (independent variable) 라하고 영문자 X 로 표기한다. 그리고 영향을 받는 변수를 종속변수 (dependent variable) 라 하고 영문자 Y 로 표기한다. 한편 자녀의 키를 예측하기 위하여 부모의 키가 설명변수로 이용될 수 있다. 그러므로 독립변수를 설명변수 (explanatory variable) 라 부르기도 하고, 종속변수를 설명된 변수로 부르기도 한다.

▶ 회귀분석

회귀분석은 본래 유전학적인 연구로부터 출발하였으나 그 적용분야는 광범위하다. 한 종속변수가 하나 이상의 독립변수에 의해 어떠한 영향을 받고 또한 어떠한 관계로 나타나는지 분석하는 기법이 회귀분석이다. 다시 설명하면 종속변수가 독립변수에 의해 어떠한 통계적 관계식으로 나타나는지를 밝히는 것이 회귀분석의 주요 목적이다.

회귀분석에서 밝히고자 하는 통계적 관계식은 바로 계량모형을 의미하는데 수학적 관계식과는 매우 다르다. 변수 사이에 존재하는 관계는 크게 두 종류로 구분할 수 있다. 하나는 확정적 관계이고 다른 하나는 통계적 관계이다. 어떠한 오차도 허용되지 않는 변수 사이에 관련성이 존재할 때 확정적 관계라 한다. 다시 설명하면 변수 사이에 관련성이 수학적 함수관계로 표현되면 확정적 관계이다.

예를 들어 원의 반지름을 r 이라 하고 원의 면적을 S 라 하자. 그러면 원의 면적과 반지름 사이에는 S = πr2 이라는 수학적 함수관계로 나타난다. 이러한 수학적 관계식은 오차의 개념이 없기 때문에 확정적 관계이다. 그런데 사회과학 현상이나 자연과학 현상에서 나타나는 변수들은 대부분 확정적 관계로 표현될 수 있는 경우는 거의 없다.

소득수준이 같은 근로자 가구라도 소비지출액은 각각 다르게 나타난다. 또한 동일한 등고선에 위치한 두 지역의 기온은 같은 온도로 나타나지 않는다. 뿐만 아니라 동일한 IQ 를 지닌 학생들이라 해서 성적이 같게 나타나지 않는다. 이와 같이 사회과학 현상이나 자연과학 현상은 변수 사이에 존재하는 관련성에 오차가 있어 대부분 통계적 관계로 나타난다. 그러므로 변수 사이에 존재하는 관계식을 밝힐 때에는 통계적 분석이 이루어져야 한다.

만약 두 변수 X, Y 사이에 통계적 관계가 존재한다면, 두 변수는 확률적으로 관련성이 있다는 뜻이다. 독립변수 X 값을 알면 종속변수 Y 값을 정확하게 알 수 있다는 뜻이 아니다.

예를 들어 근로자 가구 소득을 독립변수 X 로, 소비지출액을 종속 변수 Y 라 하자. 일반적으로 X 가 증가하면 Y 도 증가하고, X 가 감소하면 Y 도 감소한다. 그러나 소득수준 X 를 알고 있다고 해서 예측할 수는 있다. 여하튼 가계의 소득수준은 소비지출에 영향을 미칠 것이다.

그렇다면 소득수준이 한 단위 변할 때 소비지출은 어느 정도 변할 것인가? 즉, 한계소비성향은 얼마일까? 전체 가구를 모두 조사하여 한계소비성향을 산출할 수는 없다. 모집단을 구성하는 가구수가 매우 많기 때문이다. 그래서 모집단으로부터 표본을 추출하여 표본 자료에 나타난 통계량을 바탕으로 전체가구의 한계소비성향을 추정할 수밖에 없다.

▶ 산포도

종속변수와 독립변수가 어떠한 관계로 나타나는지 관련성 정도와 영향을 미치는 크기에 대하여 추정하고 가설검정하는 내용을 다루는 것이 회귀분석이다.

그런데 변수 사이에 존재하는 관련성 정도와 영향력 크기를 추정하기 위해서는 우선 변수 사이에 존재하는 관계식을 적절한 함수 형태로 도출해야 한다. 그러나 변수 사이에 확률적으로 존재하는 관계식을 함수 형태로 나타내는 것은 그리 쉬운 일이 아니다. 아이스크림 판매량에 대한 예를 살펴보자.

날씨가 더우면 아이스크림 판매량은 당연히 증가한다. 그런데 기온이 섭씨 1 도 올라감에 따라 아이스크림 판매량에 미치는 영향은 얼마나 될까? 이러한 물음에 올바른 해답을 간단히 구하기 어렵다. 온도라는 변수뿐만 아니라 다른 변수에 의해서 아이스크림 판매량은 영향을 받기 때문이다.

이제 온도를 독립변수 X 로, 아이스크림 판매량을 종속변수 Y 로 표기하자. 그러면 종속변수 Y 는 독립변수인 X 뿐만 아니라 유동인구, 습도, 요일 등 여러 변수에 의하여 영향을 받는다. 그러나 회귀분석 개념을 설명하고자 두 변수 X, Y 만 존재하는 회귀분석으로 단순화하자. 그렇다면 기온과 아이스크림 판매량 사이에는 어떠한 관계식이 성립할 수 있을까? 즉 독립변수 X 와 종속변수 Y 사이에 존재하는 가장 적합한 함수식은 무엇일까? 두 변수 X 와 Y 에 대하여 조사한 결과 <표 1> 과 같은 자료를 수집했다고 하자.

<표 1> 기온과 아이스크림 판매량

(단위 : 도, 십만 개) 온 도 (X) 23 25 26 27 28 29 30 31 33 판매량 (Y) 29 23 25 28 33 35 36 32 29

<표 1> 자료로부터 두 변수 X, Y 사이에 존재하는 관계를 적합한 함수식으로 도출하는 것은 쉬운 일은 아니다. 그러므로 우선 두 변수 X 와 Y 의 관계를 개괄적으로 파악할 필요가 있다. 그러기 위해서는 두 변수 X 와 Y 의 자료 값으로부터 평면좌표 상에 점을 찍어 그려볼 수 있다. 두 변수 X, Y 의 값에 대응하는 점을 평면좌표 상에 표현한 것이 그림 1 이다. 수집한 자료 값을 평면좌표 상에 점을 찍어 그림 1 과 같이 표현한 그림을 산포도 (scatter plot) 또는 산점도라고 한다.

그림 1 산포도

수집한 자료로부터 산포도를 그려보면 두 변수 X, Y 사이에 존재하는 관련성 정도와 방향을 눈짐작으로도 알 수 있다. 왜냐하면 산포도는 독립변수와 종속변수 사이에 존재하는 관계를 시각적으로 표시하고 있기 때문이다. 이러한 산포도를 자세히 살피며 두 변수 사이에 존재하는 중요한 3 가지 정보를 알 수 있다.

첫째, 두 변수 사이에는 정 (positive) 의 관계 또는 역 (negative) 의 관계로 나타나는지 알 수 있다.

X 가 증가할 때 Y 도 증가하면 정의 관계가 존재하는 것이고, 반대로 X 가 증가할 때 Y 는 감소하면 역의 관계가 존재하는 것이다. 그러므로 그림 1 에서 두 변수 X, Y 는 정의 관계가 존재함을 알 수 있다.

둘째, 두 변수 사이에 관계가 선형 (linear) 인가 또는 비선형 (nonlinear) 인가를 알 수 있다.

산포도에서 흩어진 점들이 직선에 가까운 형태로 나타나면 두 변수는 선형 관계가 있다고 표현한다. 한편 산포도에서 흩어진 점들이 직선 모양이 아닌 곡선 모양으로 나타난다면 두 변수는 비선형 관계에 있다고 표현한다. 그림 1 에서 두 변수 X, Y 는 직선에 가까운 모양으로 흩어져 있으므로 선형 관계가 있다고 할 수 있다.

셋째, 두 변수 사이에 존재하는 관련성 정도를 알 수 있다.

산포도에서 점들이 선형 모양을 따라 오밀조밀 뭉쳐 있으면 두 변수는 서로 관련성 정도가 높다고 한다. 그러나 산포도에서 나타난 점들이 넓고 어지럽게 흩어져 있으면 관련성 정도가 낮은 것이다. 이렇게 두 변수 사이에 관련성 정도가 낮게 나타나면 두 변수 사이에는 회귀분석을 적용할 수 없다. 산포도에서는 두 변수 사이에 존재하는 관계를 시각적으로 보여주고 있으나 두 변수 사이에 함수관계는 알 수 없다.

▶ 상관과 회귀

어떤 변수는 특정한 변수와 보다 긴밀한 관련성이 있는 경우가 있다. 예를 들면 사람의 발 크기는 손 크기와 깊은 관련성이 있다. 일반적으로 발이 큰 사람은 손도 크고, 손이 작은 사람은 발도 작다. 그러나 사람의 발 크기는 머리카락 개수와는 관련성이 거의 없다. 한편 어떤 기업의 광고비와 매출액 사이에는 깊은 관련성이 있으나 광고비와 신기술 개발과도 관련성이 깊다고 이야기 할 수 없다.

이렇게 두 변수 사이에 또는 여러 변수끼리 존재하는 관련성 정도를 나타내는 단위가 상관계수 (correlation coefficient) 이다. 두 변수 사이에 정의 상관관계가 존재하면 상관계수는 양 (+) 의 값으로 나타나고, 역의 상관관계가 존재하면 상관계수는 음 (-) 의 값을 갖는다. 그리고 상관계수 값이 ±1 에 접근하면 접근할수록 매우 밀접한 관련성이 있다는 의미이다. 한편 상관계수가 0 에 접근하면 두 변수 사이에는 관련성이 거의 없다는 것을 의미한다.

상관계수는 회귀분석에서 매우 중요한 통계량이다. 왜냐하면 상관계수 값에 의하여 적합한 회귀함수가 도출되기 때문이다. 회귀분석에서 독립변수가 한 단위 변화함에 따라 종속변수에 미치는 영향력 크기를 회귀계수 (regression coefficient) 라 한다. 일반적으로 두 변수 사이에 상관관계가 거의 없을 때 회귀계수는 의미가 없게 된다.

상관계수는 변수 사이에 존재하는 관련성 정도를 나타내는 단위이므로, 회귀계수와 매우 밀접한 관계를 맺고 있다. 회귀분석에서 중요하게 다루는 4 가지 중요한 내용은 다음과 같다.

첫째, 회귀분석에서는 독립변수가 종속변수에 미치는 평균적인 영향력 크기를 추정할 수 있다.

독립변수가 한 단위 변화함에 따라 종속변수가 미치는 영향력 크기가 회귀계수이다. 회귀계수는 또한 회귀선의 기울기를 의미한다. 따라서 회귀분석에서는 모집단이 갖는 모회귀선에 대하여 표본 자료를 바탕으로 추정하고 검정할 수 있다.

둘째, 회귀분석에서는 두 변수 또는 여러 변수 사이에 존재하는 관련성 정도를 나타내는 상관계수를 산출한다.

독립변수와 종속변수 사이에 관련성이 존재해야 회귀분석이 적용될 수 있다. 만약 두 변수 사이에 관련성이 거의 없는데 회귀분석을 적용하여 구한 회귀계수 추정치는 의미가 없게 된다. 그리고 표본회귀선의 적합성을 결정하는 결정계수 (determination coefficient) 는 상관계수로부터 구할 수 있다.

셋째, 회귀분석에서는 독립변수 값이 주어지면 그에 대응되는 종속 변수 값의 추정치를 구할 수 있다.

수집한 표본 자료 <표 1> 로부터 회귀분석을 완료했다면 기온이 27.8 도일 때 아이스크림 판매량을 추정할 수 있다. 이때 종속 변수 추정치는 평균값을 의미한다.

넷째, 회귀분석에서는 회귀계수 추정치를 구할 때 발생되는 오차 정도를 알 수 있다.

온도에 대응되는 아이스크림 판매량을 추정하는 데에는 오차가 발생될 수 있다. 이러한 오차의 정도를 알 수 있다.

모형 (model) 이란 ‘실제 상황에 대한 이상적 표현’ 이다. 사회현상이나 자연현상이 실제 상황은 매우 복잡하고 여러 변수들이 복합적으로 작용하여 엉키어 있다. 따라서 실제 상황을 객관적ㆍ합리적으로 분석하기란 매우 어렵다. 그러므로 실제와 비슷한 모형을 설정하고 분석하여 실제 상황을 추정하고 검정한다.

모형의 종류에는 여러 가지로 구분할 수 있으나 회귀분석에서 다루는 모형은 수리적 모형 (mathematical model) 이다. 따라서 회귀분석에서 다루고 있는 수리적 모형을 단순하게 회귀모형 (regression model) 이라 한다.

▶ 모집단 회귀모형

회귀분석 대상이 되는 전체 집단에서 종속변수와 독립변수 사이에 존재하는 수리적 모형이 모집단 회귀모형이고, 간단하게 모회귀 모형 (population regression model) 이라 부르고 PRM 으로 표기한다. 앞에서 예를 들어 설명한 기온과 아이스크림 판매량에 대한 모회귀모형은 모집단을 이루는 전체 자료가 분석 대상이 된다.

<표 1> 의 표본 자료에서 기온이 섭씨 27 도일 때 아이스크림 판매량은 280 만 개이다. 그러나 모집단에서는 동일한 기온 27 도일지라도 아이스크림 판매량은 여러 가지 값으로 나타날 것이다. 즉 모집단에서는 독립변수 X 가 27 인 값으로 주어졌을지라도 종속변수 Y 는 무수히 많은 값을 갖는다. 그러므로 모집단에서 종속변수 Y 는 확률변수이다. 그러면 모집단에서 종속변수 Y 의 확률분포는 어떠한 모습으로 나타날까?

이제 기온이 각각 27 도와 30 도인 경우를 살펴보자. 그러면 모집단에서 독립변수 X 에 대응되는 종속변수 Y 의 확률분포는 당연히 그림 2 와 같은 모습으로 나타날 것이다. 모집단에서 독립변수 X 가 주어졌을 때 종속변수 Y 의 조건부 확률분포는 그림 2 에서 나타난 바와 같이 정규분포한다.

이제 Y 의 조건부 확률분포에서 평균을 μ 로 분산을 σ2 으로 표기하자. 그러면 모회귀모형은 독립변수 X 에 대응하는 종속변수의 평균을 연결한 선이다. 그리고 Y 의 확률분포는 다음 세 가지 조건을 만족시킨다고 가정한다.

그림 2 모집단에서 Y 의 확률분포

첫째, 종속변수 Y 의 평균치는 독립변수 X 에 관하여 선형함수이다.

종속변수의 평균치가 독립변수에 관하여 직선 형태인 선형관계로 나타난다. 즉, 여러 독립변수 X 값이 주어졌을 때 대응되는 종속변수 Y 의 기대치를 연결하면 직선 형태로 나타나게 된다. 이러한 직선 형태의 선을 모회귀선 (population regeression line) 이라하고 식 1 로 표기한다.

모회귀선 : 식 1

모회귀선은 직선 형태로 존재하지 않을 수도 있지만 회귀분석 이론을 전개하기 위해서 모회귀선은 직선 모양의 선형함수라 가정한다. 식 1 은 모집단이 갖는 회귀모형이므로 참회귀선 (true regression line) 이라고 한다.

둘째, 독립변수 X 가 특정한 다른 값으로 주어진다 하더라도 대응하는 종속변수 Y 의 분산은 일정하다.

독립변수가 어떠한 값이라 할지라도 Y 의 확률분포 모양은 동일하다고 가정한다. 다시 설명하면 기온이 27 도일 경우나 30 도일 경우나 아이스크림 판매량의 확률분포는 분산이 동일하게 나타난다.

셋째, 종속변수 Y 는 확률변수로 정규분포한다.

회귀분석에서 독립변수는 주어진 값으로, 종속변수는 확률변수로 간주한다. 그러므로 종속변수는 모회귀선으로부터 오차가 존재할 수 있다.

이제 모집단에서 i 번째에 해당하는 독립변수 종속변수 오차항을 각각 로 표기하자. 그리고 오차항 는 평균이 0 이고 분산이 인 정규분포한다고 가정한다. 그러면 모집단에서 i 번째 종속변수 를 모회귀선으로 표현하면 식 2 와 같다.

모집단에서 i 번째 종속변수 : 식 2

식 2 에서 오차항 는 모집단의 회귀선 주변에서 교란시키며 나타나기 때문에 교란항 (disturbance terms) 이라 부른다. 회귀분석에서 가장 주된 목적은 식 1 의 모회귀선에서 를 밝히는 것이다.

그러나 모집단 크기는 매우 커서 모집단 전체를 조사하여 모수 과 값을 구하는 것은 불가능하다. 그러므로 모집단으로부터 표본을 추출하여 표본의 회귀모형으로부터 모수 과 를 추정할 수밖에 없다.

▶ 표본회귀모형

모회귀모형 식 1 에서 종속변수 Y 는 독립변수 X 의 선형함수이다. 그리고 모수 과 에 대해서도 선형관계임을 알 수 있다. 모회귀선에서 은 회귀계수이고 는 상수 (constant) 이다. 그러므로 모회귀선에서 은 기울기이고 는 절편을 의미한다. 회귀분석에서 상수 는 중요한 의미를 지니고 있지 않다. 그러나 회귀계수 은 매우 중요한 의미를 갖는다. 모회귀선이 선형일 경우 은 기울기를 의미하므로 독립변수가 한 단위 변함에 따라 종속변수에 미치는 영향력 크기가 이다.

그런데 회귀계수 과 상수 는 알려져 있지 않은 모회귀선에서 모수이다. 그러므로 모집단으로부터 표본을 추출하여 표본 자료를 기초로 과 를 추정하는 것이 회귀분석의 주된 목적이다. 다시 설명하면 모집단의 회귀선을 추정하고자 표본회귀모형으로부터 과 에 대한 추정량을 구해야 한다.

표본 자료에서 표현할 수 있는 회귀모형을 표본회귀선 (sample regression line) 이라 한다. 여기서 모회귀선과 표본회귀선은 명확하게 구분되어야 한다.

왜냐하면 모회귀선은 모집단이 갖는 유일한 회귀모형으로 존재하지만, 표본회귀선은 표본 자료에 따라 여러 가지로 나타날 수 있기 때문이다. 표본에서 독립변수를 X 로 종속변수를 Y 로 표기할 때, 표본회귀선은 식 3 으로 표현한다.

표본회귀선 : 식 3

식 3 은 표본 자료를 가장 잘 표현할 수 있는 표본회귀선을 의미하며 는 표본회귀선 상에 있는 추정된 종속변수 값을 나타낸다. 그리고 은 표본회귀계수로서 모회귀계수 에 대한 추정량이고, 표본회귀선에서 는 상수로서 모회귀선의 상수 에 대한 추정량이다. 따라서 표본회귀선에서 X 가 0 일 때 는 이다. 그러므로 상수 는 표본회귀선이 Y 축을 통과하는 절편이다. 한편 표본 회귀계수 은 표본회귀선의 기울기로서 독립변수 X 가 한 단위 변함에 따라 종속변수 Y 에 미치는 영향력 크기이다.

<표 1> 로 나타난 표본 자료를 가장 합리적으로 표현할 수 있는 표본회귀선을 구하면 표본회귀계수 ( ) 는 0.718 이고, 상수 ( ) 는 9.896 이다. 즉 표본 자료를 대표할 수 있는 표본회귀선은 이다.

여기서 표본회귀선 에 대하여 자세하게 살펴보자. 표본 자료에서 는 i 번째 종속변수의 자료 값이고, 는 표본회귀선 상에 위치한 종속변수 값이다. 즉, 는 실제 값이고 는 추정된 표본회귀선 상에 위치하는 값이다. 그러므로 와 는 차이가 있게 마련이다.

그러면 표본 자료를 가장 적합하게 대표할 수 있는 표본회귀선은 어떻게 구할 수 있을까? 즉, 식 3 의 표본회귀선에서 회귀계수 b 와 상수 a 는 어떻게 구할 수 있을까? 그리고 표본회귀계수 b 값은 정확성이 있는가? 또한 표본자료를 회귀모형에 적용시키는 것은 적합한 것인가? 뿐만 아니라 표본회귀계수는 과연 의미가 있는 것인가?

경제현상을 이루고 있는 변수들은 대부분 두 개 이상의 여러 변수가 복합적으로 관련성을 맺고 있다. 이러한 변수들의 관련성 성격과 크기를 밝히는 것이 회귀분석이다. 이번 장에서는 종속변수에 영향을 미치는 독립변수가 오직 하나만 존재하는 경우를 설명한다. 독립변수가 오직 하나만 포함하는 회귀를 단순회귀 (simple regression) 라 한다.

분석 대상이 되는 전체 집단에서 종속변수 (Y) 와 독립변수 (X) 는 어떠한 형태로 관계를 맺고 있을까? 즉 모집단에서 두 변수 X, Y 는 어떠한 회귀모형을 나타내는가. 가상적인 모집단 예를 살펴보자.

어린이가 좋아하는 바나나는 원래 인도 북부와 중국 남부 사이에서 자생하던 식물이었는데, 약 5 천년 전 동ㆍ서양으로 전파되었다고 한다. 바나나는 섭씨 10 도 이상인 아열대 지역에서 주로 재배되고 비타민 C 와 단백질이 풍부하다. 그런데 우리 나라에서 판매되고 있는 바나나는 대부분 수입된 것으로 유통기간이 너무 길어 영양가가 많이 파괴된 상태이다. 바나나를 동남아 나라에서 들여올 때는 15 일 정도, 중남미로부터 들여올 때는 35 일 정도 걸린다. 그러면 유통기간에 따라 비타민 C 파괴량은 어떠한 관계로 나타날까?

▶ 모집단 단순회귀모형

<표 2> 는 유통기간에 따라 바나나 한 개 (170 g) 에 비타민 C 파괴량에 대한 가상적인 전체 자료이다.

<표 2> 유통기간과 비타민 C 파괴량

유통기간 (일) : X 15 20 25 30 35 비타민 C 파괴량 (mg)

:Y 0 5 10 15 20 15 20 25 30 35 30 35 40 45 50 50 55 60 65 70 55 60 65 70 75

<표 2> 의 가상적 모집단으로부터 유통기간이 같을 지라도 비타민 C 파괴량이 변한다는 것을 알 수 있다. 유통기간이 20 일 지났을 경우 비타민 C 파괴량은 15 mg 에서 35 mg 사이에 여러 값으로 변하면서 나타난다. 즉 독립변수가 일정한 값으로 주어진 경우에도 종속변수는 여러 값을 갖는 확률변수이다. <표 2> 로 나타난 가상적인 모집단 자료를 시각적으로 평면좌표 상에 표현한 것이 그림 3 이다.

그림 3 모집단에서 회귀모형

그림 3 에서 모회귀모형은 독립변수 X 가 주어졌을 때 종속변수 Y 의 기대값을 연결한 선이다. 그러므로 모회귀모형을 모회귀선 (population regression line) 이라고 부른다. 단순회귀 모형에서 모회귀선은 직선 모양을 갖는다고 가정한다.

모회귀선 : 식 4

식 4 모집단 회귀선에서 은 기울기이며 모회귀계수 (population regression coefficient) 라 부르고, 는 절편으로 모회귀상수 (population regression constant) 라 부른다. 단순회귀분석에서 모회귀선은 다음과 같은 특성을 갖는다.

첫째, 모회귀선은 종속변수의 기대치를 연결한 선이다.

둘째, 모회귀선은 직선 모양으로 나타나는데, 직선 모양을 선형 (linear) 이라 한다. 그러므로 모회귀선을 선형회귀모형이라 부른다.

셋째, 모회귀선을 중심으로 위ㆍ아래로 여러 종속변수 값이 흩어져 있다. 이것은 종속변수가 모회귀선을 중심으로 교란시키며 존재한다는 뜻으로 교란항 (disturbance terms) 이라 부른다.

식 4 로 나타난 직선 형태의 모회귀선에서 모수 과 는 알려져 있지 않다. 그러므로 회귀분석에서 먼저 수행할 과제는 과 를 추정하는 것이다. 그런데 모집단 크기는 매우 커서 전체를 모두 조사하여 모수 과 를 구할 수 없다. 그러므로 모집단으로부터 표본을 추출하여 표본 자료를 바탕으로 표본회귀선을 구하여 모회귀선을 추정한다.

▶ 표본 단순회귀모형

가상적 모집단인 <표 2> 로부터 표본을 추출하여 <표 3> 과 같은 자료를 얻었다고 하자.

<표 3> 유통기간과 비타민 C 파괴량의 표본자료

유통기간 (일) : X 15 20 25 30 35 비타민 C 파괴량 (mg) :Y 20 25 40 50 65

표본으로부터 얻은 독립변수 (X) 와 종속변수 (Y) 값에 대응하는 점을 직교평면 상에 산포도로 나타낸 것이 그림 4 이다. 그림 4 에서 표본회귀모형은 산포도로 흩어진 점들을 대표하는 이상적인 선을 의미한다. 그러므로 표본회귀모형을 표본회귀선 (sample regression line) 이라 한다. 즉, 표본 자료를 가장 잘 대표할 수 있는 선이 표본회귀선이다.

그림 4 표본회귀모형과 산포도

표본회귀선 : 식 5

표본회귀선 식 5 에서 은 기울기이며 표본회귀계수 (sample regression coefficient) 로써 모회귀계수 의 추정치이다. 그리고 표본회귀선에서 는 절편이며 표본회귀상수라 부르고, 모회귀상수 의 추정치로 사용된다. 실제 표본에서 종속 변수 값 와 표본회귀선 상에 있는 종속변수 값 의 차이 ( ) 를 잔차 (residual) 라 한다. 그러므로 표본에서 실제 종속 변수 는 식 6 으로 나타난다.

표본회귀모형에서 종속변수 : 식 6

단순회귀분석에서 표본회귀선의 특징은 다음과 같다.

첫째, 표본 자료를 가장 이상적으로 대표하는 선이 표본회귀선이다.

둘째, 표본회귀선에서 과 는 각각 과 에 대한 추정치이다.

셋째, 추정된 표본회귀선 는 모회귀선 E(Y | X) 의 추정치이다.

넷째, 모회귀선은 오직 하나만 존재하지만, 표본회귀선은 표본에 따라 변한다.

그러면 표본 자료를 이상적으로 표현하는 표본회귀선은 어떻게 구할 수 있을까? 즉, 표본회귀선의 과 는 어떻게 구해야 하는가? 그림 4 에서 알 수 있는 바와 같이 잔차 ( ) 의 정도가 가장 최소가 되도록 표본회귀선을 구하면 된다.

그림 4 산포도로부터 표본 자료를 가장 이상적으로 표현한 표본회귀선은 이다. 그런데 실제 표본 자료에서 종속변수 값 와 표본회귀선 상의 종속변수 추정치 의 차이인 잔차 ( ) 가 존재한다. 만약 표본 자료에 대응하는 가장 이상적인 표본회귀선이 추정되었다면, 잔차의 합 ( ) 은 당연히 0 이 될 것이다. 왜냐하면 회귀선을 중심으로 + 값으로 나타나는 잔차와 – 값으로 나타나는 잔차가 서로 상쇄되기 때문이다.

그러므로 잔차의 합은 표본회귀선을 구하는데 별 쓸모가 없다. 그래서 최소자승법 (least square method) 을 이용하여 표본회귀선을 구한다. 잔차의 제곱 합 ( ) 을 최소화시키면서 표본회귀계수 과 회귀상수 를 구하는 방법을 최소자승법이라 한다. 그러면 최소자승법으로 표본회귀선을 구하는 과정을 설명하자.

i 번째 종속변수 값 ( ) 과 표본회귀선 상의 종속변수 추정치의 차이로부터 잔차의 제곱 합은 식 7 로 정의된다.

잔차의 제곱 합 : 식 7

식 5-4 에서 와 는 표본 자료로부터 주어진 값이고, 과 는 미지수이다. 잔차의 제곱 합을 최소화시키는 조건은 식 7 을 과 에 관하여 편미분한 것이 0 를 만족해야 한다. 잔차의 제곱 합을 최소화시키는 조건을 풀이하면 식 8 로 표현된다.

의 최소화 조건 : 식 8

식 8 를 정리하면 식 9 와 같은 정규방정식으로 표현된다.

정규방정식 : – ① – ② 식 9

식 9 에서 가 있는 항을 소거하여 에 관하여 풀이하면 표본회귀계수를 구하는 식 10 을 얻을 수 있다

표본회귀계수 (I) : 식 10

이고, 이므로 식 10 을 정리하면 표본회귀계수를 구하는 식은 식 11 로 변형된다.

표본회귀계수 (II) : 식 11

그리고 식 11 을 X 와 Y 의 편차 형태로 정리하면 표본회귀 계수를 구하는 식은 식 12 로 변형된다.

표본회귀계수 (III) : 식 12

최소자승법에 의하여 표본회귀계수 을 구하는 식은 각각 다른 형태의 식 10, 식 11, 식 12 를 이용할 수 있으나, 그 중에서 어떠한 식을 이용하여 을 구하여도 동일한 결과를 얻는다. 그러나 일반적으로 식 12 를 이용한다. 왜냐하면 종속변수 Y 와 독립변수 X 가 편차 형태로 표현되어 있기 때문이다. 표본회귀계수 을 구하는 목적은 모회귀계수 을 추정함에 있다. 그래서 을 모회귀계수의 추정치라고 부르기도 한다.

이제 식 12 로 표현된 을 구하는 공식을 자세히 살펴보자. 식 12 에서 분모는 독립변수 X 의 분산을 의미하고, 분자는 독립변수 X 와 종속변수 Y 의 공분산을 나타낸다. 따라서 표본회귀계수 은 X 와 Y 의 공분산이 상대적으로 X 의 분산으로 나눈 값이다. 즉, 표본회귀계수는 X 와 Y 의 공분산이 상대적으로 X 의 분산보다 클수록 큰 값을 갖는다.

먼저 표본회귀계수 ( ) 가 구해지면 회귀상수 ( ) 는 쉽게 구할 수 있다. 식 9 의 ② 로부터 에 관하여 정리하면 회귀상수를 구하는 식은 식 13 으로 쉽게 얻을 수 있다.

표본회귀상수 : 식 13

이제 X 의 편차형태 를 로 표기하고, Y 의 편차형태 를 로 표기하자. 그러면 표본회귀계수 은 간단히 식 14 로 표현될 수 있다.

편차형태의 표본회귀계수 계산식 : 식 14

먼저 독립변수 와 종속변수 값을 식 12 에 대입하여 표본회귀계수 을 구할 수 있다. 그런데 표본 자료로부터 을 계산하는 과정은 다소 번거롭다. 그래서 식 11 을 이용하면 조금은 간편하다. 왜냐하면 X 와 Y 의 평균치 편차를 하나하나 계산하지 않고서도 을 구할 수 있기 때문이다.

물론 표본 자료가 상당히 큰 경우에는 컴퓨터를 이용하여 회귀계수를 편리하고 쉽게 구할 수 있다. 그러나 회귀분석의 원리를 바르게 이해할 수 있을 때 컴퓨터를 바르게 활용할 수 있고, 그 처리 결과도 바르게 해석할 수 있다.

그러면 <표 3> 으로 주어진 유통기간과 비타민 C 파괴량 자료로부터 최소자승법에 의한 회귀계수 과 회귀상수 를 구해보자. 먼저 회귀계수가 구해지는 과정을 자세히 살피고자 식 12 를 이용하여 을 구한다. 이 구해지면 회귀상수 는 식 13 을 이용하여 쉽게 구할 수 있다. 계산 과정에서 혼란을 피하기 위해 <표 4> 와 같은 계산표를 만든다.

<표 4> 회귀계수 을 구하기 위한 계산표

15 20 25 30 35 20 25 40 50 65 -10 -5 0 5 10 -20 -15 0 10 25 100 25 0 25 100 200 75 0 50 250 = 25 = 40 – – ∑ : 250 ∑ : 575

<표 4> 에서 필요한 값을 선택하여 식 12 에 대입하면 표본회귀계수 은 쉽게 구할 수 있다.

구하고자 하는 표본회귀선의 회귀계수는 2.300 이다. 그리고 = 2.300 이므로 식 13 을 이용하면 회귀상수는 쉽게 구할 수 있다.

따라서 구하고자 하는 표본회귀선의 상수는 -17.400 이다.

그러므로 표본 자료 <표 3> 으로부터 유통기간 (X) 이 변함에 따라 비타민 C 파괴량 (Y) 의 표본회귀선은 식 15 로 표현할 수 있다.

추정된 표본회귀선 : 식 15

추정된 표본회귀선에서 회귀계수 은 회귀상수 보다 매우 중요한 의미를 갖는다. 회귀계수는 독립변수가 한 단위 변함에 따라 종속변수에 미치는 영향력 크기를 의미하기 때문에 매우 중요한 값이다. 그러나 회귀상수는 적합한 회귀선을 추정하기 위한 절편에 해당되므로 그다지 중요한 의미를 갖지 않는다. 그러므로 식 15 의 추정된 표본회귀선에서 상수 ( ) 가 -17.500 으로 나타난 것은 별로 의미가 없다.

그런데 식 4 의 모회귀선에서 모회귀계수 과 모회귀상수 는 알려져 있지 않다. 그리고 모집단 전체를 조사하여 과 를 구하는 것은 비효율적이다. 그러므로 모집단으로부터 표본을 추출하여 표본회귀선 에서 과 를 최소자승법으로 구한다. 표본회귀계수 은 의 추정량이고, 표본회귀상수 는 의 추정량이다.

모회귀선은 하나만 존재하므로 모수 과 는 오직 한 값만을 갖는다. 그러나 최소자승법으로 구한 표본회귀선은 표본 자료에 따라 변한다. 다시 설명하면 최소자승법으로 구한 표본회귀계수 은 모수 과 일치하지 않고 오차가 발생한다. 그래서 최소자승법으로 표본회귀선을 구하여 회귀분석함에는 다음과 같은 여러 가지 문제를 점검해야 한다.

첫째, 최소자승법으로 구한 표본회귀계수 은 정확한가?

둘째, 최소자승법으로 구한 표본회귀선에 표본 자료는 얼마나 적합성이 있는가?

셋째, 최소자승법으로 구한 표본회귀계수 은 과연 의미가 있는가?

이러한 세 가지 문제점을 간단히 정확성, 적합성, 유의성이라고 하는데, 다음 절에서 자세하게 설명하고 있다.

앞 절에서 설명한 바와 같이 표본회귀선은 표본 자료를 대표하는 이상적인 직선이다. 그 이상적인 표본회귀선은 최소자승법을 적용하여 구할 수 있다. 그렇다면 모든 표본 자료에 대하여 최소자승법을 적용할 수 있는가? 그렇지 않다.

식 4 로 설정된 모집단 회귀모형에서 종속변수 는 독립변수 뿐만 아니라 교란항 과도 깊은 관계가 있다. 그러므로 종속변수에 영향을 미치는 독립변수는 물론 교란항의 성격을 알아야 한다. 이미 설명한 대로 모회귀모형에서 독립변수는 주어진 값으로, 종속변수는 확률변수로 가정한다. 그러면 최소자승법을 적용하기 위한 가정에 대하여 살펴보자.

(가정 1) 교란항의 기대치는 0 이다. [E(ε) = 0].

모집단 회귀모형에서 회귀선을 중심으로 교란항이 존재하는데 그 교란항의 기대치는 0 이다. 즉 모회귀선 위ㆍ아래로 존재하는 교란항은 +, 또는 – 값을 갖는데 그 평균이 0 라는 것이다. 이러한 가정을 만족하는 조건에서 모회귀선은 를 의미한다.

(가정 2) 교란항의 분산은 동일하다 [ ].

주어진 독립변수 X 값에 따라 여러 값으로 나타나는 교란항의 분산은 X 값이 다른 값을 갖더라도 동일하다는 뜻이다. 다시 설명하면 여러 가지 X 값에 대응하는 종속변수 Y 는 동일한 분산을 갖는다는 가정이다. 그림 3 에서 종속변수 Y 가 동일한 분산을 갖는 것을 알 수 있다. 그러므로 가정 2 는 다음과 같은 식으로도 표시할 수 있다.

(가정 3) 교란항 사이에는 서로 상관관계가 없다 [ ].

교란항 사이에 상관관계를 자기상관 (autocorrelation) 이라 하고, 교란항끼리 관련성 정도를 의미한다. 주어진 두 X 값에 대응하는 두 종속변수 Y 값이 종속변수의 평균으로 떨어져 있는 차이를 교란항 라 하자. 그러면 교란항 와 는 서로 아무런 관련성이 없다는 가정이다. 모집단에서 독립변수 X 값이 주어졌을 때 종속변수 Y 값은 무수히 많이 존재한다. 따라서 Y 값이 평균으로부터 벗어난 교란항도 무수히 많이 존재한다. 서로 다른 교란항 사이에 관련성은 그림 5 에서와 같이 3 종류 모습을 나타낸다.

그림 5 에서 (가) 와 (나) 의 확률분포는 교란항 사이에 밀접한 관련성이 있음을 알 수 있다. 그러나 (다) 의 확률분포는 교란항 사이에 관련성이 없음을 보여주고 있다. 따라서 가정 3 을 만족시키는 확률분포는 (다) 에 나타나고 있다.

그림 5 3 종류 교란항 확률분포

(가정 4) 교란항과 독립변수 사이에 상관관계가 없다 [ ].

교란항과 독립변수 사이에 상관관계가 없다는 뜻은 와 사이에 밀접한 상관관계가 있다면, 종속변수 Y 에 미치는 영향력 크기를 분리하여 측정할 수 없음을 의미한다. 그러면 모집단에서 종속변수 실제 값 는 로 표현될 수 없다.

(가정 5) 모회귀모형은 적합하게 설정되어 있다.

모회귀모형은 어떤 현상에 적합한 회귀모형이 설정되어야 한다. 예를 들어 경제현상을 분석할 경우 우선 계량경제모형을 설정해야 한다. 따라서 모회귀모형을 설정할 경우에는 다음 사항을 주의해야 한다.

첫째, 모회귀모형은 선형인가 비선형인가?

둘째, 모회귀모형에 포함될 독립변수는 무엇이어야 하는가?

셋째, 모회귀모형에 포함되는 변수 , 와 교란항 의 확률적 성격은 가정을 만족시키는가?

앞에서 설명한 다섯 종류 가정을 만족시킬 때 최소자승법을 적용할 수 있는데, 이러한 가정은 모회귀모형에 해당하고 표본회귀모형에 적용되는 가정이 아니다. 그리고 적합한 회귀모형을 찾고자 하는 경우에는 자료를 분석자가 마음대로 조작하는 것을 피해야 하며, 이론에 벗어나지 않는 회귀모형을 설정해야 한다.

회귀분석의 중요한 과제는 모회귀선에서 모수 과 를 바르게 밝히는 것이다. 그러나 모집단 크기가 매우 커서 모집단 전체를 조사하여 모수를 밝히는 것은 불가능하다. 그래서 표본을 추출하여 표본 자료를 바탕으로 최소자승법에 의하여 표본회귀선을 구한다. 표본회귀선의 회귀계수 으로서 모수 을 추정하므로 표본회귀계수 을 최소자승추정치라고 부르기도 한다.

그러면 최소자승추정치는 어떠한 특성을 갖고 있으며, 정확성ㆍ적합성ㆍ유의성은 어떻게 측정할 수 있는가? 다음 절에서 설명하기로 한다.

회귀분석의 목적은 모회귀선 에서 모수 과 를 밝히는 것이다. 그런데 일반적으로 모집단 크기는 매우 커서 과 를 구하는 것은 불가능하다. 그래서 그 모집단으로부터 표본을 추출하여 표본회귀선을 로 설정하고 최소자승법으로 과 를 구한다. 은 모회귀계수 의 추정치로, 는 모회귀상수 의 추정치로 사용한다.

그러나 과 는 유일한 값으로 존재하지만 과 는 표본자료에 따라 변한다. 최소자승 추정량의 표준편차 즉, 표준오차가 크면 추정량은 정확성에서 문제가 발생한다. 그리고 표본 자료는 회귀모형으로 분석하는데 적합한가를 점검해야 한다. 이번 절에서는 최소자승법으로 구해진 표본회귀선 추정량이 어떠한 성격을 갖는지 살펴보자.

표본회귀선 는 최소자승법에 의하여 표본 자료로부터 구할 수 있다. 그러나 표본회귀계수 과 회귀상수 는 표본에 따라 변할 뿐만 아니라, 모회귀선의 모수 과 와 일치하지 않고 어느 정도 오차가 발생한다. 만약 오차 정도가 크게 나타난다면, 과 는 과 에 대한 추정치로써 정확성이 없게된다. 그러면 최소자승법에 의해 구한 표본회귀계수 이 변화하는 정도는 어떠한가? 즉, 추정치 의 표준편차 크기는 어떠한가?

만약 의 표준편차가 큰 값을 갖는다면, 표본에 따라 값은 변화가 심하다는 뜻이므로 모수 으로부터 오차가 발생할 가능성이 크다는 의미이다. 한편 의 표준편차가 작은 값을 갖는다면, 표본에 따라 값은 변화하는 정도가 작으므로 모수 으로부터 오차가 발생할 가능성이 작다는 의미이다. 따라서 추정치로 사용되는 의 표준편차를 표준오차 (standard error) 라 부르고 Se( ) 으로 표기한다.

그러면 의 표준오차 [Se( )] 크기는 어떻게 측량할 수 있는가? 제 3 장에서 설명한 바 있지만, 표준편차란 분산에 대하여 양의 제곱근을 취한 값이다. 또한 표준편차의 제곱이 분산이다. 그러므로 Se( ) 을 구하기 위해서 먼저 의 분산을 계산해야 한다.

▶ 의 표준오차

모회귀모형 를 추정하기 위해서 표본을 추출하여 최소자승법으로 표본회귀계수 과 를 구할 수 있다.

그런데 표본회귀계수 은 표본에 따라 변하므로 확률변수로 취급할 수 있다. 그러면 의 분산은 확률변수의 분산에 대한 정의에 따라 식 16 으로 표현될 수 있다. 식 16 은 이번 장 뒤 부분에 있는 부록 10.1 에서 증명하고 있다.

식 16 에서 회귀계수 추정치 ( ) 의 분산은 크기에 비례하고, 크기에 반비례 관계로 나타남을 알 수 있다. 다시 설명하면 의 분산은 모집단에서 교란항 분산 크기에 비례한다.

의 분산 : , 단 은 교란항 분산이고, 은 이다. 식 16

그리고 의 분산은 독립변수 총 변량 크기에 반비례한다. 그런데 독립변수 총 변량 크기는 표본 자료로부터 계산할 수 있지만 교란항 분산 ( ) 은 알 수 없다.

앞 절에서 설명한 바와 같이 모회귀모형에서 독립변수 X 값이 주어졌을 때 종속변수 Y 의 확률분포는 동일한 분산을 갖는다고 가정하였다. 다시 설명하면 모회귀모형에서 교란항 ( ) 의 분산 은 X 에 관계없이 일정하다는 가정이다. 그렇다면 교란항 분산 ( ) 이 뜻하는 것은 구체적으로 무엇인가?

교란항 분산이 크다는 것은 종속변수 Y 의 분산이 크다는 것이므로 Y 의 변화 정도가 심하다는 뜻이다. 한편 교란항 분산이 작다는 것은 종속변수 Y 의 분산이 작다는 것이므로 Y 의 변화 정도가 작다는 뜻이다. 그런데 모집단 회귀모형에서 교란항 분산은 알려져 있지 않다. 그러므로 표본회귀선에 존재하는 잔차 ( ) 로서 교란항 분산을 추정할 수밖에 없다.

표본회귀선을 중심으로 잔차가 밀집되어 있으면 추정된 회귀선은 정확성이 있으며 모회귀선을 추정함에 있어서도 오차가 적게 발생될 것이다. 다시 설명하면 잔차의 제곱 합 ( ) 이 작은 값을 갖는다면 추정된 표본회귀선은 적합성이 있고, 모회귀선을 추정함에 오차가 적게 될 것이다. 한편 잔차의 제곱 합 ( ) 이 큰 값을 갖는다면, 추정된 표본회귀선 ( ) 은 정확성이 없어 신뢰할 수 없고 모회귀선을 추정함에도 오차가 클 것이다. 물론 표본 자료 개수가 많으면 비교적 잔차의 제곱 합은 큰 값을 갖는다. 그러므로 잔차의 제곱 합을 자유도 (n – 2) 로 나누어서 평균적 개념으로 사용해야 한다.

표본 자료에서 자료의 개수를 n, i 번째 종속변수 값을 , 표본회귀선상에 추정된 종속변수를 로 표기하자. 그러면 잔차는 이므로 교란항 분산 ( ) 의 추정치는 식 17 로 표현된다. 식 17 은 이번 장 뒤 부분에 수록한 부록 10.2 에서 증명하고 있다.

교란항 분산 추정치 : 식 17

식 17 로 나타난 교란항 분산 추정치를 양의 제곱근을 취한 것이 표본회귀선의 표준오차이다.

표본회귀선의 표준오차 : 식 18

식 18 에서 가 큰 값을 갖는다면 표본회귀선으로부터 잔차가 크게 흩어져 나타나므로 추정된 표본회귀선 ( ) 은 오차 정도가 크다는 뜻이다. 그런데 만약에 표본회귀선의 표준오차 ( ) 가 0 값을 갖는다면, 표본회귀선으로부터 잔차가 전혀 존재하지 않기 때문에 종속변수 값은 모두 표본회귀선 상에 위치한다는 뜻이다. 이러한 경우는 수학적 함수 관계에서만 존재하고 실제에서는 존재할 수 없다. 식 17 에서 잔차의 제곱 합 ( ) 을 (n – 2) 로 나누는 이유는 교란항 분산 추정치 ( ) 가 교란항 분산 ( ) 에 대하여 불편추정량이 되기 위함이다.

그러면 추정된 표본회귀계수 의 분산을 계산하는 식 16 을 살펴보자. 식 16 에서 교란항 분산 ( ) 은 알 수 없으므로 식 17 에서 구한 추정치 ( ) 를 대신 사용한다. 그러므로 식 16 에서 대신 를 사용하고 양의 제곱근을 취한 값이 바로 표본회귀계수 의 표준오차이고 Se( ) 로 표기한다.

표본회귀계수 의 표준오차 : 식 19

식 19 에서 Se( ) 가 뜻하는 바를 자세히 살펴보자. 표본회귀계수는 표본 자료에 따라 변하는데, 최소자승법으로 구한 표본회귀계수의 정확성 정도를 측량하는 단위가 바로 Se( ) 이다.

Se( ) 이 큰 값을 갖는다는 것은 표본회귀계수 이 표본에 따라 변화하는 정도가 심하다는 뜻이다. 그리고 Se( ) 이 작은 값을 갖는다는 것은 표본회귀계수 이 표본에 따라 변화하는 정도가 작다는 뜻이다. 그러므로 Se( ) 이 작은 값을 가질 때 표본회귀계수 이 모회귀계수 에 대하여 오차가 적은 정확성 있는 추정치로 사용될 수 있다.

이제 앞 절에서 표본 자료 <표 3> 으로부터 구한 표본회귀계수 에 대한 표준오차를 구해보자. 최소자승법에 의하여 추정된 표본회귀선은 식 14 로부터 얻은 이다. Se( ) 를 계산하는 과정은 조금은 복잡하고 혼동이 되므로 다음과 같은 순서로 구한다.

첫째, 추정된 표본회귀선 상에 종속변수 값을 구할 수 있다.

둘째, 잔차 ( ) 를 구한다.

표본 자료에서 종속변수 값으로부터 첫째 단계에서 구한 종속변수 추정치 를 빼어서 를 구할 수 있다.

셋째, 잔차의 제곱 합 ( ) 을 구한다.

은 둘째 단계에서 구한 각각의 에 대하여 제곱한 다음 합하여 구할 수 있다.

넷째, 교란항의 분산 추정치 ( ) 를 구한다.

셋째 단계에서 구한 을 (n – 2) 로 나누어 을 구할 수 있다.

다섯째, 를 식 19 에 대입하여 의 표준오차를 구한다.

넷째 단계에서 구한 의 표준오차를 구하기 위하여 <표 5> 와 같은 계산표를 작성하는 것이 편리하다.

<표 5> Se( ) 를 구하기 위한 계산표

15 20 25 30 35 20 25 40 50 65 17.0 28.5 40.0 51.5 63.0 3.0 -3.5 0.0 -1.5 2.0 9.00 12.25 0.00 2.25 4.00 = 25 = 40 – – = 27.50

<표 5> 로부터 = 27.500 이므로 = 9.167 이다.

따라서 = 250 과 = 9.167 을 식 19 에 대입하여 의 표준오차를 구하면 0.1915 이다.

≒ 0.1915

▶ 의 표준오차

표본회귀선에서 회귀상수 는 회귀계수 과는 밀접한 관련성이 있다. 표본회귀계수 이 표본에 따라 변하는 것과 마찬가지로 회귀상수 도 표본에 따라 변한다. 그리고 동일한 표본에서도 과 는 깊은 관련성이 있기 때문에, 과 의 공분산 (covariance) 은 식 20 과 같이 표현된다.

과 의 공분산 : 식 20

여기서 공분산이란 개념을 살펴보자. 공분산이란 두 변수 사이에 존재하는 관련성 정도를 측정할 때 사용되는 것으로 두 변수가 갖는 공통 분산이다. 두 변수 사이에 공분산이 크다는 것은 두 변수가 관련성이 크다는 뜻이다. 즉, 한 변수가 큰 편차로 나타나면 다른 변수도 큰 편차로 나타난다는 뜻이다. 공분산의 정의로부터 식 20 이 성립함을 증명하자.

식 20 으로 나타난 과 의 공분산 성질을 이용하면, 표본회귀상수 의 분산은 식 21 로 표현된다.

표본회귀상수 의 분산 : 식 21

식 21 로부터 의 표준오차는 제곱근을 취함으로써 쉽게 구할 수 있다.

앞 절에서는 최소자승법으로 구한 회귀계수 에 대한 정확성을 측정하는 표준오차에 대하여 설명하였다. 이번 절에서는 표본 자료는 추정된 회귀선 ( ) 에 적합한가를 측정하는 결정계수 (determination coefficient) 에 대하여 설명한다. 두 변수 사이에 선형관계로 추정된 표본회귀선은 표본 자료에 적합하게 표현된 것인가? 추정된 표본회귀선의 적합성을 반드시 짚어보아야 한다. 서로 다른 적합성을 보이고 있는 두 종류 산포도가 그림 6 으로 나타나 있다.

그림 6 에서 (가) 산포도는 표본 자료가 추정된 회귀선과 적합하지만, (나) 산포도는 적합하지 않음을 보여주고 있다.

그림 6 두 종류 산포도와 회귀선

따라서 (나) 산포도와 같이 나타난 표본 자료를 회귀분석에 적용하는 것은 적합하지 않다.

그러면 추정된 표본회귀선으로부터 적합성 정도를 어떻게 측정할 수 있는가? 종속변수 의 편차를 기본 단위로 적합성을 측정할 수 있다. 독립변수 에 대응하는 종속변수 와 추정된 표본회귀선 는 그림 7 로 나타나 있다.

그림 7 의 구성

그림 7 에서 종속변수의 편차 는 회귀선으로 추정된 종속변수의 편차 와 잔차 ( ) 의 합으로 구성되어 있다. 이러한 관계를 표현한 것이 식 22 이다.

종속변수 편차의 구성 : 식 22

식 22 로부터 종속변수의 총 변량 크기는 어떠한 관계로 표현되는지 살펴보자. 총 변량이란 변수가 갖는 총 변동 크기로서 편차의 제곱 합으로 계산된다. 따라서 종속변수 Y 의 총 변량 크기는 이다. 식 22 에서 양변에 대하여 제곱 합을 구하는 식을 전개하면 총 변량은 식 23 으로 나타난다.

주석 : 종속변수의 총 변량이 식 23 으로 전개되는 것을 증명하자. 표본 종속변수 값 : ㆍㆍㆍ① 종속변수 평균값 : ㆍㆍㆍ② ① 에서 ② 식을 빼어서 정리하면 ③ 식을 얻는다. ㆍㆍㆍ③ 편차형태로 나타난 ③ 식을 간단한 기호로 표기하여 ④ 식을 얻는다. ㆍㆍㆍ④ ; , ④ 식으로부터 최소자승법에 의하여 추정된 회귀선은 ⑤ 식으로 표현된다. ㆍㆍㆍ⑤ ④ 식과 ⑤ 식으로부터 추정된 회귀선은 종속변수와 잔차로만 구성된 ⑥ 식이 성립한다. ㆍㆍㆍ⑤ ⑥ 식에서 양변에 대하여 제곱합을 취하면 식 6-8 을 얻을 수 있다. 이므로 ㆍㆍㆍ⑦ ㆍㆍㆍ⑧ ⑦ 식은 식 23 과 같다.

종속변수의 총 변량 : 식 23

식 23 에서 나타난 각각의 변량에 대하여 그 뜻을 살펴보자.

첫째, 은 종속변수가 갖는 총 변량이다.

표본자료에서 나타난 종속변수가 갖는 총 변동 크기가 변량이다.

둘째, 은 추정된 회귀선 상에서 종속변수가 갖는 총변량이다.

은 추정된 회귀선에 의하여 설명 가능한 변동 크기를 나타내는 변량이다.

셋째, 은 잔차의 제곱 합으로 잔차가 갖는 총 변량이다.

잔차의 제곱 합은 회귀선 위ㆍ아래로 흩어진 크기이므로 추정된 회귀선에 의하여 설명할 수 없는 변동 크기이다.

이제 종속변수의 총 변량은 어떠한 요소로 구성되는지 살펴보자. 총 변량 크기를 TSS (= Total Sum of Squares) 로, 추정된 회귀선에 의하여 설명 가능한 변량을 ESS (= Explained Sum of Squares) 로, 회귀선으로부터 벗어난 잔차의 변량을 RSS (= Residual Sum of Squares) 로 표기하자. 그러면 식 23 은 식 24 와 같은 관계식으로 표현된다.

종속변수의 총 변량 : TSS = ESS + RSS 식 24

식 23 과 식 24 에서 양변에 대하여 총 변량 TSS ( ) 로 나누면 식 25 가 성립한다.

변량의 상대적비율 : 식 25

식 25 에서 설명 가능한 변량에 대한 총 변량 비율 (ESS/TSS) 을 으로 표기하면, 은 총 변량 중에서 설명 가능한 변량이 차지하는 비율이다. 그러므로 값이 크면 클수록 표본 자료는 추정된 회귀선에 의하여 설명 가능한 변량 부분이 크다는 뜻이다. 다시 설명하면 값이 큰 값을 가질 때 표본 자료는 회귀선에 의하여 잘 설명될 수 있으므로 적합성이 있다는 뜻이다. 따라서 은 표본 자료를 회귀분석으로 적용함에 적합성이 있는가를 결정하는 결정계수라 한다.

추정된 회귀선이 표본 자료에 적합한가를 측정하는 결정계수 ( ) 는 다음과 같은 특성이 있다.

첫째, 은 제곱 합의 상대적 비율이므로 음 (-) 의 값을 가질 수 없다.

둘째, 은 0 에서 1 사이에 값을 갖는다 (0 ≤ ≤ 1).

만약에 값이 0 이라면 표본회귀선으로 설명 가능한 부분이 없다는 뜻이므로 두 변수 X 와 Y 사이에는 전혀 관계가 없다. 그러므로 값이 0 에 가까우면 회귀분석을 적용함에 적합치 않다는 뜻이다.

한편 값이 1 이라면, 표본회귀선은 완전히 적합하다는 뜻이므로 두 변수 X 와 Y 사이에는 잔차가 전혀 없는 하나의 수학적 함수이다. 그러므로 값이 1 이라면 회귀분석을 적용할 수 없다.

식 25 로부터 결정계수와 변량 비율 사이에 존재하는 관계 식을 표현한 것이 식 26 이다.

와 변량 비율 : 식 26

결정계수와 회귀계수는 매우 밀접한 관계가 있다. 값이 1 에 접근할수록 독립변수 X 와 종속변수 y 는 매우 관련성이 크다는 뜻이다. 그러므로 결정계수 ( ) 는 회귀계수 ( ) 로부터 계산될 수 있다. 식 25 로부터 = ESS/TSS 이다. 그런데 ESS 는 다음과 같이 회귀계수로 표현될 수 있다.

따라서 결정계수와 회귀계수 사이에 관계식을 나타낸 것이 식 27 이다. 식 27 로부터 결정계수는 회귀계수 제곱에 두 변수의 변량 비율을 곱한 것이다. 다시 설명하면 두 변수 X 와 Y 의 상관계수는 회귀계수를 두 변수의 표준편차 비율로 곱한 것과 같다.

결정계수와 회귀계수 : 식 27

(예제 1) 농촌 가구의 한계소비성향은 어떻게 나타날까? 수많은 농촌 가구를 모두 조사할 수 없다. 그래서 농촌 마을에서 5 농가를 표본으로 추출하여 <표 6> 와 같은 소득과 소비지출에 관하여 자료를 얻었다.

<표 6> 5 농가의 소득과 소비지출

소 득 (만원) : X 65 75 80 85 95 소비지출 (만원) : Y 50 55 60 65 70

(1) 표본회귀모형을 로 설정하여 표본회귀선을 구하라.

(2) 추정된 표본회귀계수 ( ) 의 표준오차를 구하라.

(3) 표본 자료는 표본회귀선에 얼마나 적합한가? 결정계수를 구하라.

(풀이 1) 예제로부터 두 종류 변수가 있다. 소득 (X) 은 독립변수이고 소비지출 (Y) 은 종속변수이다.

(1) 최소자승법으로 표본회귀선을 구하기 위해서는 과 를 계산하는 공식을 이용하면 된다.

식 12 와 식 13 으로부터 이고 이다. 먼저 을 구하기 위해서 <표 7> 과 같은 계산표를 작성한다.

<표 7> 표본회귀계수를 구하기 위한 계산표

65 75 80 85 95 50 55 60 65 70 -15 -5 0 5 15 -10 -5 0 5 10 225 25 0 25 225 150 25 0 25 150 = 80 = 60 – – Σ = 500 Σ = 350

<표 7> 로부터 이므로 표본회귀계수를 쉽게 구할 수 있다.

표본회귀상수 ( ) 는 값을 이용하여 구할 수 있다.

따라서 표본 자료로부터 구하고자 하는 표본회귀선은 다음과 같다.

(2) 표본회귀계수 ( ) 의 표준오차 [ ] 를 구하기 위해서는 식 19 를 이용한다. 그런데 식 19 를 이용하기 위해서는 먼저 교란항 분산의 추정치 ( ) 를 구해야 한다. 를 구하는 계산 과정이 복잡하므로 계산표를 만들어 원하는 값을 구한다. 우선 먼저 표본회귀선에 값을 대입하여 값을 계산한다.

<표 8> 를 구하기 위한 계산표

65 75 80 85 95 50 55 60 65 70 49.5 56.5 60.0 63.5 70.5 0.5 -1.5 0.0 1.5 -0.5 0.25 2.25 0.00 2.25 0.25 100 25 0 25 100 – – – – Σ = 5.00 Σ = 250

잔차의 제곱 합으로부터 (n – 2) 로 나누어 를 구한다.

독립변수의 편차 제곱 합 ( ) 은 500 이므로 표본회귀계수 ( ) 의 표준오차 [ ] 를 쉽게 구할 수 있다.

그러므로 표본회귀계수의 표준오차는 0.0577 이다.

(3) 결정계수 ( ) 는 추정된 표본회귀선의 표본 자료에 적합한가를 측정하는 단위이다. <표 8> 로부터 잔차의 제곱 합 (RSS) 은 5.00 이고, 총 변량 크기 (TSS) 는 250 이므로 식 26 을 이용하여 를 쉽게 구할 수 있다.

는 0.980 이므로 추정된 회귀선은 표본 자료에 98 % 정도 적합성을 보이고 있다.

앞 절에서 표본회귀계수 ( ) 의 정확성과 표본회귀선의 적합성에 대하여 설명하였다. 이번 절에서는 최소자승법에 의하여 구한 표본회귀계수 ( ) 는 모수 에 대하여 어떠한 특성이 있는지 살펴보기로 한다.

우선 의 표본분포는 어떠한 성격으로 나타나는지 알아보자. 모집단에서 모회귀모형은 으로 유일하게 존재한다. 그러한 모집단으로부터 크기 (n) 가 동일한 표본은 무수히 많이 추출할 수 있다.

각 표본 자료로부터 최소자승법으로 표본회귀계수 ( ) 를 구하면, 각 표본에서 구한 은 일정한 값이 아니라 변하는 확률변수이다. 그러면 각 표본에서 구한 은 어떠한 모습을 갖는 표본분포일까? 의 표본분포는 당연히 그림 8 과 같은 정규분포 모습으로 나타날 것이다.

그림 8 표본회귀계수의 표본분포

그런데 최소자승법으로 구한 표본회귀계수 ( ) 의 특성을 한마디로 최량선형불편추정량 (BLUE : Best Linear Unbiased Estimator) 이라고 표현한다. 즉, 최소자승법으로 구한 은 최고로 좋은 직선 형태를 갖고 편의 (bias) 가 없는 추정량이라는 뜻이다. 이러한 최량선형불편추정량은 다음과 같은 3 종류 특성을 갖는다.

첫째, 추정량 은 선형 (= 직선 형태) 함수이다.

둘째, 추정량 은 모수 에 대하여 불편추정량이다.

셋째, 추정량 은 다른 추정량보다 최소 분산을 갖는다.

이러한 3 종류의 특성 중에서 이 선형이고 불편추정량인지 증명하여 보자. 표본회귀계수 ( ) 를 구하는 식은 편차 형태로 식 ① 로 표현된다.

ㆍㆍㆍ①

① 식에서 이므로 는 식 ② 로 변형될 수 있다.

이므로

ㆍㆍㆍ②

② 식에서 이라 하자. 그러면 ② 식은 ③ 식으로 변형된다.

ㆍㆍㆍ③

③ 식에서 는 종속변수 의 선형함수임을 알 수 있다.

그러면 표본회귀계수 ( ) 는 모수 에 대하여 불편추정량인가? 불편추정량 (unbiased estimator) 란 편의가 없는 추정량이다. 불편 (unbiased) 이란 추정량이 모수에 대하여 한쪽으로 치우침이 없는 상태를 뜻한다. 다시 설명하면 추정량의 기대치를 취한 값이 모수와 같을 때 그 추정량을 불편추정량이라 부른다. 그러므로 불편추정량이란 매우 바람직한 추정량 성격을 뜻한다. 즉, 를 만족한다면 은 의 불편추정량이다. 이 불편추정량인지 증명하기 전에 ③ 식에 나타난 의 특성을 먼저 살펴보자.

첫째, 이므로 독립변수 는 주어진 값으로 간주하기 때문에 도 확률적으로 변하는 값이 아니라 주어진 값으로 취급한다.

둘째, 의 합계는 0 이다 ( ).

왜냐하면 에서 분자에 해당하는 는 편차의 합 [ ] 이므로 0 이다.

셋째, 와 를 곱하여 합한 값 ( ) 은 1 이다.

에서 양변에 를 곱하여 더하면 다음과 같다.

위 식은 다음과 같은 식으로도 변형될 수 있다.

이므로

넷째, 이 성립한다.

왜냐하면 이 성립하기 때문이다.

이러한 의 성질을 이용하여 가 불편추정량임을 증명하자. 모회귀선은 이므로 바로 앞쪽 ③ 식에 대입하여 정리하면 다음과 같은 관계로 나타난다.

이므로

ㆍㆍㆍ ④

④ 식에서 기대치를 취하면 다음과 같은 관계가 성립한다.

, 는 모수이므로

, 이므로

ㆍㆍㆍ⑤

⑤ 식에서 이므로 표본회귀계수는 모회귀계수 ( ) 에 대하여 불편추정량이다.

[회귀분석] 단순선형회귀분석(Simple Linear Regression) 개념

728×90

반응형

Review

참고 포스팅 :

2020/09/15 – [Statistics/Regression Analysis] – [회귀분석] 회귀분석 모델의 소개

안녕하십니까, 간토끼입니다.

지난 포스팅에서는 회귀분석이 무엇인지에 대해서 간단히 다뤄보았습니다.

이번 포스팅에서는 회귀모형에서 설명변수가 1개인 모델, 즉 단순선형회귀분석(Simple Linear Regression)에 대해서 다뤄보겠습니다.

한번에 전부 다루기엔 양이 많아서 여러 번 나누어 포스팅할 계획입니다.

단순선형회귀모형은 모형 내 설명변수가 1개만 있는 모형을 말합니다.

즉 1개의 설명변수만으로 반응변수 Y에 대한 영향을 파악하기 위해 사용합니다.

예를 들어 한 노동자의 임금(Wage)를 예측하기 위해 노동자의 교육 수준(Edu)을 설명변수로 활용한다고 가정해보죠.

직관적으로 판단했을 때도, 교육 수준이 높을수록 노동자의 임금 수준이 올라갈 것 같다는 생각이 듭니다.

다만 임금이 교육 수준만으로 결정될까요?

그 사람의 이전 경력(인턴, 이전 직장, 대외활동 등)도 임금에 유의미한 영향을 줄 수 있고, 그 사람의 나이(Age), 신체 조건 등 임금에 영향을 줄 수 있는 요소는 교육 수준을 제외하고도 매우 많습니다.

이러한 경우, 교육 수준이 임금을 ‘어느정도는’ 예측할 수 있지만, 아무래도 완전히 예측하기는 어려워 보입니다.

이러한 이유에서 단순회귀분석이 실제 분석에서 잘 쓰이지는 않습니다.

현실의 복잡한 문제를 설명변수 1개만으로 파악하기는 사실 어렵기 때문이죠.

다만 설명변수가 모형에 1개씩 추가될수록 모형이 점점 복잡해지기 때문에,

단순회귀모형에서 쓰이는 개념을 우선적으로 잘 파악한다면, 다중회귀분석에서도 큰 틀에서는 일맥상통하므로 이해하기 더욱 쉬우실 것입니다.

이러한 맥락에서 단순회귀모형을 공부하면 좋을 것 같습니다.

각설하고 모형을 좀 더 살펴보죠.

단순회귀모형은 다음과 같이 표현됩니다.

특히 오차항을 제외한 부분을 μ (조건부기댓값)으로 표현할 수 있습니다.

이를 이해하기 위해 단순회귀분석의 몇 가지 중요한 고전적인 가정을 짚고 넘어가보죠.

1. 설명변수 X는 확률변수가 아니라 비확률변수(주어진 것)으로 간주한다.

– 우리가 일반적으로 X는 항상 변수로써 사용을 해서 개념이 헷갈릴 수 있으나, 회귀분석에서는 X를 주어진 것으로 가정하고 문제에 접근합니다.

만약 X를 변수로 간주한다면, 모형 내 확률변수가 무척이나 많아서, 문제를 풀기 다소 복잡해집니다.

그러한 의미에서 X를 비확률변수(확률변수가 아니다!)라고 간주하며, 의미가 조금 어려우시다면 쉽게 상수로 가정한다고 생각하면 이해하기 쉬우실 것입니다. 주어진 것이라는 의미는 상수라고 이해하는 것과 비슷하니깐요.

2. 오차항의 기댓값은 0이다. 그러므로 Y의 조건부기댓값은 오차항을 제외한 부분과 같다.

– 여기서 Error Term ε은 확률변수(Random Variable)입니다. 이후 보일 예정이지만 오차의 총합은 0입니다.

기댓값도 당연히 0이고요. 그렇기에 Y의 조건부기댓값 μ 이 오차항의 기댓값이 0으로 되어버림으로써 위와 같이 됩니다.

조건부기댓값이라고 표현한 것은 X를 주어진 것으로 간주하기 때문입니다.

3. 오차항의 분산은 σ^2이다.

– 오차항의 분산이 σ^2이라는 말의 의미는, 분산이 변수가 아닌 상수로 고정되어 있다는 것입니다.

분산은 확률변수가 평균을 기준으로 퍼져있는 정도를 말하죠?

분산이 임의의 상수로 고정되어 있으므로, 설명변수 X에 대응하는 반응변수 Y의 값이 퍼져있는 정도가 전 구간에서 균일하며, 이를 등분산성(homoskedasticity)이라고 합니다.

만약 분산이 구간에 따라 변한다면 이를 이분산성(Heteroskedasticity)라고 합니다.

4. 서로 다른 오차 εi, εj에 대하여, 공분산 Cov(ei, ej) = 0 이다.

– 서로 다른 오차 간엔 어떠한 상관관계도 존재하지 않는다는 것으로, 오차의 독립성 가정이라고도 합니다.

즉 오차 ε는 Random Variable이므로 오차의 발생이 다른 오차에 영향을 받지 않아야 합니다.

만약 어떠한 값에 의해 오차가 영향을 받아 값이 결정된다면,

이러한 영향을 잡아내지 못할 경우 모형이 불안정하여 예측값이 부정확하게 되겠죠.

오차 간 상관관계가 있는 경우를 자기상관(Autocorrelation)이 있다고 합니다.

예를 들어 시계열 자료(Time Series Data)에서 현재 시점의 자료의 값은 과거 시점의 값에 영향을 받습니다.

어떤 상품의 가격의 추세를 살펴보면,

2008년엔 1000원, 2009년엔 1100원, 2010년엔 1150원 … 이라고 했을 때 2011년에 갑자기 5000원이 되거나 100원이 되진 않겠죠?

위와 같은 경우에서는 이러한 자기상관의 패턴을 잡아줘야 예측력을 높일 수 있습니다만,

우선 회귀분석에서는 오차항이 random이라고 가정합니다.

위 가정들을 크게 오차의 정규성, 독립성, 등분산성 가정 이라고 합니다.

위 가정들은 선형회귀모형이 성립하는 중요한 가정이지만,

어떻게 보면 현실과 다소 괴리가 있을 수 있는 경직적이자 이상적인 가정이라 위 가정이 깨지는 경우가 많습니다.

이후 위 가정들이 하나씩 깨졌을 때 어떠한 방법으로 대처해야 할지에 대해서도 살펴볼 예정이고요.

위는 n개의 Sample이 있을 때 위와 같이 표기할 수 있음을 의미합니다.

결국 모든 통계 모형이 그러한 것과 같이, 회귀분석도 sample로부터 population을 추론하는데요.

모집단에서의 Parameter(모수)가 β0, β1라면, 모집단의 Sample로부터 추정하여 β0, β1의 Estimator를 구해야 합니다.

왜냐하면 β0, β1는 결국 설명변수 X가 Y에 얼마만큼의 영향을 끼치는지 알려주는 중요한 지표가 되기 때문이죠.

이는 최소제곱법(Least Square Method)을 이용해 β0, β1의 Estimator를 구할 수 있습니다.

최소제곱법을 이용해 구하는 과정은 다소 포스팅이 길어질 것 같아 다음 포스팅에서 이어서 다뤄보겠습니다.

감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 🙂

(구독이면 더욱 좋습니다 ^_^)

– 간토끼(DataLabbit)

– University of Seoul

– Economics, Big Data Analytics

728×90

반응형

키워드에 대한 정보 단순 회귀 분석

다음은 Bing에서 단순 회귀 분석 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기

SPSS #단순 #선형 #회귀분석(simple #linear #regression) #방법 #/ #단순 #회귀분석(simple #regression) #/ #독립변수가 #종속변수에 #미치는 #영향 #/ #논쓰남


YouTube에서 단순 회귀 분석 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 SPSS 단순 선형 회귀분석(simple linear regression) 방법 / 단순 회귀분석(simple regression) / 독립변수가 종속변수에 미치는 영향 / 논쓰남 | 단순 회귀 분석, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment