반응형

/*******************************************************************************************************************
-- Title : [Stats] 회귀분석 lm()함수의 결과 해석
-- Reference : www.happycampus.com/doc/11598006
-- Key word : 회귀분석 회귀 분석 lm linear model r-square p-value 결정계수 유의확률 결정 계수 유의 확률
                  선형 회귀식 잔차 residual intercept f-statistics f-검정통계량 linear regression t 통계량 t 분포
*******************************************************************************************************************/

 

선형 회귀식
Y = a + (b * X) + e
    - Y : 예측치
    - X : ?
    - e : Residual(잔차)

Y(예측치) = 8.449756 + (1.673166 * X) + e
a, b는 |t|통계량으로 유의성 판단한다.
Pr(>|t|) 값(2.2e-16)이 0.05보다 작으면 통계정으로 유의함을 의미한다.


잔차 표준오차(Residual standard error)
    - 잔차 표준오차 : 0.2606
    - 자유도 : 4998
    - 그리 깊게생각하지 않아도 된다.


Residual(잔차)
회귀선과 분포점들과의 퍼짐 정도를 의미한다.

     e : epsilon


R-Square(결정계수)
회귀식의 검정에 쓰인다.

1에 가까울수록 회귀식이 자료를 잘 설명하고 있음을 가리킨다.
R2으로 표시되는 결정계수(coefficient of determination)는 회귀분석의 중요한 결과이다.
결정계수는 독립변수로부터 예측되는 종속변수의 분산의 비율을 의미한다.
    - 결정계수는 0과 1사이의 값을 갖는다.
    - R2 = 0 이면 독립변수는 종속변수를 전혀 예측할 수 없다는 것을 의미한다.
    - R2 = 1 이면 독립변수는 종속변수를 오차없이 예측할 수 있다는 것을 의미한다.
    - 0과 1 사이의 R2값은 종속변수는 예측가능한 것을 의미한다.
      예를들어 R2 =0.1 이면 Y의 분산의 10%를 X에서 예측 가능하고, R2 =0.2 이면 Y의 분산의 20%를 예측 가능하다.

Mutiple R-squared(결정계수)
종속변수의 변화(변동)을 얼마나 설명하는지나타내는 지표이다(0~1).

Adjusted R-squared(수정 결정계수)
결정계수(Multiple R-squared)와 차이가 크면 회귀모형을 재검토해야 한다.


P-Value(유의확률).

유의확률 (P-Value) 값이 0.05보다 작으면 유의한 차이가 있다라고 하며, 0.05보다 큰 경우에는 유의한 차이가 없다라고 한다.
유의확률은 가설(H0, H1)과 연계되는 개념으로 실제로는 H0가 참인데도 불구하고, H1 이라고 잘못 선택할 확률, 즉, 제 1종
오류를 범할 확률을 의미한다. 다른 의미로는 "H1 이다" 라고 주장했는데, 그것이 틀릴 확률을 의미한다.

  - 2.2e-16

F-statistis(F-검정통계량)
  - F검정통계량은 6.968e+4
  - 제1, 제2 자유도는 (1, 4998)


 

* 네이놈 지식인 답변 中

 

> summary(model1) 

 

Call:

 

lm(formula = patient ~ days, data = data)

 

 

 

Residuals:

 

    Min      1Q  Median      3Q     Max

 

-7.2552 -4.6554 -0.7552  3.8965 12.3392

 

 

 

Coefficients:

 

            Estimate Std. Error t value Pr(>|t|)   

 

(Intercept)  -9.1503     2.9394  -3.113   0.0067 **

 

days          2.6006     0.2716   9.577    5e-08 ***

 

---

 

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

 

 

Residual standard error: 5.977 on 16 degrees of freedom

 

Multiple R-squared:  0.8515,   Adjusted R-squared:  0.8422

 

F-statistic: 91.71 on 1 and 16 DF,  p-value: 4.997e-08

 

> coef(model1)

(Intercept)        days

  -9.150327    2.600619


-------------------------------------------------------------------------------------------------------------------------------

 

lm(formula = patient ~ days, data = data)

입력한 모형식 입니다.

 

 

Residuals: 잔차를 의미합니다. 회귀식에 의해 추정된 값과 실제값(입력값)의 차이 입니다.

 

     Min        1Q    Median        3Q        Max

-7.2552   -4.6554   -0.7552    3.8965   12.3392

차례로 잔차의 최소값 1사분위수, 중앙값, 3사분위수, 최대값을 의미합니다.

1사분위수는 크기 순으로 자료(데이터)를 나열 했을 때 25%에 해당하는 값, 3사분위수는 75%에 해당하는 값 입니다.

 

 

Coefficients: 추정된 회귀식의 계수를 의미 합니다.

 

               Estimate      Std. Error   t value       Pr(>|t|)   

               추정된계수 / 표준오차 / t 값(점수) / p-value 를 의미 합니다.

(Intercept)  -9.1503       2.9394      -3.113        0.0067 **

Intercept는 절편을 의미 합니다.
(y절편) 회귀식에서 계수의 유의성을 판단하기 위해 t분포를 이용합니다.


t분포는 -3.113 입니다.
이 값에 대한 p-value는 0.0067로 alpha=0.05하에 귀무가설을 기각하게 됩니다.

이는 곳 추정된 회귀식의 절편은 유의함을 의미 합니다.

days          2.6006     0.2716   9.577    5e-08 ***

추정된 회귀계수 day는 p-value의 수치상 유의합니다.

---

 

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 5.977 on 16 degrees of freedom

잔차의 표준오차를 의미합니다. 자유도는 16, 관측값에서 -1을 한 값이 자유도가 됩니다.

Multiple R-squared:  0.8515,   Adjusted R-squared:  0.8422

R-squared는 결정계수 Adjusted R-squared는 수정된 결정계수를 의미 합니다.

두 수치 모두 1에 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다.

결정계수는 독립변수가 많아질 수 록 증가하는 특징을 가지고 있습니다.

이에 수정된 결정계수를 중심으로 회귀모형의 설명력을 측정 합니다.

단 이 모형은 독립변수가 하나 이므로 큰 의미는 없습니다.

F-statistic: 91.71 on 1 and 16 DF,  p-value: 4.997e-08

F통계량은 모형 전체의 유의성을 판단하기 위한 통계량 입니다.

p-vlaue를 보시면 됩니다. alpha=0.05하에 모형은 유의합니다.

> coef(model1)

(Intercept)        days

  -9.150327    2.600619

coef는 모형의 계수를 출력하는 함수 입니다.

절편은 -9.150327 독립변수 days의 계수는 2.600619 입니다.

식으로 적으면

y = -9.150327 + 2.600619 * x_1

단, x_1 : days 입니다.

 

t값, F값 모두 통계량이며

t분포, F분포에 기초해서 나온 수치 입니다.

t값은 각 독립변수의 유의성을 판단하기 위한 통계량

F값은 모형의 유의성을 판단하기 위한 통계량 입니다.

p값(p-value)은 분포에서 통계량이 확률적으로 봤을 때 어떤 값을 가지는지 '통계량을 확률로 환산한 수치' 입니다.

 

반응형

+ Recent posts