페이지

2012년 12월 13일 목요일

회귀분석

회귀분석의 기본가정 : 다중공선성, 이분산성, 이상점
  • 다중공선성(multicollinearity) : 독립변수간에 상관관계가 높은것을 의미, 독립변수간 선형관계가 클 경우 회귀모델의 유의성에 문제, 즉 상관관계가 높은 두 변수를 동시에 모형에 넣게되면 종속면수에 중요한 영향을 미치는 독립변수가 분석결과에서 유의미하지 않게 나타남. =>  다중공선성이 의심되는 독립변수 하나를 제거
  • 이분산성(heterocedasticity) : 오차항의 분산은 일정해야함. 이분산성 자체만으로는 회귀모형에서 bias가 발생하지 않으나 예측값의 정확성이 낮아짐.
  • 이상점(outlier) : 데이터가 전체로부터 멀리 떨어져있는 값, 이상점을 식별하는 지수로는 스튜던트화 잔차와 DFBETAs => 이상점을 제거하기 위해 스튜던트화 잔차는 3이상 되는 종속변수 값을 제거, DFBETAs 는 2이상 나오는 값 제거
         * 이상점을 제거하기 위해선 판단이 필요, 자료의 특성을 분석하기 위해 회귀모형을 만드는 것이지, 설명력이 높은 회귀모형을 만드는 것이 목적이 아님.


결과값 해석
  • R2 =  y값의 몇%를 x 값들로 예측할수 있는가를 알려줌.
         - 총변동 중에서 회귀식을 사용함으로써 감소된 변동을 전체 변동의 비율로 나타낸것
         - 독립변수의 갯수가 늘어날수록 증가하는 경향, 이를 조정하기 위해 계산된 것이 수정된 R2인데 이는 독립변수의 수와 표본의 크기를 이용한 자유도에 따라 고려한 결정계수임.
         - 일반적으로 학계에서는 0.6 이상, 실무에서는 0.4 이상이 의미가 있다고 봄.
  • 표준화 B(beta) : 독립변수들이 종속변수에 미치는 상대적 영향력 크기, 값이 클수록 영향력이 큼.
  • 비표준화 B : 회귀함수 y=ax+b에서 a에 해당하는 기울기가 비표준화 B임. 이값은 부호의 의미가 중요하며 독립변수 x가 커지면 종속변수 y가 커진다를 의미. 이러한 B값은 data의 단위와 밀접한 관계가 있는데 만약 x의 단위가 굉장히 크다면 B 값은 상대적으로 아주 작아지게 됨. 따라서 B값의 크기는 중요하지 않음. 만약 두개의 변수가 있는데 x1의 B1이 4이고 x2의 B2가 3이라면 x1의 회귀계수가 더 크기때문에 x2보다 더 높은 영향을 줄것이라고 생각하게됨. 그러나 만약 x2라는 변수값을 10으로 나누어 다시 회귀분석을 하면 x2의 회귀계수 B2는 30이됨. 즉 B값은 데이터의 단위와 관계가 있음. 따라서 회귀계수인 B값의 단위를 통일시킨것이 표준화  B(beta)임.  따라서 서로 비교할 수 있으며 표준화 B(beta)값이 더 크면 영향력이 더 크다라고 할 수 있음.
  • Partial correlation(부분상관) : 다른 독립변수의 설명부분을 제외하였을 때 한 독립변수의 종속변수에 대한 설명량
  • Part correlation(편상관) : 전체 독립변수의 변량 중에서 한 독립변수가 차지하는 설명변량
  • Tolerance : 공차로 1에 근접할때 다중공선성이 없는것으로 해석
  • VIF : 상승변량으로 1에 근접할때 다중공선성이 없는것으로 해석
  • 결과에서 ANOVA : 회귀식이 자료를 전혀 설명하지 못한다는 HO가설에 대한 가설검증으로 p < 0.05보다 작을경우 HO가설을 기각하여 회귀식이 X 와 Y 사이의 관계를 설명할 수 있는 부분이 있다는 것을 의미