[SAS University Edition] 다중선형회귀분석(2) (Multiple Linear Regression)

안녕하세요. 이번 시간에는 설명변수가 더 많은 데이터셋을 이용하여 다중선형회귀모형을 적합시켜보는 시간을 갖겠습니다. 이번 시간에 사용할 데이터셋은 1975년 여름 플로리다 지역에서, 인공강우(cloudseeding)를 위한 대량의 요오드화 은 사용을 조사하기위해 실시한 실험으로부터 수집된 데이터입니다. Cloudseeding이란, 강우량 증가를 목적으로 구름씨라고 불리는 다양한 무기, 또는 유기물질을 뿌려 강수 조건을 조성하여 비나 눈을 내리게 하는 기상 변형 기술을 말합니다. 아래 데이터셋을 살펴보면 기상 상태에 대한 변수들과 그때의 적합성 기준(S-NE)의 충족에 따른 구름씨 파종여부 변수(seeding) 그리고 강우량(rainfall) 변수가 존재하는 것을 알 수 있습니다. 인공강우(cloudseeding) 데이터셋 분석에서 주 목적은 강우량이 다른 변수들과 어떻게 관련되어 있는가 특히, 파종효과(effectiveness of seeding)를 알아보는 것입니다.

<그림 1>

먼저 주된 분석에 앞서 상자 도표와 산점도를 통해 인사이트를 얻는 과정을 수행합니다. 이진변수인 Seeding과 echomotion에서는 각 범주별로 rainfall(강우량)의 상자 도표를 그리고, 연속형 설명변수 cloudcover, S-NE, prewetness, time 각각에 대한 rainfall(강우량) 산점도를 그립니다.

작업 ▶ 그래프 ▶ 상자 도표
데이터 ▶ sasue.cloud 테이블 선택
역할 ▶ rainfall을 분석변수로 지정 seeding을 범주형 변수로 지정
실행 클릭

Echomotion에 대해서도 반복하여 수행

작업 ▶ 그래프 ▶ 산점도
데이터 ▶ sasue.cloud 테이블 선택
역할 ▶ rainfall을 y변수로 지정 time을 x변수로 지정
실행 클릭

Sne, cloudcover, prewetness에 대해서도 반복하여 수행

<그림 2>

<그림 3>

그림 2와 그림 3의 상자 도표와 산점도를 확인해보면 모두 두 개정도의 이상치가 존재하는 것을 확인할 수 있습니다. 특히 cloudcover에 대한 rainfall 산점도의 경우 매우 명확하게 드러나는 것을 알 수 있습니다. 우리는 당분관 이런 이상치에 대한 조치를 취하지는 않을 것이지만, 이런 이상치들은 후에 분석에 있어서 여러 어려움을 야기할 수 있습니다.

Clound Seeding은 언제 가장 잘 수행되는가?

본격적으로 주어진 cloudseeding데이터셋에 대한 모델링을 진행할 때 가장 중요한 것은 seeding변수와 다른 설명변수와의 상호작용을 고려한 상호작용항(interaction term)을 추가하는 것입니다. 주어진 문제 상황으로 돌아가보면, 다른 변수들의 값에 따라서 파종 여부를 결정하였기 때문에 seeding변수가 다른 설명 변수의 효과를 조정(modify)시키게 되므로 seeding 변수와의 상호장용항을 모델에 추가시켜주어야 합니다. 아래 절차를 통해 SASStudio에서 직접 구현해보겠습니다.

작업 ▶ 통계량 ▶ 선형회귀
데이터 ▶ sasue.cloud 테이블 선택
역할 ▶ rainfall을 종속변수로 지정 다른 변수들을 연속형 변수로 지정
모형 ▶ 모든 변수들을 선택하여 주효과로 추가
seeding 클릭, echomotion 클릭 ▶ 교차 버튼 클릭을 통해 seeding*echomotion항 추가
다른 모든 설명 변수에 대해서도 5.번 반복

실행 클릭

<그림 4>

출력된 결과를 살펴보겠습니다. 그림 4에는 최소 제곱근 요약 표로 변수가 지정된 순서대로 모델에 입력될 때 회귀모델의 적합성이 어떻게 변하는지를 보여줍니다. 사용된 적합도의 척도는 SBC(Schwarz Bayesian Crtierion)으로 간단하게 설명하면, 모델의 통계적인 적합도와 추정되어야하는 매개 변수의 수를 모두 고려한 척도입니다. 기본적으로 SBC는 데이터에 적절한 적합성을 제공하는 매개변수의 수가 가장 적은 모델을 찾으려고 하고, SBC의 값이 가장 낮은 모델이 기본 모델로 선택됩니다. 결과를 살펴보면 seeding*cloudcover 상호작용항과 그 전까지의 모든 항들이 추가된 모델이 가장 적합한 모델로 선택된 것을 알 수 있습니다. 이때 변수가 고려되는 순서를 변경하면 SBC가 다른 모델을 선택할 수도 있습니다.

<그림 5>

그림 5에는 모든 회귀계수가 0이라는 귀무가설에 대한 F-test 결과가 출력되어 있습니다.

유의확률은 0.024로 귀무가설을 기각하는 것을 알 수 있습니다. 또한 R-Square값은 0.7158로 설명변수에 의해 설명되는 종속변수의 변동성의 비율이 약 72%라고 결론 지을 수 있습니다.

Adj R-Sq는 조정된 결정계수로, SBC와 같이 설명변수의 수에 따라 조정된 R-square값으로 모델의 적합도를 나타냅니다. 이 부분에 대한 자세한 내용은 다음 시간에 알아보겠습니다.

<그림 6>

마지막으로, 그림 6에는 추정된 회귀계수, 표준오차, 그리고 해당하는 회귀계수가 0이라는 귀무가설에 대한 T-test 검정 결과가 출력되어 있습니다. 결과를 보면 seeding과 S-NE의 상호작용항의 rainfall에 대한 효과가 유의하다는 것을 알 수 있습니다. 이 부분을 그래프를 통해 보충해보면,

작업 ▶ 그래프 ▶ 산점도
데이터 ▶ sasue.cloud 테이블 선택
역할 ▶ rainfall을 y변수로 지정 sne을 x변수로 지정, seeding을 그룹변수로 지정
적합 도표 ▶ 회귀 선택
실행 클릭

<그림 7>

그림 7의 도표를 해석해보면 S-NE 값이 작을수록, seeding을 할수록 강우량이 증가하는 것을 확인할 수 있습니다. 교차하는 지점의 S-NE값은 4로, S-NE값이 4보다 낮을 때 seeding하는 것이 가장 성공적인 결과를 가져올 것이라고 결론 지을 수 있습니다.

이번 시간에는 설명변수가 더 많은 데이터셋을 이용하여 다중선형회귀모형을 적합시켜보는 시간을 가져보았습니다. 감사합니다.

Reference

도서 – Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute

[SAS University Edition] 다중선형회귀분석(2) (Multiple Linear Regression)

Resources