안녕하세요. 이번 시간에는 설명변수가 더 많은 데이터셋을 이용하여 다중선형회귀모형을 적합시켜보는 시간을 갖겠습니다. 이번 시간에 사용할 데이터셋은 1975년 여름 플로리다 지역에서, 인공강우(cloudseeding)를 위한 대량의 요오드화 은 사용을 조사하기위해 실시한 실험으로부터 수집된 데이터입니다. Cloudseeding이란, 강우량 증가를 목적으로 구름씨라고 불리는 다양한 무기, 또는 유기물질을 뿌려 강수 조건을 조성하여 비나 눈을 내리게 하는 기상 변형 기술을 말합니다. 아래 데이터셋을 살펴보면 기상 상태에 대한 변수들과 그때의 적합성 기준(S-NE)의 충족에 따른 구름씨 파종여부 변수(seeding) 그리고 강우량(rainfall) 변수가 존재하는 것을 알 수 있습니다. 인공강우(cloudseeding) 데이터셋 분석에서 주 목적은 강우량이 다른 변수들과 어떻게 관련되어 있는가 특히, 파종효과(effectiveness of seeding)를 알아보는 것입니다.
<그림 1>
먼저 주된 분석에 앞서 상자 도표와 산점도를 통해 인사이트를 얻는 과정을 수행합니다. 이진변수인 Seeding과 echomotion에서는 각 범주별로 rainfall(강우량)의 상자 도표를 그리고, 연속형 설명변수 cloudcover, S-NE, prewetness, time 각각에 대한 rainfall(강우량) 산점도를 그립니다.
Echomotion에 대해서도 반복하여 수행
Sne, cloudcover, prewetness에 대해서도 반복하여 수행
<그림 2>
<그림 3>
그림 2와 그림 3의 상자 도표와 산점도를 확인해보면 모두 두 개정도의 이상치가 존재하는 것을 확인할 수 있습니다. 특히 cloudcover에 대한 rainfall 산점도의 경우 매우 명확하게 드러나는 것을 알 수 있습니다. 우리는 당분관 이런 이상치에 대한 조치를 취하지는 않을 것이지만, 이런 이상치들은 후에 분석에 있어서 여러 어려움을 야기할 수 있습니다.
Clound Seeding은 언제 가장 잘 수행되는가?
본격적으로 주어진 cloudseeding데이터셋에 대한 모델링을 진행할 때 가장 중요한 것은 seeding변수와 다른 설명변수와의 상호작용을 고려한 상호작용항(interaction term)을 추가하는 것입니다. 주어진 문제 상황으로 돌아가보면, 다른 변수들의 값에 따라서 파종 여부를 결정하였기 때문에 seeding변수가 다른 설명 변수의 효과를 조정(modify)시키게 되므로 seeding 변수와의 상호장용항을 모델에 추가시켜주어야 합니다. 아래 절차를 통해 SASStudio에서 직접 구현해보겠습니다.
<그림 5>
그림 5에는 모든 회귀계수가 0이라는 귀무가설에 대한 F-test 결과가 출력되어 있습니다.
유의확률은 0.024로 귀무가설을 기각하는 것을 알 수 있습니다. 또한 R-Square값은 0.7158로 설명변수에 의해 설명되는 종속변수의 변동성의 비율이 약 72%라고 결론 지을 수 있습니다.
Adj R-Sq는 조정된 결정계수로, SBC와 같이 설명변수의 수에 따라 조정된 R-square값으로 모델의 적합도를 나타냅니다. 이 부분에 대한 자세한 내용은 다음 시간에 알아보겠습니다.
<그림 6>
마지막으로, 그림 6에는 추정된 회귀계수, 표준오차, 그리고 해당하는 회귀계수가 0이라는 귀무가설에 대한 T-test 검정 결과가 출력되어 있습니다. 결과를 보면 seeding과 S-NE의 상호작용항의 rainfall에 대한 효과가 유의하다는 것을 알 수 있습니다. 이 부분을 그래프를 통해 보충해보면,
<그림 7>
그림 7의 도표를 해석해보면 S-NE 값이 작을수록, seeding을 할수록 강우량이 증가하는 것을 확인할 수 있습니다. 교차하는 지점의 S-NE값은 4로, S-NE값이 4보다 낮을 때 seeding하는 것이 가장 성공적인 결과를 가져올 것이라고 결론 지을 수 있습니다.
이번 시간에는 설명변수가 더 많은 데이터셋을 이용하여 다중선형회귀모형을 적합시켜보는 시간을 가져보았습니다. 감사합니다.
Reference
도서 – Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Lock in the best rate now before the price increases on April 1.