인자가 한 개인 일원배치법은 분산분석과 다른 분석의 기초를 이해하는데 중요하지만,
현실 세계의 많은 실험에서는 반응변수에 대해 두 개 이상의 인자들의 효과를 동시에 연구합니다.
연구에 포함된 인자들의 모든 수준들의 조합 각각에서 한 개 이상의 실험이 랜덤한 순서로 이루어지는 설계를 요인배치법(요인설계, factorial design)이라 하고 이 설계에 따른 실험을 요인실험(factorial experiment)라 부릅니다. 이원배치법(two-way layout, two-way factorial design)은 요인설계의 가장 기본적이고 대쵸적인 형태로서 반응에 대하 두 개 인자의 영향을 동시에 연구합니다.
이원배치법에서 두 인자는 일반적으로 A와 B로 표시합니다.
인자 A의 수준수는 a이고 인자 B의 수준수는 b로 하면 총 a*b개의 조합이 있습니다.
인자 A의 수준은 A1, A2, .... , Aa 이고, 인자 B의 수준은 B1, B2, ... , Bb 로 표시합니다.
각 수준조합에서 두 개 이상의 반복 실험이 있는 일반적인 경우를 주로 보도록합니다. 실험의 전체 환경은 동질적이라고 가정하고, 실험의 순서는 모두 랜덤하게 이루어집니다. 이러한 의미에서 이원배치법을 두 개 인자의 완전랜덤화설계(two factor completely randomized design)이라고 부릅니다.
반응에 영향을 미치는 인자들을 연구하면서 현장 실험자는 종종 한번에 한인자식(One Factor At a Time, OFAT) 실험을 합니다.
반응에 대한 인자들의 효과를 연구하기 위해 각 인자마다 수준을 변화시켜 가면서 실험을 하는데 이 때 다른 인자들의 수준을 고정시켜 놓습니다. 이에 반해 요인실험은 몇 인자들의 수준을 동시에 변화시키면서 실험을 하는 방법인데, 이 떄 실험의 순서를 완전히 랜덤하게 합니다.
이 두가지 실험방법의 차이를 이해하기 위해 간단한 예를 들어보고자 합니다.
수준수가 가각 3인 두 인자 온도(A)와 압력(B)이 공정수율에 미치는 양향을 연구하고자 합니다.
이 두 수준을 가각 A1, A2 그리고 B1, B2라고 합니다.
OFAT 방법에는 A의 효과를 알기 위해서 B를 일정한 수준에 유지하면서 A의 수준 A1, A2에서 각각의 실험을 진행합니다. A1의 반응값이 더 높게 나왔다고 합니다. 그러면 이제는 인자 A의 수준을 A1으로 고정하고 B의 수준 B1과 B2에서 각각 실험을 진행합니다.
반면에 요인실험에서는 4 수준조합 A1B1, A1B2, A2B2, A2B2에서 모두 실험하는데 랜덤한 순서로 합니다.
요인실험의 장점은 한마디로 OFAT보다 더 효율적이라고 말할 수 있습니다.
즉, 같은 수의 실험으로 인자에 대해 더 많은 정보를 얻을 수 잇습니다. 실험을 적게 한다는 것은 돈과 노력을 절약할 수 있다는 것으로 매우 중요한 요소입니다. 특히 인자 간에 교호작용이 존재할 경우 잘못된 결론을 피하기 위해서는 요인실험이 꼭 필요합니다.
[교호작용]
이원배치법에서 인자의 효과를 연구하는데 있어 반드시 알아야 할 중요한 개념이 인자간의 교호작용입니다.
한 인자의 효과가 다른 인자의 수준에 따라 달라지는 경우, 두 인자 사이에 교호작용이 존재한다고 말합니다.
이것을 쉽게 이해하기 위해 공정수율 문제를 보면 온도 (A)와 압력(B)의 수준수가 각각 2이므로 수준조합수는 4가 됩니다. 각 수준조합에서 2회의 반복실험을 하여 다음의 8개 반응값을 얻었다고 합니다.
인자 A의 효과란 두 수준 A1과 A2의 평균의 차로 추정됩니다.
즉 A의 효과는
으로 이 계산만으로 A의 효과가 전혀 없는 것으로 보입니다. 그러나 A와 B의 교호작용효과를 조사해볼 필요가 있으며 이 때는 한 인자의 효과를 다른 인자의 수준별로 따로 봅니다.
B1 수준에서는 A가 수준 A1에서 A2로 변함에 따라 반응평균이 +8만큼 증가하고 B2 수준에선 반대로 -8 만큼 감소하여 그림을 그리면 선이 교차합니다.
즉, 한 인자의 효과가 다른 인자의 수준에 따라 다르게 나타납니다. 이러한 현상이 나타날 때 우리는 두 인자 간에 교호작용이 존재한다고 말합니다.
문제) 토마토 품종과 재배밀도가 수확에 미치는 영향을 연구하고자 합니다.
토마토 품종으로 3종류가 선택되었고 재배밀도로 4가지 수준이 선택되었습니다.
따라서 3*4 = 12개의 처리가 있으며 각 처리마다 3개 실험구가 사용되었습니다. 분산분석을 진행하고자 합니다.
options nonumber nodate ls=76 ps=80;
data yield;
input variety density yield@@;
datalines;
1 1 7.9 1 1 9.2 1 1 10.5
1 2 11.2 1 2 12.8 1 2 13.3
1 3 12.1 1 3 12.6 1 3 14
1 4 9.1 1 4 10.8 1 4 12.5
2 1 8.1 2 1 8.6 2 1 10.1
2 2 11.5 2 2 12.7 2 2 13.7
2 3 13.7 2 3 14.4 2 3 15.4
2 4 11.3 2 4 12.5 2 4 14.5
3 1 15.3 3 1 16.1 3 1 17.5
3 2 16.6 3 2 18.5 3 2 19.2
3 3 18 3 3 20.8 3 3 21
3 4 17.2 3 4 18.4 3 4 18.9
;
run;
proc anova data = yield;
class variety density;
model yield = variety density variety*density;
run;
품종과 밀도의 교호작용효과는 F = 0.84이고 p = 0.5484로 교호작용은 없는 것으로 판단됩니다.
오차항의 자유도가 작지는 않으므로 주효과의 검정을 그대로 할 수 있다.
품종의 효과는 F = 103.34이고 p < 0.0001로 유의하고, 밀도의 효과는 F = 18.23이고 P < 0.0001로 유의합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.