[Mixed Model 4.2.3] Random Coefficient Models

[Mixed Model 4.2.3] Random Coefficient Models

안녕하세요^^

이번시간에는 앞서 소개한 SAS 코드를 사용한 결과를 살펴보고, random coefficient model을 적합한 결과를 해석하겠습니다.

▶ 목차

▷ Random coefficient model 적합

▷ Random coefficient model 결과 해석

▶ Random coefficient model 적합

▷ 예제 데이터

앞서 소개한 예제 데이터인 ‘wheat’는 다음과 같은 구조와 변수로 이루어져 있습니다.

다운로드 - 2020-06-18T150920.966.png 다운로드 - 2020-06-18T150922.157.png

변수	설명
id	각 품종을 구별할 수 있는 번호
variety	무작위로 선택된 밀의 품종
moist	측정된 식물의 수분함량
yield	최종 수확량

▷ SAS 코드

다운로드 - 2020-06-18T150923.133.png

Random coefficient model을 적합할 때, 가능한 수치 안정성을 향상시키기 위하여 독립변수를 1에서 10 사이의 값으로 조정하는 것이 좋습니다.

따라서 moist 변수를 10으로 나눈 moist10의 변수를 생성합니다.

RANDOM 문장의 SOLUTION 옵션은 다운로드 - 2020-06-18T150924.981.png 와 다운로드 - 2020-06-18T150926.180.png 의 예측(predictions)을 제공합니다.

이 예제에서 RANDOM 문장의 TYPE=UN 옵션은 절편과 기울기의 공분산구조인 다운로드 - 2020-06-18T150927.276.png 를 명시하게 됩니다.

따라서 기울기의 분산( 다운로드 - 2020-06-18T150928.324.png )과 절편의 분산( 다운로드 - 2020-06-18T150929.196.png ), 기울기와 절편의 공분산( 다운로드 - 2020-06-18T150930.317.png )을 추정하게 됩니다.

RANDOM 문장의 SUBJECT=variety 옵션은 random effects의 공분산행렬 구조인 G를 만듭니다.

RANDOM 문장에서 선택된 옵션은 다음과 같습니다.

옵션	설명
TYPE=	Random effects의 공분산행렬인 G의 구조를 지정합니다. 다양한 구조를 사용할 수 있지만, 대부분 TYPE=VC 또는 TYPE=UN을 사용합니다. TYPE=VC는 default 구조이며 각 random effect에 대해 다른 분산구성요소를 모델링합니다. TYPE=UN은 random coefficient model을 적합하는데 유용합니다.
G	추정된 행렬 G가 결과에 보여지도록 합니다. PROC MIXED는 0값에 대해 공백을 표시합니다. 만약 SUBJECT=옵션을 사용한다면, 첫 번째 subject에 대한 행렬 G의 블록이 보여집니다.
SOLUTION	Random effects parameters의 solution이 생성됩니다. 이러한 추정치는 경험적으로 가장 우수한 선형모형(EBLUP: Empirical Best Linear Unbiased Predictors)입니다. 다른 실험단위의 random effects를 비교하는데 유용할 수 있으며 mixed model에 대한 진단을 할 때 잔차(residual)로 사용할 수 있습니다.
SUBJECT=	Mixed model에서 subjects를 식별하는 옵션입니다. Subjects 간의 완전한 독립이 가정되며, RANDOM 문장에서 SUBJECT= 옵션은 동일한 블록을 사용하는 G의 대각선 구조를 만듭니다. 사실 subject effect를 지정하는 것은 subject effect 내 RANDOM 문장에 지정한 다른 effects를 중첩하는 것과 같습니다.

ESTIMATE 문장은 다운로드 - 2020-06-18T150931.357.png 와 다운로드 - 2020-06-18T150932.356.png 의 추정치(estimates)를 제공하며, ESTIMATE 문장에서 선택된 옵션인 SUBJECT는 모수를 추정할 때 사용할 variety의 수준을 지정합니다.

▶ Random coefficient model 결과 해석

▷ PROC MIXED 의 결과 (1)

다운로드 - 2020-06-18T150933.596.png 다운로드 - 2020-06-18T150934.655.png

‘Estimated G Matrix’ 결과는 첫 번째 블록(variety)의 추정된 G행렬입니다.

‘Covariance Parameter Estimates’ 결과는 ‘Estimated G Matrix’와 같은 결과를 보여줍니다.

TYPE=UN으로 설정하였기 때문에, ‘Cov Parm’은 UN이며 G행렬에서의 위치에 따라 추정된 값이 나타난 표입니다.

즉, 분산-공분산 행렬의 REML 추정치는 다음과 같습니다.

다운로드 - 2020-06-18T150935.805.png

절편의 분산은 18.8947이고, 기울기의 분산은 0.2394이고, 절편과 기울기의 공분산은 -0.7272가 됩니다.

추정된 residual variance는 다운로드 - 2020-06-18T150936.685.png 입니다.

▷ PROC MIXED 의 결과 (2)

다운로드 - 2020-06-18T150937.645.png

‘Null Model Likelihood Ratio Test’는 데이터의 공분산구조를 모델링해야 하는지 여부를 결정하는 우도비검정(LRT: likelihood ratio test)의 결과입니다.

결과값의 ‘Chi-Square’는 아래의 식과 같이 계산합니다.

2 x [ ln(likelihood for fitted model) – ln(likelihood for null model) ]

여기서 null model은 오직 MODEL 문장에 명시된 fixed effect만 고려한 모형이며, error의 공분산 행렬은 다운로드 - 2020-06-18T150938.957.png 입니다.

결과값의 ‘DF’는 fitted model과 null model 사이의 공분산에서 추정해야 하는 모수의 개수의 차이입니다.

결과값의 ‘Pr > ChiSq’은 자유도가 3인 카이제곱 분포의 위쪽 꼬리의 영역입니다.

그 결과가 ‘<0.0001’인 것은 fitted model인 random coefficient model이 null model보다 우수함을 나타냅니다.

▷ PROC MIXED 의 결과 (3)

다운로드 - 2020-06-18T150940.596.png

‘Solution for Fixed Effects’는 다운로드 - 2020-06-18T150941.828.png 이고 다운로드 - 2020-06-18T150943.332.png 인 추정치 값을 제공합니다.

따라서 모든 품종(variety)에 대해 예상되는 절편은 33.43이고 기울기는 6.6166입니다.

두 추정치 모두 p-value가 0.0001보다 작기 때문에, 0과 유의한 차이가 있음을 알 수 있습니다.

▷ PROC MIXED 의 결과 (4)

다운로드 - 2020-06-18T150944.381.png

‘Solution for Random Effects’는 모집단의 절편과의 deviation과 각 품종(variety)에서의 모집단의 기울기와의 deviation 값을 제공합니다.

예를 들어, 첫 번째 품종(variety=1)의 절편 추정치인 0.9578은 다운로드 - 2020-06-18T150946.412.png 의 예측 값이며, 기울기 추정치인 -0.4921은 다운로드 - 2020-06-18T150947.491.png 의 예측 값입니다.

절편과 기울기의 deviation을 이용하여 각 품종(variety)에 대한 절편과 기울기를 계산할 수 있습니다.

▷ PROC MIXED 의 결과 (5)

다운로드 - 2020-06-18T150948.613.png

‘Type 3 Tests of Fixed Effects’의 결과는 fixed effect인 moist10 변수가 모집단의 기울기가 0과 유의한 차이가 있음을 나타냅니다.

‘Estimates’ 결과는 SUBJECT=옵션을 사용하였을 때 group의 절편과 기울기 추정치입니다.

▷ PROC MIXED 의 결과 (6)

다운로드 - 2020-06-18T150949.676.png

데이터셋 pop에는 moist10과 variety 변수가 있으며, 새로운 두 개의 관측 값이 있습니다.

원래의 데이터셋 ‘wheat’과 ‘pop’을 결합하면 ‘pop’ 데이터셋의 총 수확량 변수 ‘yield’는 결측일 것입니다.

결합된 데이터셋인 ‘plot’을 PROC MIXED 프로시저의 데이터로 사용하고, MODEL 문장에서 OUTP= 옵션을 사용하면 모든 관측치에 대해 예측된 값이 생성됩니다.

새로운 데이터인 ‘pop’의 두 관측값에 대한 예측값(Pred)은 모집단 수준의 값이지만, subject 수준으로 예측할 수 있습니다.

다운로드 - 2020-06-18T150951.494.png

MODEL 문장의 OUTP=옵션은 예측된 값과 관련된 통계량의 값에 대한 결과를 제시합니다.

SAS의 PROC MIXED 프로시저를 사용하여 분석을 시행하고 결과를 해석하는 방법에 대해 알아보았습니다.

다음 시간에는 공분산 행렬의 구조를 변경하여 같은 분석을 시행하도록 하겠습니다.

감사합니다.

[출처]

- ‘Applied Mixed Models for Processors Course Notes’

[Mixed Model 4.2.3] Random Coefficient Models

Catch up on SAS Innovate 2026

Resources