---------------------------------------------------------------------------------------------------------------------------------------------------
※このブログは、『The DO Loop』に投稿されたRick Wicklinによる記事の翻訳です。
原文は、こちらからお読みいただけます。
https://blogs.sas.com/content/iml/2018/08/27/on-the-assumptions-and-misconceptions-of-linear-regression.html
-----------------------------------------------------------------------------------------------------------------------------------------------------
SASディスカッションフォーラムによく投稿されるトピックの1つに、最小二乗線形回帰モデルの仮定をどのようにして確認するか、というものがあります。いくつかの記事には、線形回帰の仮定に関して誤った記述がされています。特に次のような誤った記述があります。
・助けて!変数のヒストグラムを作成したら、正規分布していませんでした。回帰をする前に変数変換しなくてはなりません...
・線形回帰をする前に、応答変数が正規分布しているか確認する必要があります...
はっきりと言っておきましょう。最小二乗回帰モデルの変数は、正規分布に従っている必要はありません。このような誤解がどこから来たのか分かりませんが、おそらくは最小二乗回帰モデルの誤差についての仮定と混同していると思われます。誤差が正規分布している場合は、信頼区間や回帰係数の仮説検定などの推論統計に関する定理を証明できます。しかし、最小二乗回帰におけるパラメータ推定の妥当性のために、誤差が正規分布に従っているという仮定は必要ではありません。Wikipediaの最小二乗回帰に関する記事では4つの仮定を必須とし、誤差の正規性は5つ目の任意の仮定とされています。
実際には回帰分析を行い、診断プロットや統計値を見て「仮定を確認する」ことがよくあります。診断プロットは、線形回帰の仮定からの逸脱をデータが明らかにするかどうか判断するのに役立ちます。そのため、この記事では以下の点を検証する「入門」の例を示します。
線形回帰における変数は、回帰を妥当なものとするために、正規性を持つ必要はないこと。
SASのREGプロシジャによって生成される診断プロットを用いて、データが線形回帰の仮定を満たしているように見えるかどうか確認できること。
余談ですが、線形回帰の仮定のいくつかを間違って覚えていてもあまり気を悪くしないでください。Williams, Grajales, and Kurkiewicz(2013)で指摘があるように、専門の統計学者でさえも時々混乱することがあります。厳密に言いたいならば、 回帰モデルを実行した後に残差を確認することは、モデルの仮定が真であるという証明ではありません!
回帰における正規分布していないデータの例
まずは思考実験として考えてみましょう。任意の説明変数Xに対して、Y=Xを定義します。線形回帰モデルが誤差ゼロでデータに完全に当てはまっています。この当てはめはXやYの分布に依存しません。これは線形回帰において、正規性が必要ではないことを示しています。
数値例では、説明変数が2値であるか、2値の近くに密集するようなデータをシミュレーションしてみましょう。次のデータでは変数Xは、X=5付近とX=10付近にそれぞれ20個の値を持っています。応答変数YはそれぞれのXの値のおおよそ5倍となっています。(この例はWilliams, Grajales, and Kurkiewicz, 2013の例を一部変更したものです。) UNIVARIATEプロシジャの出力が示すように、どちらの変数も正規分布していません。
/* n=1,・・・,20の場合 X~N(5, 1). n=21,・・・,40の場合 X~N(10, 1).
Y = 5*X + e, ここでe~N(0,1) */
data Have;
input X Y @@;
datalines;
3.60 16.85 4.30 21.30 4.45 23.30 4.50 21.50 4.65 23.20
4.90 25.30 4.95 24.95 5.00 25.45 5.05 25.80 5.05 26.05
5.10 25.00 5.15 26.45 5.20 26.10 5.40 26.85 5.45 27.90
5.70 28.70 5.70 29.35 5.90 28.05 5.90 30.50 6.60 33.05
8.30 42.50 9.00 45.50 9.35 46.45 9.50 48.40 9.70 48.30
9.90 49.80 10.00 48.60 10.05 50.25 10.10 50.65 10.30 51.20
10.35 49.80 10.50 53.30 10.55 52.15 10.85 56.10 11.05 55.15
11.35 55.95 11.35 57.90 11.40 57.25 11.60 57.95 11.75 61.15
;
proc univariate data=Have;
var x y;
histogram x y / normal;
run;
OLS回帰を実行する前にこれらのデータを「正規化」する必要はありませんが、変数が線形関係にあるかどうかを確認するために散布図を作成することはいいアイデアです。YをXに回帰する時、統計ソフトウェアで利用できる様々な診断プロットと統計値を使って当てはまりを評価することができます。SASのREGプロシジャでは、複数のグラフで構成される診断パネルや適合度統計値(R2乗値など)の表を自動的に作成します。
/* デフォルトでは、REGプロシジャで当てはめプロット、残差プロット、適合度診断パネルが出力される */
ods graphics on;
proc reg data=Have;
model Y = X;
quit;
このモデルのR2乗値は0.9961であり、Y対Xの当てはめプロットに見られるようにほぼ完璧に当てはまっています。
診断プロットを用いて線形回帰の仮定を確認する
診断パネルのグラフを用いて、データが線形回帰の仮定を満たしているかを検証することができます。出力されたグラフは以下の通りです。
最初の列には、モデルの残差のグラフが表示されます。今回のデータとモデルでは、グラフは以下を示しています。
左上のグラフは、予測値に対する残差のプロットとなります。このグラフでは、モデルが正しく指定されているか、残差が独立しているように見えるか、誤差が等分散性(homoscedastic)を持つかを確認できます。このモデルのグラフには、誤指定や自己相関、分散不均一性が示されていません。
モデルの指定が誤っている場合は系統的な傾向があり、二次の項などをモデルに含める必要があるかもしれません。
分散不均一性は、残差のサイズがプロットの一方では小さく、他方では大きくなるような「扇形」のプロットとして現れます。
誤差に相関がある場合、ランダムに分布せず連続した高い値または低い値の列となります。
中央左および左下のグラフは、残差が正規分布にしたがっているかを示しています。中央左のプロットは正規Q-Qプロットです。左下のグラフは正規曲線と残差のヒストグラムです。これら両方のグラフは、残差が正規分布に従っていることを示しています。これは有意性のp値とパラメータの信頼区間を信頼できる根拠になります。
要約すると、この記事では次の2つを扱いました。
回帰における変数が正規分布している必要があるという都市伝説を払拭することです。必要はありません。しかし、信頼区間やパラメータの仮説検定のような線形回帰の推論部分での正確さには正規性が重要ですので、そのモデルの残差がおおよそ正規分布しているかどうかを確認する必要はあります(標準誤差や仮説検定はこの仮定に対してロバストであるため、正規性からの少しの逸脱は許容されると同僚に言われました)。
SASの回帰プロシジャでは、モデルの当てはまりや最小二乗回帰の仮定を確認できる診断プロットを自動的に作成することを示しました。特にプロットを使用して誤差の独立性、等分散性、正規性を確認することができます。
参考文献
線形回帰の様々な仮定については、すでに数多くの優れた書籍と論文があります。すでに書かれたことを書き直す必要はないと思います。Wikipediaの最小二乗回帰に関する記事に加えて、以下をおすすめします。
・Frost, J. (2018), "7 Classical Assumptions of Ordinary Least Squares (OLS) Linear Regression," Statistics By Jim blog. Accessed 19Aug2018 これには仮定の概要と要約となぜそれが重要であるかが書かれています。
・Williams, M., Grajales, C., and Kurkiewicz, D. (2013), "Assumptions of Multiple Regression: Correcting Two Misconceptions," Practical Assessment, Research & Evaluation, 18(11) これには2つのよくある誤解と仮定の要約について書かれています。
... View more