---------------------------------------------------------------------------------------------------------------------------------------------------
※このブログは、『The DO Loop』に投稿されたRick Wicklinによる記事の翻訳です。
原文は、こちらからお読みいただけます。
-----------------------------------------------------------------------------------------------------------------------------------------------------
SASディスカッションフォーラムによく投稿されるトピックの1つに、最小二乗線形回帰モデルの仮定をどのようにして確認するか、というものがあります。いくつかの記事には、線形回帰の仮定に関して誤った記述がされています。特に次のような誤った記述があります。
・助けて!変数のヒストグラムを作成したら、正規分布していませんでした。回帰をする前に変数変換しなくてはなりません...
・線形回帰をする前に、応答変数が正規分布しているか確認する必要があります...
はっきりと言っておきましょう。最小二乗回帰モデルの変数は、正規分布に従っている必要はありません。このような誤解がどこから来たのか分かりませんが、おそらくは最小二乗回帰モデルの誤差についての仮定と混同していると思われます。誤差が正規分布している場合は、信頼区間や回帰係数の仮説検定などの推論統計に関する定理を証明できます。しかし、最小二乗回帰におけるパラメータ推定の妥当性のために、誤差が正規分布に従っているという仮定は必要ではありません。Wikipediaの最小二乗回帰に関する記事では4つの仮定を必須とし、誤差の正規性は5つ目の任意の仮定とされています。
実際には回帰分析を行い、診断プロットや統計値を見て「仮定を確認する」ことがよくあります。診断プロットは、線形回帰の仮定からの逸脱をデータが明らかにするかどうか判断するのに役立ちます。そのため、この記事では以下の点を検証する「入門」の例を示します。
余談ですが、線形回帰の仮定のいくつかを間違って覚えていてもあまり気を悪くしないでください。Williams, Grajales, and Kurkiewicz(2013)で指摘があるように、専門の統計学者でさえも時々混乱することがあります。厳密に言いたいならば、 回帰モデルを実行した後に残差を確認することは、モデルの仮定が真であるという証明ではありません!
回帰における正規分布していないデータの例
まずは思考実験として考えてみましょう。任意の説明変数Xに対して、Y=Xを定義します。線形回帰モデルが誤差ゼロでデータに完全に当てはまっています。この当てはめはXやYの分布に依存しません。これは線形回帰において、正規性が必要ではないことを示しています。
数値例では、説明変数が2値であるか、2値の近くに密集するようなデータをシミュレーションしてみましょう。次のデータでは変数Xは、X=5付近とX=10付近にそれぞれ20個の値を持っています。応答変数YはそれぞれのXの値のおおよそ5倍となっています。(この例はWilliams, Grajales, and Kurkiewicz, 2013の例を一部変更したものです。) UNIVARIATEプロシジャの出力が示すように、どちらの変数も正規分布していません。
/* n=1,・・・,20の場合 X~N(5, 1). n=21,・・・,40の場合 X~N(10, 1).
Y = 5*X + e, ここでe~N(0,1) */
data Have;
input X Y @@;
datalines;
3.60 16.85 4.30 21.30 4.45 23.30 4.50 21.50 4.65 23.20
4.90 25.30 4.95 24.95 5.00 25.45 5.05 25.80 5.05 26.05
5.10 25.00 5.15 26.45 5.20 26.10 5.40 26.85 5.45 27.90
5.70 28.70 5.70 29.35 5.90 28.05 5.90 30.50 6.60 33.05
8.30 42.50 9.00 45.50 9.35 46.45 9.50 48.40 9.70 48.30
9.90 49.80 10.00 48.60 10.05 50.25 10.10 50.65 10.30 51.20
10.35 49.80 10.50 53.30 10.55 52.15 10.85 56.10 11.05 55.15
11.35 55.95 11.35 57.90 11.40 57.25 11.60 57.95 11.75 61.15
;
proc univariate data=Have;
var x y;
histogram x y / normal;
run;
OLS回帰を実行する前にこれらのデータを「正規化」する必要はありませんが、変数が線形関係にあるかどうかを確認するために散布図を作成することはいいアイデアです。YをXに回帰する時、統計ソフトウェアで利用できる様々な診断プロットと統計値を使って当てはまりを評価することができます。SASのREGプロシジャでは、複数のグラフで構成される診断パネルや適合度統計値(R2乗値など)の表を自動的に作成します。
/* デフォルトでは、REGプロシジャで当てはめプロット、残差プロット、適合度診断パネルが出力される */
ods graphics on;
proc reg data=Have;
model Y = X;
quit;
このモデルのR2乗値は0.9961であり、Y対Xの当てはめプロットに見られるようにほぼ完璧に当てはまっています。
診断プロットを用いて線形回帰の仮定を確認する
診断パネルのグラフを用いて、データが線形回帰の仮定を満たしているかを検証することができます。出力されたグラフは以下の通りです。
最初の列には、モデルの残差のグラフが表示されます。今回のデータとモデルでは、グラフは以下を示しています。
要約すると、この記事では次の2つを扱いました。
参考文献
線形回帰の様々な仮定については、すでに数多くの優れた書籍と論文があります。すでに書かれたことを書き直す必要はないと思います。Wikipediaの最小二乗回帰に関する記事に加えて、以下をおすすめします。
・Frost, J. (2018), "7 Classical Assumptions of Ordinary Least Squares (OLS) Linear Regression," Statistics By Jim blog. Accessed 19Aug2018 これには仮定の概要と要約となぜそれが重要であるかが書かれています。
・Williams, M., Grajales, C., and Kurkiewicz, D. (2013), "Assumptions of Multiple Regression: Correcting Two Misconceptions," Practical Assessment, Research & Evaluation, 18(11) これには2つのよくある誤解と仮定の要約について書かれています。
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!
コミュニティの基本的なガイドラインについてご説明します。まずは、こちらをご参照ください。
SAS Support CommunitiesのFAQはヘルプに記載されています。参照方法は、こちらからご確認ください。
Japan SAS Discussionページに質問や意見(メッセージ)を投稿/返信する方法を簡単にご説明します。
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.