BookmarkSubscribeRSS Feed
kokodenden52
Obsidian | Level 7

SASにおける数値データの解釈についてですが、

 

①数値が大きい方がよいものと判断される

②単なるラベルとして判断される

 

①と②のどちらなのか疑問に感じています。

 

もし、数値が大きい方がよいものと判断されるなら、ダミー変数化した場合、

0と1であったとしても、数値の差は1ですが、相対的には1が大きくなります。

 

この場合、Rapid Predictive Minerの計算に影響はでているのでしょうか?

 

標準化されれば、数値の大きさは関係なく、相対的な位置で判断されると思っていますが、この解釈は正しいのでしょうか?

 

もし、ラベル的な解釈であれば、外れ値に引っ張られることがないということになってしまうと思います。しかし、実際は外れ値に引っ張られます。

そうなるとやはり数値が大きい方がよいものという解釈になってしまうのでしょうか?

 

基本的なことかもしれませんが、ご教示いただけましたら幸いです。

3 REPLIES 3
japelin
Rhodochrosite | Level 12

Rapid Predictive Minerがどのようなものなのかわかりませんが、一般論として、

その数値がどのような属性であるかによって持つ意味が変わってきますので、

もう少し具体的なシチュエーション(どのようなデータで何がしたいのか)があると

回答が得られやすいかと思います。

 

ざっと考えただけで以下のように判断が変わってきますので。

・検診データのBMIでれば、小さすぎても良くないし、大きすぎても良くない

・テストの点数であれば大きいほうがいい

・ナビの精度誤差であれば小さい方がいい

・真偽を表す0,1には大小に意味がない(True,Falseと同義)

・金融機関コードには意味がない(数値に見えるが、ラベルとして用いている)

 

kokodenden52
Obsidian | Level 7
 
ご回答ありがとうございます。
 
利用月を数値として、データセットに持たせています。
(ex.2020年1月なら、202001)
そのまま、数値として扱うべきか、それとも最終利用月数(数値・何か月前に利用したか?)とするべきか迷っています。
(ex.2020年1月が5か月前なら、5)
 
分析したいことは、再度の利用の可能性です。
 
お手数ですが、ご教示いただけましたら幸いです。
 
よろしくお願いいたします。
japelin
Rhodochrosite | Level 12

「何か月前に利用したか」と「再度の利用の可能性」という言葉から、消費動向分析のようなものだと推測します。

が、何のデータから、何が知りたいかをもう少し具体的に書くともう少しアドバイスが集まるかもしれません。

再度の利用可能性という表現だけでも、いろいろな可能性が考えられます。

・将来、再度利用する可能性がどれくらいなのか(特定の期間内での予測値を月ごとに0-100%で得たい)、

・次はいつ頃利用するのか(利用する月自体を予測したい)

・特定のユーザに対しての行動の分析なのか、全体的な傾向の分析なのか

 

(具体的な分析手法については私はわからないのでアドバイスできません)