現在Viyaサーバーに対してpythonを使用してデータ加工やモデリングを行っています。
ライブラリーはswatを使用しています。
モデリング前にデータを加工処理(条件でデータを絞り込む、加工変数を作成するなど)したいのですが、
どのような手順を踏むとよいでしょうか?
①データを一旦Pandasのデータフレームで加工処理した後、CASテーブルにアップロード ⇒ モデリング
②データを一旦SASデータフレームで加工処理した後、CASテーブルにアップロード ⇒ モデリング
③データをCASテーブルにアップロードし、CASテーブル上で加工処理 ⇒ モデリング
③だとローカルデータでの処理が不要で大容量データでも高速で加工処理ができるメリットがあると考えるのですが、
③でうまくできず、悩んでいます。
Viyaのメリットを一番利用できる方法を選択したいと思っています。
②の方法で行ったサンプルpgmを貼っておきます。
***
import swat import pandas as pd
conn = swat.CAS('xxxx',5570,'xxxx','xxxx,caslib="casuser") print(conn)
data = pd.read_csv('IRIS.csv')
#データ型を変換SAS DataFrameに変換する sasData = swat.SASDataFrame(data)
#条件で絞り込む sasData2 = sasData[sasData['Species'] == 'Versicolor']
#CASサーバー上に保存するときのファイル名 fileNameOnCas = "MyPythonDataSASDemo01"
#CASテーブルにデータをアップロード conn.upload_frame(sasData2, casout = dict(name = fileNameOnCas, replace = True))
よろしくお願いいたします。
... View more