利用SAS Toolkit写的一个过程步,可以在SAS代码中调用JIEBA中文分词功能,源代码在 https://github.com/SASAnalyser/PROC-JIEBA,可以执行文件: https://github.com/SASAnalyser/PROC-JIEBA/releases
需要Windows 或者Linux 下安装有64位 SAS 9.4 (Unicode 支持),例子:
data indata;
format inword $char200.;
input inword;
datalines;
小明硕士毕业于中国科学院计算所,后在日本京都大学深造
;
run;
proc jieba data=indata out=outdata maxword=32;
dictpath "C:\SASToolkit\cjieba\dict";
var inword;
instr "我是拖拉机学院手扶拖拉机专业的";
run;
![GreenCode_1-1657531717373.png GreenCode_1-1657531717373.png](https://communities.sas.com/t5/image/serverpage/image-id/73122iADC521E8BD09475A/image-size/medium?v=v2&px=400)
对indata里var 指定的变量如果没var则对所有字符变量分词和 instr指定的句子分词。
结果保存在 out 数据集,如果不指定 out 数据集则结果打印在日志窗口。
![GreenCode_0-1657531683158.png GreenCode_0-1657531683158.png](https://communities.sas.com/t5/image/serverpage/image-id/73121i58A8D7B07DCB04F5/image-size/medium?v=v2&px=400)