BookmarkSubscribeRSS Feed
Berenice25
SAS Employee

En un caso práctico donde se pretende utilizar una determinada variable para construir un modelo predictivo, la cual es categórica nominal y además tiene 743 niveles diferentes, cuáles de estas acciones sería la más conveniente si se desea construir una modelo de regresión con el fin de mejorar el poder predictivo de la variable, incluso para conjuntos nuevos de datos:

 

a)Asegurarse que la variable es estadísticamente significativa mediante algún método de selección de variables.

 

b)Modificar la macro variable del proyecto EM_TRAIN_MAXLEVELS.

 

c)Convertir cada nivel de la variable a un numero entre 1 y 743.

 

d)Utilizar el nodo de transformación de variables para crear variables dummy utilizando la variable original.

 

e)Plantear un punto de corte para reducir niveles en la variable, posteriormente implementar el método de Smoothed weight of evidence para codificar la misma.

 

f)Utilizar el método de Smoothed weight of evidence para codificar la variable

3 REPLIES 3
stiven020
Calcite | Level 5
e) Plantear un punto de corte para reducir niveles en la variable, posteriormente implementar el método de Smoothed weight of evidence para codificar la misma.
guiramos
Obsidian | Level 7
No creo que convenga dar una respuesta única sin más información. En el
ejemplo se plantea que hay 743 niveles, por lo tanto se está pensando en un
ejemplo concreto, pero no se aclara si hay un orden en esos niveles. Si
hubiera un orden convendría el punto c) o una variante más sofisticada
basada en c). Si no hay un orden convendría crear variables dummy d) pues
posiblemente sea el método que permita aprovechar toda la información. Sin
perjuicio de buscar reducir el número de niveles en la medida que se vea
que hay valores que podrían significar casi lo mismo y convenga agruparlos.
No conozco la teoría del método de Smoothed weight como para recomendarlo.