BookmarkSubscribeRSS Feed
Tip Semanal: Archivos SAS y PARQUET
Berenice25
SAS Employee

Parquet es un formato de archivo de código abierto y se desarrolló con almacenamiento de datos basado en columnas para admitir esquemas de compresión y codificación para grandes cantidades de datos, proporcionando una mayor eficiencia en comparación con los archivos basados ​​en líneas. En el mundo actual de los científicos de datos, varias soluciones funcionan con este tipo de almacenamiento y SAS no podía quedarse fuera.

 

Parquet tiene una organización interna de datos muy similar a una tabla RDBMS (Relational Database Management System), con filas y columnas. A diferencia de esta tabla, los datos en Parquet se almacenan uno al lado del otro. Debido a su estructura en columnas, proporciona una mejor compresión y rendimiento cuando se trabaja con grandes cantidades de datos.

SAS Viya admite trabajar con archivos PARQUET también en plataformas en la nube Azure (ADLS Gen2), Google Cloud (GCS) y AWS (S3).

 

Ejemplo de código para leer y escribir tablas en formato PARQUET:

 

cas;

proc casutil incaslib="CASUSER";
/*   Grava uma tabela "em memória" no formato parquet */
   load casdata="HMEQ" casout="HMEQ_File.parquet";
run;


proc casutil incaslib="CASUSER";
/*    Carrega um tabela parquete para "em memória" */
   load casdata="HMEQ_File.parquet" casout="HMEQ_TESTE";
run;

 

3 Comments
a20121248
Obsidian | Level 7

Hola @Berenice25 :

 

Muchas gracias por tu post, tengo SAS Viya 3.5. y me sirvió de ayuda para unas pruebas de concepto.

 

Sin embargo, estoy exportando una tabla de 11 millones a parquet y el tamaño es demasiado grande (310 GB), por lo cual necesitaría que los archivos del parquet se generen con una compresión (en mi empresa usan SNAPPY). ¿Cómo habilitaría la compresión del parquet desde CAS?

 

a20121248_0-1695228119620.png

 

Gracias de antemano.

wilkoba
SAS Employee

Hola @a20121248 ,

 

En esta link vas encontrar la documentación para utilizar Snappy con archivos parquet.

Pero es para Viya 4. Estoy buscando la referencia para Viya 3.5.

https://go.documentation.sas.com/api/collections/pgmsascdc/v_024/docsets/enghdff/content/enghdff.pdf...

 

Saludos.

wilkoba
SAS Employee

Este es el enlace para Viya 3.5 :

https://go.documentation.sas.com/api/collections/pgmsascdc/v_024/docsets/enghdff/content/enghdff.pdf...

 

Según la documentacion se puede leer datos con Snappy en Viya 3.5 pero no guardar.

 

Espero que ayude.

sas-innovate-2024.png

Available on demand!

Missed SAS Innovate Las Vegas? Watch all the action for free! View the keynotes, general sessions and 22 breakouts on demand.

 

Register now!

Article Labels
Article Tags
Contributors