Parquet es un formato de archivo de código abierto y se desarrolló con almacenamiento de datos basado en columnas para admitir esquemas de compresión y codificación para grandes cantidades de datos, proporcionando una mayor eficiencia en comparación con los archivos basados en líneas. En el mundo actual de los científicos de datos, varias soluciones funcionan con este tipo de almacenamiento y SAS no podía quedarse fuera.
Parquet tiene una organización interna de datos muy similar a una tabla RDBMS (Relational Database Management System), con filas y columnas. A diferencia de esta tabla, los datos en Parquet se almacenan uno al lado del otro. Debido a su estructura en columnas, proporciona una mejor compresión y rendimiento cuando se trabaja con grandes cantidades de datos.
SAS Viya admite trabajar con archivos PARQUET también en plataformas en la nube Azure (ADLS Gen2), Google Cloud (GCS) y AWS (S3).
Ejemplo de código para leer y escribir tablas en formato PARQUET:
|
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!