BookmarkSubscribeRSS Feed
joechapel
SAS Employee

A lo largo de los últimos años las compañías se enfrentan a un alto crecimiento de información. La mayoría de las instituciones enfocadas a investigación se han encontrado con el reto de vincular de forma sencilla bases de datos estructuradas con archivos “binarios”, es decir archivos digitales que puedan fortalecer las investigaciones de forma sencilla. 

 

Para enfrentar este reto las áreas de TI se han encontrado una diversidad de plataformas tecnológicas como lo son: Gestionador de contenidos, Hadoop, e incluso el uso de bases de datos tradicionales.

 

Algunos clientes de la región de Latinoamérica a lo largo de este año me han solicitado poder explotar archivos multimedia para mostrar un ciclo completo de investigación enfocado a capacidades de OCR (reconocimiento de caracteres en imágenes) o capacidades de Visión por computadora.

 

Para esta demostración me enfocaré al uso de Bases de Datos dado a los constantes requerimientos que he tenido en este año en la región. Existen una diversidad de motores de bases de datos y el formato de variable que se ocupa para guardar un binario se le conoce habitualmente como BLOB, para esta demostración se ocupará PostgreSQL ya que es la base de datos (DB) que ocupa la plataforma SAS Viya como repositorio central. Es importante mencionar que en PostgreSQL se cuentan con dos tipos de variable para gestionar binarios: oid y bytea.

 

Se puede realizar este proceso desde una manejador de la BD o desde SAS, con el fin de demostrar que este proceso se puede realizar desde SAS, se comparte el código desde SAS Studio.

 

OID

  • Generación de tabla

joechapel_11-1670528513955.png

 

  • Inserción de archivos

joechapel_13-1670528560632.png

 

  • Exportación de archivos

joechapel_14-1670528600558.png

 

 

BYTEA

  • Generación de tabla

joechapel_15-1670528622458.png

 

  • Inserción de archivos

joechapel_16-1670528639633.png

 

  • Exportación de archivos

joechapel_17-1670528664831.png

 

Es importante mencionar que para exportar el archivo mediante el tipo de variable bytea, se requiere un paso adicional que es convertir de un archivo hexadecimal al binario, y se recomienda borrar el archivo temporal.

joechapel_6-1670528394691.png

 

Evidencias a nivel de BD

OID

joechapel_7-1670528394704.png

 

joechapel_8-1670528394718.png

 

 

BYTEA

joechapel_9-1670528394949.png

 

joechapel_10-1670528395458.png

 

 

Como se muestra en las imágenes la variable bytea permite realizar una visualización del archivo jpg dentro del manejador de BD, para archivos pdf o algún otro binario no se contará con dicha visualización.

 

 

Imagenes obtenidas de:

Birth Certificate: https://www.uscis.gov/i-9-central/form-i-9-resources/handbook-for-employers-m-274/120-acceptable-doc...

Driver license: https://en.wikipedia.org/wiki/Driver%27s_licenses_in_the_United_States