Dan Araya

Construyendo pipelines de datos en AWS

Python · SQL · Terraform

La Serena, Chile

Desliza para explorar

Proyecto principal

Sobre mí

Fue en 2023. Había conseguido un trabajo que consistía en extraer datos laborales, imágenes e información de geolocalización para la creación de informes de reporte diarios. Le comentaba a un amigo que estudiaba informática sobre lo que hacía y me dijo: "¿Y no has pensado automatizarlo con Python?". Me quedé mudo ante esa palabra de resonancia arcana y mágica. No sabía lo que era. Y me puse a investigar. Tras un par de videos y mis primeros "hola mundo", descubrí que era lo que necesitaba.

Me puse a hacer scripts para la creación de directorios, la búsqueda de strings en PDFs (github.com/Dan-Araya/pdf.extractor) y descarga de datos desde una interfaz web con Selenium. Pronto me vi inmerso en un mundo nuevo y fascinante. Me motivé tanto que con dos amigos decidimos resolver un problema concreto: brindar la oportunidad de acceder a recursos computacionales de forma remota para gaming u otras actividades. ¡En 2024 postulamos a un Fondo Semilla Inicia ($20 MM) y ganamos la ejecución para el 2025! Ahí descubrimos que montar algo serio es realmente difícil, y aunque finalizamos con éxito la ejecución del programa, decidimos no continuar más allá de él.

En resumen, han sido unos años agitados que lentamente me han ido guiando hacia el código y hacia la estructuración de flujos de datos. Hoy estoy enfocado en Data Engineering: en diseñar pipelines reproducibles, instrumentar decisiones con datos reales y documentar aquello que funciona (y aquello que no). Este portafolio es una muestra de ese trabajo.

Stack técnico

Lenguajes

Python SQL JavaScript Bash HCL (Terraform)

Data Engineering & Cloud

AWS Lambda Step Functions S3 Glue Data Catalog Athena Medallion Architecture ELT Pipelines Partition projection Parquet Particionado Hive pandas pyarrow

Frontend

HTML CSS JavaScript GSAP

Tooling

Terraform Docker Git GitHub

Educación y certificaciones