We are tech

CURSO APACHE SPARK / PYSPARK

Domina Apache Spark con Python para procesamiento distribuido de datos a escala. Aprende DataFrames, Spark SQL, streaming y optimización en Databricks con casos reales de producción.

X€ 20h Certificado WAT

Curso completo de PySpark desde arquitectura distribuida. Comprenderás modelo cliente-servidor, driver y workers. Configurarás entorno con PySpark local o Databricks Community Edition. Crearás DataFrames desde CSV, JSON y Parquet. Aplicarás transformaciones: select, filter, withColumn y groupBy.

Especialízate en Spark SQL para consultas con sintaxis estándar. Registrarás DataFrames como vistas temporales. Aplicarás JOINs y funciones de ventana. Procesarás datos de fechas, textos y estructuras anidadas. Implementarás streaming para datos en tiempo real. Optimizarás con particionamiento y Delta Lake.

Herramientas que usarás

Apache Spark PySpark Databricks

¿Para quién es este curso?

Para data engineers, científicos de datos y especialistas que necesitan procesar big data distribuido a escala en la nube.

  • Data engineers que crean pipelines batch y streaming
  • Científicos de datos que procesan datasets grandes
  • Especialistas en big data que usan Databricks
  • Profesionales que migran de Pandas a Spark
  • Consultores que implementan soluciones Spark
  • Equipos que necesitan procesamiento distribuido en producción
  • Especialistas en optimización de performance data

Temario

Lo que vas a aprender, unidad a unidad

  1. 01

    Fundamentos de Spark y el Entorno de Trabajo

    Entenderás arquitectura de Spark: driver, workers y particiones. Configurarás PySpark local o Databricks Community Edition. Crearás DataFrames desde ficheros CSV, JSON y Parquet. Aplicarás transformaciones básicas: select, filter, withColumn y groupBy.

  2. 02

    Spark SQL y Procesamiento Avanzado

    Registrarás DataFrames como vistas temporales y consultarás con Spark SQL. Aplicarás JOINs y operaciones multi-tabla. Usarás funciones de ventana en PySpark para análisis avanzado. Procesarás datos de fechas, textos y estructuras anidadas.

  3. 03

    Streaming, Optimizacin y Produccin

    Implementarás pipelines de Structured Streaming con PySpark. Aplicarás técnicas de optimización: particionamiento, caching y Adaptive Query Execution. Gestionarás datos con Delta Lake para transacciones ACID. Desplegarás jobs en Databricks o GCP Dataproc.

Profesores

Profesionales en activo, no académicos

Todos nuestros profesores son profesionales en activo que trabajan día a día con las herramientas y metodologías que enseñan. En WAT creemos que la mejor formación viene de quienes aplican el conocimiento en proyectos reales, no solo de quienes lo leen en libros.

Resultados

Qué vas a conseguir

Por qué WAT

En otras escuelas vs En WAT

En otras escuelas

  • Cursos básicos que no cubren Spark SQL ni streaming
  • Formaciones que no incluyen optimización de producción
  • Plataformas que no enseñan procesamiento distribuido real
  • Cursos sin enfoque en Delta Lake y ACID

En WAT

  • WAT enseña Spark con casos reales de Databricks
  • Incluye streaming y optimización para producción
  • Aprenderás Delta Lake para garantizar integridad de datos
  • Acceso a arquitecturas distribuidas reales a escala

Preguntas frecuentes

FAQs

¿Cuándo usar Spark en lugar de Pandas?

Spark cuando tienes datos > memoria RAM disponible, necesitas procesamiento distribuido o trabajas en clusters cloud. Pandas para datasets pequeños.

¿Qué es particionamiento y por qué es importante?

Particionamiento divide datos en fragmentos procesados en paralelo. Es crítico para performance en Spark con grandes volúmenes.

¿Cuál es la diferencia entre transformaciones y acciones?

Transformaciones: lazy (no ejecutan). Acciones: eager (ejecutan). Spark optimiza basado en acciones finales.

¿Puedo usar PySpark sin Databricks?

Sí, PySpark funciona en modo local, cluster on-premises o cualquier cloud. Databricks simplifica gestión.

¿Qué es Delta Lake y por qué lo necesito?

Delta Lake añade transacciones ACID, versionado y time travel a data lakes. Garantiza integridad en producción.

Cursos relacionados

Sigue formándote en DATA

¿Preparado para dar el siguiente paso?

Déjanos tu email y un asesor te contactará para resolver dudas y ayudarte a reservar plaza.

Solicita información