Data engineer (Ingeniería de datos)

El plan de formación de este curso está diseñado para desarrollar las habilidades necesarias para el gobierno y organización de los datos de una compañía, para posteriores trabajos de inteligencia de negocios, análisis y ciencia de datos.

Duración: 180 horas.

Objetivo del curso

Este plan está orientado a profesionales del área tecnológica con experiencia en proyectos relacionados con datos, a nivel de modelamiento, consultas de bases de datos relacionales, integración de datos, programación y manejo de sistema operativo Linux.

PROGRAMA DE ESTUDIOS

Módulo 1

Fundamentos de programación en Python

En este módulo se aprenderán las principales características del lenguaje Python, haciendo énfasis en la programación de algoritmos con el objeto de nivelar y profundizar las habilidades programativas de los participantes.

  • 20 horas.
Módulo 2

Obtención y preparación de datos

En este módulo se utilizarán las librerías Numpy y Pandas para aprender de forma práctica técnicas de extracción y limpieza de datos, utilizando criterios de imputación y manipulando las estructuras de datos a conveniencia para satisfacer las necesidades de información.

  • 20 horas.
Módulo 3

Bases de Datos

En este módulo se aprenderá a diseñar e implementar modelos de datos relacionales y modelos no relacionales (NoSQL) para la resolución de problemas. Asimismo, distinguir entre modelamiento para una bases OLAP y OLTP. El participante será capaz de recolectar, guardar y consultar datos de estas bases de datos.

  • 24 horas.
Módulo 4

Modelamiento, Gobierno de Datos y Data Engineering

En este módulo se comprenderán las características fundamentales de un Datawarehouse para el almacenamiento de información estructurada, tipos de modelo, la implementación de un ETL para la desnormalización de la data, creación de cubos OLAP. Asimismo, en este módulo se conocerán los componentes en Amazon para la implementación de una solución datawarehouse cloud utlizando la plataforma Redshift.

  • 24 horas.
Módulo 5

Machine Learning para Ingenieros de Datos

En este módulo se aprenderá el proceso de implementar y montar un modelo de Machine Learning. En específico se introducirá a cómo funciona la API de scikit-learn y tensorflow.keras, el proceso de entrenamiento de un modelo, cómo serializar un modelo, cómo consumir un modelo y enviar un modelo a producción en una API REST con Flask.

  • 20 horas.
Módulo 6

Big Data

En este módulo se aprenderá sobre los componentes asociados a una solución de Big Data. En específico, se introducirá a los diversos componentes del ecosistema Hadoop para la integración y distribución de archivos, asignación de recursos, e implementación de trabajos. También se introducirá a los diversos componentes de Apache Spark.

  • 40 horas.
Módulo 7

Integración y procesamiento

En este módulo se desarrollarán los aprendizajes relacionados con identificar cuándo un problema de bigdata requiere de integración de datos, ejecución y procesamiento de para las platafotmas Hadoop y Spark. Asimismo, se revisará el enfoque de data pipeline y cómo implementar dicho patrón utilizando Apache Airflow para la programación, automatización y monitoreo.

  • 32 horas.

Requisitos para postular

Característica de la beca: