Ciencia de datos
La ciencia de datos está diseñada para desarrollar las habilidades necesarias para el manejo de información y la elaboración de modelos descriptivos y predictivos, con el objeto de generar información que permita entregar al negocio una visión y que permita el descubrimiento de oportunidades, para así desarrollar en el largo plazo una estrategia centrada en los datos e información.
DURACIÓN: 168 horas

Objetivo del curso
Desarrollar conocimientos sólidos en el uso de Python y sus principales librerías, como herramientas fundamentales de la disciplina. Analizar datos de diversa naturaleza utilizando técnicas de análisis exploratorio para presentar información relevante al negocio Realizar inferencias sobre poblaciones a partir de muestras y realizar pruebas de hipótesis que permitan sacar conclusiones acerca de experimentos. Utilizar diversas técnicas de machine learning para la elaboración de modelos predictivos en distintos escenarios y casos de uso. Organizar grandes volúmenes de datos utilizando fuentes de almacenamiento masivo para facilitar consultas, extracción y análisis sobre éstos.

Módulo 1
Fundamentos De Programación en Python
En este módulo se entregarán las herramientas para aprender a codificar piezas de software de baja/mediana complejidad en lenguaje Python para resolver una problemática, de acuerdo a las buenas prácticas de la industria.

Módulo 2
Obtención y preparación de datos
En este módulo se utilizarán las librerías Numpy y Pandas para aprender de forma práctica técnicas de extracción y limpieza de datos, utilizando criterios de imputación y manipulando las estructuras de datos a conveniencia para satisfacer las necesidades de información. También haremos un repaso de los conceptos del Álgebra Lineal que son frecuentemente utilizados en la disciplina.

Módulo 3
Análisis exploratorio y programación estadística
En este módulo se aprenderá sobre análisis de datos utilizando el lenguaje Python y conceptos de estadística descriptiva para la exploración y caracterización de la información.

Módulo 4
Inferencia Estadística
En este módulo se aprenderán los fundamentos de la inferencia estadística, es decir, inferir respecto a la población a partir de los datos de una muestra. Lo anterior, apoyado de los paquetes estadísticos que existen en Python. Aprenderás a reconocer los conceptos más relevantes y ampliamente usados de la disciplina. Conocerás las distribuciones de probabilidad y aprenderás a descubrir la forma en que se distribuyen tus datos.

Módulo 5
Aprendizaje de máquina supervisado
En este módulo se aprenderán los fundamentos del aprendizaje de máquina y sus principales técnicas para permitir realizar un modelo predictivo. Se abordarán los algoritmos de aprendizaje de máquina supervisado, dentro de los cuales se incluyen algoritmos regresivos y de clasificación, utilizando las herramientas de Python y librerías populares como Sci-kit-learn, Keras y Theano entre otras.

Módulo 6
Aprendizaje de máquina no supervisado
Este módulo será introductorio al aprendizaje de máquina no supervisado. Se revisarán las diversas técnicas y principales usos, utilizando herramientas de Python.
Aprenderán a reducir la dimensionalidad de los datos para obtener modelos más simples y efectivos.

Módulo 7
Fundamentos de Deep Learning
Este será un módulo introductorio a Deep Learning utilizando las redes neuronales, sus principios básicos, herramientas para implementarlas y sus principales usos. Entenderán cómo funcionan los modelos neuronales y cuáles son algunas de las principales variaciones y arquitecturas aplicadas a casos de uso específicos.
Se utilizarán herramientas de Python y librerias tales como Keras y Tensorflow.
Módulo 8
Fundamentos de Big Data
Este módulo tiene como objetivo elaborar un modelo predictivo utilizando grandes volúmenes de datos para resolver un problema. Se aprenderá a describir las características fundamentales de Big
Data y su ecosistema para el manejo de grandes volúmenes de datos, utilizando objetos RDD, transformaciones y acciones para resolver una problemática.