Completa el formulario y recibe toda la información del bootcamp que transforma tu carrera con práctica real, mentoría y conexión con empresas que sí contratan.
Cupos limitados. Asegura tu lugar hoy.
Aprende por qué es la habilidad más demandada del siglo XXI.
Descubre cómo usar Python, Pandas, y Machine Learning para resolver problemas reales.
Analizaremos ejemplos prácticos de cómo el Data Science está transformando empresas.
Todos los asistentes recibirán una guía descargable con los "5 pasos para empezar en Data Science"
Obtén un cupón de descuento exclusivo para nuestro Bootcamp "Data Science desde Cero"
Resuelve tus dudas en vivo: Tendrás acceso a una sesión de preguntas y respuestas con un experto en Data Science
Objetivo: Contextualizar el campo de Data Science y su relevancia en la actualidad.
Contenido:
¿Qué es Data Science?
Aplicaciones en industrias (salud, finanzas, retail, etc.).
Rol del científico de datos.
Ciclo de vida de un proyecto de Data Science.
Actividad: Discusión grupal sobre ejemplos de aplicaciones de Data Science en la vida cotidiana.
Recursos: Presentación con casos de éxito (Netflix, Amazon, etc.).
Objetivo: Familiarizar a los participantes con Python, el lenguaje más usado en Data Science.
Contenido:
Variables, loops, operadores, condicionales:
Sintaxis básica.
Ejemplos prácticos.
Clases y herencia:
Programación orientada a objetos (POO).
Numpy y Pandas:
Manipulación de arrays y DataFrames.
Visualización de datos con Matplotlib y Seaborn:
Gráficos básicos (líneas, barras, dispersión).
Actividad:
Ejercicios prácticos con Jupyter Notebook.
Crear un DataFrame y visualizar datos.
Recursos: Notebooks con ejemplos y ejercicios.
Objetivo: Introducir conceptos básicos de modelos predictivos.
Recursos:
Objetivo: Comprender los casos de uso de Modelos Analíticos en los negocios y su impacto en la resolución de problemas reales mediante IA y ML.
Contenido:
Definición de modelos analíticos.
Diferencia entre IA, Machine Learning y modelos estadísticos.
Netflix: Recomendaciones personalizadas basadas en ML.
Amazon: Optimización de inventario y experiencia del cliente.
Tesla: Conducción autónoma basada en IA.
JPMorgan Chase: Detección de fraudes y análisis financiero avanzado.
Modelos predictivos.
Modelos prescriptivos.
Modelos de clasificación y segmentación.
Procesamiento de lenguaje natural (NLP) para atención al cliente.
Beneficios: eficiencia, reducción de costos, mejor experiencia de usuario.
Desafíos: sesgos en los modelos, privacidad de datos, costos de implementación.
Actividad:
Discusión grupal sobre ejemplos de aplicación de Modelos Analíticos en distintos sectores empresariales.
Identificación de oportunidades para aplicar IA en casos propios o hipotéticos.
Recursos:
Presentación con casos de éxito y estudios de implementación en empresas líderes.
Objetivo: Entender las funciones de SQL y los diferentes tipos de sentencias, como DDL, DML, DCL y TCL, para gestionar y manipular bases de datos de manera efectiva.
Contenido:
¿Qué es SQL y para qué se usa?
Aplicaciones de SQL en la gestión de bases de datos.
Tipos de Sentencias en SQL
DDL (Data Definition Language): CREATE, ALTER, DROP, TRUNCATE.
DML (Data Manipulation Language): SELECT, INSERT, UPDATE, DELETE.
DCL (Data Control Language): GRANT, REVOKE.
TCL (Transaction Control Language): COMMIT, ROLLBACK, SAVEPOINT.
Funciones en SQL
Funciones de agregación: SUM, AVG, COUNT, MAX, MIN.
Funciones de cadena: CONCAT, LENGTH, UPPER, LOWER.
Funciones de fecha y hora: NOW, DATEADD, DATEDIFF.
Funciones matemáticas: ROUND, CEIL, FLOOR, ABS.
Casos de Uso en Empresas y Aplicaciones Reales
Uso de SQL en análisis de datos y reporting.
Aplicaciones en comercio electrónico, finanzas y gestión de inventarios.
Actividad:
Ejercicios prácticos de consulta y manipulación de datos en SQL.
Análisis de casos reales de optimización de bases de datos mediante SQL.
Recursos:
Presentación con ejemplos prácticos de cada tipo de sentencia y función.
Acceso a una base de datos de prueba para ejercicios en vivo.
Objetivo: Comprender el concepto de Exploratory Data Analysis (EDA), su importancia en la ciencia de datos y las técnicas clave para identificar patrones y tendencias en los datos.
Contenido:
Introducción al Exploratory Data Analysis (EDA)
Definición y propósito del EDA.
Importancia del EDA en proyectos de ciencia de datos.
Inspección inicial de los datos (estructura, tipos de datos, valores faltantes).
Resumen estadístico (media, mediana, desviación estándar, percentiles).
Identificación de valores atípicos y datos inconsistentes.
Visualización de Datos en EDA
Histogramas y distribuciones.
Diagramas de dispersión y correlaciones.
Boxplots y detección de valores atípicos.
Mapas de calor para análisis de correlación.
Herramientas y Librerías para EDA
Python: Pandas, Matplotlib, Seaborn.
Otras herramientas: Tableau, Power BI.
Casos de Uso en Empresas y Aplicaciones Reales
Impacto del EDA en la toma de decisiones basada en datos.
Actividad:
Aplicación de EDA en un conjunto de datos real con Python.
Discusión sobre hallazgos clave y su impacto en el análisis de negocio.
Recursos:
Presentación con ejemplos de análisis exploratorio en diferentes sectores.
Dataset de práctica para realizar ejercicios de EDA en clase.
Objetivo: Comprender el concepto de Data Wrangling con Pandas, su importancia en la preparación de datos y las técnicas clave para limpiar y transformar conjuntos de datos.
Contenido:
Introducción a Data Wrangling
Definición y propósito del Data Wrangling.
Importancia en la calidad y preparación de datos para análisis.
Manipulación de Datos con Pandas
Carga de datos desde diferentes fuentes (CSV, Excel, SQL, JSON).
Exploración de datos: head(), info(), describe().
Manejo de valores faltantes: fillna(), dropna().
Transformación de datos: apply(), map(), replace().
Y mucho más…
Limpieza y Formateo de Datos
Eliminación de duplicados y datos inconsistentes.
Conversión de tipos de datos.
Manejo de datos categóricos y numéricos.
Y mucho más…
Combinación y Agrupación de Datos
Merge y Join para combinar múltiples datasets.
Agrupación y agregación de datos con groupby().
Pivot tables y reorganización de datos.
Y mucho más…
Actividad:
Aplicación de técnicas de Data Wrangling en un conjunto de datos real con Pandas.
Discusión sobre los desafíos más comunes en la limpieza de datos.
Recursos:
Presentación con ejemplos prácticos de manipulación de datos.
Dataset de práctica para realizar ejercicios en clase con Pandas.
Objetivo: Aplicar los conocimientos adquiridos sobre Exploratory Data Analysis (EDA) y Data Wrangling con Pandas en un workshop práctico que abarque desde el entendimiento del problema hasta la transformación y análisis de datos.
Contenido:
Introducción al Workshop
Explicación de la dinámica y objetivos del taller.
Presentación del caso de estudio y su contexto empresarial.
Entendimiento del Problema
Definición del problema a resolver.
Identificación de los objetivos del análisis.
Importancia del caso de uso en la industria.
Entendimiento de los Datos
Exploración inicial de la estructura y contenido de los datos.
Identificación de valores faltantes, tipos de datos y posibles inconsistencias.
Resumen estadístico de las principales variables.
Data Wrangling y Preparación de Datos
Limpieza de datos: eliminación de duplicados, manejo de valores nulos, estandarización de formatos.
Transformación de datos: generación de nuevas variables, conversión de tipos de datos.
Combinación de datasets mediante técnicas de merge y join.
Exploratory Data Analysis (EDA)
Visualización de distribuciones y relaciones entre variables.
Identificación de patrones y tendencias clave.
Aplicación de técnicas de detección de valores atípicos.
Actividad Práctica:
Aplicación del flujo de trabajo completo en un conjunto de datos real.
Desarrollo de insights accionables a partir del análisis exploratorio.
Presentación de hallazgos y discusión de estrategias de mejora.
Recursos:
Conjunto de datos real para análisis.
Presentación con guía paso a paso del workshop.
Código de ejemplo en Python con Pandas y librerías de visualización.
Objetivo: Introducir los fundamentos del Machine Learning, sus principales algoritmos y la clasificación de los modelos en supervisados y no supervisados, así como en clasificatorios y regresivos.
Contenido:
Introducción a Machine Learning
Definición y contexto en la industria.
Importancia del Machine Learning en la toma de decisiones basada en datos.
Tipos de Modelos de Machine Learning
Modelos Supervisados:
Definición y características.
Ejemplos: Regresión Lineal, Regresión Logística, Árboles de Decisión, etc.
Modelos No Supervisados:
Definición y características.
Ejemplos: Clustering (K-Means, DBSCAN), Modelos de Asociación.
Clasificación de Modelos según su Tipo de Salida
Modelos de Clasificación:
Aplicaciones y ejemplos (detección de fraudes, reconocimiento de imágenes).
Algoritmos comunes: Árboles de Decisión, Random Forest, Support Vector Machines (SVM).
Modelos de Regresión:
Aplicaciones y ejemplos (predicción de precios, análisis de tendencias).
Algoritmos comunes: Regresión Lineal, Regresión Ridge, RF.
Actividad:
Análisis de un conjunto de datos para determinar qué tipo de modelo aplicar.
Implementación básica de un modelo supervisado y otro no supervisado en Python.
Comparación de resultados y discusión sobre la mejor estrategia a seguir.
Recursos:
Presentación con ejemplos visuales de cada tipo de modelo.
Código de ejemplo en Python con Scikit-Learn y Pandas.
Dataset de práctica para implementar modelos de Machine Learning.
Objetivo: Profundizar en las técnicas de optimización de hiperparámetros y en los enfoques avanzados de Bagging y Boosting para mejorar el rendimiento de los modelos de Machine Learning.
Contenido:
Optimización de Hiperparámetros
Definición y diferencias entre parámetros y hiperparámetros.
Técnicas de ajuste de hiperparámetros:
Grid Search: Búsqueda exhaustiva de combinaciones de hiperparámetros.
Random Search: Selección aleatoria de combinaciones para mayor eficiencia.
Bayesian Optimization: Optimización basada en modelos probabilísticos.
Hyperband: Método de asignación adaptativa de recursos.
Optuna: Librería avanzada para la optimización automatizada.
Impacto de la optimización de hiperparámetros en la precisión y generalización de los modelos.
Bagging: Técnica de Ensamble para Reducción de Variabilidad
Definición y principio de funcionamiento.
Algoritmos basados en Bagging:
Random Forest: Creación de múltiples árboles de decisión para reducir sobreajuste.
Bagged SVM: Ensamblado de modelos Support Vector Machines.
Ventajas y desventajas del Bagging.
Boosting: Técnica de Ensamble para Mejora de Precisión
Definición y diferencias clave con Bagging.
Principales algoritmos de Boosting:
AdaBoost: Mejora iterativa basada en pesos de observaciones.
Gradient Boosting (GBM): Optimización basada en gradientes.
XGBoost: Variante eficiente y escalable del Gradient Boosting.
LightGBM: Boosting basado en histogramas para grandes volúmenes de datos.
CatBoost: Optimización especializada para datos categóricos.
Casos de uso y comparación de rendimiento entre los algoritmos de Boosting.
Actividad:
Implementación de ajuste de hiperparámetros con Grid Search y Random Search en un modelo real.
Comparación práctica de Bagging y Boosting utilizando Random Forest y XGBoost.
Evaluación del impacto de la optimización de hiperparámetros en modelos de clasificación y regresión.
Discusión sobre la mejor estrategia según el tipo de problema y conjunto de datos.
Recursos:
Presentación con ejemplos visuales de optimización de hiperparámetros.
Código de ejemplo en Python con Scikit-Learn, XGBoost y LightGBM.
Dataset de práctica para la comparación de técnicas de ensamble en Machine Learning.
Objetivo: Comprender las métricas de evaluación para modelos de Machine Learning, diferenciando entre modelos regresivos y clasificatorios, y su importancia en la selección del modelo adecuado.
Contenido:
Introducción a las Métricas de Evaluación
Importancia de la evaluación en Machine Learning.
Diferencia entre métricas para clasificación y regresión.
Métricas para Modelos de Clasificación
Exactitud (Accuracy): Porcentaje de predicciones correctas.
Precisión (Precision): Proporción de verdaderos positivos sobre todos los positivos predichos.
Recall (Sensibilidad o Tasa de Verdaderos Positivos): Capacidad del modelo para identificar correctamente las clases positivas.
F1-Score: Equilibrio entre precisión y recall.
Matriz de Confusión: Análisis de falsos positivos y falsos negativos.
ROC y AUC: Evaluación del rendimiento del modelo a diferentes umbrales.
Métricas para Modelos de Regresión
Error Cuadrático Medio (MSE): Penalización de errores grandes.
Raíz del Error Cuadrático Medio (RMSE): Interpretabilidad en la misma escala de los datos.
Error Absoluto Medio (MAE): Promedio de errores en valores absolutos.
Coeficiente de Determinación (R²): Explicación de la varianza de la variable dependiente.
Mean Absolute Percentage Error (MAPE): Evaluación en términos porcentuales.
Consideraciones en la Selección de Métricas
Impacto de la elección de métrica según el problema.
Métricas más relevantes en casos de negocio específicos.
Interpretación de resultados y su influencia en la toma de decisiones.
Actividad:
Aplicación de métricas de evaluación en modelos de clasificación y regresión con Python.
Comparación de métricas en distintos escenarios y elección de la más adecuada.
Discusión sobre el impacto de cada métrica en la mejora del modelo.
Recursos:
Presentación con ejemplos visuales de métricas de evaluación.
Código de ejemplo en Python con Scikit-Learn para el cálculo de métricas.
Dataset de práctica para evaluar modelos regresivos y clasificatorios.
Objetivo: Comprender el funcionamiento de las redes neuronales y sus aplicaciones, desde los conceptos básicos hasta los modelos avanzados como LSTM y redes neuronales convolucionales (CNN).
Contenido:
Introducción a las Redes Neuronales
¿Qué son las redes neuronales?
Son sistemas computacionales inspirados en el cerebro humano que permiten a las máquinas aprender de los datos. Están formadas por neuronas artificiales organizadas en capas.
Componentes básicos de una red neuronal:
Neuronas: Unidades que procesan información.
Capas: La red consta de una capa de entrada, capas ocultas y una capa de salida.
Pesos y Biases: Parámetros que ayudan a ajustar la red y aprender patrones.
Funciones de activación: Deciden si una neurona debe activarse. Algunas comunes son sigmoide, ReLU (Rectified Linear Unit), y tanh.
Objetivo: Clasificar, predecir o encontrar patrones en los datos.
Arquitectura y Funcionamiento de las Redes Neuronales
Perceptrón: Es el tipo más simple de red neuronal con una sola capa.
Propagación hacia adelante (Forward Propagation): El proceso mediante el cual la información se mueve desde la capa de entrada hasta la de salida.
Retropropagación (Backpropagation): El algoritmo para ajustar los pesos de la red después de cada predicción, con el objetivo de reducir el error.
Optimizadores: Métodos como SGD (Stochastic Gradient Descent) o Adam para actualizar los pesos y mejorar el aprendizaje.
Modelos Avanzados de Redes Neuronales
Redes Neuronales Convolucionales (CNN):
¿Qué son? Son redes especializadas para procesar imágenes. Utilizan una operación llamada convolución para extraer características importantes de las imágenes.
Capas principales de una CNN:
Capas convolucionales: Detectan características como bordes o texturas.
Capas de pooling: Reducen la dimensión de los datos manteniendo las características más relevantes.
Capas totalmente conectadas: Realizan la clasificación final después de la extracción de características.
Usos: Reconocimiento de objetos, clasificación de imágenes, etc.
Redes Neuronales Recurrentes (RNN) y LSTM:
RNN: Son redes que están diseñadas para trabajar con datos secuenciales, como series temporales o texto.
LSTM (Long Short-Term Memory): Son una versión especial de RNNs que solucionan el problema de las “desvanecimiento” y “explosión” del gradiente, permitiendo que la red recuerde información a largo plazo.
Usos de LSTM: Predicción de series temporales (como precios de acciones), traducción automática, análisis de sentimientos, etc.
Desafíos y Consideraciones
Overfitting y Underfitting: El overfitting ocurre cuando el modelo aprende demasiado bien los datos de entrenamiento pero no generaliza bien en nuevos datos. El underfitting ocurre cuando el modelo no aprende suficientemente bien los patrones.
Regularización y Dropout: Técnicas para evitar el overfitting y mejorar la generalización.
Tiempo de entrenamiento: Las redes profundas requieren mucho poder de cómputo y tiempo para entrenarse.
Actividad:
Implementación de una red neuronal simple para clasificación con Keras o TensorFlow.
Comparación de una CNN para un problema de clasificación de imágenes.
Implementación de un modelo LSTM para predecir datos secuenciales como precios o texto.
Recursos:
Presentación visual de la arquitectura de redes neuronales.
Código de ejemplo en Python con Keras/TensorFlow para redes neuronales, CNN y LSTM.
Dataset de práctica para aplicar redes neuronales en problemas reales.