El Máster en Ingeniería de Sistemas de Toma de Decisiones es tu pasaporte hacia el futuro de la gestión inteligente. En un mundo donde la información es poder, saber cómo analizar y utilizar datos para tomar decisiones estratégicas es fundamental. Este máster te prepara para enfrentar desafíos complejos mediante el aprendizaje de técnicas avanzadas de decisión y modelización de incertidumbre. Con un enfoque en herramientas como el análisis de datos, simulación y metaheurísticas, te convertirás en un experto en transformar datos en decisiones sólidas. La creciente demanda de profesionales capacitados en Big Data y minería de datos hace que esta formación sea especialmente valiosa. Optar por este máster significa estar a la vanguardia de la innovación, mejorando tus habilidades en áreas clave como la optimización y la gestión de bases de datos. A través de un formato online flexible, tendrás la oportunidad de aprender desde cualquier lugar, adaptando tus estudios a tus necesidades personales y profesionales.
El Máster en Ingeniería de Sistemas de Toma de Decisiones está dirigido a profesionales y titulados en ingeniería, matemáticas o ciencias afines interesados en profundizar en modelos de decisión, análisis de datos y técnicas de optimización. Ideal para quienes buscan actualizarse en big data, minería de datos y técnicas avanzadas como la simulación de Monte Carlo o Six Sigma.
Objetivos
‘- Aplicar modelos y técnicas avanzadas de decisión para optimizar procesos complejos. – Desarrollar sistemas de apoyo a la decisión utilizando algoritmos heurísticos. – Implementar métodos bayesianos en situaciones de incertidumbre para mejorar la precisión. – Utilizar simulación de Monte Carlo para evaluar riesgos en la toma de decisiones. – Emplear técnicas de minería de datos para transformar datos en decisiones estratégicas. – Diseñar soluciones de Big Data para el procesamiento eficiente de grandes volúmenes de datos. – Integrar el método Six Sigma para mejorar la calidad y eficiencia en proyectos de ingeniería.
Salidas Profesionales
‘- Analista de datos en sectores avanzados – Consultor en sistemas de decisión – Especialista en Big Data para ingeniería – Experto en optimización y algoritmos – Ingeniero de sistemas de soporte a la decisión – Desarrollador de soluciones de minería de datos – Gestor de proyectos Six Sigma – Consultor en seguridad y gestión de bases de datos – Responsable de innovación tecnológica en decisiones empresariales
Sistemas de Gestión de Bases de Datos con soporte SQL
Sintaxis en SQL
Especificación de restricciones de integridad
Caracterísiticas de MySQL
Tipos de datos
Sisntaxis SQL para MySQL
Posibles fallos en una base de datos
Elementos de recuperación
Tipos de soporte
RAID
Servidores remotos de salvaguarda de datos
Diseño de un plan de salvaguarda y protocolo de recuperación de datos
Tipos de salvaguardas de datos
RTO (Recovery Time Objective) y RPO (Recovery Point Objective)
Mecanismos de verificación de la integridad de las copias de seguridad
Definición de SGBD distribuido. Principales ventajas y desventajas
Características esperadas en un SGBD distribuido
Clasificación de los SGBD distribuidos
Enumeración y explicación de las reglas de DATE para SGBD distribuidos
Replicación de la información en bases de datos distribuidas
Procesamiento de consultas
Descomposición de consultas y localización de datos
Conceptos de seguridad de los datos: confidencialidad, integridad y disponibilidad
Normativa legal vigente sobre datos
Supuestos prácticos
Herramientas para importar y exportar datos
Clasificación de las herramientas
Ejemplo de ejecución de una exportación e importación de datos
Migración de datos entre diferentes SGBD
Inconvenientes al traspasar datos entre distintos SGBD
Introducción a la minería de datos y el aprendizaje automático
Proceso KDD
Modelos y Técnicas de Data Mining
Áreas de aplicación
Minería de textos y Web Mining
Data mining y marketing
Introducción a R
¿Qué necesitas?
Tipos de datos
Estadística Descriptiva y Predictiva con R
Integración de R en Hadoop
Obtención y limpieza de los datos (ETL)
Inferencia estadística
Modelos de regresión
Pruebas de hipótesis
Inteligencia Analítica de negocios
La teoría de grafos y el análisis de redes sociales
Presentación de resultados
¿Qué es Hadoop?
El sistema de archivos HDFS
Algunos comandos de referencia
Procesamiento MapReduce con Hadoop
El concepto de los clusters en Hadoop
¿Qué es Weka?
Técnicas de Data Mining en Weka
Interfaces de Weka
Selección de atributos
¿Qué es Big Data?
Paradigmas de procesamiento en Big Data
Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).
MapReduce
- Entorno MapReduce
- Función Map y función Reduce
- Flujo de datos
- Características de MapReduce
- Uso de MarpReduce
- Ventajas e inconvenientes de Map Reduce
- Ejercicios y ejemplos con MapReduce
Hadoop
- Entorno Hadoop
- Almacenamiento: HDFS
- Características de HDFS
Apache Hadoop YARN
- Funciones de Framework computacionales
- YARN: El gestor de recursos del cluster
- Conceptos de Apache Spark
- Ejecución de Computational Frameworks en YARN
- Exploración de las aplicaciones de YARN Applications a través de la Web UIs y de Shell
Agregación de los logs de YARN
- Configuración de Hadoop y registros de Daemon
- Localizar configuraciones y aplicar cambios de configuración
- Gestión de instancias de Role y añadir servicios
- Configuración del servicio HDFS
- Configuración de los logs de Hadoop Daemon
- Configuración del servicio YARN
Obtención de datos en HDFS
- Ingestión de datos desde fuentes de recursos externos con Flume
- Ingestión de datos desde bases de datos relacionales con Sqoop
- REST Interfaces
- Buenas prácticas para la importación de datos
Planificación de un cluster Hadoop
- Consideraciones generales de planificación
- Elección correcta de Hardware
- Opciones de Virtualización
- Consideraciones de red
- Configuración de nodos
Instalación y configuración de Hive, Pig e Impala
Clientes Hadoop incluidos en Hue
- ¿Qué es un cliente de Hadoop?
- Instalación y configuración de clientes Hadoop
- Instalación y configuración de Hue
- Autorizaciones y autenticación Hue
Configuración avanzada de un cluster
- Parámetros avanzados de configuración
- Configuración de puertos Hadoop
- Configuración de HDFS para la organización en rack
- Configuración de HDFS para obtención de alta disponibilidad
Seguridad Hadoop
- ¿Por qué es importante la seguridad en Hadoop?
- Conceptos del sistema de seguridad de Hadoop
- Qué es Kerberos y cómo funciona
- Securización de un clúster Hadoop Cluster con Kerberos
- Otros conceptos de seguridad
Gestión de recursos
- Configuración de cgroups con Static Service Pools
- El Fair Scheduler
- Configuración de Dynamic Resource Pools
- Configuraciones de CPU y memoria YARN
- Impala Query Scheduling
Mantenimiento de un cluster
- Chequeo del estado de HDFS
- Copia de datos entre clústers
- Añadir y eliminar de nodos en el clúster
- Rebalanceo del Cluster
- Directorio de Snapshots
- Actualización del clúster
Solución de problemas y monitorización de un cluster
- Sistema general de monitorización
- Monitorización de clústers Hadoop
- Solución de problemas habituales en el clúster de Hadoop
- Errores habituales en la configuración
Data Science
- Que hacen los data scientists, herramientas y procesos que utilizan
- Aplicación de lo aprendido en módulo 2: Uso de Hue
Apache Spark
- Cómo trabaja Apache Spark y que capacidades nos ofrece
- Que formatos de ficheros populares puede usar Spark para almacenar datos
- Que lenguajes de programación puedes utilizar para trabajar con Spark
- Cómo empezar a utilizar PySpark y Sparklyr
- Cómo comparar PySpark y Sparklyr
Machine Learning
- ¿Qué es machine learning?
- Algunos conceptos y términos importantes
- Diferentes tipos de algoritmos
- Librerías que se utilizan
Apache Spark MLlib
- Que capacidades de machine learning nos proporciona MLlib
- Cómo crear, validar y utilizar modelos de machine learning con MLlib
- Ejecución de trabajos Apache Spark
- Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
- Cómo Spark utiliza la ejecución lenta
- Cómo Spark divide los datos entre las particiones
- Cómo ejecuta Spark operaciones limitadas y grandes
- Cómo Spark ejecuta un trabajo en tareas y fases
Datasets y Dataframes
Operaciones en Dataframe
Trabajar con Dataframes y Schemas
Crear Dataframes a partir de Data Sources
Guardar DataFrames en Data Sources
DataFrame Schemas
Rapidez y lentitud de ejecución
Análisis de datos con consultas de DataFrame
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
RDD
- Introducción RDD
- RDD Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
Transformación de datos con RDDs
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
Agregación de datos con Pair RDDs
- Key-Valué Pair RDDs
- Mal-Reduce
- Otras operaciones Pair RDD
Consulta y vistas de tablas con Spark SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
Creación, configuración y ejecución de aplicaciones Spark
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web UI
- Configuración de las propiedades de la aplicación
Procesamiento distribuido
- Apache Spark en un Clúster
- Particiones RDD
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
Persistencia de datos distribuidos
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
Patrones comunes al procesar datos con Spark
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
Spark Streaming: Introducción a DStreams
- Vista general de Spark Streaming
- DStreams
- Desarrollo de aplicaciones en Streaming
Spark Streaming: procesamiento de múltiples lotes
- Operaciones Multi-Batch
- Time Slicing
- Operaciones de estado
- Operaciones Sliding Window
- Vista previa: Streaming estructurado
Apache Spark Streaming: Data Sources
- Vista general de Streaming Data Source
- Apache Flume y Apache Kafka Data Sources
- Ejemplo: uso de un Kafka Direct Data Source
Introducción a Pig
- ¿Qué es Pig?
- Características de Pig
- Casos de empleo de Pig
- Interacción con Pig
Análisis de datos básico con Pig
- Sintaxis Pig Latin
- Carga de datos
- Tipos simples de datos
- Definición de campos
- Datos de salida
- Vistas y esquemas
- Filtrado y ordenación de datos
- Funciones habituales
Procesado de datos complejos con Pig
- Formatos de almacenamiento
- Tipos de datos complejos y anidados
- Agrupaciones
- Funciones predefinidas para datos complejos
- Iteración de datos agrupados
Operaciones con multiconjuntos de datos con Pig
- Técnicas para combinar conjuntos de datos
- Unión de conjuntos de datos con Pig
- Conjunto de operaciones
- División de conjuntos de datos
Troubleshooting y optimización de Pig
- Troubleshooting en Pig
- Inicio de sesión
- Empleo de UI web Hadoop
- Muestreo de datos y depuración
- Visión general del rendimiento
- Comprensión del plan de ejecución
- Consejos para mejorar el rendimiento de Jobs en Pig
Introducción a Hive e Impala
- ¿Qué es Hive?
- ¿Qué es Impala?
- ¿Por qué utilizar Hive e Impala?
- Schema y almacenamiento de datos
- Comparación entre Hive y bases de datos tradicionales
- Casos de uso
Consultas con Hive e Impala
- Tablas y bases de datos
- Sintaxis básica en consultas Hive e Impala
- Tipos de datos
- Empleo de Hue para ejecutar consultas
- Empleo de Beeline (la Shell de Hive)
- Empleo de la Shell de Impala
Administración de datos
- Almacenamiento de datos
- Creación de bases de datos y tablas
- Carga de datos
- Alteración de bases de datos y tablas
- Simplificación de consultas con vistas
- Almacenamiento de resultados de consultas
Almacenamiento y datos de rendimiento
- Partición de tablas
- Carga de datos en tablas particionadas
- Cuándo utilizar el particionamiento
- Elección de formato de almacenamiento
- Gestión de metadatos
- Control de acceso a datos
Análisis de datos relacional con Hive e Impala
- Unión de conjuntos de datos
- Funciones predefinidas habituales
- Agregaciones y Windowing
Datos complejos con Hive e Impala
- Datos complejos con Hive
- Datos complejos con Impala
Análisis de texto con Hive e Impala
- Empleo de expresiones regulares
- Procesamiento de texto con SerDes en Hive
- Análisis de los sentimientos y N•Grams
Optimización Hive
- Rendimiento de las consultas
- Bucketing
- Indexación de datos
- Hive en Spark
Optimización de Impala
- Ejecución de consultas
- Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
- Customizar SerDes y formatos de fichero en Hive
- Transformación de datos con Scripts personalizados en Hive
- Funciones definidas por el usuario
- Consultas parametrizadas
- Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?
Introducción a la minería de datos y el aprendizaje automático
- Proceso KDD
- Modelos y Técnicas de Data Mining
- Áreas de aplicación
- Minería de textos y Web Mining
- Data mining y marketing
Instalación de R y RStudio
- Introducción al lenguaje
- Historia e Introducción a R
- Operaciones Básicas y Números
- Atributos, Entrada y Coerción
- Matrices
- Precedencia Operaciones Vectoriales
- Manejo de fechas y tiempo
- Listas, Factores, Valores Faltantes y Dataframes
- Subconjuntos de Datos
- Leer y Escribir Datos
Uso del lenguaje
- Estructuras de Control
- Funciones
- Reglas de Alcance
Sistema de gráficos
- Funciones *apply: apply
- Funciones *apply: lapply / sappy
- Funciones *apply: mapply / rep
- Graficación con el Sistema de Base de Gráficos
- Algunas Funciones Gráficas de Alto Nivel
- Parámetros en el Sistema de Gráficos
- Colores en el Sistema de Gráficos
- Graficación con Notación Matemática
- Graficación con texto y notación matemática
- Creación de Gráficas en 3D
Expresiones regulares. Gráficas con ggplot2 y Simulación
- Expresiones Regulares
- Paquete de gráficos ggplot2
- Simulación
R en el mundo real
- Estadística Descriptiva y Predictiva con R
- Integración de R en Hadoop
Obtención y limpieza de los datos (ETL)
Inferencia estadística
Pruebas de hipótesis
Modelos de regresión
Árboles de Decisión
Algoritmos de Clasificación / Regresión (J48/C5.0, M5P)
Normalización, Tipos de distancia, Correlación
Machine Learning
Comparar Artículos (k-NN)
Modelo predictivo de profit (k-NN, M5P...)
Modelo predictivo de clasificación (J48, k-NN)
Inteligencia Analítica de negocios
La teoría de grafos y el análisis de redes sociales
Presentación de resultados
¿Qué es Hadoop?
El sistema de archivos HDFS
Algunos comandos de referencia
Procesamiento MapReduce con Hadoop
El concepto de los clusters en Hadoop
¿Qué es Weka?
Técnicas de Data Mining en Weka
Interfaces de Weka
Selección de atributos
¿Qué es el Six Sigma?
Historia y Aplicación del Six Sigma
Otros Métodos de Mejora de los Procesos de Calidad
Conceptos de Lean
Conceptos Básicos de Six Sigma
Definición de los Problemas
¿Qué es un proceso?
La Gestión de la Calidad
Seleccionar los Proyectos Adecuados
Principios de Gestión Básica del Equipo Six Sigma
Introducción a los métodos DMAIC y DMADV
Definir
Medir
Analizar
Mejorar
Controlar
Análisis Gráfico
Distribución Normal de la Probabilidad
Correlación y Regresión
Distribución No-Normal de la Probabilidad
Evaluación de la Hipótesis
El Tamaño de la Muestra
Gráficos de Control Avanzados
Estadística en Aplicaciones de Negocios a Través del Six Sigma
Introducción a Minitab
Gráficos y Herramientas de Calidad de Minitab
El Menú Estadísticas en Minitab
Análisis de Varianza (ANOVA)
Diseño de Experimentos
Interacciones, Factores Multinivel y Creación de Experimentos
Tormenta de Ideas y otras Herramientas de Mejora de Procesos
Mapas de Procesos
Monitoreo de la Cadena de Valor
Titulación
Doble Titulación: – Titulación de Máster en Ingeniería de Sistemas de Toma de Decisiones con 1500 horas expedida por EDUCA BUSINESS SCHOOL como Escuela de Negocios Acreditada para la Impartición de Formación Superior de Postgrado, con Validez Profesional a Nivel Internacional – Titulación Universitaria de Curso Universitario en Creación y Gestión de Base de Datos SQL con 200 horas y 8 ECTS expedida por UTAMED – Universidad Tecnológica Atlántico Mediterráneo.