El Máster en Data Engineering es una disciplina altamente relevante en el contexto actual, donde los datos se han convertido en uno de los activos más valiosos para las organizaciones. El estado del arte en este campo muestra la importancia de gestionar y analizar grandes volúmenes de datos de manera eficiente y efectiva para obtener información valiosa. El Data Engineering abarca conocimientos y técnicas especializadas en el diseño, implementación y mantenimiento de infraestructuras de datos, así como en el procesamiento y transformación de datos a gran escala. Con el auge de la inteligencia artificial, el aprendizaje automático y el análisis de datos, el Máster en Data Engineering se presenta como una oportunidad para formarse en una disciplina con gran demanda en el mercado laboral.
El Máster en Data Engineering está dirigido a profesionales del ámbito de la informática, ingeniería o disciplinas relacionadas que deseen especializarse en el manejo y procesamiento de grandes volúmenes de datos. También es adecuado para aquellos que trabajan en roles relacionados con el análisis de datos, la inteligencia artificial o la automatización.
Objetivos
– Repasar los principios de la computación.
– Abordar el Big Data desde la óptica de la ingeniería.
– Estudiar el Data Science en sus fundamentos de almacenamiento, análisis y procesamiento de Datos.
– Mejorar las habilidades relacionadas con el cálculo numérico en ingeniería
– Emplear las herramientas de Python y R para el procesamiento, análisis y estudio de los Datos.
– Ahondar en los campos del Machine Learning y el Deep Learning.
– Conocer los aspectos básicos sobre los computadores.
– Adquirir una introducción a la programación y herramientas de cálculo numérico.
– Conocer el sistema MATLAB.
– Adquirir lo referente sobre las ecuaciones algebraicas de una variable.
– Realizar una interpolación y aproximación.
Salidas Profesionales
El Máster en Data Engineering te proporciona una amplia gama de salidas laborales en un mercado en constante crecimiento. Podrás trabajar como Data Engineer en empresas de diferentes sectores, donde serás responsable de diseñar y construir infraestructuras de datos, desarrollar y mantener pipelines de datos eficientes, y garantizar la integridad y calidad de los datos.
Proceso, conceptos y actitudes del pensamiento computacional
Proceso de simulación
Concepto y procesos de paralelismo automatización
Trabajo en equipo en el pensamiento computacional
Abstracción en pensamiento computacional
Descomprimir los elementos
Proceso de evaluación de pensamiento computacional
Posibles problemas
Datos relacionados con de entrada y salida en el pensamiento
Solución al problema
¿Qué es Big Data?
Paradigmas de procesamiento en Big Data
Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez)
MapReduce
Hadoop
Apache Hadoop YARN
Agregación de los logs de YARN
Obtención de datos en HDFS
Planificación de un cluster Hadoop
Instalación y configuración de Hive, Pig e Impala
Clientes Hadoop incluidos en Hue
Configuración avanzada de un cluster
Seguridad Hadoop
Gestión de recursos
Mantenimiento de un cluster
Solución de problemas y monitorización de un cluster
Data Science
Apache Spark
Machine Learning
Apache Spark MLlib
Datasets y Dataframes
Operaciones en Dataframe
Trabajar con Dataframes y Schemas
Crear Dataframes a partir de Data Sources
Guardar DataFrames en Data Sources
DataFrame Schemas
Rapidez y lentitud de ejecución
Análisis de datos con consultas de DataFrame
RDD
Transformación de datos con RDDs
Agregación de datos con Pair RDDs
Consulta y vistas de tablas con Spark SQL
Creación, configuración y ejecución de aplicaciones Spark
Procesamiento distribuido
Persistencia de datos distribuidos
Patrones comunes al procesar datos con Spark
Spark Streaming: Introducción a DStreams
Spark Streaming: procesamiento de múltiples lotes
Apache Spark Streaming: Data Sources
Introducción a Pig
Análisis de datos básico con Pig
Procesado de datos complejos con Pig
Operaciones con multiconjuntos de datos con Pig
Troubleshooting y optimización de Pig
Introducción a Hive e Impala
Consultas con Hive e Impala
Administración de datos
Almacenamiento y datos de rendimiento
Análisis de datos relacional con Hive e Impala
Datos complejos con Hive e Impala
Análisis de texto con Hive e Impala
Optimización Hive
Optimización de Impala
Extendiendo Hive e Impala
¿Qué es la ciencia de datos?
Herramientas necesarias para el científico de datos
Data Science & Cloud Computing
Aspectos legales en Protección de Datos
Introducción
El modelo relacional
Lenguaje de consulta SQL
MySQL Una base de datos relacional
¿Qué es una base de datos NoSQL?
Bases de datos Relaciones Vs Bases de datos NoSQL
Tipo de Bases de datos NoSQL Teorema de CAP
Sistemas de Bases de datos NoSQL
¿Qué es MongoDB?
Funcionamiento y uso de MongoDB
Primeros pasos con MongoDB: Instalación y shell de comandos
Creando nuestra primera Base de Datos NoSQL: Modelo e Inserción de Datos
Actualización de datos en MongoDB: Sentencias set y update
Trabajando con índices en MongoDB para optimización de datos
Consulta de datos en MongoDB
¿Qué es Weka?
Técnicas de Data Mining en Weka
Interfaces de Weka
Selección de atributos
Una aproximación a PENTAHO
Soluciones que ofrece PENTAHO
MongoDB & PENTAHO
Hadoop & PENTAHO
Weka & PENTAHO
Introducción a R
¿Qué necesitas?
Tipos de datos
Estadística Descriptiva y Predictiva con R
Integración de R en Hadoop
Obtención y limpieza de los datos (ETL)
Inferencia estadística
Modelos de regresión
Pruebas de hipótesis
Inteligencia Analítica de negocios
La teoría de grafos y el análisis de redes sociales
Presentación de resultados
Introducción
Conceptos básicos sobre computadores
Componentes de un computador
Software de un computador
Parámetros característicos del computador digital
Clasificación de los computadores
Breve historia de los computadores
Estudio de los computadores
Computación Científica en supercomputadores
Introducción
Resolución de problemas
Lenguajes de programación
Herramientas de cálculo numérico
Introducción
Acceso a MATLAB
Introducción de matrices
Operaciones sobre matrices y componentes de matrices
Expresiones y variables
El espacio de trabajo
Funciones para construir matrices
Control de flujo programando en MATLAB
Funciones escalares
Funciones vectoriales
Funciones matriciales
Generación de submatrices
Ficheros .M
Entrada y salida de texto
Medidas de eficiencia de algoritmos
Formato de salida
Gráficos en dos dimensiones
Gráficos en tres dimensiones
Elaboración de programas en MATLAB
Introducción
Representación interna de números
Errores debidos a la representación interna de los números
Errores en la realización de operaciones
Algoritmos estables e inestables. Condicionamiento de un problema
Ejercicios complementarios
Introducción
Método de bisección o bipartición
Método de interpolación lineal o Regula Falsi
Método de aproximaciones sucesivas o punto fijo
Método de Newton-Raphson
Método de la secante
Criterios de convergencia para los métodos iterativos
Dificultades a la hora de calcular las raíces de una función
Cálculo de ceros de polinomios
Ejercicios complementarios
Introducción
Métodos directos
Métodos iterativos
Comparación entre métodos iterativos y directos
Introducción a los sistemas de ecuaciones algebraicas no lineales
Ejercicios complementarios
Introducción
Interpolación polinomial
Aproximación por polinomios
Introducción a la interpolación por funciones racionales
Ejercicios complementarios
Introducción
Diferenciación numérica
Integración numérica
Ejercicios complementarios
¿Qué es el análisis de datos?
Análisis de datos con NumPy
Pandas
Matplotlib
Cómo usar loc en Pandas
Cómo eliminar una columna en Pandas
Pivot tables en pandas
El grupo de pandas
Python Pandas fusionando marcos de datos
Matplotlib
Seaborn
Aprendizaje automático
Regresión lineal
Regresión logística
Estructura de árbol
Algoritmo de Naive bayes
Tipos de Naive Bayes
Máquinas de vectores soporte (Support Vector Machine-SVN
2.¿Cómo funciona SVM?
Núcleos SVM
Construcción de clasificador en Scikit-learn
K-nearest Neighbors (KNN)
Implementación de Python del algoritmo KNN
Análisis de componentes principales
Algoritmo de random forest
¿Qué es la ciencia de datos?
Herramientas necesarias para el científico de datos
Data Science & Cloud Compunting
Aspectos legales en Protección de Datos
Introducción
El modelo relacional
Lenguaje de consulta SQL
MySQL. Una base de datos relacional
Introducción a Python
¿Qué necesitas?
Librerías para el análisis de datos en Python
MongoDB, Hadoop y Python. Dream Team del Big Data
Introducción a R
¿Qué necesitas?
Tipos de datos
Estadística Descriptiva y Predictiva con R
Integración de R en Hadoop
Obtención y limpieza de los datos (ETL)
Inferencia estadística
Modelos de regresión
Pruebas de hipótesis
Inteligencia Analítica de negocios
La teoría de grafos y el análisis de redes sociales
Presentación de resultados
Introducción
Clasificación de algoritmos de aprendizaje automático
Ejemplos de aprendizaje automático
Diferencias entre el aprendizaje automático y el aprendizaje profundo
Tipos de algoritmos de aprendizaje automático
El futuro del aprendizaje automático
Introducción
Algoritmos
Introducción
Filtrado colaborativo
Clusterización
Sistemas de recomendación híbridos
Clasificadores
Algoritmos
Componentes
Aprendizaje
Introducción
El proceso de paso de DSS a IDSS
Casos de aplicación
Aprendizaje profundo
Entorno de Deep Learning con Python
Aprendizaje automático y profundo
Redes neuronales
Redes profundas y redes poco profundas
Perceptrón de una capa y multicapa
Ejemplo de perceptrón
Tipos de redes profundas
Trabajar con TensorFlow y Python
Entrada y salida de datos
Entrenar una red neuronal
Gráficos computacionales
Implementación de una red profunda
El algoritmo de propagación directa
Redes neuronales profundas multicapa
Titulación
Titulación de Máster de Formación Permanente en Data Engineering con 1500 horas y 60 ECTS expedida por UTAMED – Universidad Tecnológica Atlántico Mediterráneo.