Herramientas para el Data Mining

El Data Mining es el análisis de conjuntos de datos habitualmente extensos en variables y/o casos para encontrar relaciones entre ellos y para resumir la información de forma útil y comprensible para el propietario de los datos. Aunque muchas veces está ligado a métodos novedosos, el propósito del Data Mining y de la Estadística es el mismo, siendo el matiz del tratamiento de grandes bases de datos lo que le confiere al Data Mining su especificidad. De hecho, muchas de sus técnicas son adaptaciones de métodos clásicos de la Estadística.

Este curso pretende cubrir los contenidos básicos del Data Mining mediante un camino desde el nivel básico de análisis exploratorio de datos, pasando por los modelos clásicos de regresión y clasificación (nivel intermedio) y finalizando con los métodos más punteros en el análisis de grandes bases de datos (nivel avanzado).

Dos tercios de la carga lectiva del curso tendrán carácter práctico, usando los programas de referencia R (software libre) o STATISTICA Data Miner (licencia comercial).

  • Coordinador: Manuel Febrero Bande
  • Equipo de desarrollo: Manuel Febrero, Ricardo Cao y Juan Tejada
  • Sector: Transversal
  • Software: R, STATISTICA Data Miner

MÓDULOS DE NIVEL BÁSICO

Módulo B1. Preprocesado de datos y análisis exploratorio

Conocimientos previos: Estadística básica y manejo del ordenador a nivel usuario

Número de horas: 15 horas (5 h. teoría y 10 h. prácticas)

Contenido:

  • Preparación: adquisición, limpieza, transformación, selección, imputación, muestreo, binning.
  • Cubos OLAP
  • Análisis de atributos (CHAID)
  • Detección de Outliers
  • Análisis descriptivo secuencial
  • Visualización de resultados
  • Métodos de reducción de la dimensión: análisis de componentes principales, análisis factorial

 
MÓDULOS DE NIVEL MEDIO

Módulo M1. Métodos básicos de regresión, clasificación y discriminación

Conocimientos previos: Conocimientos básicos de variables aleatorias

Número de horas: 15 horas (5 h. teoría y 10 h. prácticas)

Contenido:

  • Modelos de Regresión o Modelos Lineales, Métodos de selección de variables, Modelos lineales generalizado.
  • Métodos de clasificación y discriminación o Análisis cluster: Métodos jerárquicos, basados en densidad, Algoritmo k-medias, Análisis discriminante (Fisher, Cuadrático)

MÓDULOS DE NIVEL AVANZADO

Módulo A1. Métodos avanzados de regresión, clasificación y discriminación

Conocimientos previos: Conocimientos de los módulos básicos y medios

Número de horas: 15 horas (5 h. teoría y 10 h. prácticas)

Contenido:

  • Modelos de Regresión o Redes neuronales, Support Vector Machines, Árboles de regresión.
  • Métodos de clasificación y discriminación o Clasificadores tipo árbol, Redes neuronales para clasificación, SVM para clasificación, Otros clasificadores: Mínima distancia, k-NN, Locally Weighted Residuals, RBF.
Módulo A2. Multimedia Data Mining

Conocimientos previos: Conocimientos de los módulos básicos y medios

Número de horas: 15 horas (5 h. teoría y 10 h. prácticas)

Contenido:

  • Text Mining
  • Web Mining
  • Image Mining
  • Video Mining

INSCRIPCIÓN

Este curso se realiza bajo demanda. Para solicitar información rellene el siguiente formulario.