Modeling

En este post continuamos la descripción de las fases de la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), tras haber descrito la Fase III de Data Preparation o análisis y preprocesado de los datos, a la que sigue la cuarta fase de Modeling o modelado.

Como recordatorio, la información está resumida de:

Chapman, Pete (NCR); Clinton, Julian (SPSS); Kerber, Randy (NCR); Khabaza, Thomas (SPSS); Reinartz, Thomas (DaimlerChrysler); Shearer, Colin (SPSS); Wirth, Rüdiger (DaimlerChrysler). Step-by-step data mining guide. 2000. 

DataPrix. Metodología CRISP-DM para minería de datos. 2007.

CRISP-DM Fase IV. Modeling. Modelado

La siguiente figura presenta las diferentes tareas que componen esta fase. 

Selección de la técnica de modelado

En este punto se selecciona la técnica de modelado real a utilizar. Aunque se haya podido seleccionar una herramienta durante la fase de “comprensión del negocio”, esta tarea se refiere a la técnica de modelado específico. Si se aplican múltiples técnicas, se realiza esta tarea para cada técnica seleccionada.

Muchas técnicas de modelado hacen asunciones específicas sobre los datos -por ejemplo, que todos los atributos tengan distribuciones uniformes, no encontrar valores no permitidos, etc.-, que hay que tener en cuenta.

La checklist para el gestor del proyecto:

  • Decidir las técnicas apropiadas para el escenario, teniendo en cuenta la herramienta seleccionada.
  • Registrar las técnicas de modelado reales que se van a emplear.
  • Analizar cualquier asunción realizada por la técnica de modelado sobre los datos (por ejemplo, la calidad, el formato, la distribución), compararlas con el informe de descripción de datos, y asegurarse de que siguen siendo válidas.


Diseño del test

Antes de construir un modelo, hay que probar la calidad y validez del modelo. Típicamente se separa el conjunto de datos en un conjunto de entrenamiento y uno de evaluación; se construye el modelo sobre el conjunto de entrenamiento, y se estima su calidad sobre el conjunto de evaluación. En esta fase se describe el plan para el entrenamiento y la evaluación de los modelos, y se determina cómo se divide el conjunto de datos disponible en datos de entrenamiento y de datos de evaluación. También se pueden establecer otras estrategias de evaluación, como el uso de validación cruzada (cross-validation).

La checklist:

  • Comprobar que existen tests de prueba para cada objetivo de minería de datos.
  • Definir los pasos necesarios (el número de iteraciones, métricas objetivo, etc.).
  • Preparar los datos requeridos para la prueba.

Construcción del modelo

Una vez hemos seleccionado el conjunto de datos de entrenamiento, se ejecuta la herramienta de modelado sobre él para crear uno o más modelos. En cualquier herramienta de modelado, existen a menudo un gran número de parámetros que pueden ser ajustados, así que es necesario listar los parámetros y sus valores escogidos, con el razonamiento para ajustar los parámetros a ese valor.

Al final de esta fase se obtienen los modelos reales producidos por la herramienta (no un informe), y es necesario describirlos, interpretarlos y documentar cualquier dificultad encontrada con sus significados.

La checklist de esta tarea:

  • Describir cualquier característica del modelo actual que puede ser útil para el futuro.
  • Ajustar los parámetros de ejecución usados para producir el modelo.
  • Dar una descripción detallada del modelo y cualquier rasgo especial.
  • Para modelos basados en reglas, listar las reglas producidas, más cualquier evaluación de cada regla y la precisión global del modelo
  • Para modelos "caja negra", listar cualquier información técnica sobre el modelo (como la topología de las redes neuronales) y cualquier descripción de comportamiento producido por el proceso de modelado (como la exactitud o la sensibilidad).
  • Describir el comportamiento del modelo y su interpretación.
  • Expresar conclusiones respecto a los patrones en los datos (si hay alguno).

Evaluación del modelo

Para evaluar el modelo es necesario interpretarlo según el dominio, los criterios de éxito y el diseño de prueba deseado, clasificarlo, evaluarlo según los criterios de evaluación, aplicar una sola técnica más de una vez, generar resultados con varias técnicas diferentes y, finalmente, comparar todos los resultados según los criterios de evaluación. Como salida de esta tarea se deben resumir los resultados de evaluación, listar la calidad obtenida por todos los modelos generados (por ejemplo, en términos de exactitud -accuracy-), y clasificar su calidad en relación con los demás.

Según la evaluación del modelo, se deben revisar  y ajustar los parámetros de configuración para la siguiente iteración de la tarea de “construcción del modelo”, así como repetir la construcción y evaluación del modelo hasta que se encuentre el mejor modelo.

La lista de comprobación:

  • Ejecutar los tests de evaluación y evaluar los resultados en lo que concierne a criterios de evaluación.
  • Comparar los resultados de la evaluación y la interpretación.
  • Hacer un ranking de resultados en lo que concierne a criterios de éxito y evaluación, y seleccionar los mejores modelos.
  • Interpretar los resultados en términos de negocio (tanto como sea posible en esta etapa).
  • Conseguir los comentarios de los modelos por expertos en los datos o en el dominio.
  • Chequear la credibilidad del modelo.
  • Comprobar los efectos sobre los objetivos de minería de datos.
  • Comprobar los modelos contra una base de conocimiento determinada para ver si la información descubierta es nueva y útil.
  • Comprobar la fiabilidad de los resultados.
  • Analizar el potencial para el desarrollo de cada resultado.
  • Si hay una descripción verbal del modelo generado (por ejemplo, en forma de reglas), evaluar las reglas.
  • Analizar aspectos específicos de cada técnica de modelado y determinar si es posible realizar ciertos ajustes en los parámetros que pudieran conducir a mejores resultados.


Con esta tarea concluye la Fase IV, Modeling, centrada propiamente en el modelado de los datos mediante algoritmos de aprendizaje computacional. En un siguiente post abordaremos la Fase V, Evaluation, de obtención de resultados y evaluación.

Nuestro equipo de profesionales puede abordar proyectos de Data Analytics en cualquier escenario complejo con las máximas garantías de éxito, aplicando la metodología CRISP-DM. Si tiene cualquier pregunta o necesidad en estas áreas, por favor, no dude en contactar con nosotros, que estaremos encantados de ayudarle.