Data science: el poder de los datos

El data science o ciencia de los datos es un conjunto de herramientas que permiten extraer conocimiento a partir de los datos. Es un campo interdisciplinar que engloba competencias de estadística, matemáticas, programación, minería de datos, machine learning y visualización de datos, así como conocimientos empresariales y del sector al que se aplique.

Datamining:

Es el proceso de exploración y análisis de la información, en términos automáticos o semiautomáticos, de enormes volúmenes de información en vía de descubrir patrones de comportamiento y reglas importantes para una compañía.

Tipos de modelos.

Predictivo o supervisado
(si se sabe lo que se busca):

  • Modelo de Clasificación: Busca predecir la clase (valor discontinuo) de la información existente.
    Ejemplo: Validar si la transacción es normal o fraudulenta.
  • Modelo de Regresión: Busca predecir el valor continuo de la información existente.
    Ejemplo: Estimar demanda de productos

Descriptivo o no supervisado
(no se sabe lo que se busca):

  • Agrupamiento (Cluster): Busca formar un grupo que reúnan características en común. 
    Ejemplo: Identificar las personas que tienen los mismos hábitos de compra.
  • Regla de asociación: Busca identificar reglas que involucran la ocurrencia de eventos simultáneos.
    Ejemplo: Ofertas de productos como “Tallarines con Salsa de Tomates”
  • Análisis Correccional: Buscar identificar correlaciones entre variables de interés. 
    Ejemplo: Se requiere saber los factores que influyen para contraer cancer de pulmon.

Caso de ejemplo: Estimar el precio de los automóviles de acuerdo a sus características según su data histórica.

Archivos de Entrenamiento y para Validar el Modelo

Archivo de los vehículos con los precios para entrenamiento el modelo

Archivo con los vehículos para estimar los precios

Aplicar el modelo

Usar 2 modelos donde el primero es el modelo de Regresión Lineal y el segundo es el modelo de redes neuronales Perceptron Multicapa y con ello se compara para su poder predictor y el porcentaje de ajuste que tengan

Evaluación del modelo

De acuerdo a los resultados en la predicción el mejor es el Modelo de Perceptron Multicapa, porque tiene un 95% de predicción y un 3% de ajuste.

Entregables

Implementación del Modelo para Estimar el Precio