Data science: el poder de los datos
El data science o ciencia de los datos es un conjunto de herramientas que permiten extraer conocimiento a partir de los datos. Es un campo interdisciplinar que engloba competencias de estadística, matemáticas, programación, minería de datos, machine learning y visualización de datos, así como conocimientos empresariales y del sector al que se aplique.
Datamining:
Es el proceso de exploración y análisis de la información, en términos automáticos o semiautomáticos, de enormes volúmenes de información en vía de descubrir patrones de comportamiento y reglas importantes para una compañía.
Tipos de modelos.
Predictivo o supervisado
(si se sabe lo que se busca):
- Modelo de Clasificación: Busca predecir la clase (valor discontinuo) de la información existente.
Ejemplo: Validar si la transacción es normal o fraudulenta. - Modelo de Regresión: Busca predecir el valor continuo de la información existente.
Ejemplo: Estimar demanda de productos
Descriptivo o no supervisado
(no se sabe lo que se busca):
- Agrupamiento (Cluster): Busca formar un grupo que reúnan características en común.
Ejemplo: Identificar las personas que tienen los mismos hábitos de compra. - Regla de asociación: Busca identificar reglas que involucran la ocurrencia de eventos simultáneos.
Ejemplo: Ofertas de productos como “Tallarines con Salsa de Tomates” - Análisis Correccional: Buscar identificar correlaciones entre variables de interés.
Ejemplo: Se requiere saber los factores que influyen para contraer cancer de pulmon.
Caso de ejemplo: Estimar el precio de los automóviles de acuerdo a sus características según su data histórica.
Archivos de Entrenamiento y para Validar el Modelo
Archivo de los vehículos con los precios para entrenamiento el modelo
Archivo con los vehículos para estimar los precios
Aplicar el modelo
Usar 2 modelos donde el primero es el modelo de Regresión Lineal y el segundo es el modelo de redes neuronales Perceptron Multicapa y con ello se compara para su poder predictor y el porcentaje de ajuste que tengan
Evaluación del modelo
De acuerdo a los resultados en la predicción el mejor es el Modelo de Perceptron Multicapa, porque tiene un 95% de predicción y un 3% de ajuste.
Entregables
Implementación del Modelo para Estimar el Precio