Reglas de asociación y Data mining

enero 13, 2021

Las reglas de asociación es una técnica de inteligencia artificial ampliamente utilizada en Data Mining.

La realización de base de datos se ha vuelto una acción fundamental para las empresas, pero a consecuencia de la generación masiva de estos, nos encontramos frente a un problema, la infoxicación, disponemos de tanta información, que a veces es imposible organizarla con efectividad. Por ello, la clave está en descubrir patrones o algoritmos para sacarle el máximo partido, y aquí es donde entra en juego el Data Mining o minería de datos.

El Data Mining es un conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.

Data Mining para la organización de datos

El data mining, también conocido como minería de datos, es un concepto que hace referencia a la parte de un proceso de descubrimiento del conocimiento. Es decir, es un proceso que consta de varias fases para poder determinar todo este conocimiento en su conjunto, de ahí que entren en juego otros conceptos como el big data o el machine learning.

Así, para poder manejar todos estos datos nos apoyamos en sistemas y medios de almacenamiento masivo que permiten una clasificación más organizada, dando origen a la aparición de la minería de datos, siendo un repositorio integrado que, a su vez, daba soporte a los datos y procesos empleados en la toma de decisiones.

Objetivo

El objetivo principal es encontrar correlaciones entre los diferentes elementos u objetos de las bases de datos relacionales, transaccionales o data-warehouses. Asimismo, es de vital importancia describir el algoritmo, explicar sus fases y definir las medidas alternativas para el proceso de descubrimiento de estas asociaciones.

Herramientas Data Mining

Las herramientas de Data Mining permiten predecir tendencias y comportamientos que ayudan a descubrir información relevante a través de técnicas que buscan patrones ocultos, por ejemplo brindar respuestas a preguntas como: ¿Cuáles estudiantes tienen mayor probabilidad de terminar su carrera profesional y por qué?

La extracción de conocimiento está principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no trivial de descubrir e identificar conocimiento, patrones válidos e información potencialmente útil dentro de los datos contenidos en algún repositorio de información. Se trata de convertir datos en información.

Herramientas para hacer Data Mining

RapidMiner, IBM SPSS, SAS, R, Python, Orange, KNIME, Spark, Apache Mahout y Weka.

Ténicas Data Mining

Redes neuronales artificiales

Radica en el aprendizaje secuencial, el hecho de utilizar transformaciones de las variables originales para la predicción y la no linealidad del modelo.

Árboles de decisión

Permiten obtener de forma visual las reglas de decisión bajo las cuales operan los consumidores, a partir de datos históricos almacenados.

Agrupamiento (Clustering)

Agrupa un conjunto de observaciones en un número dado de clusters o grupos, está basado en la idea de similitud de los grupos.

Algoritmo Jerárquico

Se debe calcular la distancia entre los pares de objetos o clusters, se busca los dos clusters más cercanos, éstos se juntan y constituyen uno solo, se repite los pasos hasta que no quedan pares de comparación.

Regla de Inducción

Consiste en derivar un conjunto de reglas para clasificar casos, generan un conjunto de reglas independientes que permiten contrastar árboles de decisión y patrones a partir de los datos de entrada.

La información de entrada será un conjunto de casos en que se ha asociado una clasificación a un conjunto de variables o atributos.

Ejemplos de aplicaciones de la minería de datos

Casos de uso

El análisis de la minería de datos les permite saber a las compañías cuál es el siguiente paso que deben tomar. Descubrir patrones de consumo y correlaciones les da una perspectiva clara para tomar decisiones inteligentes y seguras.

Coca Cola

Coca Cola utiliza Tableau como solución de inteligencia empresarial que realiza análisis y minería de datos. Con base en esta tecnología, pasó de la generación de informes manual a la automática y aumentó la eficiencia de su proceso de aseguramiento de la calidad. Permite análisis y recomendaciones procesables que se utilizan activamente a diario en la empresa para tomar mejores decisiones comerciales.

Amazon

Amazon es el rey del ecommerce porque adoptó tecnología de vanguardia para recolectar, analizar y utilizar la cantidad masiva de datos a la que tienen acceso a partir del historial de búsqueda y de compra de una persona.

Dos de sus herramientas más avanzadas para el análisis de datos son sus algoritmos publicitarios y su “Amazon Elastic MapReduce platform for machine learning”, que les permite proporcionar a sus clientes los productos que buscan y que necesitan, más rápido y más económico que cualquiera de sus competidores.

Netflix

Con aproximadamente 100 millones de usuarios, los analistas de datos de Netflix recolectan y analizan enormes cantidades de datos relacionados al comportamiento del usuario: los géneros que busca, el número de capítulos que ve seguidos, el tiempo que se demora escogiendo algo que ver, etc.

Este análisis les ayuda a predecir qué quiere ver una persona y qué tipo de series o películas deben producir.

Después del lanzamiento de su plataforma de “online streaming” en 2007, les tomó 6 años para recolectar los datos necesarios para producir su propia serie que tenía éxito asegurado: House of cards. Todo este esfuerzo se tradujo en el premio que ganó la compañía al mejor algoritmo para predecir qué contenido le gustaría ver a los consumidores, basado en su historial. Este algoritmo vale ahora 1 billón de dólares al año en retención de clientes.

Apple

Gracias al análisis de datos, Apple ha logrado posicionarse no solo como la mejor compañía de tecnología, sino como una de las que más clientes fieles tiene alrededor del mundo.

Gracias a la amplia gama de aplicaciones que han lanzado para banca, seguros, viajes y entretenimiento y al lanzamiento de dispositivos portátiles como el iWatch, Apple está recopilando más datos de clientes que nunca.

Conclusión

Hoy en día, la búsqueda, el análisis y la gestión de datos representan un mercado de grandes oportunidades laborales. El profesional de data mining trabaja las bases de datos para evaluar la información y descartar la que no sea útil o confiable. Para ello, debe contar con conocimientos sobre big data, informática y análisis de información, y ser capaz de manejar diferentes tipos de software.

What do you think?

More notes