El Big Data, ¿sabemos como funciona?

El Big Data o "datos masivos" es un término que hace referencia a la “gestión” de una ingente cantidad de datos que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable con la intención de aprovechar la información que se derive de su manipulación masiva. Lo novedoso es que se puede utilizar para saber posibles, estadísticamente hablando, comportamientos futuros mediante el uso de la minería de datos masiva y los modelos predictivos. Los campos de aplicación son innumerables pero en el ámbito empresarial podemos citar el análisis de negocio, publicitarios, los departamentos de recursos humanos, consumo y ventas cruzadas, etc.

¿Cómo se generan esos datos y de dónde provienen?

Lo cierto es que todos nosotros los generamos, habitualmente sin conciencia, y cada segundo. Podemos distinguirlos según su procedencia:

·     Generados por nosotros: cuando enviamos un correo electrónico, utilizamos nuestras redes sociales, utilizamos un ERP, incluimos registros en una base de datos o introducimos datos en un EXCEL se crean nuevos datos y metadatos susceptibles de análisis que pueden ser analizados.

·      Transacciones de datos: las llamadas o la transacción entre cuentas generan nuevos datos relevantes. Un ingreso de una cantidad de euros se traduce en un movimiento en determinada fecha, hora y lugar concreto, entre unos usuarios registrados de una o más entidades bancarias. Más metadatos.

·       E-marketing y web: al navegamos por internet dejamos un profundo rastro y gran cantidad de datos por nuestra interacción con el sitio. Se utilizan una gran variedad de herramientas de tracking con fines de marketing y análisis de negocio. Por ejemplo, los simples movimientos de nuestro ratón quedan almacenados en mapas de calor, además del tiempo que estamos en esa página, el nºde clics, los abandonos de la página, etc. Basta sólo con analizar la información contenida en un informe de Adwords por ejemplo.

·    Machine to Machine (M2M): o tecnologías que comparten datos con otros dispositivos: medidores, sensores de todo tipo (temperatura, luz, altura, de presión, de sonido, GPS, etc.) que transforman en datos las magnitudes recogidas por la máquina de registro. La irrupción de las comunicaciones inalámbricas (Wi-Fi, Bluetooth, RFID…) ha supuesto un aumento exponencial de los datos susceptibles de análisis.

·       Biométrica: o datos generados por lectores biométricos como escáneres de retina, de huellas digitales o lectores de ADN. Su uso es en seguridad, defensa y servicios de inteligencia.

Respecto al análisis de los datos y teniendo en cuenta las diferentes tecnologías de almacenamiento necesitaremos acudir, también, a distintas técnicas de análisis de datos, por citar las más conocidas:

·      Asociación: buscamos relaciones entre variables. Con la premisa de causalidad pretendemos avanzar una predicción en el comportamiento de otras variables dependientes. Un ejemplo de esta clase de relaciones son los sistemas de ventas cruzadas del e-commerce.

·     Data Mining o minería de datos: es el conjunto de técnicas que combina los métodos estadísticos, de “machine learning” y almacenamiento en bases de datos. El objetivo vuelve a ser predecir comportamientos. Por su naturaleza, tiene una relación muy estrecha con los modelos que se utilizan en la construcción de patrones.

·    Clustering o agrupación: partiendo del “data mining”, el “clustering” segmenta grandes grupos de individuos en otros de menor tamaño, encontrando similitudes “ocultas” entre estos grupos porque no sabíamos de su existencia antes del análisis. El propósito final es descubrir qué tipo de “similitud” que los define y relaciona entre sí. Con una metodología apropiada, técnicas y algoritmos de clustering, encontraremos relaciones entre resultados y procederemos a una evaluación preliminar de la estructura de esos datos.

·      Text Analytics o análisis de texto: como la mayor parte de los datos que cada uno de nosotros generamos son de texto, e-mails, búsquedas web, contenidos, etc., necesitamos una metodología que nos ayude a extraer información de estos datos y agruparlos por temas, por asuntos y extraer patrones, modelos, ser capaces de predecir palabras, completar frases, hacer búsquedas conceptuales, etc.

 

Artículo realizado por: Javier Espina Hellín CEO QLC SLP