Pasar al contenido principal

Big data

Big data es un término utilizado en el sector de las tecnologías de la información y la comunicación para describir a un conjunto de una cantidad enorme de datos que presenta gran diversidad y alta complejidad de contenidos y que necesita ser procesado a gran velocidad, lo que produce que se superen las capacidades de los sistemas informáticos habituales.

El concepto big data también alude al conjunto de tecnologías que se ocupan de la recopilación, manejo, análisis y gestión de los grandes volúmenes de datos generados como consecuencia de la actividad de los usuarios de Internet. El propósito de las tecnologías big data es recopilar datos masivos generados “en bruto” y procesarlos, para identificar patrones o conductas que permitan obtener información relevante para ciertos sectores u organizaciones.

Algunos ejemplos de datos y tecnologías big data son el análisis de las transacciones de comercio electrónico, el procesamiento de las publicaciones de Twitter o el seguimiento de los mercados financieros.

Macrodatos e inteligencia de datos son las alternativas en español al término en inglés big data que propone la FundéuRAE (Fundación del Español Urgente). También se conocen como datos masivos.

El big data puede ayudar a predecir acontecimientos futuros analizando las tendencias globales, una capacidad no exenta de polémica. Los críticos sostienen que este concepto representa una violación de la privacidad, y que puede ser una herramienta potencial para que los gobiernos y las empresas espíen a las personas o para que se puedan manipular las corrientes de opinión.

El concepto big data tomó impulso a principios de la década de 2000. Fue creado por el analista Doug Laney teniendo en cuenta lo que se conoce como las tres “V”:

  • Volumen: las organizaciones recopilan datos de innumerables fuentes. En el pasado, almacenarlos habría sido imposible.
  • Velocidad: la aparición de la Internet de las Cosas (IoT) ha hecho que los datos se muevan a gran velocidad, lo cual comporta la necesidad de manejar la información en tiempo real.
  • Variedad: en la actualidad se manejan tipos de datos muy diversos: numéricos, de texto, correos, vídeos, audios, transacciones…

A estas 3 “V” iniciales se han ido sumando otras como:

  • Veracidad: se refiere a la fiabilidad de la información recogida, un aspecto importante para obtener unos datos y análisis de calidad.
  • Visualización: la conversión de hojas de información en un único gráfico que muestre con claridad las conclusiones de forma sencilla.
  • Valor: conseguir los datos de forma eficiente para extraer pequeñas informaciones de valor.
  • Variabilidad: la necesidad constante de adaptación a un entorno cambiante requiere un control periódico de los modelos o tratamientos que se apliquen.

Los sistemas big data analizan 3 tipos de datos:

  1. Datos estructurados: se pueden almacenar en tablas y tienen un formato y longitud claros. Son, por ejemplo, los números, las cadenas de caracteres, las fechas, etc.
  2. Datos no estructurados: se encuentran tal cual fueron recogidos en su forma original y no tienen un formato específico, por lo que no se pueden almacenar de forma tradicional. Son, por ejemplo, los correos electrónicos o los archivos ofimáticos con diferentes formatos como los que tienen extensión pptx o pdf entre otros.
  3. Datos semiestructurados: cuentan con una estructura, pero no es lo suficientemente regular como para considerarse un dato estructurado. En esta categoría entrarían, entre otros, los lenguajes de programación basados en etiquetas como XML o HTML.

El análisis del big data permite detectar patrones y tendencias de comportamiento, así como pistas o indicadores que faciliten la toma de decisiones y el desarrollo de acciones de negocio estratégicas,siendo por ello un activo muy valioso para cualquier empresa. En otras palabras, el big data proporciona un punto de referencia a partir del cual actuar o decidir. Analizar cantidades tan grandes de información hace que los datos puedan ser moldeados o probados del modo que la organización propietaria considere adecuado. De este modo, las organizaciones son capaces de identificar los problemas de una forma más comprensible y eficiente. También se pueden identificar nuevas oportunidades que generen ganancias y clientes, reducir costes y crear nuevos productos y servicios.

El big data y la ciberseguridad se necesitan mutuamente. Por un lado, mantener la privacidad de esos grandes volúmenes de información es fundamental. Son un objetivo muy codiciado por los ciberdelincuentes y deben estar muy bien protegidos. A su vez, el big data tiene un rol importante en la ciberseguridad por su capacidad para procesar y examinar datos, algo que permite, por ejemplo, identificar a usuarios que comprometan la integridad de dichos datos.

Hoy en día, la capacidad de procesamiento de datos es una herramienta esencial en cualquier estrategia de ciberseguridad y un requisito decisivo a la hora de detectar y clasificar ciberamenazas, ya que permite saber qué está ocurriendo en tiempo real, y también trazar patrones a lo largo del tiempo. Así, el big data, unido a otras tecnologías como el aprendizaje automático o machine learning, permite generar modelos de predicción altamente precisos, que permiten averiguar en qué escenario se podría sufrir un ciberataque o cuál sería el ciberataque más probable.