Glosario IA

datos masivos / big data

DATOS MASIVOS (BIG DATA)

Los datos masivos [Big Data] constituyen la manifestación contemporánea del registro general de la vida social, física, ecológica y biológica que comenzó hace tres siglos con la constitución de la ciencia y la técnica modernas, pero en especial con el surgimiento de la estadística, una rama de las matemáticas que obtiene inferencias basadas en el cálculo de probabilidades. A partir de la intención, en la política y en la ciencia, de obtener registros se generan datos. El dato es cualquier unidad dentro de esos registros que porta una diferencia, una anomalía o señala una pérdida de uniformidad dentro de una serie (Floridi, 2011). Esto quiere decir que no cualquier registro constituye un dato, que el dato como tal es una entidad relacional, y que no es algo “dado”, evidente por sí mismo. Es el producto de una actividad de “abstracción del mundo en categorías, medidas y otras formas de representación que constituyen las unidades básicas a partir de las cuales se crea la información y el conocimiento” (Kitchin, 2014, p.1).

Fue justamente la noción de información, acuñada en el campo de las telecomunicaciones a fines del siglo XIX, la que le dio a la cuestión de los datos un aspecto de gestión técnica de esas diferencias y anomalías que hizo posible, luego, la creación de sistemas digitales. A mediados del siglo XX, pero con mucho más fuerza a partir de la década de 1970, los avances en la digitalización de señales y en la informática comenzaron a dar lugar a un proceso de datificación, entendida como un proceso de cuantificación, tabulación y análisis de una gran cantidad de fenómenos, fundamentalmente de carácter social. La diversificación de las tecnologías digitales en la primera década del siglo XXI generó un salto en los fenómenos de cuantificación y cálculo y de allí surge lo que se conoce como datos masivos o Big Data.

El término Big Data se remonta a mediados de la década de 1990. En 2001 Doug Laney señaló sus tres rasgos característicos, respecto del estudio clásico de los datos y de la estadística tradicional, que son conocidos como “las tres V”:

⦁ Volumen (se analizan una gran cantidad de datos).
⦁ Velocidad (esos datos son creados en tiempo real).
⦁ Variedad (los datos pueden estar estructurados, semiestructurados o no estructurados).

La combinación de las tres V origina a su vez una cuarta, la veracidad, en la medida en que, dada la intensidad de la datificación, se hace necesario tratar de reproducir lo mejor posible los ejercicios de validación a los que están sometidos los datos burocráticos o de encuestas tradicionales (Sosa Escudero, 2019).

A partir de las cuatro V se derivan otras cualidades del Big Data que son en ocasiones, también, criterios normativos (aunque no legales) para su aplicación:

⦁ Exhaustividad (es posible captar un sistema completo, en lugar de un muestreo a partir de registros).
⦁ Granulación fina (en términos de resolución) e indexado de manera exclusiva y única (en términos de identificación).
⦁ Relacionalidad (que contiene campos comunes que permiten la unión de diferentes conjuntos de datos).
⦁ Extensionalidad (se puede agregar y cambiar nuevos campos fácilmente) y escalabilidad (puede expandirse en tamaño rápidamente).
⦁ Valorización (los datos pueden ser reutilizados con diferentes propósitos) y variabilidad (los “significados” de los datos pueden cambiar cuando cambia el contexto en el cual son generados).

La constitución del Big Data conlleva importantes problemas y desafíos sociales y políticos. El hecho de que se hayan multiplicado los dispositivos digitales a partir de los cuales se extrae, se procesa y se modeliza el Big Data en interacción constante con la vida social permite plantear la existencia de una “sociedad computada” o “plataformizada” en la cual “si algo no se representa como un nodo, para la red no existe. Asimismo, un proceso o entidad sólo puede representarse en una red si puede describirse en términos de las relaciones que la red puede contar o procesar. Algo que no se puede codificar como miembro potencial de la red no puede ser contabilizado por ella. Este proceso de nodocentrismo está igualmente implícito en el modelado social que representa al flujo social en un modelo basado en datos procesados informáticamente” (Couldry, Mejías, 2019: 4).

Por otro lado, el Big Data supone una proliferación de actores en la gestión de datos que marcan un quiebre respecto de las épocas más tradicionales de la estadística organizada alrededor del Estado. Se puede decir que las corporaciones (Facebook, Apple, Microsoft, Google y Amazon en Occidente), Baidu, Alibaba, Tencent y Xiaomi en Oriente) compiten con –y muchas veces superan a– los estados en dicha gestión, y que además hay sectores civiles (activistas, periodistas, etc.), sectores informales de diversa “peligrosidad” (terroristas, piratas informáticos) e incluso entidades más pequeñas (gestión de hardware y de software, de análisis de datos, spammers, etc.), que pueden producir, recopilar y analizar datos para diferentes propósitos.

La íntima relación entre el Big Data y la IA y la problemática de la ciencia de datos asociada a esta relación obliga a preguntarse por el carácter de bien público o de servicio público a la que dan lugar las plataformas basadas en estas tecnologías.

REFERENCIAS
Floridi, Luciano (2011). The Philosophy of Information. Oxford, Oxford University Press, 2011.
Kitchin, Rob (2014). “Big Data, new epistemologies and paradigm shifts”.Big Data & Society 1 (1).https://journals.sagepub.com/doi/10.1177/2053951714528481
Kitchin, Rob y McArdle, Gavin (2016). “What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets”.Big Data & Society 3 (1).https://journals.sagepub.com/doi/10.1177/2053951716631130
Mejias, Ulises A; Couldry, Nick (2019).“Datafication”.Internet Policy Review, vol.8, nro.4. https://policyreview.info/concepts/datafication
Prado, Belén (2022). “Datos”. En Parente, Diego; Berti, Agustín y Celis Bueno, Claudio (comps.). Glosario de filosofía de la técnica. Adrogué, La Cebra.
Schintler, Laurie y McNelly, Connie (2019). Encyclopedia of Big Data. Dordrecht, Springer.
Sosa Escudero, Walter (2019). Big Data.Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas. Buenos Aires, Siglo XXI.