La ciencia de datos es una disciplina relativamente reciente que creció al calor del Big Data y de sus ya mencionadas “3 V”: la velocidad de procesamiento de datos, el volumen de dicho procesamiento y la variedad de datos que debe estudiar. Así, la ciencia de datos es inherentemente interdisciplinaria porque a la base estadística clásica de cualquier saber acerca de datos le suma la programación computacional y las técnicas de visualización de datos.
Acerca de la variedad de datos, y como consecuencia directa del proceso de datificación generalizada, en particular de la vida social, se puede organizar una gran distinción entre los datos primarias (que se obtienen de manera “directa” de la realidad) y los datos secundarios (que se obtienen a partir de registros ya efectuados).
Los datos masivos o macrodatos (Big Data) se organizan alrededor de datos secundarios que tienen como condición de posibilidad el hecho de poder ser leído y procesado por un sistema digital. Según la calidad de tal procesamiento, se dividen en:
⦁ Datos estructurados: son modelos de datos predefinidos, generalmente solo texto, que son sencillos de buscar y analizar por cualquier sistema digital.
⦁ Datos semi-estructurados: no tienen un esquema definido y no encajan en un formato de ordenamiento por cuadros (tablas/filas/columnas), pero sí están organizados de acuerdo a etiquetas o “tags” que permiten agruparlos y crear jerarquías; por ejemplo, los datos de correo electrónico y archivos adjuntos dentro de la base de datos.
⦁ Datos no estructurados: no tienen una organización clara y deben ser contrastados con modelos ya existentes para ser incluidos en el análisis. El formato de los datos no estructurados es muy variable: pueden ser textos, imágenes, sonido, videos pero también datos de redes sociales, datos de vigilancia, meteorológicos, informes, facturas, etc.
⦁ Metadatos: son los “datos sobre datos”, las etiquetas de los datos que permiten construir a los datos estructurados.
El procesamiento de los datos estructurados y los metadatos, en función del establecimiento de padrones, patrones y predicciones, puede confundirse con la Inteligencia Artificial propiamente dicha, en la medida en que organiza procesos de decisión guiados por datos [data-drivendecisionmaking], donde sería la “evidencia” de la “fiabilidad” de estos datos la que justifica la toma de decisión en cualquier ámbito público o privado. En este caso se introduce el problema de los sesgos, que será trabajado en otro término de este glosario debido a su complejidad. En cambio, otros procesos de decisión emplean a los datos como insumo, y no como guía absoluta, por parte de una instancia humana que define tal proceso [data-informeddecisionmaking].
REFERENCIAS
Floridi, Luciano (2011). The Philosophy of Information. Oxford, Oxford University Press, 2011.
Kitchin, Rob (2014). “Big Data, new epistemologies and paradigm shifts”.Big Data & Society 1 (1).https://journals.sagepub.com/doi/10.1177/2053951714528481
Kitchin, Rob y McArdle, Gavin (2016). “What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets”.Big Data & Society 3 (1).https://journals.sagepub.com/doi/10.1177/2053951716631130
Mejias, Ulises A; Couldry, Nick (2019).“Datafication”.Internet Policy Review, vol.8, nro.4. https://policyreview.info/concepts/datafication
Prado, Belén (2022). “Datos”. En Parente, Diego; Berti, Agustín y Celis Bueno, Claudio (comps.). Glosario de filosofía de la técnica. Adrogué, La Cebra.
Schintler, Laurie y McNelly, Connie (2019). Encyclopedia of Big Data. Dordrecht, Springer.
Sosa Escudero, Walter (2019). Big Data.Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas. Buenos Aires, Siglo XXI.