Calidad de las Estadísticas Privadas en la era del Big Data

El incremento del almacenaje y explotación de los datos a partir del avance de las tecnologías de mediación digital generó cambios en la gestión de los datos, así como también presentó nuevos retos en relación a su calidad.

 

Introducción

En la actualidad la revolución 4.0, la tecnología de la información, la inteligencia artificial, entre otras tecnologías digitales (Cortés et al., 2017; Serna, 2021), permiten extraer valor de grandes volúmenes de datos utilizando algoritmos matemáticos, mediante el concepto denominado Big Data (Lecuona, 2019).

Para el sector privado los datos constituyen una nueva clase de activo económico y, por lo tanto, son demandados por actores del mercado (Alonso-Arévalo y Vázquez Vázquez, 2016).

Estos adelantos digitales alteraron la forma de tomar decisiones en el sector empresarial –muchas empresas toman decisiones basadas en el Big Data (Zúñiga, 2019)–, así como dieron lugar a nuevos modelos de negocios en el mercado digital (Labbé Figueroa, 2020).

Sin embargo, estos avances en la recolección y análisis de datos poseen limitaciones conceptuales y operativas. Big Data implica asumir altos niveles de errores estadísticos y que la confiabilidad de los datos pueda ser violada en cualquier punto en su ciclo de vida (Galimany Suriol, 2015).

Adicionalmente, no todos los datos son accesibles, esto depende de las políticas de encriptación de las compañías dueñas de los servidores (Rojo y Sánchez, 2019). Dado que la calidad de los datos está directamente relacionada con la calidad del conocimiento que pueda extraerse –mediante la utilización de algoritmos de extracción de conocimiento– (García et al., 2016), los resultados erróneos impactan en la eficiencia de las empresas, elevando los costos y disminuyendo los beneficios del análisis e interpretación (López, 2011; López Porrero et al., 2010). Por tanto, las empresas llevan adelante mejoras de la calidad de los datos, limpiando los datos de baja calidad (Garzón Arredondo, 2015).

 

El Big Data y la cadena de valor del dato en el sector privado

En la actualidad, las empresas capturan el mayor volumen de datos, para luego clasificarlos y transformarlos, con el fin de comercializarlos –proceso denominado datificación de la realidad–. A medida que crece la diversidad de los volúmenes de datos recolectados, aumenta la probabilidad de que se encuentren problemas en los datos y el desconocimiento de la naturaleza de estos (Nuñez-Arcia et al., 2016).

Existen múltiples versiones de la cadena de valor del dato; entre las más habituales cabe mencionar:

 

Fase de provisión del dato

Se releva la información que genera la empresa, y se combina con información externa –recopiladas de fuentes muy heterogéneas– (Galimany Suriol, 2015). Esta selección depende de los objetivos del negocio y de las dificultades en la inserción de nuevos datos (Nuñez-Arcia et al., 2016; Timarán-Pereira et al., 2016). Dada la diversidad de datos, estos tienen diferencias en el tipo – estructurados, semiestructurados o desestructurados–, la frecuencia en que presentan –tiempo real, near real time o batch–, los niveles de exactitud y calidad de los mismos (Molina y Mérida, 2021).

Por lo tanto, los arquitectos de datos seleccionan la tecnología adecuada y los ingenieros de datos elaboran el software para integrar la información de los sistemas en la plataforma Big Data, para que pueda ser utilizada de forma correcta por los científicos de datos.

 

Fase de transformación

Una vez almacenada la información en el sistema de Big Data, se aplican las técnicas para mejorar la calidad del dato, como tareas de limpieza de datos desconocidos, nulos, duplicados, inconsistentes, imputación de datos faltantes y la reducción del número de variables en función de los algoritmos de extracción (Hernández y Rodríguez, 2008; Timarán-Pereira et al., 2016).

El tiempo de limpieza necesario para que los datos puedan ser procesados –denominado data wrangling– absorbe el 80% del tiempo de trabajo de los científicos de datos, reduciendo el tiempo dedicado a su actividad principal, que es la analítica de datos (García Del Río y López Contreras, 2018; Mons, 2020; Villao Balón, 2021).

 

Fase de descubrimiento y modelado

Proceso de análisis por parte de los analistas de negocio y los científicos de datos con el objetivo de extraer el máximo valor transformando los datos en información (García et al., 2016). Por lo tanto, la analítica de datos constituye, en sí misma, un activo de valor muy importante, al proveer la obtención de patrones sobre los datos, obteniendo así predicciones y prevenciones de eventos (Moreno y Calderón, 2016).

Para llevar a cabo las tareas de extracción de conocimiento –o información con valor de negocio– de los grandes volúmenes de datos, se utiliza la minería de datos (Martínez, 2001; Moine et al., 2011). Este proceso consiste en un conjunto de técnicas, basadas en estadística e inteligencia artificial, que permite encontrar información oculta o implícita en los patrones de comportamiento de los datos, que no es posible obtener mediante métodos estadísticos convencionales (Timarán-Pereira et al., 2016; Zamorano Ruiz, 2018). Los algoritmos generados para los diferentes análisis –dependiendo del tipo de datos utilizados– de hechos ocurridos o que están sucediendo incluyen seleccionar los modelos más apropiados.

 

Fase de exposición

Dado que no siempre es posible extraer valor de la información generada, las tres fases anteriores se realizan de la manera más económica. Sin embargo, el principal inconveniente es la manipulación de los datos en los entornos analíticos. El sistema denominado Gobierno de Datos (DG) –Data Governance, en inglés– ha surgido para comunicar eficientemente, dentro de la organización, las definiciones, políticas y normas de datos –estandarización de formatos–, en línea con maximizar el beneficio de la actividad empresarial (Carretero y Velthuis, 2018; Wiseman, 2018), siendo el principal responsable de establecer las bases de la gobernanza de datos el chief data officer (CDO) (Fernández, 2020). El CDO debe establecer mejoras en la calidad de los datos, optimizando la utilización de los activos de datos existentes, para incrementar la eficiencia operativa de la empresa (Teerlink et al., 2014).

Finalmente, se consolida el conocimiento descubierto para reportarlo a las partes interesadas, aplicando herramientas gráficas de visualización, traduciendo la información, para presentar resultados significativos y didácticos para los distintos usuarios (Cortés Rodríguez, 2020; Sancho et al., 2014; Timarán Pereira et al., 2016).

 

Conclusiones

En el sector empresarial privado los adelantos digitales alteraron las formas de tomar decisiones, así como también nuevos modelos de negocios en el mercado digital vinculada a la comercialización de datos. En este sentido se busca diseñar distintos algoritmos predictivos que permitan generar información con mayor valor económico. Esta potencialidad depende directamente de la calidad de los datos.

La infraestructura Big Data no es una fuente diseñada para fines estadísticos. Se caracteriza por el alto contenido de errores que afecta la calidad de los datos. Ante el aumento constante del flujo de los repositorios de datos, son necesarios cada vez métodos más sofisticados para generar datos de utilidad para los consumidores, destacándose un aumento de los costos vinculado a la limpieza de los datos, las políticas de encriptación, y un valor económico oscilante en función de los diferentes tipos de uso de los consumidores.

En un mercado digital altamente cambiante, dada la dificultad de generar ganancias de la información generada, se suele sacrificar el nivel de precisión estadística del contenido de los nuevos datos.




 

Referencias:

  • Alonso-Arévalo, J. y Vázquez Vázquez, M. (2016). Big Data: La próxima “gran cosa” en la gestión de la información. BID: textos universitaris de biblioteconomia i documentació, 36, 1-3.
  • Carretero, A. I. G. y Velthuis, M. P. (2018). Importancia de la calidad de los datos en la transformación digital. RUIDERAe: Revista de Unidades de Información, (13), ISSN-e 2254-7177.
  • Cortés, C. B. Y., Landeta, J. M. I. y Chacón, J. G. B. (2017). El entorno de la industria 4.0: implicaciones y perspectivas futuras. Conciencia Tecnológica, (54), 33-45.
  • Cortés Rodríguez, K. I. (2020). Calidad de datos contextual en Big Data: calidad de datos de Twitter. Escuela de Ingeniería y Gestión [Tesis de grado, Instituto Tecnológico de Buenos Aires (ITBA)]. http://ri.itba.edu. ar/handle/123456789/3184
  • Fernández, Y. A. y Ferrer, D. C. (2016). Big Data: una herramienta para la administración pública. Ciencias de la Información, 47(3), 3-8.
  • Galimany Suriol, A. (2015). La creación de valor en las empresas a través del Big Data [Tesis de Grado, Universidad de Barcelona]. Dipòsit Digital de la Universitat de Barcelona. http://hdl.handle.net/2445/67546
  • García, S., Ramírez-Gallego, S., Luengo, J. y Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos. Novática, 237,17, 17-23.
  • García Del Río, A. y López Contreras, I. R. (2018). Implementación de herramientas de extracción, transformación y carga de datos estructurados en Big Data [Tesis de Grado, Universidad Autónoma de Ciudad Juárez]. http://hdl.handle.net/20.500.11961/4665
  • Garzón Arredondo, A. (2015). Evolución e impacto de Big Data en empresas grandes de diferentes industrias del sector corporativo en Antioquia [Tesis de Doctorado, Universidad EAFIT]. Repositorio Institucional Universidad EAFIT.
  • Hernández, C. y Rodríguez, J. E. R. (2008). Preprocesamiento de datos estructurados. Revista Vínculos, 4(2), 27-48.
  • Labbé Figueroa, M. F. (2020). Big Data: Nuevos desafíos en materia de libre competencia. Revista Chilena de Derecho y Tecnología, 9(1), 33-62.
  • Lecuona, I. D. (2019). Evaluación de los aspectos metodológicos, éticos, legales y sociales de proyectos de investigación en salud con datos masivos (big data). Gaceta Sanitaria, 32, 576-578.
  • López, B. (2011). Limpieza de Datos: Reemplazo de valores ausentes y Estandarización [Tesis de Doctorado, Universidad Central “Marta Abreu” de Las Villas)]. https://dspace.uclv.edu.cu/server/api/core/bitstreams/f245cb85-fd62-43fb-9d22-b70061bda959/content
  • López Porrero, B., Pérez Vázquez, R. y Batule Domínguez, M. (2010). Las reglas de asociación ordinales en la detección de errores en los datos. Revista Cubana de Ciencias Informáticas, 4(1-2), 47-52.
  • Martínez, G. (2001). Minería de datos: Cómo hallar una aguja en un pajar. Ingenierías, 14(53), 53-66.
  • Moine, J. M., Haedo, A. S. y Gordillo, S. E. (2011). Estudio comparativo de metodologías para minería de datos. En XIII Workshop de Investigadores en Ciencias de la Computación. Universidad Tecnológica Nacional, Rosario.
  • Molina, V. H. Á. y Mérida, A. F. (2021). Datificación crítica: práctica y producción de conocimiento a contracorriente de la gubernamentalidad algorítmica. Dos ejemplos en el caso mexicano. Administración Pública y Sociedad (APyS), (11), 211-231.
  • Mons, B. (2020). Invest 5% of research funds in ensuring data are reusable. Nature, 578, 491. https://www.nature.com/articles/d41586-020-00505-7
  • Moreno, L. P. y Calderón, C. C. A. (2016). Empleo de Big Data en la gestión de las Telecomunicaciones. Tono, Revista Técnica de la Empresa de Telecomunicaciones de Cuba SA, 13(2), 48-57.
  • Nuñez-Arcia, Y., Díaz-de-la-Paz, L. y García-Mendoza, J. L. (2016). Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Revista Cubana de Ciencias Informáticas, 10(3), 105-118.
  • Rojo, I. D. J. P. y Sánchez, A. A. C. (2019). Reinsurgencia de la etnografía en la era del Big Data: apuntes desde el sur global. Virtualis, 10(19), 42-56.
  • Sancho, J. V., Ochoa, B. M., y Domínguez, J. C. (2014). Aproximación a una taxonomía de la visualización de datos. Revista Latina de Comunicación Social, (69), 486-507.
  • Serna, M. S. (2021). Inteligencia artificial y gobernanza de datos en las administraciones públicas: reflexiones y evidencias para su desarrollo. Gestión y Análisis de Políticas Públicas, (26), 20-32.
  • Teerlink, M., Sigmon, P. W., Gow, B. y Banerjee, K. (2014). El nuevo héroe del Big Data y la analítica de datos. El director de datos [Informe ejecutivo]. IBM Institute for Business Value. IBM Corporation, Estados Unidos de América.
  • Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y Alvarado Pérez, J. C. (2016). Descubrimiento de patrones de desempeño académico con árboles de decisión en las competencias genéricas de la formación profesional. Ediciones Universidad Cooperativa de Colombia.
  • Villao Balón, A. J. (2021). Aplicación de técnicas de minería de datos para predecir el desempeño académico de los estudiantes de la escuela Lic. Angélica Villón. Universidad Estatal Península de Santa Elena.
  • Wiseman, J. M. (2018). Data-Driven Government: The Role of Chief Data Officers. IBM Center for the Business of Government, Washington, D.C.
  • Zamorano Ruiz, J. (2018). Comparativa y análisis de algoritmos de aprendizaje automático para la predicción del tipo predominante de cubierta arbórea. Universidad Complutense de Madrid.
  • Zúñiga, G. (2019). Big data y los desafíos que plantea al abuso de posición de dominio. Revista de Actualidad Mercantil, (6), 208-226.

Cómo citar esta publicación: Manzano, F. A. (2025). Calidad de las estadísticas privadas en la era del Big Data. Asociación Educar para el Desarrollo Humano. www.asociacioneducar.com/blog/calidad-de-las-estadisticas-privadas-en-la-era-del-big-data

Investigador del CONICET. Doctor en Demografía (UNC). Licenciado en Economía (UBA) y Licenciado en Sociología (UBA). Ha sido autor y coautor de más de 50 artículos científicos en revistas indexadas, 3 libros y más de 15 capítulos en libros. Realiza divulgación en el canal de YouTube: “Datos y Ciencias Sociales”.