1
Cartografía Conceptual de la Ciencia de Datos Gabriela López-Quesada1 Sergio Tobón2 1
Facilitador, Centro Universitario CIFE, Cuernavaca, Morelos, México, y Profesor de
Asignatura, El Colegio de México, COLMEX, México 2
Director e investigador del Centro Universitario CIFE, Cuernavaca, México
Correspondencia: Gabriela López-Quesada: 1gabrielalopez@cife.edu.mx /
https://orcid.org/0000-0002-4553-2735
Resumen
Contar con una ciencia que nos permita el adecuado y oportuno análisis de la información para apoyar a las empresas o sectores para la toma de decisiones o solución de problemas es un reto con el que nos enfrentamos en el día a día. El rápido surgimiento de diferentes metodologías que faciliten el proceso, como lo es la ciencia de datos, invita a conocer más a fondo la labor que tiene para evitar confundirla con otros conceptos como los de big data o análisis de datos. Como estrategia de investigación se empleó la cartografía conceptual y se realizó un estudio conceptual que permitió conocer, analizar y diferenciar el concepto de ciencia de datos de otros con los que regularmente se le confunde pero que reflejan diferencias que merecen enfatizarse. Se propuso una posible definición para el concepto de ciencia de datos articulado con el análisis estadístico y la tecnología digital como parte medular del proceso.
Palabras clave: ciencia de datos, análisis de datos, análisis estadístico, gestión de la información.
Data Science Conceptual Cartography
2
Abstract Counting with a science that allows the adequate and prompt analysis of the information to support enterprises and sectors for the decision-making or problem-solving process is a challenge faced day by day. The quick occurrence of different methodologies to facilitate the process, as the data science, invites to better understand the duty it has to avoid confusing it with other concepts such as big data or data analysis. As a research strategy the conceptual cartography was used to perform a conceptual study that allowed to learn about, analyse and differentiate the concept of data science from others with which it gets regularly confused but that reflect differences that deserve to be emphasised. A possible definition for the concept of data science articulated with the statistic analysis and the digital technology as the core part of the process.
Keywords: data science, data analysis, information management, statistic analysis.
3
Introducción
La sociedad del conocimiento propone una constante transformación en pro del beneficio común, las necesidades de la sociedad exigen que el cambio se dé en todos los ámbitos, como en lo social, laboral, cultural y académico obligando a preguntas como qué cambios hacer, cómo hacerlos y cuál es el punto de partida, es muy importante considerar que no se trata de modificar todo lo existente sino de emplear lo que actualmente se hace y adaptarlo a los requerimientos que se van presentando. En particular la médula espinal se encuentra en cómo conocer sobre aquello que forma parte del diario vivir para la debida toma de decisiones con beneficios personales y sociales (Acevedo-Mena et al., 2019), en un mismo momento se pasa de adquirir la información a su interpretación y propuesta de mejora mediante la predicción y decisión sobre el camino a tomar. La sociedad del conocimiento busca que las comunidades y su entorno logren progresar en todos los sectores para lo cual se enfatiza en la extracción inmediata de información, su análisis y aplicación para el bien común, pasando de la mera obtención tradicional de datos a la acción, es decir, tener la capacidad de usar lo recabado para el bien buscado con beneficios académicos, científicos y económicos, por mencionar solo algunos, que posicionen a los diferentes sectores en los primeros lugares valiéndose de diversas herramientas propias del momento que se vive (Ordoñez-Pico et al., 2019; Zhang et al., 2017), es así que de manera colaborativa se pueda gestionar la información y aplicar para la mejora de las situaciones que se presenten (Tobón, Guzmán, Hernández & Cardona, 2015). Retomando el requisito de adquirir la información, examinarla y utilizarla para determinar la mejora, el progreso y la transformación, la ciencia de datos ha cobrado importancia en los últimos tiempos, centra su atención en el trabajo que se realiza al manejar bases de datos que puedan contener grandes, medianas o pequeñas cantidades de información empleando herramientas, conocimientos y procesos mediante la investigación, su análisis y utilización en la toma de decisiones para el beneficio en diversas áreas del conocimiento (Yan & Davis, 2019). Es así que la ciencia de datos puede definirse como un área interdisciplinaria que apoya para obtener y manejar diversos bancos de datos de diferentes tamaños mediante procesos que permiten descubrir aquello que a simple vista no se percibe para el mayor provecho valiéndose de la estadística, la minería de datos, el análisis y la predicción (Yan & Davis, 2019) sin excluir el uso de las tecnologías, en conjunto con las habilidades y competencias del talento humano en el manejo
4
de distintas dimensiones de datos y para mejorar situaciones o solucionar problemas con base en su análisis y empleo. La propuesta de la ciencia de datos no debe ser confundida con otras que también se centran en el manejo y procesamiento de datos pero que son orientadas exclusivamente a ciencias en computación y/o en sistemas computacionales como son la denominada ingeniería de datos o el big data. Es así que la creciente necesidad de contar con personas que tengan la habilidad de tomar decisiones desarrollada con base en la recolección y proceso de diversos volúmenes de información exige un concepto claro, más que aproximaciones que intentan definir a la ciencia de datos (Yan & Davis, 2019); por ejemplo, en lo laboral se tienen variadas aproximaciones para los que trabajan en el área, como son especialista en datos, curador de datos, bibliotecario de datos, archivista de datos, científico de datos (Zhang et al., 2017), capturista de datos, y administrador de datos, entre muchos otros, ello hace que sea necesario estipular, con precisión, qué es la ciencia de datos y el rol de los profesionales de este campo para que se diferencie de lo que no es. Los propósitos del presente estudio fueron: 1) delimitar y definir el concepto de ciencia de datos; 2) determinar sus características esenciales como la interdisciplinariedad, la transversalidad, el abordaje de problemas del contexto, la articulación de la estadística y el uso pertinente de la tecnología digital; 3) diferenciar este concepto de otros como los de big data o grandes volúmenes de datos y análisis de datos; y 4) considerar la ciencia de datos hacia la mejora de las condiciones de vida y la contribución para el desarrollo social sostenible (en adelante DSS), a partir del desarrollo de habilidades para la sociedad del conocimiento (en adelante SC).
Metodología
Tipo de Estudio El estudio llevado a cabo fue de tipo conceptual para proponer los ejes clave del concepto de ciencia de datos articulado con el análisis estadístico y el conveniente uso de la tecnología digital. El análisis conceptual es la metodología que apoya en la investigación para la discriminación de los datos obtenidos (Rico, 2004), consta de la búsqueda y recuperación de información de otras fuentes para responder a la propuesta de investigación que se analiza, interpreta y comparte (Arias, 2012; Rico, 2004) en cada uno de los ejes centrales que conforman la cartografía conceptual como estrategia de investigación. La cartografía conceptual es una
5
propuesta del enfoque socioformativo que se conforma de ocho ejes o categorías compuestos por preguntas que guían y delimitan la investigación (González-Peña, 2018; Salazar Gómez et al., 2018; Tobón, 2015a, 2017), así como facilitan su lectura y comprensión para un mayor aprendizaje.
Procedimiento El análisis conceptual del concepto de ciencia de datos incorporando el análisis estadístico y la utilización de la tecnología digital se llevó a cabo partiendo de los ocho ejes centrales propuestos por la cartografía conceptual (González-Peña, 2018; Salazar Gómez et al., 2018; Tobón, 2015a, 2017), mismos que son presentados en la Tabla 1. Las preguntas centrales y sus componentes fueron planteados como parte de los ocho ejes de la cartografía conceptual y sirvieron para dirigir y delimitar la investigación empleando fuentes primarias y secundarias que apoyaron el análisis, reflexión y organización de dichos conceptos. La revisión de diversos documentos se llevó a cabo empleando diferentes bases de datos bibliográficas, delimitando la búsqueda de la información a los últimos 4 años, en su mayoría.
Tabla 1. Ejes de la cartografía conceptual abordados en el estudio del concepto de ciencia de datos Categoría
Preguntas centrales
Componentes
Noción del concepto
¿Cuál es la etimología y
-Etimología del concepto de
de ciencia de datos
definición más empleada de
ciencia de datos
ciencia de datos? ¿Cuál ha sido el desarrollo
-Breve descripción del desarrollo
histórico del concepto de ciencia
histórico del concepto
de datos? ¿Cuál debería ser la definición
-Definición actual de ciencia de
más integral e inclusiva del
datos
concepto de ciencia de datos,
-Breve análisis de las definiciones
acorde con los retos actuales y el
obtenidas desde un enfoque
futuro?
transversal
6
- Propuesta de una definición del concepto desde el DSS y la SC
Categorización del
¿En qué clase general se
-Clase general de primer orden con
concepto de ciencia
encuentra el concepto de ciencia
su definición y características
de datos
de datos?
generales – la SC -Clase general de segundo orden con su definición y características generales – la socioformación -Otras clases – las ciencias y el análisis estadístico
Caracterización del
¿Cuáles deberían ser las
-Características clave que
concepto de ciencia
características del concepto de
conforman el concepto
de datos
ciencia de datos?
-Breve explicación de las características enlistadas
Diferenciación del
¿De qué otros conceptos
-Diferencias puntuales y posibles
concepto de ciencia
cercanos, que estén en la misma
coincidencias con otros conceptos
de datos de otros
clase general, se diferencia el
como los de big data y análisis de
conceptos cercanos
concepto de ciencia de datos?
datos
Aplicaciones del
¿Cuál es una de las aplicaciones
-Aplicación del concepto de
concepto de ciencia
del concepto de ciencia de
ciencia de datos
de datos
datos?
Vinculación del
¿Con qué enfoques, disciplinas,
-Vinculación del concepto de
concepto de ciencia
áreas o campos externos se
ciencia de datos con otros
de datos
relaciona el concepto de ciencia
conceptos como los de estudios
de datos?
globales, locales y temporalidad por su relación y diferencias
7
-Descripción de los conceptos con los que se relaciona y que apoyan en la comprensión del concepto
Metodología para
¿Cuál debería ser el eje o los
-Pasos generales para la aplicación
aplicar el concepto
pasos esenciales para abordar o
del concepto de ciencia de datos
de ciencia de datos
aplicar el concepto de ciencia de datos?
Ejemplificación del
¿Cuál podría ser un ejemplo
-Ejemplo que muestra la aplicación
concepto de ciencia
pertinente de ciencia de datos?
del concepto de forma
de datos
contextualizada
(Adaptada de: Tobón, 2015a)
Criterios de Selección de los Documentos Para el estudio llevado a cabo se seleccionaron y analizaron una serie de artículos, libros y capítulos de libros que siguieron los parámetros descritos a continuación: 1. Se realizaron diversas búsquedas de artículos empíricos, artículos de revisión, libros y
capítulos de libros en bases de datos bibliográficas como Scopus, Web of Science, Scielo, Redalyc, Dialnet, World Wide Science, Refseek, Elsevier y Google Scholar, básicamente; la exploración se llevó a cabo empleando una serie de algoritmos de búsqueda, tanto en inglés como en español, enfocando la atención en documentos de años recientes, siendo en su mayoría de 2018 a 2020, tanto de acceso libre como limitado y consultados, en la medida de lo posible, en el sitio en donde originalmente fueron publicados. 2. Las palabras clave propuestas fueron “ciencia(s) y análisis de datos”, “ciencia de
datos”, “análisis de datos”, “ciencia(s) de datos y análisis estadístico”, “análisis de datos y análisis estadístico”, “análisis estadístico”, “tecnología digital”, “ingenierías”, “base de datos”, “desarrollo social sostenible”, “pensamiento complejo” sustituidas, complementadas y combinadas con una o varias de las siguientes palabras “estadística”, “matemáticas”, “ciencia(s) de datos”, “análisis de datos”, “big data”,
8
“ingeniería”, “ingeniería de datos”, “transversalidad”, “interdisciplinariedad”, “multidisciplinariedad”, “estudios globales/locales”, “temporalidad”, “desarrollo social”, “desarrollo sostenible”, “pensamiento complejo” todas ellas tanto en inglés como en español. 3. Los documentos seleccionados fueron artículos de revistas indexadas y libros de editoriales reconocidas, así como materiales ofrecidos por centros de investigación y universidades, todos ellos de acceso libre y restringido. Todos los recursos empleados cuentan con la información mínima requerida para ser referenciados bajo las normas APA. En su mayoría, los artículos fueron consultados en la revista de origen y en el idioma en que se escribieron. 4. Todos los documentos empleados sirvieron como base para la elaboración de este estudio y para el desarrollo de los ocho ejes de la cartografía conceptual.
Resultados
Noción del Concepto de Ciencia de Datos A continuación, se presenta 1) la noción del concepto de ciencia de datos complementado con el concepto de análisis estadístico; 2) finalmente, se propone la que podría ser la definición para la articulación de ambos conceptos desde el DSS y la SC. El concepto de ciencia de datos es de relativa nueva creación, no ha sido aún incluido en algunos diccionarios en español como el Diccionario de la Lengua Española (RAE) (Real Academia Española, 2014) por lo que se presenta la noción de los términos por separado; “ciencia” proviene del latín scientia que refiere al grupo de conocimientos que se organizan después de haber observado y razonado aquello que se presenta y que puede ser replicado, esta reflexión es la que permite llegar a los datos que apoyan la predicción (Real Academia Española, 2014). Por su parte, el concepto de “dato” también proviene del latín datum que refiere a ‘lo que se da’, este se define como la información de lo que se espera conocer o que apoya para la predicción de las consecuencias que tendrá lo observado (Real Academia Española, 2014). Asimismo, la ciencia de datos es definida como la mezcla del análisis de los datos, el desarrollo de algoritmos, la estadística y la ingeniería de software para llegar a la solución de problemas analíticos y obtención del valor de un negocio (Diccionario Tecnológico Luca, 2019).
9
Sobre esta base, uniendo estas definiciones, el concepto de ciencia de datos puede entenderse como la información que se requiere y que es obtenida mediante la observación para ser analizada y servir como base para el pronóstico de hechos y resultados. Al transportar este concepto al inglés como data science no hay una definición única, sino diferentes interpretaciones, sin embargo, si la hay para el concepto de big data o grandes datos, término que regularmente es empleado por diversos autores como sinónimo de ciencia de datos en ambos idiomas, inglés y español, big data es definido como el acopio de datos de gran tamaño y complejidad que dificultan su procesamiento cuando se emplean herramientas de manejo de datos convencionales (Merriam-Webster, 2020); Cleveland (2001) enfatiza que la ciencia de datos es una multidisciplinaria que se centra en llevar a cabo el proceso de investigación para lograr la resolución de problemas del área que los presenta. Es importante recalcar que algunos autores hablan de la ciencia de datos y de big data como si fuesen uno mismo, en tanto que otros los relacionan como que el primero se sirve del segundo para llegar al objetivo planteado, será en la diferenciación del concepto que se establezca la separación de ambos. En contraste a lo que Merriam-Webster (2020) refiere sobre la definición e historia del concepto de ciencia de datos con un origen en los años 80s; algunos autores refieren al nacimiento del término en el 2001 con Cleveland y Breiman, quienes buscaron definir el concepto; Cleveland la refiere como parte del análisis de datos y la estadística, mientras que Breiman comenta sobre la necesidad de abrirse a nuevas formas para el manejo de datos (Chian, 2019; Méndez & Porven, 2018); Gibert, Horsburgh, Athanasiadis, & Holmes, (2018) transportan el primer uso del concepto a 1960 con el científico danés Peter Naur quien empleó el término enfatizando que la ciencia de datos refiere al proceso de información en áreas de ciencias en computación que nos permite manejar datos en y de otras áreas. Mientras más autores se revisan mayor controversia se refleja en cuanto al nacimiento del término y los diferentes enfoques que ha tenido. El concepto de big data fue recientemente incluido en el diccionario Merriam-Webster y no da claridad sobre su nacimiento, refiere a que en la década de los 80’s, el sociólogo americano Charles Tilly usó este concepto pero con una connotación diferente, se refería al manejo de interrogantes considerables; en la actualidad el término se emplea para hablar de conjuntos de datos de gran tamaño o a las alternativas que se han propuesto para el manejo de grandes cantidades de datos que se recopilan (Merriam-Webster, 2020; Press, 2013). De forma más detallada, big data es definido como grandes conjuntos de datos que se generan empleando la Red
10
y que son almacenados, comprendidos y empleados mediante el uso de herramientas y métodos destinados para este fin en particular (Cambridge-University-Press, 2020). Es de llamar la atención que, tratándose de definiciones para el mismo término, una de ellas hace referencia al uso de la Red para llevar a cabo el proceso de recolección de información y las demás no. Así como algunos autores emplean los conceptos de ciencia de datos y big data como sinónimos y por tanto los definen de igual manera, hay otros que reconocen que la ciencia de datos no cuenta con una definición exacta, sino varias y desde diferentes enfoques por lo que cada autor propone una definición diferente, sin embargo, todas convergen en que la ciencia de datos se sitúa en un campo pluridisciplinario que se centra en el análisis, proceso y dominio del manejo de datos complejos que no pueden obtenerse de forma sencilla para transformarlos en aquello que se pueda comprender, emplear y comunicar para determinar el camino a seguir (Gibert, Horsburgh, Athanasiadis & Holmes, 2018), por tanto, la ciencia de datos no se ubica como exclusiva de un campo del conocimiento sino como una transversal que requiere de trabajar desde y con diferentes áreas del conocimiento para el procesamiento de la información y el logro del objetivo planteado, asimismo, debido a su pluridisciplinariedad tiene la capacidad de apoyar y apoyarse de todos los sectores que lo requieran. Estas definiciones se enfocan en el estudio y propuesta de la ciencia de datos y la definen como la esfera pluridisciplinar que se compone de elementos de la estadística, matemáticas, análisis de datos, procesamiento de datos y actividades comerciales (Gibert, Horsburgh, Athanasiadis & Holmes, 2018; Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017; Méndez & Porven, 2018) que le permiten obtener referencias desde diferentes enfoques para la solución de problemas desde y para diversas áreas del conocimiento; es así que la ciencia de datos trabaja de manera transversal y se vale de aspectos teóricos, prácticos y de la comunicación de los resultados obtenidos para la depuración de la información, sin embargo, las nociones revisadas dejan de lado el pensamiento complejo sin considerar que su aplicación ofrece a la ciencia de datos la capacidad de entender la realidad que se vive de manera holística, como un todo en el que las partes están conectadas y relacionadas como en una gran telaraña sin que alguna de ellas se pueda ver, solamente, como una parte independiente (Morin, 1998); sobre esta base, la ciencia de datos es aquella que se apoya en otras áreas para resolver situaciones en contextos existentes (Méndez & Porven, 2018) y en tiempo real mediante un análisis detallado.
11
El concepto de análisis estadístico no ha sido incluido en diccionarios en español como el Diccionario de la Lengua Española (RAE) (Real Academia Española, 2014) por lo que se presenta por separado; “análisis” viene del griego ἀνάλυσις análisis que en su quinta acepción refiere a aquella parte de las matemáticas, basada en los conceptos de límite, convergencia y continuidad, que dan origen a diversas ramas (Real Academia Española, 2014). El término “estadístico” en su variable “estadística” proviene del alemán Statistik que se deriva del italiano statista que refiere al ‘hombre de Estado’, en su cuarta acepción se define como el estudio de los datos cuantitativos de la población, de los recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas (Real Academia Española, 2014). Una definición muy interesante es la que ofrece SAS (2019) sobre el análisis estadístico como parte de la vida de las personas, desde lo personal hasta la forma en la que se pone en marcha una metrópoli, se define como una ciencia que tiene injerencia en áreas como la investigación, la industria y el gobierno ya que compila, explora y comunica cantidades masivas de datos para establecer patrones y tendencias que están implícitos y que nos apoyan en la toma de decisiones. La definición del concepto en inglés como statistical análisis no aparece en diccionarios convencionales, por separado, statistics refiere a la rama de las matemáticas que trabaja con la recolección, análisis, interpretación y presentación de grandes cantidades de datos numéricos o cuantitativos (Merriam-Webster, 2020); en tanto analysis es el examen detallado o exhaustivo de algo complejo para comprender su naturaleza o determinar sus características esenciales (Merriam-Webster, 2020). La unión de ambas descripciones refleja que el análisis estadístico es aquel que se apoya en las matemáticas para recoger cantidades masivas de datos cuantitativos que se analizan minuciosamente, descifran y comunican enfatizando en sus propiedades fundamentales. Los orígenes del concepto de análisis estadístico son inciertos ya que no se especifica cuándo se empezó a emplear, sin embargo, hay indicios sobre los primeros usos del análisis de datos empleando la estadística. El origen de la estadística y su aplicación se remonta a Egipto, alrededor del 3050 a. C., para obtener datos sobre la población y la situación económica del país, usos que replicaron los chinos, griegos y romanos posteriormente, entre las aplicaciones más comunes estaban las de censar a la población para estimar el cobro de tributo, para la repartición de la tierra y para el cálculo de soldados y recursos con fines bélicos; más adelante otras naciones incluyeron la estadística, mayormente en materia de economía (Hernández-Hurtado, 2013; Ruíz-
12
Muñoz & De-Mendiburu, 2004). Fue en 1662 cuando el capitán John Graunt se centró en la información recolectada mediante los censos de 30 años en Inglaterra para llevar a cabo un análisis estadístico prediciendo la mortalidad derivada de ciertas enfermedades y el pronóstico de nacimientos de hombres y mujeres (Ruíz-Muñoz & De-Mendiburu, 2004), se podría considerar que así inició el análisis estadístico. Según el diccionario Merriam-Webster (2020) el término de “estadística” apareció en 1770; aunque Hernández-Hurtado (2013) establece que fue empleado por primera vez por el economista prusiano Gottfried Achenwall a quien se le atribuye ser el Padre de la estadística y dado a conocer por el edimburgués sir John Sinclair, político y escritor de finanzas y agricultura, en su libro Statical Account of Scotland en el que propone el uso de la estadística siguiendo el procedimiento de acopio y categorización de datos. Aunque no precisas, de manera general, las definiciones revisadas convergen en puntos clave que permiten considerar el análisis estadístico como el componente o herramienta de la ciencia de datos que proporciona información numérica sobre la recolección de referencias y muestreo suficiente para determinar la metodología que se llevará a cabo durante los procesos. El análisis estadístico es aquel que aporta datos suficientes para obtener resultados confiables que beneficien la fase de recolección y examen de los datos recuperados para determinar tendencias y patrones de comportamiento que no se pueden apreciar a simple vista y que son la base para realizar pronósticos alineados al DSS considerando que toman en cuenta los recursos naturales, la población y la producción industrial que ofrecen un mejor estilo de vida siempre cuidando del medio. Por tanto, la ciencia de datos desde un enfoque socioformativo podría definirse como aquella ciencia aplicada que se centra en el proceso de búsqueda, gestión y depuración de información que permite la aplicación de los resultados en la resolución y/o mejora de situaciones contextualizadas para realizar predicciones que apoyen la toma de decisiones en todas las áreas de la vida y del conocimiento que así lo requieran considerando las dimensiones ambientales, sociales y económicas del DSS. Como una ciencia transversal, se vale del método científico y la ingeniería de datos, y se articula con el análisis estadístico y el pensamiento complejo para la adquisición,
depuración,
gestión,
estudio,
reflexión,
transformación,
comprensión
y
comunicación de la información obtenida de diversas bases de datos complejas cuya dimensión y contexto varía y que son ampliamente manejadas mediante el análisis estadístico y el uso de la
13
tecnología digital. Desde el pensamiento complejo, la ciencia de datos es aquella que reconoce que la situación o problema se debe considerar de manera holística sin descuidar los engranes que conforman lo global y lo particular, esta forma de pensamiento permite apoyar en la comprensión de información compleja que requiere de habilidades y herramientas específicas para establecer relaciones, tendencias y patrones. En lo que respecta al análisis estadístico como parte fundamental de la ciencia de datos, se trata del elemento principal dentro del proceso de transformación de los recursos partiendo del diseño de la secuencia a seguir y aplicándola para llevar a cabo la obtención de la información, el análisis guía de la misma, seguido de su interpretación y utilización para la predicción (Scott, 2018). El análisis estadístico se vincula con la organización e interpretación de la información recolectada basándose en elementos como el cuánto, por cuánto tiempo, qué tan rápido y cómo se relaciona con otros datos apegándose a normas y procedimientos matemáticos bien definidos y sistemáticos, ya que la naturaleza de los datos dificulta el que se puedan expresar con palabras (DePoy & Gitlin, 2016).
Categorización del Concepto de Ciencia de Datos La ciencia de datos se engloba dentro de la categoría de las ciencias aplicadas, entendidas como aquellas que destinan el conocimiento para la resolución de problemas mediante el manejo de la información (Pérez-Tamayo, 2001) para alcanzar el DSS mediante la resolución de problemas y/o mejora de situaciones contextualizadas que, como lo marcan los Objetivos del Desarrollo Sostenible, centran su atención en la mejora de la situación de pobreza y hambre que se vive en el mundo, el cuidado del entorno de manera globalizada, la mejora de la salud de la población mundial y elevar la calidad y alcance que la educación ya tiene (UNESCO, 2019). El DSS y las ciencias aplicadas convergen en que estas últimas buscan aplicar el conocimiento tanto para continuar la labor científica en cuanto al conocimiento y su desarrollo, así como para apoyar a las áreas que lo requieran en la resolución de problemas diversos como los del sector salud y de distribución equitativa de agua y alimentos, entre muchos otros, punto que refleja que su aplicación no es limitada (Pérez-Tamayo, 2001) ni puede ser solo local o regional. Asimismo, la ciencia de datos pertenece a la socioformación, que a su vez se inscribe en la SC. La SC es aquella en la que se conjuntan las ciencias, la ingeniería y tecnología, y el progreso económico requiriendo del desarrollo de las competencias de la persona, de su creatividad e
14
innovación para lograr adecuarse al mundo cambiante que se vive (Márquez-Jiménez, 2017) para tener un mayor alcance del conocimiento desde su generación y gestión y hasta su aplicación para la resolución de problemas contextualizados mediante el trabajo colaborativo (Tobón, Gonzalez, Nambo & Vazquez-Antonio, 2015; Tobón, Guzmán, Hernández & Cardona, 2015). La SC tiene como objetivo primordial la obtención, depuración, estudio y reflexión de la información que deberá ser socializada y empleada para la resolución de las situaciones que se presentan en pro del DSS, línea que también sigue la ciencia de datos y que culmina con la comunicación de la información para la toma de decisiones. Como parte de la SC, la ciencia de datos se alinea a los cambios importantes que se viven y a la forma en la que obtenemos los recursos debido a que, día a día, generamos gran cantidad de datos constantemente cambiantes por el sistema de vida y comunicación que hemos adoptado y que nos permite vivir en tiempo real aquello que está sucediendo en el otro lado del mundo (Lemus-Delgado & Pérez Navarro, 2020). A su vez, la socioformación es aquella que busca el trabajo en conjunto para lograr un fin en común o la resolución de un problema contextualizado, siempre cuidando el bien actuar, para ello, invita a desarrollar las competencias de los individuos, así como articular los saberes -saber conocer, saber hacer, saber convivir y saber ser (Prado, 2018). Se trata de un enfoque que se centra en el talento humano, en su formación para su diario vivir y en su experiencia como parte del desarrollo integral del individuo enfatizando en el proyecto ético de vida; los valores universales que debe seguir la persona; el emprendimiento acompañado del desarrollo de proyectos formativos para la resolución de problemas contextualizados; la gestión y co-creación del conocimiento para el empleo ideal del saber en la mejora de las situaciones; el trabajo colaborativo para alcanzar los objetivos planteados teniendo cuidado de mantener una clara y oportuna comunicación; y la mejora continua o metacognición (Tobón, Gonzalez, Nambo & VazquezAntonio, 2015). La socioformación se ocupa de que las personas trabajen por el bien común y de todo aquello que les rodea en la constante aplicación del conocimiento adquirido desde el pensamiento complejo. La ciencia de datos desde el enfoque socioformativo y como ciencia pluridisciplinaria se vale de métodos científicos, matemáticos, herramientas y técnicas que ayudan a llegar a la información que ofrece respuestas para la conclusión de problemas complejos. Sobre esta base, el análisis estadístico se incluye como una de las técnicas empleadas por la ciencia de datos para depurar e interpretar las cifras obtenidas y hacerlas comprensibles al apoyar la toma de decisiones.
15
Caracterización del Concepto de Ciencia de Datos La ciencia de datos se caracteriza por llevar a cabo el análisis de volúmenes de datos que no pueden ser manejados de manera tradicional ya que sus formatos, orígenes y/o cantidades complican la obtención de la información que proviene de fuentes tan diversas, estos datos no se obtienen de forma sencilla y precisan de un proceso de interpretación complejo para lo que se emplean distintas herramientas y se busca el apoyo de otras áreas del conocimiento como la estadística, las matemáticas, y la tecnología digital (Gibert, Horsburgh, Athanasiadis & Holmes, 2018; Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017), entre las principales. La ciencia de datos requiere del análisis que permite observar cómo se desarrolla o comporta un determinado fenómeno o situación en diversos entornos para apoyar en la toma de decisiones con mayor certidumbre, inclusive para realizar predicciones sobre la actuación que ese fenómeno pueda tener. Es así que las características con las que la ciencia de datos cuenta se resumen desde la perspectiva de varios autores. Desde un primer punto de vista considerando la perspectiva de las áreas del conocimiento que la apoyan, la ciencia de datos es la nueva generación del conocimiento de la realidad mediante el manejo de volúmenes importantes de datos cuantitativos a nivel global; se conforma de tres elementos para el logro del objetivo marcado que se resumen como: 1) bases de datos; 2) minería de datos; y 3) visualización de datos, elementos que a continuación se explican.
1) Bases de Datos Las bases de datos son aquellas colecciones o grupos de información cuantitativa que no pueden ser recolectados, almacenados y procesados por métodos convencionales y/o tradicionales dada su magnitud, formato y/o la velocidad con la que cambian a nivel local, regional y global, así como porque se requieren prácticamente en el tiempo en el que están sucediendo (Cabrera, 2019; Favaretto, de Clercq et al., 2020; Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017; Lemus-Delgado & Pérez Navarro, 2020; Oracle-México, 2020; Press, 2013). Sin importar su tamaño, es común que las bases de datos se alimenten, almacenen y manejen de manera electrónica para lo cual la tecnología digital resulta primordial (Oracle-México, 2020; Rollins, 2015).
16
2) Minería de Datos La minería de datos consta de la obtención y del análisis de información cuantitativa estableciendo las correlaciones y patrones de comportamiento que no pueden detectarse a simple vista dada la complejidad que les caracteriza (Hernández-Leal, Duque-Méndez & MorenoCadavid, 2017; Lemus-Delgado & Pérez Navarro, 2020). La minería de datos se vale del big data, de lo almacenado en sistemas digitales y mediante el uso de diversos aparatos electrónicos para de ahí obtener la información requerida, misma que se complementa con información de otras fuentes de datos y recursos externos para cumplir con el objetivo propuesto (Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017).
3) Visualización de Datos La visualización de datos se centra en transformar la información recabada y organizada para que sea comprensible para quienes la emplearán en la toma de decisiones; es común que se realice mediante representaciones gráficas de los resultados obtenidos usando diversas técnicas para compartir estas complejas cantidades de datos cuantitativos de manera visual (HernándezLeal, Duque-Méndez & Moreno-Cadavid, 2017; Lemus-Delgado & Pérez Navarro, 2020). Es así como la ciencia de datos rebasa fronteras para establecer coincidencias en un mundo globalizado ya que toma datos y elementos de cualquier parte del mundo y los traduce en las necesidades de un sector específico en tiempo real.
Un segundo punto de vista considera la importancia que la ciencia de datos ha cobrado hoy en día y los retos y tropiezos que ha tenido que solventar para adaptarse a los grandes y constantes cambios que la actualidad le demanda, sus características pueden resumirse como: 1) volumen de datos que se deben obtener, almacenar y procesar; 2) velocidad para recabar y procesar la información para que no pierda vigencia; 3) variedad de datos y recursos para obtener la información; 4) veracidad de los datos recabados y de aquellos que serán comunicados para la toma de decisiones y/o la resolución de los problemas (Qader, Ameen & Ahmed, 2020); 5) valor que tiene la información para el objetivo planteado; 6) complejidad que reflejan los datos a manejarse (Yambem & Nandakumar, 2018); y 7) comunicación asertiva de los resultados obtenidos. Estas características se explican con mayor detalle a continuación.
17
1) Volumen de Datos que se Deben Obtener, Almacenar y Procesar La ciencia de datos se centra en buscar y recabar datos complejos que se debe depurar para después procesar y comunicar; gran parte de dicha búsqueda se realiza en línea (Qader, Ameen & Ahmed, 2020) obteniendo volúmenes de datos que están directamente relacionados con la cantidad de información que existe sobre una empresa o sector en particular; la abundancia variará en función de la antigüedad de la información que se pretende manejar, el tipo, su contenido y la cantidad de datos que se deben analizar (Yambem & Nandakumar, 2018), así como la forma en la que se acopiará la información para poder ser procesada (León-Pérez, 2019). La dimensión que el conjunto de datos a depurarse alcanza obliga a depender de herramientas y procesos especializados, como el de la ciencia de datos que logrará establecer las coincidencias y valor de las referencias obtenidas.
2) Velocidad para Recabar y Procesar la Información para que no Pierda Vigencia Teniendo como base que la información se obtiene, en su mayoría, de la Red empleando diversos recursos, es posible asegurar que esta se puede recabar en tiempo real teniendo como único limitante la velocidad con la que se recibe, obtiene y mueve de un lugar a otro (Qader, Ameen & Ahmed, 2020). Esta es una de las características que hace que el proceso sea complejo por lo que requiere de apoyarse en otras áreas del conocimiento y herramientas, de lo contrario la información pierde vigencia y relevancia o queda incompleta. La velocidad con la que se obtenga, procese, analice, reflexione y comunique la información no solo depende del proceso que se lleve a cabo, sino de los mecanismos y del factor humano que intervengan en el almacenamiento y la reproducción de datos para la toma de decisiones en el momento preciso, la comunicación tardía de la información obtenida provoca la no solución del problema (León-Pérez, 2019) o puede guiar a una toma de decisiones que afecte a la empresa o campo del conocimiento, a predicciones erradas o a complicaciones que afecten a un sector importante de la población.
3) Variedad de Datos y Recursos para Obtener la Información Los datos que se obtienen para apoyar la toma de decisiones son variados y provienen de diferentes vías, aunque la más empleada es la Red también se recaban de otras fuentes en papel, por ejemplo, aunque podría ser el medio menos empleado en la actualidad. Aunado a ello, los datos se presentan de forma compleja ya que se encuentran contenidos y mezclados con todo tipo
18
de información, inclusive requieren de una limpieza, categorización, jerarquización e interpretación detallada para su correcta depuración lo cual deja de lado el uso de los sistemas convencionales (Qader, Ameen & Ahmed, 2020). La variedad de datos va en función del tipo de información que se pretende manejar, estos provienen de diversas fuentes y son numéricos, categóricos y/o jerárquicos, lo cual complica su obtención, depuración, clasificación, almacenamiento y procesamiento, mayormente cuando su tipo es mixto, (León-Pérez, 2019; Yambem & Nandakumar, 2018) y limita la posibilidad de conjuntarlos sin antes transformarlos a un solo lenguaje o formato, punto en el que las ingenierías y el análisis estadístico brindan el apoyo necesario, sin dejar de lado que el factor humano juega un papel preponderante en el proceso.
4) Veracidad de los Datos Recabados y de Aquellos que Serán Comunicados para la Toma de Decisiones La veracidad de la información que se compartirá es, quizás, el punto medular de todo el proceso ya que en ella se centra todo el proceso y se basarán las decisiones que se tomen para la mejora de una situación o resolución de un problema. El gran reto a vencer es la autenticidad de las fuentes y de los datos cuando se manejan grandes volúmenes y por la prontitud con la que se deben obtener y procesar (Qader, Ameen & Ahmed, 2020). La veracidad de los datos a ser procesados requiere de una constante comprobación teniendo en cuenta factores como las fuentes, contradicciones e inconsistencias, ambigüedad, falta de datos, aproximaciones y calidad de la información, entre los puntos a considerarse (Yambem & Nandakumar, 2018), sin dejar de lado la confidencialidad, la antigüedad y su relación con datos de otros sectores o empresas en igualdad de circunstancias.
5) Valor que Representa la Información para el Objetivo Planteado La información no solo debe cubrir con las características ya mencionadas como su veracidad y vigencia, debe considerar el valor que tiene con respecto a su uso y a la utilidad que aporta para el proceso y para la toma de decisiones (Yambem & Nandakumar, 2018). El valor que los datos tienen inicia con la información que la empresa o sector proporciona, seguido de las fuentes de donde se obtiene y de aquellas con las que se complementa, gran parte de esta información se relaciona con la trayectoria del suceso o de la empresa; terminado el proceso, el
19
valor de los datos aumenta por su contenido punto en el que la confidencialidad es determinante ya que reflejan las bases para la predicción o determinación del rumbo que se debe tomar o para la propuesta de una solución viable y confiable para la resolución de un problema.
6) Complejidad que Reflejan los Datos a Manejarse La complejidad que presentan los datos que se manejan en los procesos que lleva a cabo la ciencia de datos estriba en su volumen, tipo, procedencia y vigencia, ya que cada referencia aporta datos que han sido manejados y almacenados de diferentes formas y en tiempos diversos; desgraciadamente las fuentes de datos no siempre guardan relación entre sí, su independencia y diversidad de comportamientos arrojan variables que complican el proceso, es labor de la ciencia de datos simplificar el desarrollo estableciendo conexiones, patrones, tendencias y relaciones entre la información relevante de una procedencia y otra (Yambem & Nandakumar, 2018), más que alinear los recursos, la complejidad estriba en depurar la información y hacerla converger con respecto a patrones y tendencias.
7) Comunicación Asertiva de los Resultados Obtenidos La información recabada mediante el proceso llevado a cabo arroja datos cuantitativos y en formatos que requieren de ser traducidos a un lenguaje sencillo y de fácil comprensión para todos los involucrados considerando que diversas áreas y personal de la empresa o sector la recibirán, valorarán y emplearán. Se considera una mala comunicación aquella que contiene información incompleta, de procedencia dudosa, de difícil comprensión o que pueda desencadenar situaciones que afecten a todos los involucrados o a un mal pronóstico sobre el curso que una situación tomará, sin descartar las afectaciones por un mal manejo de la confidencialidad. La comunicación debe ser asertiva en el sentido de que debe ser inmediata para que no pierda vigencia y utilidad, veraz y completa para que refleje un íntegro y correcto panorama, y sobre aquellos resultados que arrojó el proceso. Tobón (2015b) marca claramente que la comunicación asertiva desde un enfoque socioformativo invita a centrarnos en el objetivo que se haya planteado y se deberá apoyar en el respeto que se imprime al compartir la información con claridad y transparencia para mejorar una situación.
20
Un tercer punto de vista para determinar las características que la ciencia de datos tiene es el que se concentra en las fuentes que se emplean para la obtención de datos de manera colaborativa y con diferentes campos del saber, así como considera que la ciencia de datos sirve a cualquier ámbito del conocimiento. Desde el enfoque socioformativo, la ciencia de datos se caracteriza por su: 1) transversalidad; y 2) multidisciplinariedad; sin dejar de lado que se apoya ampliamente en dos grandes ramas: (1) el análisis estadístico; y (2) la ingeniería.
1) Transversalidad desde un Enfoque Socioformativo Desde un enfoque socioformativo, la transversalidad en el mundo de la ciencia de datos refiere a la forma en la que se manejan las actividades a desarrollar incluyendo todas las áreas que se requieran y valiéndose de la tecnología para automatizar el proceso, ello permite optimizar el esfuerzo, el tiempo y el manejo de los datos. La transversalidad se centra en tomar de cada área del conocimiento aquello que apoya y beneficia la obtención de resultados de forma articulada, es decir, combinando adecuadamente sus elementos para apoyarse entre sí, de esta forma, al menos dos campos disciplinares se unen para fortalecer la adquisición de la información para lograr el objetivo esperado desde el trabajo colaborativo (Ordoñez-Pico et al., 2019; Sabes, 2018; Tobón, Martínez, Valdéz-Rojo & Quiriz, 2018; Tobón, 2013). La ciencia de datos ofrece alternativas para la producción y depuración de datos que apoyen la toma de decisiones por lo que no se podría pensar que puede actuar de forma independiente e ignorando otras áreas del conocimiento.
2) Multidisciplinariedad desde la Socioformación La transversalidad y la multidisciplinariedad no son sinónimos, la segunda de ellas se enfoca en la combinación de diversas disciplinas respetando la independencia, metodología y técnicas de cada una de ellas, es la colaboración de las diferentes áreas lo que permite lograr el objetivo esperado, mientras que, desde la transversalidad, las disciplinas se conjuntan para colaborar siguiendo la metodología y/o técnicas propuestas por la ciencia de datos. La ciencia de datos es, por su naturaleza, una transversal debido a que el experto que trabaja bajo este esquema requiere tener conocimientos y trabajar con áreas como ciencias, matemáticas, estadística y ciencias computacionales, como mínimo, para lograr su objetivo (Gibert, Horsburgh, Athanasiadis & Holmes, 2018; Hernández-Leal, Duque-Méndez & MorenoCadavid, 2017), aunado a ello, la ciencia de datos es tan amplia y multidisciplinaria que converge
21
e incluye otras áreas más específicas como son la tecnología digital, minería de datos y análisis de datos considerando que la ciencia de datos es la que procesará y transformará la información que comunica para tomar medidas, mientras que las otras áreas ponen toda su atención en alguna de las etapas del proceso (Gibert, Horsburgh, Athanasiadis & Holmes, 2018; Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017). La multidisciplinariedad, desde un enfoque socioformativo, es aquella en la que el proceso para la resolución del problema a corto, mediano y/o largo plazo se debe llevar a cabo desde varios campos del saber (Tobón, 2013), misma línea que sigue la ciencia de datos ya que proporciona la información necesaria para la toma de decisiones y para mejorar una situación o para la predicción valiéndose del conocimiento de otras ciencias.
Desde la transversalidad y la multidisciplinariedad, la ciencia de datos se apoya fundamentalmente en dos grandes áreas: 1) el análisis estadístico; y 2) la ingeniería de datos.
(1) El Análisis Estadístico La ciencia de datos busca cubrir su objetivo cumpliendo con diversos pasos que pueden variar de una situación a otra, dependiendo de la información a recabarse y de la meta a lograrse. De manera general, estos pasos se resumen como: a) la obtención de los datos o importación de la información; b) la clasificación de la información; c) la transformación de la información cuantitativa a un formato comprensible que pueda servir al fin establecido; d) la elaboración de gráficas de la información obtenida la cual se configura y adapta tanto como sea necesario para que pueda ser comunicada; y e) la comunicación de la información (Vázquez-Brust, 2020) de forma asertiva y oportuna. El análisis estadístico juega un papel importante en estas etapas, sobre todo a partir de la transformación de la información ya que la convierte de meros datos cuantitativos a información comprensible; de forma paralela, el análisis estadístico los va creando para generar modelos que apoyen en la toma de decisiones, es decir, toma los datos crudos y los presenta como premisas que guían la predicción o visualización y explicación de la situación y de sus consecuencias (Vázquez-Brust, 2020). Partiendo de la base de que el análisis estadístico se centra en procesos matemáticos, esta transformación recibe el nombre de ‘modelar’ que refiere a que se presenta la situación mediante un modelo que refleja lo que sucede en un contexto tan similar como es posible
22
valiéndose de variables dependientes e independientes que fundamentan la predicción (VázquezBrust, 2020). El papel que el análisis estadístico juega en el proceso es fundamental y se vale de otras disciplinas como son las matemáticas, la programación y la resolución de situaciones contextualizadas para detectar patrones que se puedan modelar y comunicar de forma más sencilla.
(2) La Ingeniería de Datos La ingeniería de datos es vital para un adecuado análisis de la información recabada ya que gestiona, optimiza, supervisa y controla los datos desde que se recolectan, almacenan, clasifican y hasta que se transforman para poderse comunicar a las áreas que continuarán con el proceso en tiempo y forma (Klenzi, Malberti & Beguerí, 2019; White, 2018). En este sentido, la ingeniería de datos apoya a la ciencia de datos mayormente en los tres primeros pasos del proceso, en la obtención de variadas cantidades de información compleja de diversas fuentes o bancos de datos para después depurarla; en su clasificación y jerarquización para después transformarla; y al comunicarla a otras áreas que continuarán con el proceso, esto no implica que la ingeniería de datos deja de ser parte del proceso, sigue presente en tanto se requiera ya que se trata de un procedimiento cíclico en el que constantemente se revisa y valora la información para complementarse o modificarse, incluso cuando se comunica (Klenzi, Malberti & Beguerí, 2019).
Diferenciación del Concepto de Ciencia de Datos El concepto de ciencia de datos suele confundirse con otros conceptos que, aunque están relacionados, son diferentes por el proceso que llevan a cabo para cumplir con su objetivo. Dos de los conceptos con los que más se llega a confundir son: 1) los grandes volúmenes de datos o big data; y 2) el análisis de datos, mismos que no deben ser considerados como uno mismo ya que la ciencia de datos es una de mayor cobertura mientras que los mencionados tienen un alcance diferente (Gibert, Horsburgh, Athanasiadis & Holmes, 2018) por su aplicabilidad. Los grandes volúmenes de datos o big data refiere a enormes volúmenes de datos que no pueden ser manejados de manera sencilla ni de forma tradicional, inclusive su gran tamaño imposibilita almacenarlos sin el apoyo de herramientas especializadas, situación que no se daba en el pasado dado que la cantidad de información que se manejaba era mucho menor, de fácil adquisición y manejo (Lemus-Delgado & Pérez Navarro, 2020; “Revista Empresarial & Laboral”,
23
2018). En contraste, el análisis de datos se centra en obtener la información pertinente que pueda ser procesada y empleada mediante un análisis, para lo cual se vale de diversas tecnologías y herramientas (Méndez & Porven, 2018; “Revista Empresarial & Laboral”, 2018). Considerando que los procesos que la ciencia de datos lleva a cabo se diferencian de los del big data y el análisis de datos, en la Tabla 2. se especifican las etapas que comparten y aquellas en las que solo interviene uno o dos de ellos.
Ciencia de datos
Big data
Análisis de datos
Coincidencias en el proceso para los conceptos de ciencia de datos, big data y análisis de datos Conocimiento de la empresa a fondo para realizar una labor que pueda cumplir con los objetivos que se hayan planteado (Rollins, 2015).
Almacenamiento de grandes volúmenes de información concerniente a la empresa o sector que provienen de fuentes internas y externas pero relacionadas; esta información sufre transformaciones rápidas y constantes (Favaretto, de Clercq et al., 2020; Hernández-Leal, DuqueMéndez & MorenoCadavid, 2017; Laboral, 2018) y refiere a los acontecimientos que se están viviendo en tiempo real mediante patrones, tendencias y correlaciones (Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017; Lemus-Delgado & Pérez Navarro, 2020). Iniciación del proceso mediante el planteamiento de los objetivos que la empresa o sector tiene y que el proyecto buscan alcanzar
24 (Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017; Laboral, 2018; Rollins, 2015) Determinación de las técnicas y metodología a seguir según las necesidades de la empresa o del sector (Rollins, 2015). Recolección de información del big data y de fuentes externas y ajenas (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019) para darle valor y utilidad (“Revista Empresarial & Laboral”, 2018).
Limpieza de la información recabada en tiempo y forma (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Procesamiento de la información empleando técnicas y metodologías según las necesidades del proyecto (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Preparación de la información que será empleada para su análisis (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Análisis de la información recabada; en este puno se pueden repetir los procesos de recolección y de limpieza (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019).
Extracción de datos para ser examinados (Hernández-Leal, Duque-Méndez & Moreno-Cadavid, 2017; Lemus-Delgado & Pérez Navarro, 2020; Rollins, 2015), esta información proviene, en gran medida, del big data en tiempo real (HernándezLeal, Duque-Méndez & Moreno-Cadavid, 2017). Depuración de los datos útiles del presente y del pasado que puedan apoyar a la toma de decisiones (Grant, 2020; Rollins, 2015). Análisis de la información empleando diversas metodologías (Méndez & Porven, 2018; Rollins, 2015).
25 Predicción de la situación buscando mejores resultados en el futuro (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Planteamiento de interrogantes que den valor a la información recabada y que puedan ser empleadas en el futuro (Qader, Ameen & Ahmed, 2020; Yan & Davis, 2019). Acomodo u organización de la información atendiendo a patrones, tendencias, categorías y jerarquías (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Obtención de datos a comunicarse mediante un extenso proceso de depuración (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Presentación de la información en términos comprensibles y utilizables para la toma de decisiones y/o para la predicción (Qader, Ameen & Ahmed, 2020; Rollins, 2015; Yan & Davis, 2019). Comunicación asertiva de los resultados obtenidos (VázquezBrust, 2020).
Comunicación de la información ya analizada para apoyar a la resolución de problemas (Lemus-Delgado & Pérez Navarro, 2020; Rollins, 2015) habiéndola transformado para que sea comprensible (Grant, 2020; Rollins, 2015).
Tabla 2. Diferenciación y coincidencias de los conceptos de ciencia de datos, big data y análisis de datos.
La ciencia de datos propicia la obtención de los datos, su análisis, interpretación y su optimización en tiempo y forma con base en las ingenierías y la estadística para determinar comportamientos en el futuro que apoyen a la toma de decisiones (Hernández-Leal, DuqueMéndez & Moreno-Cadavid, 2017). Su proceso se vale de diferentes herramientas matemáticas,
26
computacionales y estadísticas, además de que se enriquece con las fuentes o bases de datos que el big data ofrece y con el proceso que el análisis de datos lleva a cabo. Partiendo de la idea de que la ciencia de datos es una transversal y multidisciplinar, se vale de todas aquellas áreas y ciencias que puedan beneficiar el logro del objetivo, sin embargo, la ciencia de datos no puede considerarse como sinónimo o igual que el big data ni que el análisis de datos, ya que cada uno de ellos cuenta con objetivos, alcances y responsabilidades específicas, siendo que la ciencia de datos refleja una mayor cobertura que las otras dos, de ahí la necesidad de diferenciarlas (ver Tabla 2.).
Aplicación del Concepto de Ciencia de Datos La aplicación de la ciencia de datos es amplísima ya que se le puede emplear en prácticamente todos los sectores que así lo requieran debido a que se trata de una ciencia interdisciplinaria que recolecta y analiza la información valiéndose de herramientas como el análisis estadístico y las ingenierías sobre los usuarios, sectores, empresas, comportamientos y necesidades para apoyar en la toma de decisiones o la debida predicción. La ciencia de datos es uno de los puntos en el que convergen todas las áreas, como las ciencias, los mercados, las finanzas, la educación, las ingenierías, la informática, las redes sociales y el entretenimiento, inclusive los buscadores en la Red la emplean, por mencionar tan solo algunas (Méndez & Porven, 2018). De manera más específica y para ejemplificar la aplicación de la ciencia de datos a continuación se comenta brevemente sobre solo algunas de sus aplicaciones. La ciencia de datos se emplea en las empresas de todos los sectores para ofrecerles información relevante que propicie la adecuada toma de decisiones o la realización de pronósticos a corto, mediano y largo plazo; en el caso de los motores de búsqueda en la Red, la ciencia de datos apoya para ofrecer una mayor gama de opciones y sugerir los mejores resultados, como podrían ser: 1) productos relevantes, información, precios, ofertas o rutas; 2) entretenimiento, redes sociales, actividades interactivas, juegos y aplicaciones educativas que buscan la distracción de las personas, la socialización o el autoestudio (Lerena, 2019). En ambos casos, la ciencia de datos recolecta información sobre los usuarios como sus datos personales, edad, género, zona geográfica, pasatiempos, gustos, patrones, hábitos, tendencias y necesidades para que su servicio se adapte a sus exigencias y preferencias ofreciendo opciones que hacen el momento más enriquecedor y personalizado, así como
27
determina el tipo de propaganda que se puede involucrar (Lerena, 2019; Méndez & Porven, 2018; Ruíz, 2018). Algunos otros ejemplos de su aplicación son el caso del área administrativa, contable y financiera de las empresas y sectores apoyándolos en situaciones como: 1) la determinación de los presupuestos y realización de proyecciones; 2) en la detección de posibles riesgos o dolos; 3) orientando sobre la oferta y la demanda; 4) para la determinación de los precios de compra y venta, entre muchos otros (Ruíz, 2018). En contraste, para el sector salud, la ciencia de datos apoya para: 1) referir al comportamiento y pronóstico de alguna enfermedad; 2) para evitar que los altos costos de procedimientos, suministros y medicamentos le afecten; 3) para optimizar los procesos y su logística; o 4) para apoyar en la investigación, además de otros puntos importantes (Méndez & Porven, 2018; Rodríguez, 2020; Ruíz, 2018). En lo académico, la ciencia de datos apoya para: 1) proporcionar información sobre tendencias y necesidades para cumplir con los estándares educativos planteados; 2) reflejar patrones o situaciones que benefician o perjudican la adquisición del aprendizaje; 3) apoyar en la investigación para la mejora continua de la escuela, de su personal y/o de los estudiantes; o 4) como base para determinar el rumbo que la educación debe tomar para adecuarse a los cambios que se presentan día a día, entre otros. En el área de las ciencias, al referirnos a sectores como el forense, la biología, la química, o la medicina, la ciencia de datos apoya con: 1) información sobre patrones de conducta y relaciones entre comportamientos; 2) datos relevantes y actuales para realizar pronósticos para la prevención, diagnóstico y tratamiento de diversas enfermedades; 3) cruce de resultados de investigaciones en curso o terminadas para dar respuesta a interrogantes, entre otros (Méndez & Porven, 2018; Ruíz, 2018).
Vinculación del Concepto de Ciencia de Datos La ciencia de datos tiene la virtud de acceder a múltiples cantidades de datos para detectar y analizar su comportamiento estableciendo vínculos con la actividad local, regional y global que se ha generado y/o se producirá y se vincula directamente con la aplicación del DSS mediante las estrategias, propósitos y metas que persigue (Parra-Cortés, 2018); estas relaciones apoyan para la comprensión de la dirección y actuación que se tienen y, por tanto, son el ingrediente primordial
28
para todas las áreas del conocimiento, siendo su principal vinculación el comportamiento de datos y sus tendencias. La ciencia de datos también se vincula con el DSS y con el pensamiento complejo, además de otras disciplinas de las cuales se comparten algunas a continuación. La ciencia de datos está íntimamente vinculada al DSS, en su papel más sencillo se concentra en recabar la información que se genera y almacena día a día en diversos dispositivos y sistemas digitales para, de la mano del análisis estadístico y de la tecnología digital, procesar, analizar y compartir información valiosa casi en el momento en el que se genera (United-Nations, n.d.). Si la información recabada en pro del DSS es organizada y procesada adecuadamente cobra gran valor al reflejar el estatus que la calidad de vida de la población mundial tiene y el estado actual del planeta como parte de las metas que la Agenda 2030 incluye (Parra-Cortés, 2018). La ciencia de datos no solo recaba información para propiciar la productividad de la empresa o de un sector en particular, permite ampliar la comprensión y conocimiento que se tiene sobre el avance de los objetivos del DSS y la rendición de cuentas para determinar una mejor actuación. Hoy en día las Naciones Unidas cuentan con diversos programas que vincular abiertamente al DSS y a la ciencia de datos, un claro ejemplo de ello es el proyecto de la Plataforma de Análisis de Vulnerabilidad para el Impacto de Eventos Regionales (VAMPIRE) que se encarga de analizar los fenómenos atmosféricos que permitan reducir el cambio climático (Pulse-Lab-Jakarta, 2017). Uno de los puntos en el que convergen la ciencia de datos y el DSS es en la reducción del riesgo al recolectar los datos requeridos ya que se necesita de la tecnología digital y del análisis estadístico para obtener tasas más altas de confiabilidad en la información sin rebasar la frontera de la privacidad (United-Nations, n.d.). La ciencia de datos y el DSS han generado una mancuerna importante y productiva que no puede lograrse al máximo si la comprensión del problema y de la información no son totales, las situaciones que se plantean como parte de las acciones para el DSS son parte del contexto de las personas (Naciones-Unidas, 2018) y deben comprenderse como un todo complejo que involucra mucho más que sus necesidades y gustos, se trata de un medio ambiente en el que el ser humano vive y se desarrolla y cuyos elementos rigen la vida de todas las personas; la información recabada y las soluciones propuestas, desde el pensamiento complejo, deben ser vistas desde la innovación, la creatividad, la apertura al cambio y la adecuación al DSS, además de aceptar cada uno de los elementos a analizarse como lo que conforma el todo y no como secciones independientes (Morin, 1998; Tobón & Núñez-Rojas, 2006).
29
La ciencia de datos también se vincula con las ciencias sociales en aquellas áreas que realizan estudios locales, globales y de temporalidad en el sentido de los temas que se comparten en el mundo y como parte del DSS, así como de fenómenos locales proporcionan información sobre sucesos de carácter nacional y regional para interrelacionarlos con los de otras zonas y con los mundiales (Lemus-Delgado & Pérez Navarro, 2020; United-Nations, n.d.; Vázquez-Brust, 2020). Se vale del pasado y presente y de las directrices y cambios domésticos para atender a las diferentes áreas del conocimiento mediante una metodología universal y sin limitaciones involucrando el quehacer humano y su interacción con el medio (Lemus-Delgado & Pérez Navarro, 2020; Vázquez-Brust, 2020) desde el DSS. Dentro de las ciencias sociales, los estudios globales se valen del análisis de diferentes campos del saber para comprender situaciones sociales y tomar decisiones en el presente, estos no dejan de lado lo local ni la temporalidad, sino que se centran en el estudio de las interrelaciones sociales en los tres planos (Chenou & Quiliconi, 2020) ya que la temporalidad le permite determinar el tiempo y espacio para la obtención de datos (Lemus-Delgado & Pérez Navarro, 2020; Vázquez-Brust, 2020) y la parte regional les apoya para analizar comportamientos más precisos que se interconectarán con los de otras zonas. La ciencia de datos se vincula con las áreas de dirección, administración, ventas, producción, contabilidad, finanzas, negocios, mercadotecnia, investigación, recursos y estrategias ya que el proceso que la ciencia de datos lleva a cabo permite que las empresas e instituciones estén más cerca de sus consumidores y seguidores pues ofrece el perfil de quienes son, cuál es su comportamiento, gustos y necesidades para buscar alternativas que permitan tener más clientes y que los que ya tienen sean leales (Lerena, 2019). Aunado a ello, la ciencia de datos ofrece una visión más clara sobre el mercado ya existente, los que están surgiendo y los que requieren de renovación para que la empresa sea más competitiva (Lerena, 2019). La gran cantidad de datos complejos que la ciencia de datos debe extraer, depurar, analizar y transformar requiere de herramientas y técnicas que beneficien el proceso, es así que se vincula con las ingenierías ya que son la puerta a la optimización de esa información de manera posible y sencilla debido a que manejan el lenguaje de la programación acompañado de softwares y herramientas adecuadas. Asimismo, se vincula con el mundo estadístico que ofrece complicados cálculos matemáticos y algoritmos que permiten analizar e interpretar todo tipo de bases de datos
30
para lograr modelos de predicción apoyados en la probabilidad (De Fuentes et al., 2019; Klenzi, Malberti & Beguerí, 2019; Lemus-Delgado & Pérez Navarro, 2020). La ciencia de datos también se vincula con las ciencias de la comunicación ya que su objetivo es comunicar los resultados obtenidos, es decir, se debe pasar de una gran cantidad de datos crudos a compartir aquellos que sean útiles en términos comprensibles y que se puedan emplear para la toma de decisiones o proyecciones de la empresa (Lemus-Delgado & Pérez Navarro, 2020; Vázquez-Brust, 2020). Esta comunicación debe ser asertiva en el sentido de que debe ser eficaz, cierta, clara y con honestidad (Tobón, 2015b; Vázquez-Brust, 2020).
Metodología de Aplicación del Concepto de Ciencia de Datos La ciencia de datos es un proceso que se lleva a cabo por pasos definidos e interrelacionados. En cada una de estas etapas, se vale del apoyo de otras áreas que le permiten cumplir el objetivo buscado, es el especialista el que irá determinado cuáles de estas áreas deberán involucrarse y en qué momento. La metodología puede variar, según la meta que se persigue, algunas de estas metas podrías ser: 1) realizar predicciones; 2) mejorar situaciones; 3) resolver problemas; o 4) mejorar o apoyar la toma de decisiones en tiempo real. La metodología que a continuación se presenta consta de diez etapas y se propone desde un enfoque analítico, presenta grandes similitudes con la metodología que siguen otras áreas que también manejan grandes volúmenes de datos. Las diez etapas son: 1) comprensión del negocio; 2) enfoque analítico; 3) requisitos de datos; 4) recopilación de datos; 5) comprensión de datos; 6) preparación de datos; 7) modelado; 8) evaluación; 9) implementación; 10) retroalimentación (Rollins, 2015), mismas que se explican a continuación. Cabe mencionar que mediante el método de volumetría se llevará a cabo la estimación del tamaño de aquellas bases de datos que la ciencia de datos empleará durante el proceso sin desestimar aquellas que son pequeñas, ello beneficiará la elección de la metodología adecuada, que con el apoyo del análisis estadístico beneficiará el espacio de almacenamiento de la información que se vaya adquiriendo y depurando facilitando la comunicación de los resultados, ello implica que el método puede ser aplicado al inicio y durante el proceso (Cabrera, 2019).
1) Comprensión del Negocio La primera y más importante etapa es conocer, entender y aprender de la empresa o sector dentro del cual se trabajará, ello permite adentrarse en la situación a mejorar o problema a resolver;
31
será responsabilidad de la empresa o sector compartir el motivo, el objetivo y el alcance que esperan, así como la utilidad que la información recabada tendrá, en este punto la ciencia de datos puede orientarles para tener una mayor claridad (Rollins, 2015). Es también responsabilidad de la empresa o sector determinar qué áreas y personas participarán en el proyecto y si se dará autorización a externos a colaborar y aportar con información debido a que a lo largo del proceso se llevarán a cabo revisiones periódicas de los alcances que se estén teniendo (Rollins, 2015). Si alguna de estas piezas de información faltase, el éxito del proceso se podría venir abajo. Comprender las exigencias y camino que la empresa desea emprender y las necesidades y razones que los empleados y el cliente tienen para ser fieles a la empresa son elementos positivos para una mejor comprensión de la empresa, aunado permiten llegar a una toma de decisiones que propicien la productividad y beneficien el rendimiento desde el DSS, en general la empresa deberá determinar sus objetivos con una visión global, cuidando la competitividad, alineándose a los cambios relevantes que se dan a nivel mundial, regional y local, cuidando y motivando los medios humanos con los que cuenta y fomentando el uso positivo de la tecnología, entre muchos otros (Ordoñez-Pico et al., 2019), mayormente si consideramos que el DSS se ocupa primordialmente del bienestar de la humanidad y de todo aquello que le rodea, como son la producción y el consumo, el cuidado del medio ambiente y la mejora de las condiciones para brindar educación, salud y erradicar la pobreza, como algunos de los puntos considerados (Naciones-Unidas, 2018).
2) Enfoque Analítico El primero de los pasos es primordial para determinar el enfoque que tendrá todo el proceso ya que no será el mismo si se quiere resolver un problema que si se quiere realizar una proyección a futuro, por poner un ejemplo. El enfoque es el que determinará las personas, las áreas, las metodologías y las técnicas que se involucrarán, así como la forma en la que se comunicarán los resultados (Rollins, 2015). Se pudiese dar el caso de un enfoque mixto, o de un cambio de enfoque en algún punto del proceso considerando que la ciencia de datos se va desarrollando conforme a la información que recibe y a las revisiones periódicas que se realizan entre el especialista y la empresa o sector, sobre esta línea, es prudente considerar que en cualquier momento el proceso podría detenerse y regresar uno o varios pasos para realizar ajustes.
3) Requisitos de Datos
32
Conociendo la empresa o sector con el que se trabajará y el objetivo a lograr, la ciencia de datos debe determinar qué datos se requieren, cuáles serán la metodología y las técnicas requeridas y las fuentes que se emplearán en un primer momento. No es hasta que se ha revisado la información con la que se cuenta que se podrá determinar si se requieren de otras fuentes o si se debe cambiar el rumbo para llegar al contenido que se está buscando. Posteriormente se determinará el formato que se le podrá dar a la información para que represente los resultados de forma clara y completa y pueda ser comunicada (Rollins, 2015).
4) Recopilación de Datos Dependiendo de la disponibilidad de la información, el especialista determinará si debe recurrir a la recolección de datos que no están a su alcance y en qué momento hacerlo ya que implica tiempo y recursos. En este punto la recopilación de datos es un círculo en el que se recaban, se verifican, se determina si se requiere un mayor número de datos y se reúnen aquellos datos faltantes para volver a repetir la secuencia hasta que se considere que se cuenta con suficiente información (Rollins, 2015). Los primeros tres pasos del proceso apoyaron para determinar las áreas y técnicas a involucrar, ello facilitará la depuración, clasificación y muestreo de la información considerando el volumen de los datos a manejar así como facilita que se sigan sumando datos que puedan ofrecer información más clara, sobre todo cuando se enfrentan a situaciones complejas o poco usuales (Rollins, 2015). Es importante identificar si los datos a reunir son estructurados, semiestructurados o no estructurados, su antigüedad, vigencia y la forma en la que se alinean al objetivo a cumplir. Los datos estructurados son aquellos que contienen una estructura, definición u orden considerando su longitud, su formato y su tamaño, regularmente se almacenan en formatos que facilitan su visibilidad ya que su organización se muestra en filas y columnas; los datos no estructurados son aquellos que normalmente se encuentran en las empresas y sectores, carecen de dicha estructura o formato y se encuentran almacenados en diversas fuentes, formatos y lugares, su manejo es complicado ya que involucran datos de diferentes orígenes y tipos; y los semiestructurados son la combinación de los dos anteriores ya que tienen una relativa estructura con una mejor organización e incluyen relaciones pero no tienen un formato estándar (Tipos de Datos: Datos Estructurados, Semiestructurados y No Estructurados, 2020).
33
La recopilación de datos requerirá de un procedimiento complicado ya que la información que se recopila es tanto global como local y se encuentra en constante cambio, esta debe ser comprendida de forma casi inmediata valiéndose de tantas disciplinas como sea posible para determinar el camino a seguir (Tobón & Núñez-Rojas, 2006), el pensamiento complejo nos permite entender dicha información desde diferentes perspectivas sin descartar la comprensión de la misma como un todo y sus partes para tener en cuenta el bien del capital humano desde el DSS que nos guía para un balance entre el medio y los seres vivos (Morin, 1998; Tobón & NúñezRojas, 2006).
5) Comprensión de Datos En este punto se cuenta ya con datos visibles provenientes de la recopilación; los datos han sido tomados de la información recabada para ser depurada, analizada y entendida, para fijar su valor en términos de contenido, organización, calidad, vigencia y relevancia para detectar puntos medulares que determinarán si es necesario realizar una nueva recopilación de datos (Lemus-Delgado & Pérez Navarro, 2020; Rollins, 2015). El proceso para la comprensión de la información recabada no es sencilla ya que se requiere del análisis estadístico para que los datos relevantes se manifiesten, sean claros y permitan detectar insights o data insights, es decir que se descubra la información que está oculta en los recursos determinados y recabados y que apoya para la determinación de patrones, tendencias y comportamientos, inclusive se llegan a localizar datos fuera de lo normal o de lo esperado y que se emplean para determinar si es necesario retomar la recopilación de datos, complementar o eliminar los que ya se tienen (Breiman, 2001; Méndez & Porven, 2018; Parr & McCarthy, 2019; Rollins, 2015). Los data insights apoyan para determinar, en un primer intento, los procesos que la empresa o sector deben seguir mediante un análisis detallado de la información (Diccionario Tecnológico Luca, 2019).
6) Preparación de Datos Esta es la etapa que requiere de más tiempo y dependerá del objetivo a lograr, es por ello que el trabajo que se realice en los puntos anteriores resulta de gran apoyo. Al llegar a la preparación se realiza un análisis de los datos que se han recabado, complementado, analizado y comprendido, se determina si su calidad es la requerida para lograr el objetivo planteado y se pretende alistarlos para generar modelos que expliquen la situación y propongan posibles caminos
34
a seguir. Los datos deben ser depurados para eliminar cualquier información irrelevante o repetida y para asegurar que están completos; esta información debe complementarse con datos obtenidos de otras fuentes que al momento de la recopilación no fueron consideradas; y debe convertirse en variables que se puedan manejar con mayor facilidad (Méndez & Porven, 2018; Rollins, 2015).
7) Modelado Aunque la información recibida para esta etapa ya está preparada para generar los modelos necesarios, es común enfrentarse a nuevos descubrimientos que requieran de más información y de ajustes. Además de los datos recabados, el especialista emplea algoritmos y variables estadísticas para preparar los modelos que describen el problema o presentan los pronósticos, estos últimos, los pronósticos se centran en la información histórica sobre el tema (Méndez & Porven, 2018; Rollins, 2015). La generación de los modelos y su aplicación revela información que carece de calidad o valor para el proceso y apoya para limpiar la información y permite evaluar si las técnicas y metodologías empleadas fueron las adecuadas (Méndez & Porven, 2018).
8) Evaluación El generar un modelo completo no lo hace definitivo, es importante evaluarlo, inclusive aplicarlo, para asegurar su valor y que podrá atacar la situación o problema determinado. La evaluación consta del diagnóstico y de la valoración de los resultados apoyándose en herramientas estadísticas que facilitan la comprensión y garantizan la virtud del modelo; realizadas las evaluaciones, se procede a efectuar ajustes y pruebas añadidas y nuevas que reflejen la excelente calidad del modelo (Méndez & Porven, 2018; Rollins, 2015). Evaluar los resultados obtenidos para determinar si son completos y confiables debe considerar el desarrollo económico de la empresa desde DSS para asegurar que las consecuencias que la toma de decisiones traiga tenga resultados favorables para las personas y el medio (Tobón & Núñez-Rojas, 2006) considerando qué sería del futuro de la empresa o sector si no se cuida e impulsa el bienestar de las personas, sean los clientes o el capital humano (Ordoñez-Pico et al., 2019).
9) Implementación
35
Aún y cuando se considere que el modelo cumple con las expectativas, es importante presentarlo a la empresa para que sea aprobado previo a su implementación, posteriormente es probado de manera limitada en contextos similares que permitan establecer correlaciones, esta prueba se puede acompañar de reportes o informes sobre su efectividad, o de los resultados de su implementación directamente en la empresa y con la colaboración del personal y de sus recursos; si el modelo cumple con los estándares, es implementado (Méndez & Porven, 2018; Rollins, 2015). La implementación del modelo requerirá de tantas pruebas como sea necesario hasta cumplir con los estándares mínimos para ser aplicado en un contexto real lo que proporcionará la información necesaria para la retroalimentación (Méndez & Porven, 2018).
10) Retroalimentación La implementación del modelo arrojará resultados que el especialista deberá compartir con la empresa o con el sector, estos resultados involucran detalles como el rendimiento que tuvo el modelo y la forma en la que impactó en el ambiente en el que se llevó a cabo; para ello, no existe un formato específico para comunicar los resultados de manera asertiva, esta puede ser mediante porcentajes (Méndez & Porven, 2018; Rollins, 2015), gráficas, tablas o de cualquier otra forma que sea comprensible para la empresa y que les apoye en su implementación para la toma de decisiones. La comunicación de los resultados no indica que el proceso ha terminado, el intercambio de información con la empresa podría requerir de ajustes al modelo y de una nueva aplicación para que el margen de error se reduzca tanto como sea posible (Rollins, 2015).
Ejemplificación del Concepto de Ciencia de Datos La ciencia de datos está presente en todas las áreas, aunque pareciera que solo lo está en las empresas y sectores, también lo está en la vida diaria y en situaciones cotidianas. Existe una cantidad considerable de ejemplos que se apegan, en cierto grado, a la metodología descrita, sin embargo, no se ha logrado ubicar un ejemplo de aplicación de la ciencia de datos que siga todos los pasos metodológicos planteados cuyo proceso se lleve a cabo involucrando el pensamiento complejo y que se alinee a los objetivos del DSS, por lo que se ha optado por compartir como ejemplo actual y relevante el del creciente uso de relojes o pulseras denominados smart watches, dispositivos wearables, tecnología móvil, o pulseras inteligentes. Se trata de atractivos dispositivos por sus colores, diseños y tamaño que se ajustan a los gustos y comodidad del usuario,
36
regularmente se portan como relojes o pulseras durante el día y la noche, inclusive los hay ya resistentes al agua para evitar que el usuario se los tenga que quitar al bañarse o nadar. La primera gran ventaja para el usuario es que le permiten realizar todo tipo de funciones desde su muñeca y le liberan de estar pendiente del celular o de la computadora (Mora, 2020; Qué Es Wearable y Qué Tipos de Dispositivos Existen, 2019) mediante el uso de muy pequeñas pantallas o mediante la proyección de la pantalla en el antebrazo de quien porte la pulsera. El uso de estos dispositivos facilita que en segundos se respondan llamadas y se recojan todas las notificaciones del smartphone sincronizado, se reciben y responden mensajes de diversas aplicaciones y de correo electrónico, se pueden leer las noticias, supervisar monitores de seguridad de casas o empresas, escuchar música, rastrear la llegada de compras en línea, programar la actividad inteligente del hogar como el encendido y apagado de luces o la activación de una alarma, se puede actualizar la lista de la compra o solicitarla para entrega a domicilio, acceder a notas de apoyo para una conferencia, manipular fotografías y presentaciones, revisar la hora, por solo mencionar algunos de los usos que se controlan mediante una pantalla táctil (Mora, 2020). Una combinación muy interesante es sincronizar este tipo de dispositivos con una de las múltiples aplicaciones que existen para monitorear hábitos saludables, como son alimentación, actividad física y ritmo cardiaco, sin perder de vista todas las ventajas antes mencionadas. Al inicio, el usuario debe registrarse creando su perfil incluyendo datos como nombre, edad, estatura, peso, tipo de actividad física que desarrolla comúnmente, gustos musicales y dispositivos con los que desea estar sincronizado, entre otros, así como debe establecer la meta que busca, por ejemplo, si se trata de buscar una alimentación sana, se establece el número de calorías que se pretende consumir diariamente o el peso ideal que se persigue con el promedio de kilos a perder por semana, inclusive se puede solicitar una dieta balanceada que cumpla con el objetivo planteado, una rutina de ejercicios, o una combinación de ambos (Doménech, 2015; Mora, 2020). Una de las aplicaciones empleada por un buen número de usuarios es MyFitnessPal (Myfitnesspal, 2020) la cual se puede conectar con más de 50 aplicaciones pudiéndose controlar desde cualquier dispositivo, incluyendo un smart watch; se ha vuelto una aplicación comúnmente empleada debido a que su uso es gratuito y sencillo, se ofrece en varios idiomas y cuenta con listas de alimentos ya preparados, ingredientes, incluso las marcas y gramaje de algunos alimentos, recetas, dietas y monitoreo de actividad física desde el inicio de su uso. A diario, el usuario registrado lleva un récord de los alimentos y bebidas que consume durante el día, realizado el
37
registro, el dispositivo traduce los alimentos en calorías sugiriendo cuántas se han consumido y qué y cuánto se debe de comer y beber durante el día para no rebasar los límites establecidos; asimismo, el dispositivo registra la actividad física, como los contadores de pasos y registro de ejercicios realizados en tiempo y/o distancia y lo traduce en calorías perdidas recomendando cuánto más ejercicio se debe realizar durante el día. Los dispositivos más complejos, también ofrecen el seguimiento del ritmo cardiaco y/o las rutinas de sueño (¿Conoces Los Distintos Tipos de Wearables y Sus Aplicaciones En La Salud?, 2018; Myfitnesspal, 2020; Doménech, 2015). El valor que estos dispositivos tiene para la ciencia de datos es que permiten recabar y analizar los datos de todos los usuarios como un colectivo, aun y cuando no vivan en la misma zona geográfica, y lo combinan con datos obtenidos mediante otros dispositivos o aplicaciones similares para establecer patrones y tendencias que les permitan descubrir insights o hallazgos que beneficien a todos los usuarios y que logren mejorar la experiencia con este tipo de aplicaciones y dispositivos, de ahí que constantemente se están fabricando dispositivos más novedosos e inteligentes y actualizando las aplicaciones que se emplean de forma que cada vez cubren más las necesidades del usuario (¿Conoces Los Distintos Tipos de Wearables y Sus Aplicaciones En La Salud?, 2018; Doménech, 2015). Retomando el ejemplo de la dieta sana, los wereables buscan convencer al usuario de llevar una vida más sana y activa, en paralelo ofrecen datos valiosos para la ciencia de datos. Un caso en específico es en el que la ciencia de datos recaba la información de este tipo de aplicaciones para comunicarla al sector salud para apoyar investigaciones médicas y ensayos clínicos ya que recolectan información sobre enfermedades crónicas reportadas por el usuario al registrarse como la diabetes tipo II o la obesidad, entre otras, su actividad física y hábitos alimenticios (HernándezHurtado, 2013). Esta información es procesada y empleada en diversas situaciones como al momento de hacer recomendaciones a un paciente sobre medidas y objetivos o para establecer nuevos patrones que aporten para el control de las enfermedades (Méndez & Porven, 2018). Inclusive los usuarios de este tipo de dispositivos pueden aceptar ser parte de estudios médicos y ensayos clínicos sobre enfermedades y/o medicamentes en estudio (¿Conoces Los Distintos Tipos de Wearables y Sus Aplicaciones En La Salud?, 2018; Doménech, 2015; Rodriguez-Gómez, 2019) como asma, párkinson, diabetes, cáncer de mama y enfermedades cardiovasculares (¿Conoces Los Distintos Tipos de Wearables y Sus Aplicaciones En La Salud?, 2018).
38
Aun que se pudieran ver como mundos separados, la ciencia de datos, el uso de wereables y el DSS avanzan de la mano para beneficiar el logro de los objetivos de la Agenda 2030 que en su tercer apartado refiere a Garantizar una vida sana y promover el bienestar de todos a todas las edades (Naciones-Unidas, 2018) objetivo que se relaciona directamente con el ejemplo que se ha compartido. En este sentido, la tecnología se ha puesto al servicio y para el cumplimiento de dichos objetivos desde diversas perspectivas que se explican a continuación relacionándolos específicamente al área de la salud para mayor comprensión del ejemplo propuesto (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019; Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum, 2017):
1) Acceso a la información El acceso a la información desde zonas remotas y económicamente menos desarrolladas ha beneficiado la participación de aquellos que estaban aislados permitiendo que los datos que determinan la toma de decisiones sean de mayor calidad, relevancia y vigencia (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019; Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum, 2017). Ello permite que los wereables sean adaptados de forma más precisa y con una mayor cobertura global a los usuarios y que proporcionen datos en tiempo real sobre problemas de salud, sus posibles diagnósticos y tratamiento (¿Conoces Los Distintos Tipos de Wearables y Sus Aplicaciones En La Salud?, 2018).
2) Reducción de distancias La tecnología propicia la reducción de distancias, sobre todo para el acercamiento de servicios esenciales y básicos a zonas marginadas o de extrema pobreza lo cual ha beneficiado diversas áreas como la salud, la educación, la gobernanza y el aprovechamiento de la energía ya que la conectividad acerca a los diferentes sectores a información vital para su desarrollo (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019).
3) Reducción de costos La conectividad propicia la reducción de costos como es el caso del sector salud que tiene acceso a información que les permite realizar diagnósticos más precisos y oportunos para poder proveer del servicio de salud a un mayor número de personas ya que los productos y servicios de
39
reciente creación se tienen al alcance de la mano determinando cuál es su mejor comercialización, asimismo, el consumidor puede elegir entre aquellas industrias alineadas al DSS (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019).
4) La distribución de los capitales La tecnología propicia la distribución de capitales de forma más eficiente ya que el financiamiento puede destinarse a sectores que apoyan el DSS y que buscan el logro de los objetivos planteados por la Organización Mundial de la Salud, como son el combate a la pobreza extrema, la búsqueda del acceso a servicios de salud a nivel global y el freno a la constante afectación del medio y sus habitantes, por mencionar algunos (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019; Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum, 2017).
5) La tecnología y los nuevos modelos de realidad virtual El uso adecuado de la tecnología propicia la generación de nuevos modelos de realidad virtual que se emplean como herramientas de aprendizaje, diagnóstico, distribución y trabajo para todos los sectores ya que tienen la capacidad de compartir la realidad de un momento preciso, así como las predicciones a corto, mediano y largo plazo para la positiva toma de decisiones (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019; Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum, 2017).
6) La constante transformación de productos y servicios La tecnología se acerca al usuario a tal grado que permite conocer sus necesidades para poder ofrecerle el producto o servicio que requiere; en materia de salud, los hábitos y necesidades del usuario permiten conocer con mayor precisión los diagnósticos, padecimientos y tratamientos exitosos para una atención oportuna y exitosa de enfermedades que atacan a nivel mundial, (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019; Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum, 2017) y;
7) La producción regional y global
40
La producción de servicios y productos se ve totalmente impulsada por la tecnología mediante el uso de maquinaria compleja como son los robots, sistemas de producción y modelos que reducen el consumo de energías y sus costos para un mayor beneficio y aprovechamiento del medio sin que ello se contraponga a los objetivos planteados por el DSS (7 Formas En Las Que La Tecnología Puede Contribuir a Los ODS, 2019; Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum, 2017).
Discusión Atendiendo a los propósitos del estudio llevado a cabo, a continuación, se presentan los puntos alcanzados, sus vacíos y algunas sugerencias que puedan servir de punto de arranque para futuros estudios. 1. A lo largo de este artículo se analizaron diversas descripciones del concepto de ciencia de datos y se propuso la que podría ser una definición considerando el enfoque socioformativo y el DSS concluyendo que la ciencia de datos es aquella que toma la información que se mantiene almacenada en fuentes internas y externas, domésticas y mundiales y la utiliza y transforma en respuestas que benefician la toma de decisiones, predicciones o mejora de situaciones con productos, servicios o soluciones más innovadoras para cumplir con las necesidades del momento basadas en las tendencias y patrones que logra obtener apoyándose de otras áreas y sectores. 2. La adecuada definición y análisis del concepto permitió un mayor acercamiento a las características que la ciencia de datos tiene como una ciencia transversal que se vale de la interdisciplinariedad para guiar la toma de decisiones considerando aspectos como el proceso que lleva a cabo la ciencia de datos, su coyuntura con la estadística y el uso oportuno de la tecnología digital, la socioformación y el DSS, sin dejar de lado la transversalidad, el método científico y el pensamiento complejo. 3. Presentar una definición más clara y precisa sobre la ciencia de datos permitió ver con mayor claridad que sus procesos se integren de forma positiva y exitosa a los sistemas de toma de decisiones de las empresas y sectores ya que facilita que se colabore con las diferentes áreas de forma inteligente y asertiva para una mejor comprensión de los resultados; asimismo, favoreció diferenciarla de otros conceptos como los del big data y del de análisis de datos, con los cuales converge en algunos puntos ya que colaboran para el logro del objetivo planteado.
41
4. La revisión documental realizada reflejó que el concepto de ciencia de datos es comúnmente empleado como sinónimo de otros conceptos, así como que existe un número importante de definiciones desde diversos enfoques. La ciencia de datos es aquella que apoya en la toma de decisiones que exigen los cambios que se están viviendo en la actualidad, mismos que deben ser globales y totales para atender al DSS asegurando que las empresas y los sectores involucrados logren resolver situaciones que beneficien tanto como sea posible, ello obliga a que se consideren técnicas y metodologías, así como la integración y colaboración de otras áreas del conocimiento para lograr el objetivo buscado. Garantizar que la información obtenida permita guiar la toma de decisiones o solución de problemas requiere de acciones que certifiquen que los datos recabados sean confiables, relevantes y vigentes para generar un crecimiento en todos sentidos, para la empresa o sector y para la sociedad, sin afectar el camino del DSS. La información que se emplea debe provenir de fuentes confiables con una visión global y cuyo análisis involucre el pensamiento complejo, por ello, la ciencia de datos o ciencia que estudia los datos trabaja de manera transversal con el análisis estadístico y las ingenierías para transformar grandes volúmenes de información, regularmente cuantitativa, en formatos de más fácil comprensión para depurarlos, complementarlos y comunicarlos a todos los interesados de manera asertiva, clara y oportuna. Debido a que la ciencia de datos trabaja en colaboración y para diversos sectores, es elemental contar con esquemas y modelos a seguir que permitan cumplir con cada uno de los pasos que su metodología propone, ejemplos que darían aún más claridad para su correcta aplicación. Por tanto, será prudente establecer en estudios futuros si la metodología planteada es completa y adecuada para cumplir con el proceso que lleva a cabo la ciencia de datos o si debe ser adecuada y complementada para que sirva como base.
Referencias
¿Conoces los distintos tipos de wearables y sus aplicaciones en la salud? (2018). Salud Digital Tu Revista de EHEALTH. https://www.consalud.es/saludigital/104/conoces-los-distintostipos-de-wearables-y-sus-aplicaciones-en-la-salud_48485_102.html 7 formas en las que la tecnología puede contribuir a los ODS. (2019). Pacto Mundial Red Española. https://www.pactomundial.org/2019/04/7-formas-en-las-que-la-tecnologia-puede-
42
contribuir-a-los-ods/ Acevedo-Mena, K. M., Romero-, & Espinoza, S. (2019). La educación en la sociedad del conocimiento. Revista Torreón Universitario, 8(22), 79–83. https://doi.org/10.5377/torreon.v8i22.9032 Arias, F. (2012). El proyecto de investigación: introducción a la metodología científica (Episteme (Ed.); 6th ed.). https://ebevidencia.com/wp-content/uploads/2014/12/ELPROYECTO-DE-INVESTIGACIÓN-6ta-Ed.-FIDIAS-G.-ARIAS.pdf Breiman, L. (2001). Statistical modeling: The two cultures. Statistical Science, 16(3), 199–215. https://doi.org/10.1214/ss/1009213726 Cabrera, A. (2019). Volumetría, estimación de tamaño de base de datos - (Oracle). Red TS Advanced Systems. http://redts.com.mx/volumetria-estimacion-de-tamano-de-base-dedatos-oracle/ Cambridge-University-Press (Ed.). (2020). Diccionario Cambridge en ínea. https://dictionary.cambridge.org/es/ Chenou, J. M., & Quiliconi, C. (2020). Estudios globales: contribuciones latinoamericanas en un mundo globalizado. Colombia Internacional, 102, 3–21. https://doi.org/10.7440/COLOMBIAINT102.2020.01 Chian, A. (2019). Data Science con R: Fundamentos y Aplicaciones. https://bookdown.org/BEST/DSFA/. https://bookdown.org/BEST/DSFA/ Cleveland, W. S. (2001). Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics. Statistical Analysis and Data Mining, 69, 21–26. https://doi.org/https://doi.org/10.1111/j.1751-5823.2001.tb00477.x De Fuentes, A., Hernández, M. S., & Escudero-Nahón, A. (2019). Metodología de Diseño Curricular en la Nube: Una Propuesta de Innovación Educativa para la Creación de la Licenciatura en Ciencia de Datos. Congreso Internacional de Educación: Currículum 2019, 5, 1–13. https://posgradoeducacionuatx.org/pdf2019/C030.pdf DePoy, E. & Gitlin, L. N. (2016). Introduction to Research. Understanding and Applying Multiple Strategies (L. N. G. Elizabeth DePoy (Ed.); 5th ed.). Mosby. https://doi.org/https://doi.org/10.1016/B978-0-323-26171-5.00020-3 Diccionario Tecnológico Luca. (2019). Luca. https://luca-d3.com/es/data-speaks/diccionariotecnologico
43
Doménech, F. (2015). ¿Qué puede hacer un “smartwatch” por tu salud? OpenMind BBVA Ventana Al Conocimiento. https://www.bbvaopenmind.com/tecnologia/innovacion/quepuede-hacer-un-smartwatch-por-tu-salud/ Favaretto, M., de Clercq, E., Schneble, C. O. &, & Elger, B. S. (2020). What is your definition of Big Data? Researchers’ understanding of the phenomenon of the decade. PLoS ONE, 15(2), 1–20. https://doi.org/10.1371/journal.pone.0228987 Gibert, K., Horsburgh, J. S., Athanasiadis, I. N. & Holmes, G. (2018). Environmental Data Science. Environmental Modelling and Software, 106, 4–12. https://doi.org/10.1016/j.envsoft.2018.04.005 González-Peña, M. d. L. (2018). UVE socioformativa: estrategia didáctica para evaluar la pertinencia de la solución a problemas de contexto. IE Revista de Investigación Educativa de La REDIECH, 9(16), 133–153. http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2448-85502018000100133 Grant, A. (2020). Make Us Of. What Is Data Analysis and Why Is It Important? https://www.makeuseof.com/tag/what-is-data-analysis/ Hernández-Hurtado, J. (2013). Historia de la Estadistica. Research Gate. https://www.researchgate.net/publication/257443564_HISTORIA_DE_LA_ESTADISTICA Hernández-Leal, E. J., Duque-Méndez, N. D. & Moreno-Cadavid, J. (2017). Big Data: an exploration of research, technologies and application cases. TecnoLógicas, 20(39). https://www.redalyc.org/pdf/3442/344251476001.pdf Klenzi, R., Malberti, A. & Beguerí, G. (2019). PROPUESTA DIDÁCTICA INHERENTE AL ÁREA DE CIENCIA DE DATOS. http://sedici.unlp.edu.ar/handle/10915/77174 Laboral, R. E. &. (2018, May). Revista Empresarial & Laboral. Diferencia Entre Big Data y Ciencia de Datos. Entrevista a Rodrigo Hermosilla Puebla. https://www.youtube.com/channel/UC-nUTOMAsDAcklFcMMebjlg Lemus-Delgado, D., & Pérez Navarro, R. (2020). Ciencia de datos y estudios globales: aportaciones y desafíos metodológicos. Colombia Internacional, 102, 41–62. https://doi.org/10.7440/colombiaint102.2020.03 León-Pérez, J. C. (2019). Impacto de las tecnologías disruptivas en la percepción remota: big data, internet de las cosas e inteligencia artificial. UD y La Geomática, 14(14), 54–61. https://revistas.udistrital.edu.co/index.php/UDGeo/index
44
Lerena, O. (2019). Métodos y Aplicaciones de la Ciencia de Datos para las Políticas de CTI: redes sociales, minería de textos y clustering. Centro Interdisciplinario de Estudios en Ciencia, Tecnología e Innovación. https://www.researchgate.net/publication/334668096_Metodos_y_aplicaciones_de_la_cienc ia_de_datos_para_las_politicas_de_CTI_vol_1__Redes_sociales_mineria_de_textos_y_clustering Márquez-Jiménez, A. (2017). Educación y desarrollo en la sociedad del conocimiento. Perfiles Educativos, 39(158), 3–17. https://doi.org/https://doi.org/10.22201/iisue.24486167e.2017.158.58635 Méndez, N., & Porven, J. (2018). Ciencia de datos: una revisión del estado del arte. UCE Ciencia, 6(3). https://doi.org/10.1016/j.aci.2014.10.001 Merriam-Webster (Ed.). (2020). Merriam-Webster.com Dictionary. https://www.merriamwebster.com/ Mora, A. (2020). Los mejores smartwatch de 2020. PCWorld. https://www.pcworld.es/mejoresproductos/wearables/mejores-smartwatch-3673527/ Morin, E. (1998). Introducción Al Pensamiento Complejo. In Gedisa. Myfitnesspal. (2020). Under Armour. https://www.myfitnesspal.com/es/ Naciones-Unidas. (2018). La Agenda 2030 y los Objetivos de Desarrollo Sostenible: una oportunidad para América Latina y el Caribe. In Revista de Derecho Ambiental (Issue 10). https://doi.org/10.5354/0719-4633.2018.52077 Oracle-México. (2020). Base de Datos. https://www.oracle.com/mx/database/what-is-database/ Ordoñez-Pico, E. R., Barrera-Erreyes, H. M. &, & Abril-Flores, J. F. (2019). La Sociedad del conocimiento enfocado al capital intelectual empresarial. 593 Digital Publisher CEIT, 6(4), 74–94. https://doi.org/10.33386/593dp.2019.6.129 Parr, C., & McCarthy, S. (2019). Building Capacity for Data Science with Help from our Friends. Research Library Issues The Data Science Revolution, 298, 28–40. https://doi.org/https://doi.org/10.29242/rli.298 Parra-Cortés, R. (2018). La Agenda 2030 y sus Objetivos de Desarrollo Sostenible: antecedentes y perspectivas para promover el consumo y la producción sostenibles en Chile. Revista de Derecho Ambiental, 6(10), 99–121. https://doi.org/10.5354/0719-4633.2018.52077 Pérez-Tamayo, R. (2001). Ciencia básica y ciencia aplicada. Salud Pública de México, 43(4),
45
368–372. https://doi.org/10.1590/s0036-36342001000400013 Prado, R. A. (2018). La socioformación: un enfoque de cambio educativo. Revista Iberoamericana de Educación, 76(1), 57–82. https://doi.org/10.35362/rie7612955 Press, G. (2013). Big Data News: A Revolution Indeed. Forbes. https://www.forbes.com/sites/gilpress/2013/06/18/big-data-news-a-revolutionindeed/#723236a2787f Pulse-Lab-Jakarta. (2017). Using Big Data for Statistics to Track the SDGs. https://medium.com/pulse-lab-jakarta/tracking-the-sdgs-using-big-data-dad0ad351f2e Qader, W. A., Ameen, M. M. & Ahmed, B. I. (2020). Big data characteristics, architecture, technologies and applications. Journal of Computer Science, 16(6), 817–824. https://doi.org/10.3844/JCSSP.2020.817.824 Qué es wearable y qué tipos de dispositivos existen. (2019). Universidad Internacional de Valencia. https://www.universidadviu.com/es/actualidad/nuestros-expertos/que-eswearable-y-que-tipos-de-dispositivos-existen Real Academia Española (23rd ed.). (2014). https://dle.rae.es/ Rico, L. (2004). Análisis Conceptual e Investigación en Didáctica de la Matemática. Revista Ema, 9(1), 3–19. https://core.ac.uk/download/pdf/12341937.pdf Rodriguez-Gómez, R. (2019). Internet de las cosas : Futuro y desafío para la epidemiología y la salud pública Introducción Resultados Materiales y métodos. Internet de Las Cosas, 21(3), 253–260. https://doi.org/http://dx.doi.org/10.22267/rus.192103.162 Rodríguez, J. M. (2020). Cambio tecnológico y adaptación de la oferta educativa a la nueva demanda de habilidades en el Uruguay. Documentos de Proyectos, 82. https://repositorio.cepal.org/handle/11362/45902 Rollins, J. B. (2015). Metodología Fundamental para la Ciencia de Datos. 6. https://www.ibm.com/downloads/cas/WKK9DX51 Ruíz-Muñoz, D., & De-Mendiburu, F. (2004). Manual de Estadística. In Eumed.net (Ed.), Apunte de clase - Perú. http://tarwi.lamolina.edu.pe/~fmendiburu/indexfiler/academic/Estadistica/parte1.pdf%5Cnhttp://www.eumed.net/cursecon/libreria/drm/drm -estad.pdf Ruíz, B. (2018). Algunas aplicaciones de la ciencia de datos y su futura importancia. My Press. https://www.mypress.mx/tecnologia/aplicaciones-ciencia-datos-importancia-
46
3712#:~:text=Aplicaciones de ciencia de datos,de fraudes%2C bioinformática%2C entre otras Sabes. (2018). SABES. Las Voces Del Sabes, 5, 19–28. https://cife.edu.mx/recursos/wpcontent/uploads/2019/03/Formación-basada-en-competencias-1.pdf Salazar Gómez, E., Tobón, S., & Juárez Hernández, L. G. (2018). Diseño y validación de una rúbrica de evaluación de las competencias digitales desde la socioformación. Apuntes Universitarios, 8(3). https://doi.org/10.17162/au.v8i3.329 SAS Analytic Software and Solutions. (2019). https://www.sas.com/es_mx/insights/analytics/statistical-analysis.html Scott, E. M. (2018). The role of Statistics in the era of big data: Crucial, critical and undervalued. Statistics and Probability Letters, 136(February), 20–24. https://doi.org/10.1016/j.spl.2018.02.050 Tipos de datos: datos estructurados, semiestructurados y no estructurados. (2020). IMF Business School. https://blogs.imf-formacion.com/blog/tecnologia/tipos-de-datos-datosestructurados-semiestructurados-y-no-estructurados-202006/ Tobón, S., Gonzalez, L., Nambo, J. S. & Vazquez-Antonio, J. M. (2015). La Socioformación: Un Estudio Conceptual. Paradígma, 36(1), 7–29. https://doi.org/10.13140/RG.2.1.2957.5289 Tobón, S., Guzmán, C. E., Hernández, J. S. & Cardona, S. (2015). Sociedad del Conocimiento: Estudio documental desde una perspectiva humanista y compleja. Paradigna, 36(2), 7–36. https://doi.org/https://doi.org/10.37618/PARADIGMA.1011-2251.2015.p7-36.id559 Tobón, S., Martínez, J. E., Valdéz-Rojo, E. & Quiriz, T. (2018). Prácticas pedagógicas: Análisis mediante la cartografía conceptual Pedagogical Practices: Analysis by conceptual cartography. Espacios, 39(53), 16. http://www.revistaespacios.com/cited2017/cited201731.pdf Tobón, S. & Núñez-Rojas, A. C. (2006). LA GESTIÓN DEL CONOCIMIENTO DESDE EL PENSAMIENTO COMPLEJO: Un compromiso ético con el desarrollo humano. Revista EAN, 58, 27–39. https://doi.org/10.21158/01208160.n58.2006.385 Tobón, S. (2013). Los Proyectos Formativos: Transversalidad y Desarrollo de Competencias Para la Sociedad del Conocimiento. https://issuu.com/educomplexus/docs/los_proyectos_formativos._transvers Tobón, S. (2015a). Cartografía conceptual: estrategia para la formación y evaluación de
47
conceptos y teorías (CIFE (Ed.)). https://issuu.com/cife/docs/ebook__cartograf__a_conceptual Tobón, S. (2015b). La Comunicación Asertiva y Formación Integral. CIFE. https://issuu.com/cife/docs/e-book_comunicaci__n_asertiva_2015 Tobón, S. (2017). Cartografía Conceptual de las Rúbricas Socioformativas (CIFE). https://issuu.com/cife/docs/cartografia_conceptual_de_la_rubric UNESCO. (2019). Libro de Datos del ODS 4 - Indicadores Globales de Educación 2019. https://docs.google.com/viewerng/viewer?url=https://cife.edu.mx/recursos/wpcontent/uploads/2019/06/Objetivo-4-indicadores-2019.pdf&hl=en United-Nations. (n.d.). Big Data for Sustainable Development. https://www.un.org/en/sections/issues-depth/big-data-sustainable-development/#resources Uniting to Deliver Technology for the Global Goals: 2030 Vision. Global Goals Technology Forum. (2017). 20. Vázquez-Brust, A. (2020). Ciencia de Datos para Gente Sociable. Bookdown. https://bitsandbricks.github.io/ciencia_de_datos_gente_sociable/index.html White, S. K. (2018, July 27). Qué es un ingeniero de datos. CIO from IDG. https://www.ciospain.es/big-data/que-es-un-ingeniero-de-datos#:~:text=Los ingenieros de datos son responsables de encontrar tendencias en,más útiles para la empresa. Yambem, N. & Nandakumar, A. N. (2018). Big Data: Characteristics, Issues and Clustering Techniques. Nciccnda, 348–358. https://doi.org/10.21467/proceedings.1.55 Yan, D., & Davis, G. E. (2019). A First Course in Data Science. Journal of Statistics Education, 27(2), 99–109. https://doi.org/10.1080/10691898.2019.1623136 Zhang, J., Fu, A., Wang, H., & Yin, S. (2017). The Development of Data Science Education in China from the LIS Perspective. International Journal of Librarianship, 2(2), 3. https://doi.org/10.23974/ijol.2017.vol2.2.29