1
Título: Secuestradores y secuestrados: Nuestros datos en internet Autor: Raymond Colle Lugar y fecha de edición: Santiago de Chile, 2015
El autor es doctor en Ciencias de la Información y analista de sistemas; profesor jubilado de la Pontificia Universidad Católica de Chile y de la Universidad Diego Portales (Santiago de Chile).
Licencia Creative Commons* * * Queda expresamente autorizada la reproducción total o parcial de los textos publicados en este libro, en cualquier formato o soporte imaginable, salvo por explícita voluntad en contra del autor o en caso de ediciones con ánimo de lucro, señalando siempre la fuente. Las publicaciones donde se incluyan textos de esta publicación serán ediciones no comerciales y han de estar igualmente acogidas a Creative Commons. Harán constar esta licencia y el carácter no venal de la publicación.
2
Tabla Introducción
p.5
1. El ambiente de los datos
p.7
1.1. Evolución tecnológica
p.8
1.2. Internet y la Web
p.10
1.3. Las redes sociales
p.12
1.4. La Internet de las Cosas
p.14
1.5. Los “big data”
p.16
Primera Parte: Secuestrados (La pérdida de la privacidad) 2. La identidad revelada
p.18
2.1. Redes sociales
p.18
2.2. Conocer lo revelado
p.20
3. La identidad extraída
p.22
3.1. Equipos “traidores”
p.22
3.2. Navegación
p.23
3.3. Redes sociales
p.24
3.4. Televisores inteligentes
p.27
3.5. Internet de las Cosas (IoT) p.28 3.6. Big Data 4. Protección y cesión de datos
p.32 p.33
4.1. Derechos
p.33
4.2. Protección
p.34
4.3. Derecho al olvido
p.37
4.4. ¿Esconderse?
p.37
4.5. (In)Seguridad
p.39
3
2a Parte: Secuestradores (Qué hacen con nuestros datos y cómo) 5. Quiénes nos espían
p.41
5.1. Las empresas
p.41
5.2. Los gobiernos
p.44
5.3. Los políticos
p.47
5.4. Los hackers
p.47
6. Para qué
p.49
6.1. El mercadeo
p.49
6.2. El comercio de datos
p.50
6.3. Estudios sociales
p.53
7. Cómo nos estudian
p.54
7.1. La ciencia de datos
p.54
7.2. Máquinas y aplicaciones
p.57
8. Nuestro futuro 8.1. ¿Big data para todos?
p.59 p.59
8.2. Big data para profesionales p.60 8.3. Vivir en la nube
p.61
8.4. La Quinta Era
p.62
8.5. Cuestiones de seguridad
p.64
Conclusión
p.65
Bibliografía
p.66
4
Introducción “Al entregar los datos a la red ya no nos poseemos a nosotros mismos” (Peter Hirshberg, en El País.es) “Existimos en diversos servidores como una enorme colección de datos.” (Ángel Jiménez de Luis, en El Mundo.es)
Al utilizar la web, los teléfonos y los televisores “inteligentes”, proporcionamos informaciones sobre nosotros mismos, que lo queramos o no. Siempre dejamos rastros de nuestra actividad en la web, sea que usemos las redes sociales o no. Y todas las empresas ahí presentes tratan de capturar esta información, que es ahora un valioso producto comercial. Y éste crecerá exponencialmente con los gadgets que formarán la llamada “Internet de las Cosas” o IoT (Internet of Things) (Gizmodo, 9/01/2015). Los datos personales que pueden aparecer cuando utilizamos internet son de cuatro tipos: ◦ privados: son los que generamos y que “viajan” por medio de sistemas directos de persona a persona (como el correo electrónico y el chat); también pueden incluir documentos en la nube (Dropbox, iCloud, etc.) que no compartimos; ◦ públicos: son nuestras publicaciones en la web: páginas web personales, blogs, artículos de revistas, documentos en servicios como ISSUU, Scribd, etc. ◦ sociales: corresponden a nuestras actividades en las redes sociales (mensajes de estado, fotos y vídeos, “likes”, etc.); ◦ “rastros” (data trail): huellas dejadas involuntariamente por las actividades individuales (p.ej. datos del aparato utilizado, ubicación, enlaces seguidos, etc.). Los datos públicos y sociales son información revelada voluntariamente y abordaremos en el segundo capítulo lo que puede ocurrir con ellos. Los datos privados pueden ser analizados con o sin nuestro consentimiento si no son encriptados y dejan siempre algunos rastros utilizables por los proveedores de servicios. Constituyen información que llamaremos aquí “extraída”, y la abordaremos en el tercer capítulo.
5
El siguiente capítulo de la Primera Parte será consagrado a los principales problemas ligados al manejo de nuestros datos: propiedad, protección de la privacidad, seguridad, conservación, etc. La Segunda Parte aborda más a fondo el tema de la captura y la gestión de estos datos. Nos preguntaremos qué se hace (actualmente) y qué se podrá hacer con ellos (en el futuro). Ésto, obviamente, depende del tipo de usuario y de sus objetivos, y no nos olvidaremos de ellos. También depende de las máquinas y de su (creciente) poder de cómputo, pero más aún de los avances en materia de aplicaciones (software), lo cual – a su vez – depende del conocimiento que se tenga del significado de la adquisición de información y del concepto que se tenga de la inteligencia posible en las máquinas (ciencias cognitivas). También nos preguntaremos en que medida estas tecnologías están disponibles para particulares como pretenden algunos oferentes (comerciales) de aplicaciones. Y trataremos de echar una mirada a lo que nos espera en el futuro si, como algunos creen, todo el contenido de nuestro cerebro podría ser copiado en la “nube”.
6
1. El ambiente de los datos Como lo mencionábamos en nuestra obra anterior (¿Ser digital o ser humano?), aunque la forma básica del cerebro humano no ha cambiado mucho en los últimos 40.000 años, la manera en que encontramos, almacenamos e interpretamos la información, en cómo dirigimos nuestra atención y empleamos nuestros sentidos, en cómo recordamos y cómo olvidamos es el producto de estos miles de años de historia, con todos los avatares y cambios de la misma, la cual ha modelado la estructura física y el funcionamiento del cerebro y condiciona nuestra mente. Los factores más decisivos para el intelecto han sido el desarrollo de la escritura y, siglos más tarde, de la imprenta. Conocemos tabletas de arcilla con signos gráficos que datan de hace unos 8.000 años. La interpretación de estos signos requirió el desarrollo de nuevas conexiones neuronales en el cerebro de quienes los utilizaban, conectando la corteza visual con el área del lenguaje. Estudios modernos han mostrado que, con ello, la actividad se duplica o triplica en estos circuitos y Ray Kurzweil lo ha graficado de la siguiente forma:
7
Este gráfico muestra claramente como la historia de la tecnología revela que el cambio tecnológico es exponencial (p.13). Y Kurzweil deduce de ello que se acercan nuevas épocas en que la tecnología humana se fusionará con la inteligencia humana (“5a época”), para luego llegar incluso a un “universo inteligente” (“6a época”). Todo, a su juicio, en el curso del presente siglo, debido a esta evolución exponencial de la tecnología (se duplica ahora cada década). Avanzan las máquinas, crecen las redes, se acumula el conocimiento, todo cada vez más rápido. 1.1. Evolución tecnológica Se puede considerar a Charles Babbage (Inglaterra, 1792–1877) y a su amiga Augusta Ada Byron (1815–1852) como los principales precursores de la computación, ya que concibieron un modelo conceptual de máquina llamada “Motor analítico” que tendría un “molino” (“mill”) – que sería su centro lógico (equivalente a la unidad aritmética de hoy) –, una unidad de control y una memoria, y sería capaz de manipular símbolos siguiendo reglas definidas. Y aseguraban que no había ninguna razón por la cual estos símbolos sólo debieran ser números y ecuaciones. Sin embargo, hubo que esperar la década de 1930 para ver la construcción de las primeras máquinas capaces de operar realmente. Desde entonces hemos pasado por varias “generaciones” de computadores: los electromecánicos (con relés electromagnéticos), los electrónicos basados en tubos de vacío1, los basados en transistores individuales, y los “integrados” (con chips reuniendo múltiples transistores y componentes asociados en una sola pieza de silicio), los que finalmente dieron origen a los computadores personales (PC). A la vista de lo que tenemos hoy a nuestra disposición es fácil ver que la tecnología ha evolucionado en forma cada vez más rápida. El siguiente gráfico muestra esta evolución, dividida en las cinco generaciones o “cambios de paradigma”, mostrando en particular como ha crecido el poder de cálculo en relación al coste de los procesadores. Nótese especialmente que la escala es logarítmica, es decir que cada nueva franja horizontal es una múltiplicación de la anterior (valor exponencial). El gráfico es de R. Kurzweil (p.74):
1 Como en las radios de la época.
8
A mediados de la década de 1970, Gordon Moore, un inventor de circuitos integrados que fue más tarde presidente de Intel, observó cómo cada veinticuatro meses era posible doblar el número de transistores que se podían encajar en un circuito integrado. Es lo que se conoce desde entonces como la “ley de Moore”, que se ha verificado hasta ahora y podría seguir vigente por muchos años gracias a nuevos descubrimientos en materia de física de semi–conductores. Los procesadores también se han vuelto mil veces más rápidos en los últimos treinta años porque los electrones tienen que recorrer menos distancia en los chips: (Kurzweil, p.68). Estamos en una etapa en que los procesadores ya tienen varios núcleos (trabajo en paralelo) y se están empezando a colocarlos en capas (pasando de lo bi– a lo tridimensional). Con ello, “El ritmo de cambio de paradigma (la innovación tecnológica) se acelera. En estos momentos se dobla cada década.” (Kurzweil, p.27) Ésto, evidentemente, afecta la cantidad de datos que pueden ser recopilados y procesados, explicando lo que ocurre actualmente con internet, como el desarrollo de la “nube” (conservación masiva de datos) y la capacidad de empresas como Google para conservar y exhibir todo lo publicado. 9
1.2. Internet y la Web La primera conexión remota entre computadores se produjo en 1969, para dar origen a ARPANET, la red de ordenadores de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) de los EE.UU., que conectabó a las cuatro primeras universidades de Estados Unidos: Stanford, UCLA, Santa Bárbara y Utah. En 1972, Ray Tomlinson, de BBN Technologies, creó el primer programa de correo electrónico y utilizó por primera vez el símbolo @ en la dirección. En 1973 se inició la difusión del e-mail a nivel internacional. En 1981, por primera vez, computadores de la Universidad de Yale y la Universidad de la Ciudad de Nueva York (EEUU) lograron un enlace directo, dando inicio a la que más tarde sería la gran red académica mundial BITNET (Because It's Time NETwork). Se anunció entonces la elección del –aún actual– protocolo TCP/IP para todos los servidores (hosts) de ARPANET. Pero hubo que esperar hasta 1989 para ver el invento del lenguaje HTML y el concepto de web2, de Tim Berners–Lee, y hasta 1991 para ver el primer software que permitió una conexión entre varios computadores por web. La World Wide Web se inició en la práctica en 1993, cuando el CERN oficializó en un documento que la tecnología diseñada para su creación era a partir de entonces de dominio público. Y hasta 1995, la web siguió siendo un privilegio de las universidades, de los académicos y de sus alumnos, con una cantidad de servidores que llegó sin embargo a 3 millones. En 2013, había 265 millones de nombres de dominio registrados (D.Wallace, 2014) y 1.000 millones de servidores registrados por la Internet Society, aunque sólo 183 millones de sitios web se consideraban activos (Diario TI, 13/05/2014). R. Kurzweil (p.85) también muestra en gráficos como aquí también se ha producido una aceleración de tipo exponencial (Ver página siguiente). La tasa de penetración de Internet, a finales de 2013, alcanzaba prácticamente el 80% en los países desarrollados y el 30% en los países en desarrollo (El País, 26/11/2013). El tráfico de datos en internet también se ha doblado cada año, lo cual ha requerido la adaptación (ampliación) del ancho de banda, es de decir de la capacidad de transmisión simultánea. En Hong Kong, a fines de 2013, se llegó a un máximo de 63,8 Mbps. En los Estados Unidos, la velocidad promedio alcanzaba entonces los 8,6 Mbps (FayerWayer, 23/07/2013).
2 Se le dio el nombre de World Wide Web en 1991.
10
11
1.3. Las redes sociales y la movilidad Se considera generalmente que con las redes sociales, en torno a 2005, apareció una nueva “generación”: la “Web 2.0”. La característica principal de su nuevo formato es su carácter dinámico, con la posibilidad de participación activa de todos los usuarios. Tampoco se trata de una aparición súbita o espontánea: las redes sociales son herederas de las “comunidades virtuales”, la primera de las cuales fue “Habitat”, que apareció en 19863. Reunió miles de usuarios en una amplia red de computadores que ya usó el protocolo TCP/IP. Aparecieron después varias otras comunidades, algunas totalmente virtuales (con “universos ficticios”) y otras verdaderas comunidades humanas, como “The Vancouver Community Network”. La primera “red de amigos”, antecesora de Facebook, fue Friendster, en 2002. Facebook se abrió a todos los usuarios de la web en 2007, después de lanzar un primer feed de noticias para amigos el año anterior. En noviembre de 2007, las redes sociales superaron por primera vez al correo electrónico en horas de uso. En julio de 2009 ya tenían mayor número de usuarios que el correo electrónico. En septiembre de 2010 se alcanzaron los 1.000 millones de usuarios, la mitad de ellos en Facebook (Castells, 2014, p.143). Además de ser una nueva fuente de datos, las redes sociales han cambiado drásticamente la forma en que obtenemos información. Un reciente estudio de Quantcast ha revelado que generan el 34% de las referencias de tráfico web en dispositivos móviles. Se trata del doble de lo que mueven los equipos de escritorio. El informe – realizado con datos de todo el 2013 – recoge mediciones de las 250 principales publicaciones de noticias. Incluye el tráfico a través de navegadores móviles, y aplicaciones internas en redes como Twitter o Facebook (Clases de Periodismo, 16/05/2014). Esta cantidad de acceso móvil (smartphones), causado principalmente por las redes sociales, ya está provocando que las transmisiones sean más lentas en algunas zonas debido a la saturación (Wired, 28/11/2014). También están cambiando los sistemas de mercadeo e incluso de información periodística. Asímismo, la omnipresencia de los equipos móviles “inteligentes” ha llevado a la conformación de un nuevo “ambiente”, claramente diferente de la web tradicional. Como lo muestra un estudio de Morgan Stanley, los usuarios de equipos móviles superaron a los de los PC fijos a principio de 2014 (ver gráfico), lo cual demuestra la importancia que están tomando las aplicaciones móviles y por que todas las grandes empresas están cada vez más preocupadas de esta realidad.
3 Creada por Lucasfilm Games en colaboración con Quantum Computer Services Inc. 12
Fuente: comScore, 8/04/2014
Para facilitar el uso de estos equipos tanto como para asegurar una mejor comunicación con sus clientes, muchas empresas han dejado la web para crear sus propias aplicaciones (apps) optimizadas para estos equipos. El desarrollo de estas apps potencia el uso de los móviles en numerosos entornos, como la banca, el comercio, los seguros, las telecomunicaciones, las administraciones públicas e incluso las instituciones de salud. Y la conservación de la información en las “nubes” de estas empresas la hace siempre accesible, desde cualquier lugar, no sin crear algunos problemas en torno a la propiedad y la privacidad de los datos personales. De acuerdo con datos de Gartner, en 2014, presumiblemente, el 90% de las organizaciones desplegaban ya sus aplicaciones corporativas en los dispositivos móviles, obteniendo con ellas también numerosos datos. Con servicios que, además, ofrecen a los particulares crear sus propias apps, estamos ante “un escenario en el que todo el mundo trae la información, crea un servicio y lo pone a disposición de todo el mundo” (J. Rifkin).
13
1.4. La Internet de las Cosas (IoT) El concepto de “internet de las cosas” (IoT: Internet of Things) nació en 1999 y se atribuye al Auto–ID Center, basado en el MIT. La idea era que si todos los objetos (libros, electrodomésticos, partes de un vehículos, etc.) estuvieran equipados con dispositivos de identificación (como las etiquetas de radio NFC), ya no existirían cosas fuera de stock o productos perdidos, porque sabríamos siempre dónde están y también lo que se consume en cualquier lugar. La conexión por internet, sin embargo, era imposible en esa época, porque el protocolo de internet (IPv4) estaba al borde de la saturación. Pero el desarrollo del nuevo protocolo IPv6, que empezó a implantarse a fines de 2012, admite 2128 o 340 sextillones de direcciones, lo cual alcanzaría para los 1.000 a 5.000 objetos que – se calcula – podrían rodear a cada ser humano. Tanto sensores personales (en los smartphones y los nuevos wearables) como cámaras de vigilancia y sensores públicos de todo tipo (en las “ciudades inteligentes”) estarán recogiendo información. La mayor cita de la tecnología, la feria CES de Las Vegas, en enero 2015, ha confirmado que ésta es la apuesta actual de todo tipo de fabricante. El gráfico que sigue ilustra los múltiples tipos de objetos involucrados y cómo se conectarían. Viviremos rodeados de productos conectados y “capaces de tomar decisiones” según lo que “observen”. “Nuestro coche podrá aparcar solo, nuestra casa se ajustará a la temperatura que necesitemos en cada momento, nuestra bicicleta será capaz de avisarnos si intentan robarla” (El Mundo.es, 9/01/2015). Se calcula que en 2015 van a conectarse a Internet 25.000 millones de nuevos dispositivos relacionados con el hogar inteligente. La FTC (Federal Trade Commission) de EEUU ha advertido por ello acerca del posible robo y mal uso que se haga de la información que suministran esos dispositivos (Gizmodo, 9/01/2015). Para 2020 serían entre 40 y 50.000 millones de aparatos los que estarían conectados a internet, desde los teléfonos móviles a las bombillas de casa. Básicamente, es un aumento de 50.000 veces de dispositivos electrónicos conectados en menos de tres décadas (The Connectivist, via Microsiervos, 13/05/2014).
14
.
Fuente: Infographic Journal, 26/03/2014 (parte extraída del original)
La EMC Corporation anunció el 9 de abril 2014 los resultados de su séptimo estudio sobre el universo digital, el único estudio que califica y pronostica la cantidad de datos producidos anualmente. El estudio, titulado “El universo digital de las oportunidades: información valiosa y el aumento del valor de la Internet de las cosas”, con investigación y análisis de IDC, revela cómo la aparición de las tecnologías inalámbricas, los ‘productos inteligentes’ y los negocios definidos por software desempeñan un papel fundamental en el crecimiento exponencial de los datos en todo el mundo. Debido, en parte, a la internet de las cosas, el universo digital se duplica cada 15
dos años y se multiplicará por diez entre 2013 y 2020, de 4,4 millones de millones de gigabytes a 44 mil millones de gigabytes (DiarioTI, 09/04/14). En la página siguiente podemos observar gráficamente esta evolución, donde aparece, otra vez, una curva de evolución exponencial, confirmando en este campo también la hipótesis de Ray Kurzweil. (Fuente: The Future of the Internet of Things, Xively.com, 19/03/2014). El impacto de la internet de las cosas podría ser mayor que el de la revolución industrial, según algunos expertos. “Será una tendencia que transformará todos los mercados e impactará en todas las industrias”, dijo José Manuel Petisco, director general de Cisco en España en la presentación a la prensa del evento Connect 2014, organizado por dicha empresa. Jorge Lang, director de Innovación y Soluciones de Intel Corporation para el sur de Europa, añadía: “No somos conscientes de lo que va a impactar la Internet of everything; lo hará aún más que la revolución industrial del siglo XIX.” 1.5. Los “big data” Los datos recopilados en internet por las empresas se acumulan en grandes bases de datos que han pasado a llamarse “big data”. Nos referiremos especialmente a éstos en la Segunda Parte. Como referencia, hay que tener en cuenta lo que significa hoy una actividad relevante en internet: Google procesa 3.500 millones de búsquedas por día y almacena unos 10 exabytes de datos. Tiene más de un millón de servidores. Facebook agrega 500 terabytes de datos diariamente. Amazon mantiene los datos de compras de 152 millones de clientes en alrededor de 1 exabyte. (Fuente: Adeptia; Infographic Journal, 6/03/2015). Si un medio de comunicación digital tiene una lista de suscriptores, lo cual constituye solamente una tabla en una base de datos, sería difícil considerarla “big data”. Podría pasar a serlo, en un nivel mínimo, si registra además para cada suscriptor cada entrada, cada página leída, con los datos del acceso (fecha y hora, equipo y navegador o app utilizado, desde que lugar, etc.).
16
17
Primera Parte: Secuestrados (La pérdida de la privacidad)
2. La identidad revelada Existen servicios que escogemos y utilizamos para darnos a conocer como persona o como autor de alguna producción intelectual o estética. De este modo revelamos voluntariamente parte de nuestra identidad y, obviamente, no podemos quejarnos si los servicios utilizados conservan esta información. Algo más discutible es que la utilicen para sus propios fines, especialmente analizar y vender tales datos a terceros, aunque éste puede ser justamente el pago que debemos aceptar para que tal servicio sea gratuito. Conocemos evidentemente lo que publicamos en sitios web (de revistas, blogs, etc.) y no hay mucho que decir al respecto aquí. Obviamente los administradores de los sitios que nos publican tienen acceso completo a los contenidos y a los datos sobre nosotros mismos que les hemos proporcionado. Probablemente rastreen también otros datos pero trataremos este aspecto en la Segunda Parte. Lo más común hoy, y donde las investigaciones señalan la existencia de bastante descuido, es en las redes sociales. 2.1. Redes sociales Nuestro perfil y nuestros posts en nuestro “muro” conforman los datos que, libremente, publicamos y que pasan a engrosar las bases de datos de las redes sociales en las que participamos. Pero, como veremos en el siguiente capítulo, obtienen mucho más información a partir de todos los movimientos que realizamos estando conectados. Algún control podemos tener sobre lo que se divulga mediante las opciones que ofrece cada servicio. Para saber algo más y tomar decisiones informadas, hemos de revisar la política de privacidad de cada servicio, lo cual no siempre es fácil y puede requerir tiempo: puede ocupar varias páginas y utiliza muchas veces términos que solo los abogados pueden entender. “Las condiciones siguen siendo inaccesibles, ilegibles, llenas de hipervínculos 18
-entre 40 y 100 enlaces de hipertexto- y a veces se derivan a páginas en inglés” advirtió UFC-Que Choisir, la principal asociación francesa de defensa de consumidores (El País, 25/03/2014). En todos los casos, conviene revisar y ajustar las opciones relativas a privacidad y seguridad (por ejemplo “¿Quién puede ponerse en contacto conmigo?” y “¿Qué mensajes quiero filtrar?” en Facebook). También es recomendable desactivar siempre la opción de geolocalización (salvo que se considere esencial para alguna función, como el desplazamiento en automóvil), que resulta muy potente para hacer deducciones al cruzarse con otros datos . Las redes sociales son, sin duda, los servicios que más se benefician del análisis de cuanto publicamos. Así, por ejemplo, Facebook tiene una herramienta destinada a anunciantes llamada Facebook Audience Insights cuya finalidad es evaluar clientes actuales y potenciales para personalizar mensajes y estrategias de marketing. Entrega información demográfica (edad, estilo de vida, educación, relaciones, trabajo, etc.), información sobre likes, páginas preferidas en distintas categorías, localización y lengua, y sobre la actividad relacionada con las compras online, offline y formas de pago (Wwhat's New, 8/05/2014). La información de que dispone Facebook sobre un usuario puede superar las 1.200 páginas, como demostró un estudiante austríaco: “Para un trabajo universitario, Max Scherems, un estudiante de derecho austríaco de 24 años, intentó poner a prueba la legislación europea de protección de datos que dice que todo individuo tiene derecho a recibir una copia de toda la información personal que una empresa recogió sobre él. ¿Qué sabe Facebook sobre mí?, se preguntó. Entonces amparado en la legislación, en 2011 le pidió formalmente a Facebook la copia de todas las interacciones que había realizado a través de su cuenta desde que se unió a la red social. Aquella vez Facebook no tuvo ningún inconveniente para cumplir la ley y le mandó un CD con un archivo en formato PDF de 1200 páginas donde figuraban sus datos personales divididos en 57 categorías como pasatiempos, gustos, opiniones religiosas, etc. Además, el documento detallaba todo lo que había hecho Scherems desde que ingresó a Facebook por primera vez: desde transcripciones de chats privados ya borrados hasta solicitudes de amistad denegadas.” (L.Zanoni, p.86) En Genbeta nos dicen que “Facebook tiene un servicio de mensajería instantánea, y Twitter ha estrenado hace muy poco sus mensajes directos en grupo. Son formas de comunicarnos con nuestros amigos y conocidos que toman como base una red social, pero que son completamente privadas.” (26/02/2015). ¡Que me perdone Miguel López, que escribió ésto, pero estas comunicaciones NO serán privadas! Solo serán escondidas de nuestros otros contactos, pero ambas empresas registrarán nuestros contenidos. Lo
19
mismo vale para el almacenamiento de fotos que podría ser cerrado al público (como también es posible en algunos otros servicios). 2.2. Conocer lo revelado Recordar lo que hacemos en la web puede ser útil en algunos casos y no es siempre fácil cuando no se trata ya de los documentos que producimos y guardamos en la nube o publicamos. En el caso de las páginas web, podemos registrar las que nos interesan en aplicaciones como Evernote o en tablas Excel (para lo cual es muy útil la extensión “Citable” en el navegador Chrome). Pero aún así, no teníamos, hasta hace poco, ningún sistema que nos permitiera registrar cómo navegamos de un sitio web a otro. Es el propósito de Trailblazer (http://www.trailblazer.io/) – una extensión para Chrome, aún en beta al escribir estas líneas –, que construye un mapa de los sitios visitados al pinchar en links y hacer búsquedas. En Facebook, es posible saber lo que hemos acumulado recurriendo a una opción de la Configuración: activar ahí el enlace “Descargar una copia de sus datos de Facebook”. Ésto llevará a una página que permite descargar el archivo que incluirá sus mensajes, fotos, videos, mensajes, conversaciones, la información de su perfil y más. Pinchar luego en el botón de “Iniciar archivo”, escribir la contraseña de Facebook, y esperar. Es posible descubrir aún más acerca de lo que sabe Facebook recurriendo a Wolfram Alpha (www.wolframalpha.com/facebook) y pinchando en el botón “Get Your Report”: se encuentran muchos gráficos y visualizaciones que incluyen información sobre la frecuencia con que se publica, las palabras más usadas, los “Me gusta” posteados, las fotos que cosecharon más comentarios, los comentarios de amigos, e incluso un grupo demográfico con el desglose de sus círculos sociales (PC Magazine, 5/09/2014). Google recopila parte de la información personal para crear un perfil que cubre detalles como edad, género e intereses generales, para determinar qué anuncios debe mostrar, además de las opciones relacionadas con el uso (configuración) y las operaciones realizadas en su navegador – si lo usamos – y en las cuentas de Gmail y Google+. Los datos recopilados pueden ser consultados (y modificados) – al menos en parte – en la “Configuración de la cuenta”, en el “Panel de control” y en la página de “Ad Settings”. En “Historial”, se puede encontrar el historial de búsqueda completo si no se desactivó o borró, lo cual es posible (y recomendable) hacer. En “Seguridad” (https://security.google.com/settings/security/permissions) se encuentra una lista completa con todas las aplicaciones web, móviles y de escritorio que pueden acceder a la información del usuario. Los datos utilizados para determinar qué anuncios mostrar pueden revisarse en www.google.com/settings/ads/. Todas las búsquedas que se realizan en Google están siendo almacenadas y pueden ser revisadas en 20
www.google.com/history/ (función que puede ser bloqueada). Lo mismo en Youtube, en www.youtube.com/feed/history/search_history. Se puede extraer (“exportar”) toda la información personal contenida en el ecosistema de Google, incluyendo el correo electrónico, fotos, y videos de YouTube en www.google.com/takeout. Si se usa un dispositivo Android es probable que la ubicación esté siendo enviada a Google. Se puede revisar el historial completo de ubicaciones en https://maps.google.com/locationhistory. En Yahoo no hay un mecanismo para obtener respaldo de todos los datos propios, pero Flickr soporta aplicaciones externas de descarga de todas las fotos, como Bulkr. En LinkedIn, tampoco es posible obtener una copia completa de lo propio, pero es posible obtener una copia de la lista de contactos en “Export LinkedIn Connections”. En Twitter, aparte del perfil que podemos ver y editar en nuestra cuenta, podemos obtener un archivo de los tuits y RT (una versión para el navegador y otra en formato CSV para planilla de cálculo) desde el menú desplegable de Configuración, pinchando en el botón que dice “Solicite su archivo”.
21
3. La identidad extraída Las empresas – de todo tipo – se han empeñado rápidamente en tratar de sacar provecho tanto de la información que revelamos como de los datos que pueden obtener al margen de nuestro conocimiento. Con los móviles y las redes sociales, conocen nuestras listas de amigos, nuestros gustos, donde hemos estado, y más. Y, analizando o vendiendo estos datos, pueden obtener mayores beneficios gracias a la información que les entregamos. El desarrollo de algoritmos de análisis de la navegación permite también conocer cada vez mejor lo que ocurre en la sociedad al punto de que se podría llegar a predecir comportamientos. 3.1. Equipos “traídores” El mero hecho de contar con algún equipo capaz de conectarse a internet implica que su proveedor (ISP) no solo puede conocer éste (y todos los que eventualmente tengamos) así como el uso que le damos y lo puede relacionar todo con los datos personales que dimos al firmar el contrato de servicio. Obviamente las empresas de telefonía celular recogen información sobre a quién se llama, cuánto tiempo se habla con ellos, y dónde está el cliente. Y los ISP saben que navegador utilizamos y pueden registrar todo nuestro historial de navegación. Si utilizamos un smartphone o una tableta, debemos tomar en cuenta además el seguimiento que el fabricante también puede hacer de su uso (lo cual puede variar según la marca). Pero, además, cualquier aplicación puede acceder al número de serie del teléfono, a la ubicación geográfica y las fechas y horas de las llamadas (son los llamados metadatos o archivos EXIP). Estos metadatos unidos son suficientes para revelar la identidad del usuario. Muchas veces la app también accede a la lista de contactos. Para cada app conviene revisar los permisos que solicita. En Android, se puede ver la lista de los “permisos” que se otorgarían antes de instalar la app. En iOS, Apple exige ahora a los desarrolladores de apps indicar claramente en un mensaje para qué quieren acceder a los diversos datos personales y dar control a los usuarios para cada uno (aunque por ahora la manera en que lo hacen no es ni agradable ni eficiente: ver ilustración adjunta).
22
3.2. Navegación Desde que se crearon las páginas web existe la posibilidad de recoger datos acerca de los sitios que visitamos, las noticias que leemos en ellos, qué compramos por ellas, qué música escuchamos, qué películas vemos, etc. Los navegadores ganan millones de dólares gracias al análisis que realizan de las costumbres de navegación de los usuarios, información que venden a los anunciantes. Podemos intentar protegernos. Para ello existe un estándar orientado a poder utilizar el “Do Not Track”, para que nuestros datos y comportamiento en la navegación no sean monitorizados. Pero grandes empresas, como Yahoo y Facebook, no siguen el estándar que sugiere implementar esta opción. Google Chrome, en las opciones avanzadas de Configuración, incluye “Enviar solicitud de no seguimiento con tu tráfico de navegación” pero esta opción pocas veces es tomada en cuenta por los trackers de los sitios visitados. Existen buenas aplicaciones, como Ghostery (www.ghostery.com), que revelan quienes nos espían y permiten bloquear el envío de estos datos. Todos los navegadores conservan también nuestro historial de navegación, al menos mientras estamos en línea, lo cual nos permite regresar con rapidez a una página recién visitada. Podemos encontrar este historial en las opciones del navegador y acceder fácilmente ahí a una página anterior.
Ejemplo de historial de navegación (Chrome)
23
También podemos borrar el historial y seleccionar eventualmente la función de borrado al cerrar sesión, si está disponible. Ello, sin embargo, no asegura que los datos sean eliminados del servidor de la empresa sino solo que ya no serán accesibles. Google Chrome, por ejemplo, advierte que “La información de configuración de contenido y motores de búsqueda guardada no se borrará y podría reflejar tus hábitos de navegación”. Google Analytics recolecta información acerca de los sitios webs que visitamos, las veces que accedemos a ellos y el tiempo que ocupamos (Se puede bloquear con https://tools.google.com/dlpage/gaoptout). El servicio de información de Google (Google Now) para smartphones utiliza todo lo que logra saber de nosotros para seleccionar las informaciones que supone “relevantes” en función del perfil que ha establecido. 3.3. Redes sociales Registrarse en una red social no solo hace que nuestra información pública pase a engrosar sus bases datos, también implica que todas las operaciones realizadas al usar el servicio así como todo lo que sea posible conocer a través de la conexión (herramienta utilizada, navegador eventual, número IP, etc.) también quede registrado. En todos estos servicios, la “política de privacidad” informa que se captan tales datos – al menos – para “proporcionar, mejorar, probar y supervisar la eficacia del servicio”. Aunque es posible restringir el acceso de terceros mediante los controles de privacidad, no hay restricción posible en relación a lo que la empresa registra (¡y vende!). El cuadro de la página siguiente reseña que datos recogen cuatro de las principales empresas de la web, los métodos utilizados y algunos usos. Con los móviles y las redes sociales, las empresas conocen nuestras listas de amigos, nuestros gustos, donde hemos estado, y más. Y, analizando o vendiendo estos datos, pueden obtener mayores beneficios gracias a la información que les entregamos. Para demostrarlo, Ubisoft creó una aplicación que permite medir la “sombra digital” que deja un usuario en Facebook, Twitter y Google+. Revisa los perfiles de los mensajes, amigos, familiares, fotos, etc., en un esfuerzo para medir el valor de esta sombra para un publicista o un pirata que quisiera hacerse con la cuenta. Adjuntamos un ejemplo del análisis del rastro en Facebook, según una prueba dada a conocer por Forbes (25/04/2014).
24
Fuente: Baynote, junio 2013
25
Facebook hace frecuentemente noticia por cambios en su política o controles de privacidad, lo cual es posiblemente la mayor fuente de desconfianza hacia esta red, especialmente porque ofrece un reducido nivel de control. Estos constantes cambios han sido comentados por numerosos medios de comunicación y, debido a ello, se ha podido observar que el 61% de los usuarios ya no confía ciegamente en este sistema (ver gráfico siguiente, de noviembre 2013).
Investigadores de la Universidad de Stanford (California) y la Universidad de Cambridge (Reino Unido) han demostrado que, de media, “bastan 10 «me gusta» en Facebook para que sus algoritmos te conozcan mejor que un compañero de trabajo. Con 70 «me gusta» Facebook te conocerá mejor que un amigo, con 150 mejor que tu familia, y con 300 mejor que tu esposa o marido” (Gizmodo, 13/01/2015). Facebook utiliza tanto el perfil de cada usuario como sus posts para servir a sus anunciantes. Si al registrar su cuenta el usuario incluye sus películas, programas de televisión y libros favoritos, los anunciantes estarán informados y tratarán de sacar provecho de ello. Y si borra completamente su cuenta, ningún usuario la verá, pero Facebook conservará y seguirá utilizando sus datos. Además, construye una “memoria semántica” del registro histórico de las actividades de cada usuario y realiza un análisis exhaustivo con el fin de comercializar dichos datos. De hecho, anunció en abril 2014 26
que lanzará su propia red de publicidad para móviles, en la que aprovechará esta extensa base de datos para crear anuncios personalizados, con el fin de competir con Google. En función de los movimientos y características de la navegación de los usuarios, determinará qué anuncios encajan mejor en determinadas plataformas, como sitios web o aplicaciones para móviles (Noticiasdot.com, 22/04/2014). Además, un estudio encargado y dado a conocer por la comisión de privacidad de Bélgica demuestra que Facebook viola las leyes europeas relativas a la privacidad entre otras cosas recopilando información de sus usuarios mientras navegaban por la red, aun habiéndose deslogueado de su web, gracias a plugins sociales como el botón “Me gusta” y “cookies” que coloca sin permiso en el equipo del usuario y que interactúan con las de las webs por las que navegamos. Incluso almacena datos incluso sobre personas que ni siquiera tienen una cuenta creada pero que aparecen citadas por sus usuarios. (Genbeta, 31/03/2015). Según un reciente estudio de Pew realizado en Estados Unidos, el 91% de los adultos cree que los consumidores han perdido el control sobre cómo las empresas recopilan información de sus clientes. El 61% no confía en la promesa que hacen muchas redes sociales, buscadores o tiendas on line de que esos datos se usan para ofrecer mejores servicios. De poco sirven que los datos estén anonimizados: “Cruzando diferentes puntos es sencillo obtener un perfil único y real de cualquier usuario. Lo que no contamos en un sitio, lo contamos en otro. Tal vez no digamos a la red social dónde estamos cenando, pero esa foto que subimos del plato principal tomada con el móvil tiene las coordenadas GPS y deja poco lugar a dudas” (El Mundo, 20/11/2014). Si postea vídeos, aunque no los tenga geolocalizados, existen nuevos algoritmos que localizan dónde se grabaron a partir de las imágenes y sonidos. El sistema ha sido desarrollado por científicos del campus La Salle de la Universidad Ramón Llull (Barcelona), quienes publicaron su estudio en la revista Information Sciences 4. Si bien no es aún de uso público, no pasará mucho tiempo para que cualquier empresa de informática pueda hacer lo mismo. (SINC, 11/02/2015). 3.4. Televisores inteligentes Tanto Samsung como LG y otros fabricantes han incluido en sus televisores inteligentes extensas funciones de espionaje de sus usuarios: recogen la dirección IP, los identificadores de dispositivos, los datos de las transacciones solicitadas y el uso de las aplicaciones y servicios. Pero, además, responden a comandos de voz y, al menos en el caso de Samsung, recogen TODO lo que se dice frente a ellas, en teoría para conocer las órdenes más 4 Xavier Sevillano, Xavier Valero, Francesc Alías. “Look, listen and find: A purely audiovisual approach to online videos geotagging”. Information Sciences 295: 558–572, 2015.
27
frecuentes y, de esa forma, mejorar el sistema en futuros modelos, ya que si millones de personas mandan una orden que la TV no entiende, enviando el mensaje a la firma será posible que en el futuro asegure que se entienda. Pero la conversación también podría ser interferida y Samsung, al menos, advirtió de ello a sus usuarios en su web: “Por favor tenga en cuenta que si sus palabras habladas incluyen información personal o confidencial, éstas formarán parte de los datos capturados y transmitidos a un tercero a través de su uso de la función de reconocimiento de voz”, una advertencia sumergida en un texto sobre la política de privacidad de una extensión de 46 páginas. (Wwwhats´ New, 6/02/2015). Después de las denuncias, Samsung contestó señalando que no guarda las grabaciones de los clientes y aplica “las medidas y prácticas de seguridad estándares de la industria” para “proteger la información personal de los clientes y evitar su recolección o uso no autorizado”, mientras el “tercero” al que envía los datos es la empresa estadounidense Nuance especializada en reconocimiento de voz que la asesora en este campo. Advirtió también que cambió su política, aclarando que “solo recogerá tus comandos de voz cuando solicites una función específica mediante el botón de activación, bien sea en el mando a distancia o en la pantalla, y le hables al micrófono del mando a distancia”. (El Mundo.es, 10/02/2015 y ABC.es, 11/02/2015). Pero quienes rechazan esta concesión no pueden utilizar los comandos de voz ni acceder a servicios adicionales, tanto en los televisores de Samsung como de Toshiba. En las TV de Panasonic no podemos acceder a las aplicaciones ni al navegador y en LG perdemos las aplicaciones. (Xataka, 4/11/2014; ver también A.Laughlin en Blogs.which.co.uk, 20/08/2014). Los comandos de voz en Google Chrome, Google Now, Apple Siri, Amazon Echo y los smartphones también son susceptibles de ser escuchados a distancia. Aunque generalmente la función de escucha puede ser desactivada, también puede significar que se pierda el servicio. 3.5. Internet de las Cosas (IoT) La Internet de las Cosas agregará quizás muchas cosas prácticas a nuestra vida, pero habrá que pagarlo con una pérdida aún mayor de privacidad. “La era del «Internet de las Cosas» se basa, precisamente, en esto. Los electrodomésticos aprenderán y lo sabrán todo de sus propietarios, a fin de mejorarle la vida y facilitarle las tareas. La transparencia a la hora de mostrar este tipo de prácticas y una mayor conciencia por parte de los consumidores se convierten en una frontera de convivencia. ¿Son los dispositivos «inteligentes» una inevitable pérdida de privacidad? A juicio de los expertos, esta situación es «intrínseca» en este tipo de aparatos.” (ABC.es, 11/02/2015)
28
La IoT estará por todas partes, lo que significa que cuando se produce algún cambio registrado por alguno de los aparatos conectados, alguna empresa será notificada, vinculando este dato con todos los que tendrá de nosotros. “Nadie será capaz de escapar de su impacto, porque no se va a utilizar la IoT, se vivirá dentro de ella todo el día, todos los días”, dice Geoff Webb, Director de Solution Strategy en NetIQ. “Cuando vivimos en un mundo en el que hay un sinnúmero de sensores y objetos inteligentes a nuestro alrededor, todo el tiempo; cuando la ropa que usamos, incluso las cosas dentro de nuestros cuerpos, son inteligentes y conectadas, entonces el concepto de «privado» se convierte en mucho más efímero.” (Wired, 5/02/2015). Lo que ya ocurre con las tarjetas de crédito nos puede dar una idea de lo que ésto significa. Un estudio, encabezado por Yves-Alexandre de Montjoye, del Media Lab del Instituto de Tecnología de Massachusetts (MIT), y publicado como parte de un especial sobre seguridad en la revista Science, consiguió identificar al 94% de las personas de una base de datos solo utilizando la información de tres compras hechas durante un día con cada una de las respectivas tarjetas de crédito. El análisis incluso les permitió detectar que tanto las mujeres como quienes tienen más ingresos son más fáciles de identificar. Esto porque sus patrones de compras en el tiempo están mucho mas definidos que los del resto. “Nuestro trabajo demuestra cuán específico y difícil es volver los datos anónimos”, dijo de Montjoye. (El Mercurio, 30/01/2015). Veamos los casos más comentados en estos días. 3.5.1. Pulseras de Fitness
Las pulseras destinatas a monitorear el ejercicio son una particular fuente de información privada que, en muchos casos, envían estos datos a un servidor central. Quienes dominan este mercado son Fitbit, con un 67% de cuota de mercado en 2014, y Jawbone. Fitbit tiene un programa gratuito para empresas con 1.000 trabajadores en los EEUU y 300 en España. Se estima que en 2013 las ventas de estos cuantificadores a empresas dentro de sus programas de salud fueron de 200.000 unidades, y para 2018 esa cantidad podría alcanzar los 13 millones de dispositivos. Muchas grandes empresas cuentan con programas de salud para sus empleados (el 80% de las empresas de más de 1.000 trabajadores y casi el 50% de las de entre 50 y 999 trabajadores). Según un estudio de la Fundación Kayser Family, estos planes les proporciona una reducción en los costes de seguros médicos de un 35%. Así, por ejemplo, la compañía VISTA, con un 25% de sus 200 trabajadores utilizando las pulseras, ha estimado que, cada año, realiza un ahorro de unos 38.000 dólares en gasto médico. La gran compañía Appirio invirtió en estos cuantificadores para sus empleados y con esos datos consiguió una rebaja del 5% en la prima del seguro médico de sus trabajadores. La aseguradora entendió que, siendo más 29
activos y durmiendo mejor, habría menos riesgos de que recurrieran a su seguro médico. En total, Appirio se ahorró en su prima de 2014 casi 300.000 dólares. (Xataka, 12/02/2015). Por ello muchas compañías, incluyendo Google, eBay, BP, Autodesk y casi todas las grandes empresas aseguradoras y relacionadas con la salud de EEUU ofrecen las pulseras en sus programas de bienestar. Las empresas instalan un servidor especial que recibe los datos de los cuantificadores (pulseras) y con los datos que reciben crean estadísticas sobre la actividad física y horas de sueño de los trabajadores. El administrador del programa dispone de un panel de control donde quedan reflejados los datos de los usuarios y de los dispositivos en uso o sin uso. Por su parte, cada trabajador – en un interfaz web – puede ver sus datos personales, con los días en que ha conseguido el objetivo, la distancia total que ya lleva alcanzada, cuál ha sido el mejor día de su historial así como una gráfica con sus datos comparados con la media del programa (ibidem).
Una pantalla de Fitbit Corporate Fitness (via Xataka)
30
3.5.2. Tu coche te delata
Los fabricantes de automóviles “conectados” recopilan datos de nuestra conducción y el funcionamiento del coche, información que viaja a servidores tanto del fabricante como a veces de terceros. La misma BMW denunció que las empresas tecnológicas y publicitarias quieren conocer todos los datos asociados al coche, incluidos aquellos que indican cómo se conducen. Y según la compañía alemana, están presionando a los fabricantes clásicos para que dejen libre acceso a la misma o les vendan esos datos. Empresas de publicidad ya se ofrecen para conseguir dar valor a esa información haciendo saltar en el navegador un anuncio sobre restaurantes cercanos a los que deberíamos ir porque “saben” que llevamos un determinado tiempo conduciendo y podríamos querer una pausa para comer. BMW quiere por ello iniciar una cruzada para asegurar que toda la información de sus coches conectados quede bien custodiada y protegida. (Xataka, 15/01/2015). Y de 16 de estos fabricantes consultados por el senador por Massachusetts Edward Markey, solo dos aseguraron estar preparados para detectar y empezar a afrontar el problema de seguridad asociados a esta conectividad. El cliente tiene pocas posibilidades de desactivar esa recopilación de datos sin que ello suponga una merma importante de las prestaciones del coche, especialmente a nivel de entretenimiento o navegación GPS. El senador también acusó a los fabricantes de usar esta información personal para aspectos que no siempre tienen que ver con la mejora de la seguridad de la conducción o experiencia a bordo. La misma agencia oficial de defensa, DARPA, ha demostrado que en menos de una hora se puede hacer uno con el control de un coche conectado incluso desde casa, pudiendo acceder al coche e incluso tomar el control del acelerador y del freno. (Xataka, 10/02/2015). 3.5.3. Y tu ereader también
Un lector de libros electrónicos como el Kindle (y algunos otros también) puede también espiar e informar a su fabricante acerca de lo que hacemos con ellos si los mantenemos conectados. El Kindle ofrece a sus usuarios la opción de marcar los párrafos que más les gustan y almacenarlos en lo que equivaldría a un cuaderno de notas. Pero Amazon se entera de lo marcado y, si el lector no tiene el cuidado de rechazar el permiso para ello, la empresa comparte esa información en la nube y, cada mes, hace público el ranking de las citas más subrayadas. Así, por ejemplo, la frase “A veces a las personas les pasan cosas y no están preparadas para lidiar con ellas”, que pertenece a la novela “En llamas” (Catching fire) de la trilogía “Los juegos del hambre”, ha sido la más subrayada por los usuarios de Kindle (17.784 veces). (BBC Mundo, 19/11/2014).
31
3.6. Big Data Todos los datos recopilados son reunidos en grandes bases de datos, los llamados “big data”, donde son analizados para proporcionar más conocimientos acerca de nosotros y debe haber quedado claro que, si ya era difícil mantener cierto grado de privacidad, con la IoT deberemos olvidarnos de ello. Como explica W. Ben Hunt en Forbes, sería un grave error comparar el análisis de big data con el análisis que nuestro cerebro puede realizar considerando muchos datos: “El cerebro humano no puede comprender fácilmente la inmensidad de TODA la ecuación o lo que significa mirar el TODO de forma simultánea y en paralelo [como lo hace un computador poderoso]. Puedo apreciar su magia, y en un nivel puramente simbólico puedo describir esta magia. Pero en un nivel fundamental no entiendo esta magia, y tampoco lo hace cualquier otro ser humano. Lo que puedo decirle con absoluta certeza, sin embargo, es que la magia existe y hay un montón de magos por ahí, con más graduados de MIT, Harvard y Stanford cada año. [Debemos reconocer] que poderosos intereses privados nos están quitando las llaves de nuestra conducta a plena vista nuestra y con nuestra cooperación. Este sencillo acto de reconocimiento cambiará su comportamiento de intercambio de datos para siempre, y si suficientes de nosotros cambiamos nuestro comportamiento para proteger nuestras llaves no humanas con el mismo celo que protegemos nuestros números de seguro social y contraseñas, entonces esta batalla se podría ganar.” (W. Ben Hunt, Forbes.com, 14/02/2015) Lamentablemente las entidades de gobierno que intentan atacar el problema (en diversos países) está luchando en una guerra ya obsoleta en vez de enfrentar la que realmente está a la vista de quienes reconocen la verdadera situación, agrega Ben Hunt. Para Hodgson, se trataría de asegurar una transparencia total en ambos sentidos (nosotros frente a las empresas y las empresas frente a nosotros, con nuestro pleno acceso a nuestros datos y nuestra clara propiedad de los mismos (Hodgson, 2014). Desarrollamos este tema en el capítulo siguiente. Otro aspecto del análisis de big data es que, como hemos señalado antes (estudio de Yves-Alexandre de Montjoye en el MIT), ya no es necesario que nuestro nombre esté registrado en la base de datos – y tampoco un perfil de usuario – para que seamos identificados. Nuestra identidad puede ser determinada sobre la base de nuestro comportamiento en algunas aplicaciones como compras y pagos online, servicios multimedia y plataformas de comunicación, aún sin nuestro nombre. El análisis de big data es un importante recurso para numerosas empresas y los “científicos de datos” capaces de realizar este trabajo son cada vez más demandados. Trataremos este aspecto en la Segunda Parte. 32
4. Protección y cesión de datos Según un reciente estudio de Pew realizado en Estados Unidos, el 91% de los adultos cree allá que los consumidores han perdido el control sobre cómo las empresas privadas recopilan información de sus clientes. El 61% no confía en la promesa que hacen muchas redes sociales, buscadores o tiendas online de que esos datos se usan para ofrecer mejores servicios. (El Mundo, 20/11/2014). 4.1. Derechos Lo anterior pone en evidencia un serio problema: el de la propiedad y privacidad de los datos recopilados a través de los “datos sociales” y “rastros” dejados por los internautas. Si bien existe en muchos casos una cesión voluntaria de datos personales (generalmente como forma de retribuir un servicio gratuito), ésta no puede ser indiscriminada y no debería realizarse sin el conocimiento de los interesados. La principal asociación francesa de defensa de consumidores, UFC-Que Choisir, ha denunciado ante los Tribunales de Justicia a Twitter, Facebook y Google+ por las normas de uso de los datos personales de sus abonados que consideran “ilícitas” y “abusivas”. “Las condiciones siguen siendo inaccesibles, ilegibles, llenas de hipervínculos -entre 40 y 100 enlaces de hipertexto- y a veces se derivan a páginas en inglés. Peor aún, las redes continúan permitiendo ampliamente la recogida, modificación, conservación y explotación de los datos de los usuarios e incluso de sus familias. Sin el acuerdo expreso de los usuarios, dan una licencia mundial ilimitada para el funcionamiento y comunicación de datos a los socios del negocio” declaran (El País, 25/03/2014). El propio presidente Obama abordó el tema recientemente: “Creemos que los consumidores tienen el derecho a decidir qué tipo de información personal recogen de ellos y cómo la usan, o saber que la información usada por una empresa con una finalidad en concreto no sea usada por otra empresa con otra finalidad” (El Mundo.es, 13/01/2015). La telefonía móvil, en particular, tiene un “lado oscuro”, no regulado, que permite a los portadores registrar todos los desplazamientos de cualquier ciudadano y lo que hace con dicho aparato, p. ej. si hace compras, dónde, de qué tipo de producto, etc. (Wired, 6/01/2002). “La privacidad debe equilibrar el deseo del consumidor con la necesidad de la organización”, dice Fatemeh Khatibloo, analista senior de Forrester. La privacidad ha de considerarse en función de cinco aspectos: ● temporal: cuando pueden ser recogidos los datos y cuando pueden ser usados; ● espacial: donde pueden ser usados; 33
● funcional: como pueden ser recogidos y usados; ● de identidad: que personas están involucradas en la relación; ● social: con quienes puede ser compartida la información (Tierney, 2014). El debate de fondo es sobre la cantidad de poder que tenemos para controlar el flujo de información sobre nosotros mismos. Si el anonimato y el “control” significa dar a las personas el derecho a ocultar lo que quieran, entonces tenemos una batalla cuesta arriba y puede ser demasiado tarde, estima David Hodgson, de Computer Associates. Si vamos a abrazar la transparencia y aseguramos una transparencia total en ambos sentidos, entonces podríamos ser capaces de lograrlo. Esto significa aceptar que nuestras vidas están al descubierto, pero exigiendo que todos los usos de los datos también estén al descubierto y que todos se beneficien de la utilización de sus datos. Aunque para muchos esta idea parezca desagradable, es posible que sea la única manera de asegurarnos de que nos movemos hacia un futuro en el que no se explote la persona (Hodgson, 2014). 4.2. Protección Los ciudadanos de la Unión Europea tienen – en teoría – la facultad de controlar sus datos personales (cualquier información que permita identificarlos o hacerlos identificables). La Agencia Española de Protección de Datos considera que Google es de las empresas “más irresponsables” en el ámbito de la gestión de la privacidad y critica que la compañía estadounidense aproveche todos los resquicios legales para intentar eludir sus responsabilidades en Europa (El Mundo.es, 26/11/2014). La Comisión Europea “vigila a grandes empresas como Facebook o Google, pero servicios pequeños y recientes que de repente ganan popularidad pasan bajo el radar o almacenan los datos de los usuarios en el extranjero, donde el control resulta más difícil. Las aplicaciones móviles suponen un problema añadido. Muchas de las gratuitas lo son porque el negocio llega por toda la información que son capaces de recolectar en segundo plano.” (Ángel Jiménez de Luis, en El Mundo, 20/11/2014) Así, no es fácil ejercer control, menos si los datos no están en servidores ubicados en la UE. Aún si se logra que determinados contenidos desaparezcan, generalmente dejan de ser visibles por terceros pero no son borrados de los servidores de las empresas. El “derecho al olvido” significa generalmente que los enlaces sean bloqueados en los buscadores y directorios pero es imposible asegurar que el contenido real sea eliminado, ya que puede haber sido reproducido y almacenado en múltiples lugares. 34
Un estudio de la Universidad de Leuven para la comisión de privacidad belga constató también que la manera en que Facebook utiliza los datos de sus usuarios viola las leyes europeas de privacidad y protección de datos. Sus políticas relativas a la publicidad de terceros “no cumplen con los requisitos para un consentimiento jurídicamente válido” y la red social “no ofrece mecanismos de control adecuados” en relación con el uso de los contenidos generados por los usuarios con fines comerciales, a pesar de que la empresa cambió sus políticas de privacidad en enero de 2015 en respuesta a reclamos de la Comisión Europea. El informe también señala que no hay forma de impedir que Facebook recoja información sobre la ubicación de los usuarios a través de su aplicación de teléfono inteligente que no sea deteniendo el sistema de ubicación en el nivel del sistema operativo. (The Guardian, 23/02/2015). En los Estados Unidos, la Casa Blanca, con la esperanza de que el debate nacional sobre la privacidad vaya más allá de las denunciadas actividades de vigilancia de la Agencia de Seguridad Nacional y considere las prácticas de compañías como Google y Facebook, publicó, el 1 de mayo 2014, un informe que recomienda la aplicación por el gobierno a las empresas privadas de límites sobre cómo hacen uso del torrente de información que obtienen de sus clientes en línea. El autor principal de este informe es John D. Podesta, un alto asesor de la Casa Blanca. Hace las siguientes recomendaciones: ● aprobación de una ley nacional sobre violación de los datos, que exigiría a las empresas informar cuando ocurran grandes pérdidas de datos personales y de tarjetas de crédito después de ataques como el que expuso información de tarjetas de crédito de unos 70 millones de clientes; ● una legislación que defina los derechos del consumidor con respecto a cómo se utilizan los datos sobre sus actividades; ● ampliación de las protecciones de privacidad para los individuos que no son ciudadanos de los Estados Unidos; ● medidas para garantizar que los datos recogidos de los estudiantes se utilicen solo para fines educativos (New York Times, 1/05/2014). El informe señala también que la misma tecnología que a menudo es tan útil para la predicción de los lugares afectados por inundaciones o para diagnosticar enfermedades difíciles de descubrir en bebés, también tiene “potencial para eclipsar las protecciones tradicionales de los derechos civiles al utilizar la información personal acerca de la vivienda, el crédito, el empleo, la salud, la educación y el mercado” (ibidem). El informe se centra especialmente en los “algoritmos de aprendizaje” que se utilizan con frecuencia para determinar el tipo de publicidad en línea a exhibir en la pantalla de la computadora de alguien, o para predecir sus hábitos de compra en la búsqueda de un coche o al hacer planes de viaje. Esos mismos algoritmos pueden crear una fotografía digital de la persona que, señala Podesta, puede permitir inferir la raza, el género o la orientación sexual, incluso si éste no es el propósito del software. 35
La Alta Comisionada de la ONU para los Derechos Humanos publicó en junio 2014 el informe “The right to privacy in the digital age” (El derecho a la privacidad en la era digital), donde reza: “La vigilancia invasiva, así como la recolección y el almacenamiento de datos personales derivados de la comunicación digital - si forma parte de programas de vigilancia dirigida o masiva - no solo puede infringir el derecho a la privacidad, sino también un rango de otros derechos fundamentales” (Human Rights Council, 30/06/2014). ¿Cuál debería ser el camino de la industria? “El paradigma reconocido del consentimiento informado acerca de los datos privados puede ser todavía muy eficaz en el mundo de los grandes datos y su análisis si se combina con comunicaciones adecuadas, con un análisis exhaustivo de los riesgos y beneficios para el consumidor y con la capacidad para que puedan cancelar la suscripción en cualquier momento. La no adopción de este tipo de enfoque podría dar lugar a una oleada de legislación nueva y políticas más onerosas, a la condena pública y la retribución financiera. Parece una decisión simple y el camino hacia el éxito. Un consumidor informado puede decidir participar o no, para luego vivir con su decisión, sea para cosechar los beneficios propuestos sea encontrándose con consecuencias desconocidas que pueden volverse en su contra por décadas.” (R. Lee, 2014). Esto implicaría utilizar el formato “opt-in”, en el que elegiríamos únicamente lo que estamos dispuestos a compartir, en lugar del formato “opt-out”, en que tenemos que denegar manualmente lo que no queremos compartir, y que es el dominante hoy. Ésto es especialmente urgente en áreas que están en pleno desarrollo: “En materia de protección de datos existen importantes áreas aún poco exploradas y de las que realmente el usuario conoce poco o nada, como los riesgos vinculados al auge del «cloud computing». Existe también poca información sobre el tratamiento de datos laborales y médicos, u otros de un ámbito más personal como gustos, orientación política o religiosa… todos ellos, de una manera más o menos directa, susceptibles de ser usados por las empresas con fines publicitarios, dando pie así a importantes debates legales que, además, generan cambios legislativos a una velocidad poco habitual en el mundo jurídico pero necesaria por su vínculo al desarrollo tecnológico.” (TICbeat, 8/02/2015). Para la “nube”, la Organización Internacional para la Estandarización (ISO) estableció el estándar ISO/IEC 27018, desarrollado para establecer un enfoque internacional y uniforme que permita proteger la privacidad y seguridad de los datos personales almacenados en la nube. Y, en febrero 2005, Microsoft se convirtió en el primer gran proveedor mundial en adoptar este estándar (Diario TI, 19/02/2015). 36
Y para terminar este acápite, no olvidemos que también debemos tomar personalmente medidas de protección, revisando y ajustando las opciones correspondientes en los servicios que utilizamos. 4.3. Derecho al olvido En 2012, la Comisión Europea anunció una propuesta de ley para defender el “derecho al olvido” de los usuarios en internet. Esta ley obligaría a los proveedores del servicio a acatar la normativa a no ser que tuvieran una razón “legítima” para no hacerlo. En mayo 2014, el Tribunal de Justicia de la Unión Europea respaldó este “derecho al olvido” y dictaminó que los motores de búsqueda como Google deben retirar los enlaces a informaciones publicadas en el pasado si se comprueba que perjudican a un ciudadano y no son ya pertinentes. ¿Hasta qué punto podría ser usado ésto también por políticos o corporaciones para evitar que se difunda información de interés público? La justicia europea fue muy clara al respecto, dice la BBC: “Este tipo de peticiones sólo serán aceptadas teniendo en cuenta la naturaleza de la información en cuestión, en cómo afecta a la vida privada del usuario y en el interés público que tiene disponer de esta información. De alguna forma, con este fallo, Europa está diciendo que el límite a la libertad de información está definitivamente en toda aquella información que no le concierne a nadie más que al usuario” (BBC, 13/05/2014). La decisión del Tribunal de Justicia ha generado mucha polémica. Por una parte, están quienes se alegran por el fallo y han comenzado a pedir al buscador que retire de sus resultados algunas de las informaciones polémicas que aparecen en las búsquedas. También están quienes han encontrado en este caso un peligroso antecedente para el ejercicio de la libertad de opinión y expresión. Y es que en el tema del derecho al olvido convergen la protección de datos personales, su impacto en la privacidad de los usuarios de internet y la libertad de expresión en línea. Hay muy buenos argumentos a favor de cada tema, pero resulta difícil inclinarse por privilegiar uno u otro. Pero quizás el problema inmediato más relevante es que la decisión habilita a cualquier motor de búsqueda para resolver sobre las peticiones de personas que deseen ser “borradas”. ¿Con qué criterio decidirán si una petición es válida o no? Ésto también va en contra de la política generalmente defendida de que los intermediarios (ISP, motores de búsqueda, etc.) no deberían tener jamás el poder de decidir sobre los contenidos. 4.4. ¿Esconderse? ¿Podemos esconder nuestros datos para protegernos? Ya hemos mencionado algunas medidas que podemos tomar para reducir el seguimiento que realizan los navegadores y 37
la existencia de aplicaciones y extensiones que bloquean los “trackers”, como es el caso del excelente Ghostery (www.ghostery.com), que revela quienes tratan de espiarnos y permite bloquear el envío de estos datos. También existen aplicaciones de correo electrónico más privadas que los clásicos Outlook, Gmail y Yahoo, como Peerio (www.peerio.com/), una suite de productividad de comunicaciones cifradas que incluye mensajería instantánea y correo electrónico, sumado al almacenamiento de archivos en la nube con un cifrado de extremo a extremo donde sólo el destinatario final ve el contenido. También podemos encriptar los documentos que enviamos, por ejemplo con AES Crypt (www.aescrypt.com), que funciona tanto en Windows como OS X y Linux, pero obviamente solo esconde el contenido y no los metadatos relacionados con el envío. Para esconder nuestras transmisiones, o incluso parecer estar en otro país, se puede utilizar una red privada virtual (VPN) que esconde (reemplaza) el número IP y encripta las transmisiones, como en el caso de Faceless.me. Los contenidos sólo pueden ser interpretados por el remitente y el destinatario, pero la VPN debe verificar la autenticidad de la identidad de estos usuarios. Podemos también lograr una conexión a Internet segura y anónima en redes públicas WiFi recurriendo a Hotspot Shield (www.hotspotshield.com), que opera sobre una red VPN. Por último, podemos “mudarnos” a la “red profunda” (deep net) y utilizar TOR, “The Onion Router” (www.torproject.org/), que nació en el Laboratorio de Investigación Naval de EEUU como una forma de crear comunicaciones seguras para los militares pero está abierto a todos porque su principal finalidad es facilitar las comunicaciones libres en regiones donde puede estar restringida (por ejemplo para disidentes y periodistas). TOR está estructurado en nodos o capas (su símbolo es una cebolla), de forma que el usuario va saltando de una a otra, amparado por una capa de cifrado que impide que el servidor de destino conozca su IP. En Europa lo utilizan cada día 80 de cada 100.000 usuarios de Internet, sobretodo en Italia, el segundo país del mundo donde más se utiliza, detrás de EEUU (Microsiervos, 24/06/2014). La organización Internet Engineering Task Force (IETF) ha propuesto convertir la tecnología de la red Tor en un estándar de Internet. De prosperar esta propuesta, la red podría entrar en otra etapa de su historia, donde la privacidad del usuario sería la propia esencia de Internet. (Genbeta, 30/11/2013)
38
4.5. (In)Seguridad Quizás el mayor problema ligado a los big data, aparte de la pérdida de privacidad, es la escasa seguridad de estas bases de datos, como ha sido desvelado por una encuesta realizada por Unisphere Research y patrocinada por Oracle5. Solo una cuarta parte de los encuestados indicó que cifran todos los datos y solo un poco más de la mitad (un 56%) cifran al menos una parte de las copias de seguridad. Un 81% de los encuestados citan el error humano como mayor preocupación, seguido por un 65% de los posibles ataques internos, y el 54% se preocupa por el abuso de los privilegios de acceso de su propio personal. Un 51% reconocen que no tienen garantías y un 21% desconocen si tienen garantías para prevenir que un administrador o desarrollador pueda eliminar accidentalmente una tabla o que de forma inintencionada pueda provocar algún tipo de daño a las bases de datos críticas. (Hispasec, 18/11/2014). También se ha de tomar en cuenta que la internet pública de hoy no es confiable para ofrecer un nivel consistente de servicio, fiabilidad, seguridad y flexibilidad para la comunicación de máquina a máquina, como en la Internet de las Cosas. Se han propuesto para ésta diversos protocolos pero no existe aún un estándar único, a pesar de que crece la demanda por una conectividad segura. (DiarioTI, 1/12/2014). La policía británica ha advertido que miles de enlaces a imágenes de videocámaras, cámaras de vigilancia e incluso monitores para bebés de decenas de países y territorios, entre ellos España, han aparecido en un sitio web administrado desde Rusia. Son 4.591 cámaras en EEUU, 2.059 en Francia, 1.576 en Holanda, 500 del Reino Unido, 378 enlaces de España. Y aparecen los enlaces clasificados por país y marca de las cámaras. (El Mundo.es, 20/11/2014). También se ha de tener en cuenta que los hackers tienden a abandonar los ataques individuales (como vía e-mails) prefiriendo atacar directamente los servidores de las empresas – especialmente del área financiera – para robar las bases de datos completas. Por ejemplo, en la “Operación High Roller” se vieron afectadas 60 entidades financieras de todo el mundo, víctimas de un ciberataque en el que se extrajeron 60 millones de euros (El Mundo, 21/06/2014). Kaspersky Lab también descubrió como más de 100 bancos en 30 países fueron afectados por un masivo robo electrónico a través de una sofisticada operación en varios pasos. Los hackers lograron penetrar en los computadores de empleados de bancos de Rusia, Suiza, Japón, Holanda y Estados Unidos, captar su modo de operar y luego imitar los patrones de sus transacciones para luego transferir dinero a cuentas falsas en Estados Unidos y China e incluso a cajeros automáticos en los que esperaban sus cómplices (The NewYork Times, 15/02/2015).
5 “DBA – Security Superhero: 2014 IOUG Enterprise Data Security Survey”
39
Los expedientes médicos también parecen ser material de interés: cerca de 80 millones de éstos, de ciudadanos de todo el mundo, fueron robados a una importante aseguradora (Hipertextual, 5/02/2015).
40
Segunda Parte: Secuestradores (Qué hacen con nuestros datos y cómo)
5. Quienes nos espían Los captores de datos personales, en el mundo de internet, no son todos equivalentes ni tienen los mismos objetivos. Las empresas informan sobre sí-mismas, sus actividades y productos o servicios y casi todas, para ello, tratan de aprovechar los contactos logrados a través de la web o de sus apps para conocer mejor a sus posibles clientes y rentabilizar mejor la relación. Los gobiernos ofrecen y recopilan información para orientar su gestión y mejorar sus servicios... y realizan actividades de espionaje para proteger su seguridad. Los políticos están interesados en la opinión pública y en la forma de influir en ella. Y no olvidemos los piratas (hackers) que tratan de acceder a informaciones reservadas, servicios financieros, infraestructuras, etc. con las intenciones más oscuras. Las instituciones académicas, además de darse a conocer, ofrecen cada vez más alternativas de enseñanza a distancia y publican los resultados de sus proyectos de investigación pero, en este sentido, pueden ser consideradas en la misma categoría que las demás empresas, tratando de conocer mejor a su público-objetivo.
5.1. Las empresas No se concibe hoy una empresa que no esté presente en internet, al menos mediante una página web. En este sentido, toda empresa es – al menos en principio – una “emisora” de datos, al menos con información sobre sí-misma pero, sobretodo, como un importante canal de ventas, como descubrieron rapidamente las empresas que “se subieron” a la web cuando se abrió al comercio en 1995. No sólo permitía ofrecer productos y servicios y establecer contactos con clientes: permitía que las ventas se hicieran directamente online, lo cual podía también transformar un comercio local en comercio universal. También permitía ofrecer una mayor diversidad de productos y obtener beneficios con productos vendidos en menor cantidad (el fenómeno de la “larga cola” descrito por Chris Anderson). Así nació el comercio electrónico o e-comercio, que creció en 400% entre 1999 y 2009. Y siguió creciendo, como muestra el último informe de la Internet Society:
41
Un estudio reciente descubrió que el 27% de los consumidores hicieron su última compra online. Aunque el último censo de Estados Unidos arrojó que solo el 5,8% de las ventas al detalle se hace en forma electrónica, un estudio de McKinsey determinó que sus márgenes operativos podían aumentar de este modo en 60% (Forbes, 5/04/2014). Operaciones online detectadas en 60 segundos por Ever Merchant
Fuente: Ever Merchant.com, 10/07/2014, 18h30 (registro de 1 minuto en tiempo real) 42
El futuro de muchas empresas depende de que se den cuenta de que el usuario es ahora el principal protagonista y lo enfoquen todo a su satisfacción. Lo más importante para las empresas es que ofrezcan al cliente una experiencia placentera, para que la comparta con su red de contactos. Y ésto implica también tomar conciencia de la importancia de las redes sociales. El 75% del comercio electrónico descansó en las redes sociales (esencialmente Facebook, Twitter y Pinterest) en 2013 y 74% de los compradores se basan en opiniones vertidas en estas redes, según Forrester Research y Business Insider (Socialmedia Today, 11/04/2014). Mientras Amazon pasó a ser el líder del e-comercio, facturando más de 67.000 millones de dólares en 2013 (Applesfera, 7/05/2014), otro sector ha visto nacer empresas especializados en el uso de la red. Aparte de Amazon, las empresas que dominan la web son principalmente Facebook, Google, Yahoo, Twitter y eBay. Facebook, Google, y Yahoo son las que acumulaban las mayores rentas en 2013 según Business Insider. Google representaba el 25 por ciento de todo el tráfico de internet en 2013 (PC World, 22/07/2013). Obviamente, las redes sociales son “los grandes” de la red. Pero no son en sí generadores de datos: son esencialmente medios de difusión personalizados... y “tiburones” que recopilan ingentes cantidades de datos secundarios asociados a la actividad de sus usuarios. Las redes sociales Facebook, Google+, Twitter y Youtube son las plataformas más utilizadas: tienen el 77% de la audiencia activa online y los dos tercios de estos usuarios se conectan mediante móviles, según el informe “Social Media 2014” de la Online Business School (El Mercurio, 12/05/2014). No existe nada comparable con las bases de datos de Google, Facebook, Amazon y eBay en la historia del comercio tradicional no virtual (Xataka, 9/01/2015). “Para Facebook esto se traduce en que cada usuario de la red social vale cerca de 1,60 euros por trimestre. Twitter puede llegar a exprimir cientos de euros al año en valor de sus perfiles más activos. No son cantidades sorprendentes, pero al multiplicar por los cientos de millones de usuarios de estos servicios, las cuentas salen redondas.” (Ángel Jiménez de Luís, El Mundo.es, 20/11/2014) La posibilidad de realizar operaciones financieras en línea, después de interesar a los bancos, también ha traído nuevos “jugadores”, dedicados a ofrecerse como intermediarios para realizar pagos, como es PayPal, nacida en 1998. Con la aparición de los teléfonos inteligentes, este tipo de operación se ha extendido y están progresando los sistemas de “pagos móviles”, generalmente manejados por grandes empresas ya establecidas (Apple Pay, Google Wallet, Amazon Coin, etc.). Según el estudio “Mobile Payment Strategies: Remote, Contactless & Money Transfer 2014-2018”, de la consultora Jupiter Research, en el año 2014 el mercado de los pagos móviles podría crecer en un 40% con respecto al año anterior, llegando a la cifra de 507.000 millones de 43
dólares (El Mercurio, 28/04/2014). “Los bancos que no estén preparados para nuevos competidores como Google, Facebook o Amazon se enfrentan a una muerte segura”, escribió en el Financial Times Francisco González, consejero delegado del BBVA (The Next Web, 14/04/2014). 5.2. Los gobiernos Los organismos internacionales y los gobiernos no han tardado en darse cuenta del provecho que podrían obtener de operar en forma integrada con las grandes cantidades de datos que pueden acumular. La cantidad de aplicaciones y usos posibles no ha dejado indiferente a la Comisión Europea. Ha pedido a los gobiernos nacionales que “abran los ojos ante la revolución del Big Data” y, además de establecer una serie de centros de supercomputación de excelencia y crear una incubadora de datos abiertos, ha propuesto realizar una cartografía de normas sobre datos, identificando las posibles lagunas y proponiendo nuevas reglas en lo referente a la “propiedad de los datos” y a la responsabilidad del suministro de los mismos (TICbeat, 5/07/2014). Como señalan los analistas de la Unión Internacional de Telecomunicaciones: “Los «big data» encierran grandes posibilidades de contribuir a generar información nueva y reveladora y existe un debate cada vez más intenso sobre la manera en que las empresas, los Gobiernos y los ciudadanos pueden maximizar los beneficios que aportan. Si bien el sector privado fue el primero que empleó los «big data» para mejorar la eficiencia y aumentar los ingresos, la práctica se ha extendido a la comunidad estadística mundial. La Comisión de Estadística de las Naciones Unidas y las oficinas nacionales de estadística están analizando formas de utilizar las fuentes de «big data» para elaborar estadísticas oficiales y cumplir óptimamente su mandato de facilitar puntualmente pruebas que sustenten la formulación de políticas públicas. Las inquietudes más acuciantes están relacionadas con la normalización y el interfuncionamiento de los análisis de los «big data», y también con la privacidad, la seguridad y la continuidad. Es fundamental resolver los problemas relativos al intercambio y el uso de datos, por lo que es importante que los creadores y usuarios de «big data» cooperen estrechamente en este ámbito, entre otras cosas dando a conocer la importancia y las perspectivas de nuevas reflexiones creando asociaciones públicoprivadas para aprovechar plenamente las posibilidades que ofrecen los «big data» a favor del desarrollo.” (UIT, 2014b, p.40) “Smart Cities”
El crecimiento de las ciudades conlleva cada vez más problemas y conflictos complejos, siendo su administración un enorme desafío para los gobiernos sobre todo en servicios 44
claves como transporte, seguridad, educación, comunicaciones y espacios públicos, los que no pueden – además – tener solución sin la participación del sector privado y de la ciudadanía. La tecnología de sensores y de big data se presenta, ahora, como un aliado fundamental e imprescindible para encontrar soluciones. De este modo se puede lograr el desarrollo de “ciudades inteligentes” (Smart Cities). “Una ciudad inteligente es la gestión creativa de las ciudades con la última tecnología tanto en el diseño y planeamiento como en la optimización de todo proceso para hacerlas más productivas y ecológicas”, explica Anthony Townsend, especialista en planificación urbana y director de Investigación en el Institute for the Future (L.Zanoni, p.130) Según el informe “Smart Cities: Estrategias, energía, emisiones y ahorro de costes 2014-2019”, que publicó Juniper, los sistemas de gestión inteligente del tráfico reducirán los atascos y las correspondientes emisiones de los vehículos en los próximos cuatro años. La reducción total de emisiones de CO2 podría llegar a 164 millones de toneladas en 2019. El alumbrado público, la distribución de energía y los servicios públicos de transporte también podrán mejorar radicalmente, en opinión de los expertos de la firma. (PCWorld.es, 15/01/2015) Al finalizar el año 2015, las ciudades inteligentes habrán usado 1.100 millones de objetos conectados y, cinco años más tarde, en 2020, dicha cifra habrá ascendido a 9.700 millones (TICbeat, 20/03/2015). Según el IV informe sobre IoT del Instituto VINT de Sogeti (nov.2014): “Las Smart Cities supondrán una inversión de 87.000 millones de euros entre 2010 y 2020. La rápida evolución de las ciudades inteligentes viene empujada por el hecho de que si bien actualmente la mitad de la población mundial vive en ciudades, en 2050 esta proporción será del 75%. Por otro lado, actualmente, el 80% de las emisiones de CO2 y el 75% del consumo de energía se producen en ciudades y en ellas se genera el 80% de la riqueza económica.” (NetworkWorld, 9/12/2014). El gobierno de París, por ejemplo, ha aprobado el proyecto “Paris Smart City 2050”, a cargo de la firma de ingeniería Setec Bâtiment y del arquitecto Vincent Callebaut. Su principal objetivo será transformar la capital francesa en una “ciudad verde” y reducir las emisiones contaminantes hasta en un 75% para esa fecha. El proyecto está integrado por elementos que transformarán fuertemente el paisaje urbano, con –por ejemplo– grandes torres residenciales capaces de producir su propia electricidad gracias a que estarán construidas con celdas solares y escudos térmicos. (Xataka, 21/01/2015).
45
Paris 2050. Fuente: vincent.callebaut.org
Nueva York, por su parte, pretende partir transformando la Calle 42, una de las más transitadas de Manhattan, incorporando un sistema de transporte eléctrico, dispositivos para recolección de lluvia, reciclado de desechos electrónicos, celdas fotovoltaicas, puntos WiFi, juegos para niños y un parque del cual la misma comunidad sería responsable (Xataka, 20/01/2015).
Nueva York. Fuente: Xataka, enero 2015 46
5.3. Los políticos Si gracias al análisis de datos las empresas pueden obtener información valiosa sobre su público objetivo, también pueden utilizar estas herramientas los políticos para conocer los comportamientos, gustos y preferencias de sus electores y planear sus campañas políticas. “De esa manera lo entendió el equipo de campaña de Barack Obama para usar el Big Data en beneficio del candidato demócrata, que llegó a la presidencia de los Estados Unidos en 2008. La estrategia, explicada al máximo detalle por el español Diego Beas en el libro «La reinvención de la política», consistió en juntar la mayor cantidad posible de usuarios, cruzar las bases de datos, extraer toda la información posible y usarla para mantener el contacto con el electorado de cada Estado, comprar publicidad en medios digitales y, fundamentalmente, para recaudar fondos. «Mediremos todo», dijo el jefe de campaña Jim Messina, quien armó un equipo sólo dedicado al data analytics.” (L.Zanoni, pp.83-84) 5.4. Los hackers Los ciberdelincuentes están migrando también hacia la obtención y el análisis de grandes datos (big data) y han desarrollado nuevas capacidades para intentar robar material sensible en forma masiva. Gobiernos, tarjetas de crédito, datos médicos y aparatos propios de la llamada “Internet de las Cosas” serán los principales focos de actuación por los ciberdelincuentes a lo largo del año 2015 (ABC.es, 9/01/2015). Los dispositivos móviles también serán cada vez más objeto de ataques de robo de credenciales o autenticación, que se usarán como un punto de entrada a las aplicaciones y datos empresariales basados en la nube. El presidente Obama recordó que “en recientes ciberataques, más de 100 millones de estadounidenses han visto su información personal comprometida, como es la información de sus tarjetas de crédito” y anunció una ley que obligará a los bancos a notificar a sus clientes si les han robado datos de sus tarjetas de crédito. Otras medidas estarían encaminadas a penalizar la venta de software espía y las redes de robots 'zombies' o 'botnets' utilizadas para robar información financiera, transmitir mensajes spam y llevar a cabo ataques de denegación de servicio contra sitios web (El Mundo.es, 13/01/2015). A medida que la Internet de las Cosas (IoT, Internet of Things) crezca, será otra fuente apetecible de información, la que – de momento – se encuentra muy mal protegida. Y todos estos objetos podrían constituir una puerta de entrada para “hackear” las casas y los vehículos o, a través de ellos, penetrar los sistemas de las empresas que les prestan servicio. 47
Otro de los sectores que más interés cobrará será el de la salud, objetivo cada vez mayor para los criminales. “Probablemente, 2015 sea el año en el que veamos ataques dirigidos a compañías de salud y compañías y aplicaciones que registran datos de salud médicos de los propietarios”, aseguran los expertos. Y es que los historiales médicos contienen una gran cantidad de información personal que puede ser utilizada en una multitud de ataques y varios tipos de fraude (ABC.es, 9/01/2015). “Con la proliferación de los dispositivos conectados a internet en los hospitales, el riesgo de que las informaciones contenidas en éstos desaparezcan es cada vez mayor”, indicó McAfee en un informe. Estos datos “tienen más valor que los de las tarjetas de crédito” a ojos de los piratas informáticos, destacó la empresa. (DePerú.com, 9/12/2014)
48
6. Para qué 6.1. El mercadeo En el uso – cada vez más intensivo – de la información digital, la mayoría de las empresas se limita a la información relativa a sus propios procesos y a los llamados “datos estructurados” relativos a su personal y sus clientes, es decir los típicos datos de identificación (nombres, dirección, función), los productos adquiridos, pagos, etc. que se obtienen fácil y directamente a través de formularios en web. Pero, como ya sabemos, cada contacto electrónico genera otro tipo de datos que no siempre se recogen y menos se analizan, a los cuales se podrían además agregar los datos públicos y privados que estos clientes han publicado en la web o en las redes sociales, todo lo cual puede ser acumulado en parte en forma estructurada (de acuerdo a variables predefinidas) o noestructurada (como los comentarios, los “cambios de estado” en las redes sociales, las listas de “seguidores”), formando de este modo los big data. En el mundo corporativo, se estima que alrededor del 80 por ciento de los datos disponibles son estos no estructurados, que requieren técnicas de análisis complejas. Según TICbeat, “Hay pocos ejemplos de empresas que estén actualmente poniendo en marcha proyectos de Big Data y hay aún menos empresas que vean el valor de los mismos. De hecho, sólo un 8% de las empresas encuestadas en un informe de Gartner han desarrollado un proyecto de Big Data en 2014 y el 57% de ellas reconoce estar aún en las etapas de investigación y planificación” (TICbeat, 14/01/2015). El principal problema es la escasez de profesionales adecuadamente preparados: los “científicos de datos”. En un estudio divulgado por el Diario TI, un 86% de los directivos considera incluso que para aprovechar los datos de que disponen requerirían que todo su personal tenga capacidad de gestión de datos, y el 91% considera que los mejores análisis de datos son aquellos que realizan los científicos de datos especialmente capacitados (DiarioTI, 5/11/2014). Conociendo como conocen la ventaja de contar con el mejor análisis de datos para la toma de decisiones y el aumento de eficiencia de sus empresas, están en busca tanto de profesionales como de soluciones informáticas de más fácil aplicación. ¿Cuáles son los usos que las empresas dan a las herramientas de análisis de datos? Principalmente (48%) el análisis del comportamiento de los consumidores (Betanews, 21/11/2014).
49
Fuente: Datameer (nov.2014, vía Betanews)
La predicción del comportamiento de los consumidores es uno de los campos que más interesan y se espera que el marketing predictivo personalizado, utilizando los datos sociales, sea una de las áreas de negocio que más se beneficiarán del análisis de big data en los próximos años, a pesar de que el 71% de los directores de marketing de todo el mundo dicen que su organización no está preparada para hacer frente a esta explosión de datos en los próximos 3 a 5 años (Business Insider, 12/05/2014). Y es que analizar estas montañas de datos de modo que se obtenga información útil no es tarea fácil, como lo muestra el hecho de que los grandes “recopiladores” intenten recurrir a la inteligencia artificial, como ocurre con Facebook, Google, Twitter, LinkedIn y algunos otros, que están comenzando a utilizar estas técnicas avanzadas para desarrollar su capacidad de “aprendizaje profundo” a partir de los datos que acumulan en sus redes, desde las conversaciones hasta el reconocimiento facial de las fotos y la actividad en los juegos. Así, tienen el potencial de ser mucho más personalizados. Y hacen emerger nuevos campos de marketing: la agrupación de audiencia (clustering), el marketing predictivo y el análisis de los sentimientos frente a las marcas. Pero no siempre es necesaria la inteligencia artificial: empresas como Netflix pueden extraer tendencias y ofrecer contenidos cercanos a los intereses de sus clientes (como también pueden hacerlo los medios de prensa), pero no se requiere inteligencia artificial para ello: solo un buen sistema de clasificación y una aplicación estadística básica. 6.2. El comercio de datos Si bien declaran utilizar los “rastros” de nuestra actividad en sus servicios, gigantes como Google, Facebook y Twitter los combinan con todo lo que les hemos dicho 50
públicamente de nosotros mismos no solo para “mejorar su servicio” sino para obtener ingresos mediante la venta de estos datos. Así, “En vez de lanzar un mensaje al aire basándose en estimaciones de la audiencia, los anunciantes ahora pueden segmentar sus comunicaciones con un nivel de detalle impensable hace sólo una década. Si, por ejemplo, quiero que mi anuncio llegue sólo a jóvenes solteros del barrio de Salamanca en Madrid, ahora puedo hacerlo. Si prefiero mujeres de más de 60 años con nietos en Bilbao, también. Mi restaurante puede mostrar publicidad en los navegadores de aquellos que están en los códigos postales cercanos o mi tienda de ropa anunciar las últimas novedades junto a los resultados de búsqueda en aquellos hogares que generen más de 80.000 euros en ingresos. Para Facebook esto se traduce en que cada usuario de la red social vale cerca de 1,60 euros por trimestre. Twitter puede llegar a exprimir cientos de euros al año en valor de sus perfiles más activos. No son cantidades sorprendentes, pero al multiplicar por los cientos de millones de usuarios de estos servicios, las cuentas salen redondas.” (El Mundo.es, 20/11/2014) Si bien estos datos, por lo general, están anonimizados, ya sabemos que cruzando diferentes puntos es sencillo obtener un perfil único y real de cualquier usuario. No hay forma de que nos escondamos, a menos que dejemos de usar la red. Por ésto, nuestra identidad y nuestros datos son el precio que hemos de pagar por usarla:
“Eres el precio.” No solo las redes sociales coleccionan y venden nuestros datos. Todas las apps que descarguemos a nuestros móviles piden distintos permisos para utilizar determinados recursos del sistema “para funcionar correctamente” y así ejecutar las tareas propias de su funcionamiento. En el caso de Android, cada app señala los permisos que requiere antes de instalar la aplicación (también se pueden consultar en el menú 51
Ajustes/Aplicaciones; ejemplo al lado). En el caso de iPhone y iPad, no hay pedido de permiso antes de la instalación sino una vez que se haya realizado (y se pueden ver en Ajustes/Privacidad). Ejemplos de estos pueden ser leer el estado del teléfono, modificar el almacenamiento, acceder a la ubicación, leer y modificar listas de contactos, leer el registro de llamados y tomar fotos. En muchos casos los permisos solicitados no se justifican en absoluto pero, sin ellos, la app no funcionará. Uno de los temas más delicados es lo que ocurre con los datos relacionados con la salud, un problema que crece al mismo tiempo que se multiplican las apps relacionadas con el estado físico (fitness) y el uso de buscadores por pacientes que quieren saber más acerca de sus malestares. Al respecto, un investigador en la universidad de Pennsylvania, Tim Libert, creó un software para analizar páginas web y saber hacia dónde iban las búsquedas y lo aplicó a páginas de medicina. Descubrió que el 91% de las páginas hacían llamadas a terceros cuando se realizaba una búsqueda. Es decir que cuando se busca información sobre una enfermedad y se pincha en un enlace, es muy probable que esos datos se estén compartiendo con otras empresas. Según Libert, la firma Experian (de comercio de datos) está en el 5% de las páginas relacionadas con medicina pero no se sabe qué datos se almacenan ni cómo lo hacen (Xataka, 24/02/2015). Hace un par de años, un canadiense se sorprendió al comenzar a recibir publicidad acerca de equipos de ventilación contínua durante el sueño después de haber buscado información sobre aparatos para tratar la apnea del sueño. La investigación reveló que su búsqueda originó la instalación en su PC de una cookie que provocaba esta selección de publicidad cuando visitaba sitios web suscriptores del servicio publicitario de Google. El regulador canadiense advirtió a Google de la ilegalidad del procedimiento y el buscador respondió que era contrario a su política pero que algunos avisadores no seguían su directiva al respecto. Se le recomendó una supervisión más rigurosa (Commissariat à la Protection de la Vie Privée du Canadá, 15/01/2014). Multitud de editores y anunciantes siguen ganando millones de dólares gracias al análisis que se realiza sobre las costumbres de navegación de los usuarios. Existe además, muchas veces, una interconexión de datos entre socios, lo cual puede llevar a un total descontrol, haciendo que nuestra información termine en sitios que no queremos. Así, por ejemplo, Instagram envía a tres socios marca y modelo de móvil, país, resolución, versión de Android, nombre de usuario y contraseña, pero la contraseña se transmite por medios no cifrados, lo cual es de alto riesgo. Y un juego como Angry Birds va mucho más lejos: comparte navegador web predeterminado, tipo de conexión utilizada mientras se juega, operador móvil, listado de sensores, versión de Android, marca y modelo del teléfono, firmware del mismo, tipo de audio, idioma, país, IP, tipo de alimentación, hash IMEI, hash dirección MAC y resolución de pantalla,
52
informaciones que manda hasta a siete sitios diferentes, sin protocolos seguros (Xataka, 3/04/2014). Para colmo, existen empresas, como la italiana Hacking Team, que han desarrollado “soluciones” supuestamente legales que permitirían controlar desde llamadas telefónicas hasta mensajes de Viber, Whatsapp o Skype (ABC.es, 7/07/2014). Y para los editores apareció Reverb Insights, que ofrece analizar los intereses de los lectores y compararlos con los de los demás para dar cuenta de la recepción, de su relación con otros intereses, y permitir la oferta de “otros textos que le podrían gustar” (TechCrunch, 24/02/2015). 6.3. Estudios sociales Facebook también se aprovecha de sus millones de usuarios y de los datos acumulados para hacer estudios sobre el comportamiento de los mismos, sin advertirles de ello. En marzo 2014, la revista Proceedings of the National Academy of Sciences (PNAS) publicó una investigación que Facebook realizó en 2012 con la participación de sociólogos de la Universidad de Cornell. Analizaron cómo se contagian las emociones en función de las palabras positivas o negativas contenidas en el feed de noticias de 689.003 usuarios elegidos al azar. Lo más cuestionable es que implantaron un algoritmo que omitía contenido positivo o negativo en el feed de noticias para estudiar el eventual contagio emocional del tipo de contenido y observaron que a pocas palabras positivas los usuarios recurrían a más palabras negativas y a pocas palabras negativas los usuarios contestaban con más palabras positivas. Legalmente, Facebook tiene derecho a realizar este tipo de estudios desde el momento en el que el usuario crea su cuenta y acepta las condiciones de uso, pero hacer experimentos sin el conocimiento de los usuarios no es de lo más ético. Y este caso es una clara llamada de atención acerca de la manipulación de la que cualquiera puede ser objeto en las redes y comunidades digitales (BBC Mundo, 30/06/2014).
53
7. Cómo nos estudian
7.1. La ciencia de datos La “ciencia de los datos” (data science) se diferencia de la tradicional ciencia estadística especialmente por la consideración de grandes cantidades de datos no estructurados, lo cual requiere dominar nuevas herramientas informáticas además de los tradicionales conocimientos estadísticos. Un “científico de datos” debe dominar el cálculo multivariable, el álgebra lineal y matricial, la programación en Python y R y los métodos de visualización de datos (gráfica). Mediante la “minería de datos”, con las herramientas apropiadas, puede descubrir patrones valiosos escondidos en la masa de los datos y, a partir de ellos, formular una o varias hipótesis que sean útiles para la operación de la empresa, para luego someterla a prueba6. Luego, o en paralelo, utiliza herramientas analíticas que operen sobre el conjunto de los datos para obtener nueva información (“datos agregados”) más valiosa que si tomase esos datos de manera individual. Así, por ejemplo, puede definir nuevas categorías de clientes, “cruzar” éstas con la localización de los mismos obtenida de sus teléfonos móviles y, así, segmentar una publicidad móvil según el tipo de cliente y el lugar en que se encuentran. Se puede conocer mejor lo que desean los clientes, logrando, así, que la experiencia de los clientes mejore al ofrecerles lo que les atrae. La industria del turismo usa este sistema “para formar un mapa de fotos de acuerdo a las imágenes que toman los turistas con sus smartphones en determinado lugar. Si ingresamos a Google Maps, por ejemplo, veremos en París cientos de fotos diferentes de la Torre Eiffel tomadas por otras personas que no conocemos” (Zanoni, p.69). No todos los datos son iguales ni tienen el mismo valor o la misma calidad, y la empresa ha de definir los datos que le pueden resultar útiles. Ésto significa también que el científico de datos debe conocer muy bien la empresa y sus fines y trabajar en relación estrecha con quienes definen los objetivos de los diversos proyectos. Algunos datos pueden ser útiles para un proyecto en particular pero resultar inservible para otros. Así, las operaciones de análisis también pueden variar según los objetivos. Las variables básicas que considera la ciencia de datos son el volumen de datos, la velocidad de análisis requerida (tiempo “real” o diferido), la variedad (tipos de archivos y contenidos), el valor y la veracidad de la información. Implica, como ya señalado, diferentes métodos de tratamiento e interfaces (visualización). (UIT, 2014b, p.39). 6 En nuestra obra “Explotar la Información Noticiosa - Data Mining aplicado a la Documentación Periodística” se explica en detalle como opera, con una aplicación en el campo del periodismo (Colle, 2002).
54
Fuente: UIT, 2014b, p.40
Uno de los principales objetivos de la ciencia de datos es la de predecir el resultado de determinadas acciones o situaciones y ofrecer de antemano sugerencias sobre lo que se puede hacer al respecto. “No se trata únicamente de tomar mejores decisiones, sino también de reducir la carga de trabajo necesaria para tomar tales decisiones. Estas capacidades reconocen la complejidad inherente del análisis Big Data pero hacen que las soluciones sean accesibles a los usuarios. Lo consiguen al analizar los datos con un riguroso enfoque científico, pero proporcionan a los usuarios una explicación de por qué una decisión es más recomendable en términos que pueden ser universalmente entendidos. Es vital que la solución sea intuitiva y accesible. Si no, simplemente no se usará. El data science debe tener en cuenta, además, que la solución final necesita evolucionar. Es decir, no solo debe tener un valor medible (y reportable) para el negocio, sino que tiene que tener también métricas internas que sirvan como fuente de información para la auto mejora. Si no, incluso la mejor solución terminará por quedarse obsoleta.” (Juan Miró, TICbeat, 15/01/2015) La aplicación adecuada el software puede lograr un aumento significativo de la velocidad de obtención de resultados. Así, por ejemplo, “una compañía global de productos de consumo puede reducir la obtención de informes de 6 minutos a 736 microsegundos en tiempo real; una empresa de fabricación puede reducir la presentación de informes al cliente de días a segundos; y una empresa financiera redujo los cálculos del modelo de venta de 45 minutos a 5 segundos” (Schoenborn, p.9). Existen cuatro tipos de análisis de datos: 55
• descriptivo: “Usa estadísticas básicas o visualización para caracterizar un conjunto de datos. Los resultados pueden mostrar promedios, totales, frecuencias, y tal vez una relación causal. La gran mayoría de la analítica hecha hoy cae en esta categoría.” • predictivo: Ayuda a ver lo que puede deparar el futuro. Se usan modelos estadísticos para pronosticar una condición como ingresos, beneficios, cuota de mercado, o resultado operacional. El análisis predictivo se basa en una relación modelada entre un conjunto de variables independientes. Se utiliza frecuentemente para la planificación. • prescriptivo: Lleva el análisis predictivo a un nuevo nivel mediante la optimización de los mejores resultados de una predicción. Tiene en cuenta las nuevas entradas o restricciones específicas de una situación dada. • cognitivo: Utiliza técnicas y una infraestructura de alto rendimiento para extraer las relaciones entre diversos conjuntos de datos. (Schoenborn, p.8) Los científicos de datos pueden usar el análisis de siete maneras diferentes según William Chen: 1. para diseñar e interpretar experimentos para informar las decisiones de productos 2. para construir modelos que predicen la señal, no el ruido 3. para transformar los big data en una gran imagen (visualización) 4. para entender la participación de los usuarios, retención, conversión y clientes potenciales 5. para dar a sus usuarios lo que quieren 6. para hacer estimacines inteligentes 7. para contar la historia con los datos. (Dataconomy.com, 28/11/2014) El plan del análisis debe apuntar a: • Habilitar un acceso compartido y seguro a información rica y fiable, capaz de absorber volúmenes de datos crecientes, mas variados y a mayor escala. • Construir inteligencia en las transacciones operativas a través de análisis rápidos y optimización de la pila de soluciones para diferentes cargas de trabajo de análisis. • Maximizar la disponibilidad y los conocimientos en el momento adecuado para hacer frente a más usuarios y más concurrencia, cambio en la demanda y capacidad de recuperación en el punto de impacto. (Schoenborn, p.13)
56
7.2. Máquinas y aplicaciones 7.2.1. Hardware
A no ser que se recurra a un servicio en la nube (tercerizado), se requiere una importante infraestructura capaz tanto de conservar los datos (discos de memoria) como de procesarlos con rapidez (procesadores). Se requiere una infraestructura diseñada especialmente para obtener nuevos niveles de conocimientos derivados de la explotación de todos los datos pertinentes. La plataforma para ello debe ser fluida para todas las formas de datos y análisis. Debe ser escalable y altamente flexible, permaneciendo atenta al gran entorno de datos de hoy y diseñada para sacar provecho de la integración de las tecnologías sociales, móviles y en la nube (Schoenborn, p.13). La escalabilidad es la capacidad de un sistema para procesar una cantidad cada vez mayor de trabajo. “Bien pensada hace que sea relativamente fácil agregar potencia de procesador y almacenamiento. Los requisitos de hardware se derivan de los números sobre su utilización actual de datos, el crecimiento de los datos previsto, la complejidad de los análisis y algoritmos subyacentes, y los objetivos de negocio.” (Schoenborn, p.17). Existen medios de análisis que pueden ayudar a predecir el hardware que cumple con estos requisitos. Equipos que responden a estas exigencias son, por ejemplo, los “System X” y “System Z” de IBM, que están basados en procesadores multinúcleo IBM NextGeneration POWER8, optimizados para el manejo de aplicaciones “hambrientas de datos”. Los System Z ofrecen un ecosistema de tipo abierto (open server) que pueden operar con el sistema operativo Linux estándar o con AIX UNIX, mientras los System X soportan Red Hat Linux o Windows Server. Estas plataformas permiten la elección del diseño y del despliegue para satisfacer una amplia gama de requisitos de los centros de datos. Pero las aplicaciones y los depósitos de datos se ofrecen también, cada vez más, como servicio en la “nube”, lo cual puede resultar más económico en muchos casos. Amazon, Microsoft y Google, entre otros, ofrecen este tipo de servicio. 7.3.2. Aplicaciones
Existen múltiples alternativas de aplicaciones especializadas, de diversos niveles de complejidad, tanto instalables en servidores propios como operando en la “nube”. Algunos son de código abierto (open source) y muchas funcionan en máquinas con sistema operativo Linux y servidor web Apache. Es el caso de Hadoop, que es sin duda el sistema más común. Hadoop fue creado por Yahoo con el fin de facilitar la posibilidad de “correr” los programas de análisis en grandes conjuntos de ordenadores. Como tiene código abierto, cualquier programador puede modificar y desarrollar el código fuente, lo cual ha 57
asegurado la existencia de una comunidad que lo perfecciona y comparte constantemente. Ha surgido rápidamente como una de las soluciones preferidas en materia de “inteligencia de negocio” basada en el análisis de big data. Se compone de un sistema de archivo (depósito de datos) auto-organizado, distribuido y redundante, y de un sistema de procesamiento distribuido que puede operar con datos estructurados y no estructurados. Los usuarios pueden introducir los datos desde múltiples fuentes (blogs, mails, redes sociales, etc.) y luego efectuar consultas (obtener resultados de análisis) a través de una aplicación cliente. (cfr. R.Peglar para más detalles). En la mayoría de los casos el usuario debe recurrir a la línea de comando, algo que solo dominan los programadores. Poco a poco, sin embargo, se están introduciendo interfaces gráficas que hacen el sistema “más amigable”. Así, Amazon ha creado una interfaz gráfica llamada Hue, basada en el navegador, pero introduce al parecer problemas de seguridad (Gigaom, 7/12/2014). IBM también ha abordado este problema y ofrece el Alteryx Designer Desktop, un sistema con una interfaz de escritorio muy intuitiva, diseñado para potenciar el trabajo del analista sin necesidad de contar con habilidades de TI avanzadas. Microsoft, dentro de su plataforma Azure, ofrece Stream Analytics y Machine Learning, un motor de análisis avanzado con más de 200 algoritmos. Para empresas medianas se ofrecen múltiples aplicaciones alternativas de “inteligencia de negocio” en internet, entre las cuales Pentaho, SiSense, RJMetrics, Board, y Looker, con distintas posibilidades de manejo de los datos (Small Business Trends, 18/03/2015). (No hemos verificado su adecuación para un real análisis de big data y es posible que sean inferiores a lo que ofrecen IBM y Microsoft.) Debemos recordar que los grandes de la red, como Google, Facebook, Twitter y otros están comenzando a utilizar técnicas de inteligencia artificial para desarrollar su capacidad de aprendizaje “profundo” a partir de los datos que acumulan a través de sus redes, desde las conversaciones hasta el reconocimiento facial de las fotos y la actividad en los juegos. Así, la IA será cada vez más parte integrante de los sistemas de análisis de big data. IBM está invirtiendo miles de millones de dólares en su división de investigación dedicada a lo que llama “computación cognitiva”, un término que la compañía utiliza para referirse a las técnicas de inteligencia artificial relacionadas con su supercomputador Watson y que también pone a disposición de grandes empresas y gobiernos que desean analizar sus big data para tomar mejores decisiones.
58
8. Nuestro futuro
8.1. ¿Big data para todos? En algunas publicaciones web sobre negocios se aboga por el uso de los big data en cualquier empresa. Frente al exceso de datos numéricos que pueden acumularse y son difíciles de interpretar dan la solución de la visualización (graficación) y del “storify” (presentación en forma de cuento). Pero ésto solo vale generalmente para la presentación de resultados: no es posible manipular visualmente todos los datos (especialmente porque los hay tanto estructurados como no-estructurados7). Una buena herramienta de visualización, por lo tanto, no elimina la necesidad de los científicos de datos para analizarlos adecuadamente y generar los resultados. Aunque a veces tratan de convencernos de que estos profesionales no son imprescindibles, después de muchas lecturas y de haber experimentado con la minería de datos hace una década 8, llegamos a la convicción de que hoy no es posible para cualquiera realizar un análisis de big data como es debido. Dominar la estadística tanto como la programación y un sistema como Hadoop es indispensable. ¿Donde puede estar el error de la propaganda? Muchos saben sin duda utilizar planillas Excel, incluso algunas veces con funciones avanzadas, y también la generación de gráficos en ellas. Pero los big data superan ampliamente la capacidad de cualquier planilla de cálculo tanto por la cantidad de datos como, por definición, por la acumulación de diferentes tipos de datos en archivos de formatos diferentes, y ésto es lo que – quizás – se tiende a olvidar. Y también se estaría olvidando que, hoy, el “estado del arte” implica incluir herramientas de inteligencia artificial como el “aprendizaje de máquina”. ¿Entonces, no es posible trabajar sin científicos de datos? Para empresas que no están en condiciones de financiar un equipo de profesionales especializados y la infraestructura requerida, es necesario, sin duda, pensar en contratar alguna empresa que ofrece este tipo de servicios, y éstas empiezan a multiplicarse en internet. Algunas ofrecen un “paquete” básico gratuito – a descargar o en su nube y con interfaz web –, útil para pequeñas empresas (que cuenten al menos con un profesional que entienda el tema) y luego diferentes tarifas según la cantidad de contenido o el uso de su nube. (Solo a título de ejemplo y sin que implique recomendación alguna, podemos mencionar RapidMiner 7 Los datos estructurados son los que guardamos habitualmente en tablas (una columna corresponde a un atributo invariable), mientras los no-estructurados pueden ser documentos o datos de diferentes tipos para lo que sería cada “celda” de información. Para estos últimos se requiere utilizar un tipo especial de base de datos (no relacional), como Apache Cassandra, que usa Twitter para su plataforma. 8 Cfr. Colle, R (2002).: Explotar la información noticiosa – Data mining aplicado a la documentación periodística.
59
y Rhiza, aunque sería conviente evaluar primero Alteryx, la propia oferta de IBM). Y evaluar estas ofertas tampoco es fácil ya que es generalmente difícil saber si están al día e incluyen, por ejemplo, el aprendizaje de máquina. El “estado del arte” evoluciona rápidamente en este campo. Sin duda un medio de prensa que quiera priorizar el “periodismo de datos” o que quiera analizar el comportamiento de sus lectores online deberá recurrir al menos a este tipo de servicio. Es posible que los académicos investigadores, con el apoyo de sus universidades, también puedan recurrir a este tipo de herramienta que, obviamente, no están al alcance de “todos”. Y los expertos señalan también la conveniencia de formar los futuros periodistas en los conceptos y el manejo de este tipo de herramientas, al menos para saber qué y cómo hacer requerimientos para generar nuevos contenidos (cfr. S.C. Lewis). ¿Enconces, cómo empezar? ¿Qué puede hacer por su cuenta un profesional? Hablaremos de ello a continuación pensando especialmente en los periodistas. 8.2. Big data para profesionales “Empezar a lo grande es empezar la casa por el tejado” nos dice Matti Keltanen, experto en diseño de servicios digitales. Hay que saber primero cuales son los datos importantes a acumular, investigar cuales son las herramientas adecuadas para su análisis, juntar una primera cantidad – suficiente para un análisis – y sacar las lecciones de la experiencia. Lo más probable es que ya se disponga de alguna herramienta adecuada (p.ej. para clasificar las noticias acumuladas en una base datos y sacar estadísticas). “El pequeño secreto del Big Data es que ningún algoritmo puede decirte lo que es relevante o desvelarte su significado. Los datos se convierten entonces en otro problema que resolver. El enfoque del Lean Data – usar pocos datos – supone empezar con preguntas relevantes para el negocio y encontrar maneras de contestarlas a través de datos, en lugar de dedicarnos a cribar incontables conjuntos de datos” agrega Keltanen (TicBeat, 19 de mayo 2013). Los periodistas, como también la mayoría de los académicos del área de las comunicaciones sociales, pueden trabajar con ciertas cantidades de datos que obtienen sea de fuentes externas sea de investigaciones propias. Muchas veces los datos pueden ser acumulados y tratados en planillas Excel. Además, Microsoft ofrece un plugin para Excel 2010 llamado PowerPivot que permite tratar conjuntos de datos masivos (millones de filas) más eficientemente. Si se requieren funciones estadísticas más avanzadas (regresión, funciones no-lineales, series temporales, simulaciones, etc.), es clásico el sistema SPSS de IBM, ahora con un motor gráfico sobresaliente. Obviamente, mientras más se sepa de estadística, mejor podrá ser el análisis. Pero ya ha pasado la época en que ésto era suficiente para un verdadero análisis de big data, especialmente porque el “big” 60
es mucho mayor y más complejo que hace cinco años (lo cual no quiere decir que un análisis más simple no pueda ser valioso). Para la visualización de resultados, si bien se recomienda el lenguaje R para manipular bases de datos con miras a su graficación y si planillas tanto de Excel como de SPSS pueden ser traspasadas al formato que R requiere, si todos los datos considerados están en una planilla Excel, no se necesita realmente conocer y usar R. Para obtener gráficos superiores a los de Excel se puede utilizar Tableau, que tiene una versión libre (Tableau Public: https://public.tableau.com/s/) e incluso una app para tabletas que vuelve tactiles e interactivas sus visualizaciones: Elastic (http://www.tableau.com/be-elastic). 8.3. Vivir en la nube En cierto modo estamos creando un duplicado de nuestra memoria en la nube. “Hoy almacenamos nuestras memorias en los enigmáticos servidores de internet. Hay la cronología de Facebook que registra los momentos más significativos de nuestra vida, la cuenta de Instagram en la que guardamos nuestros retratos, la bandeja de entrada de Gmail que documenta nuestras conversaciones y el canal de YouTube que transmite cómo nos movemos, hablamos o cantamos. Coleccionamos y conservamos nuestros recuerdos en forma mucho más exhaustiva que antes, intentado asir en cada caso una cierta forma de inmortalidad.” (BBC Mundo, 8/02/2015) Si utilizamos la nube para guardar también nuestros archivos – lo cual puede ser una buena medida de seguridad pero pésima desde el punto de vista de la privacidad si no los encriptamos –, estamos ampliando este “duplicado” de nuestra historia personal. Y si ésto no nos parece suficiente, se ha creado un nuevo servicio de internet – llamado Eterni.me – que pretende asegurar que los recuerdos de una persona se conserven online después de su muerte. En este caso, se ha de autorizar en vida que el servicio tenga acceso a las cuentas personales de Twitter, Facebook y correo electrónico, a copiar fotos, datos de localización y hasta grabaciones hechas con Google Glass de cosas vistas. Estos datos, filtrados y analizados, son transferidos a un avatar de inteligencia artificial que trata de emular la apariencia y personalidad del usuario. “Se trata de crear un legado interactivo, una forma de evitar ser olvidado completamente en el futuro”, dice Marius Ursache, uno de los creadores de Eterni.me. “Tus tátara nietos usarán esto en vez de un buscador o una cronología para acceder a información acerca de ti, desde fotos de eventos familiares hasta tus opiniones sobre ciertos temas, pasando por canciones que escribiste y nunca diste a conocer”, agrega. (BBC Mundo, 8/02/2015). ¡Vaya manera de renunciar a la privacidad!
61
8.4. La Quinta Era Nos advierte Ray Kurzweil que la tecnología está avanzando a un ritmo cada vez mayor, porque el cambio tecnológico es exponencial. La “Quinta Era” de la evolución empezará cuando la tecnología tome el control de su propia progresión, lo cual – según calcula – ocurriría a mediados del presente siglo. La Quinta Era “Será el resultado de la fusión entre el enorme conocimiento alojado en nuestros cerebros y la enormemente superior capacidad, velocidad y agilidad para compartir información de nuestra tecnología. La quinta era permitirá que nuestra civilización humano-máquina trascienda las limitaciones de las tan solo cien billones de conexiones extremadamente lentas del cerebro humano.” (p.22) Ésto será el producto de los avances en tres campos: la biología (especialmente el estudio del cerebro), la nanotecnología y la robótica. Ya estamos viendo como, de los teléfonos y pulseras “inteligentes”, los procesadores y sensores empiezan a pasarse a nuestras ropas. Y la medicina empieza a implantarlos en el cerebro para solucionar casos graves de epilepsia y Parkinson. También se está abordando la enfermedad de Alzheimer, una vía que podría abrirnos a ampliar nuestra memoria en forma artificial con implantes cerebrales de chips de memoria. Al mismo tiempo, vemos como avanzan los sistemas que permiten no solo el control mental de nuevas prótesis por el mismo cerebro sino incluso la comunicación de cerebro a cerebro. En marzo de 2014, un equipo de científicos ha logrado que dos personas se comuniquen mentalmente con un “hola” y un “ciao” a más de 7.000 kilómetros de distancia, entre Francia y Thiruvananthapuram, en la India. Un gorro de última generación que lee la actividad neuronal fue el responsable de enviar las palabras “hola” y “ciao” a un sujeto receptor situado en Francia, que lo recibía mediante un dispositivo de neuroestimulación (Transcraneal Magnetic Stimulation; gráfico siguiente).9 Más aún: investigadores de la Universidad de California han desarrollado sensores del cerebro tan pequeños como una mota de polvo, que pueden ser infiltrados en nuestra cabeza para registrar la actividad eléctrica de las neuronas. Cada conjunto de estos sensores del cerebro tendría un tamaño aproximado de 100 micrómetros (la décima parte de un milímetro). Para evitar cualquier daño o problema neuronal, los sensores irían recubiertos de un biopolímero. Se les podría acoplar un transceptor, que se encargaría de recibir y procesar la información obtenida (Alt1040.com, 17/07/2013). De ahí a acoplar el cerebro directamente a internet, solo hay un paso.
9 Plos One, "Conscious Brain-to-Brain Communication in Humans Using Non-Invasive Technologies", 19/08/2014
62
Fuente: Plos One, 19/08/2014
Pero, según Kurzweil, la quinta era de la humanidad va aún más allá. En la década de 2020, podríamos empezar a contar con máquinas capaces de duplicar completamente el cerebro humano. En el año 2045, seríamos capaces de guardar una copia del contenido de nuestro cerebro en la nube. “Ya hay ingenieros trabajando en la tecnología que permitirá crear copias completas de nuestra mente y de los recuerdos que persistan después de que nuestros cuerpos sean enterrados o cremados”, nos advierte la BBC (BBC Mundo, 8/02/2015). Y la unión de este tipo de avance con los de la nanotecnología y la robótica harán que el cerebro humano multiplique miles o millones de veces su capacidad e incluso que se duplique en clones artificiales. “Nanorobots más sofisticados harán de interfaces con nuestras neuronas biológicas para mejorar nuestros sentidos, proporcionando con ello realidad virtual y aumentada procedente del interior del sistema nervioso. También ayudarán a nuestra memoria y realizarán otras tareas cognitivas rutinarias. Entonces seremos cyborgs, y desde ese punto de apoyo en el interior de nuestros cerebros la parte no biológica de nuestra inteligencia expandirá sus capacidades exponencialmente. En último término, los humanos basados en software se habrán expandido mucho más allá de las limitaciones humanas tal y como las conocemos hoy en día. 63
Vivirán en la web proyectando sus cuerpos cuando quieran o lo necesiten, lo cual incluirá cuerpos virtuales en diferentes ámbitos de realidad virtual, cuerpos proyectados holográficamente, cuerpos proyectados mediantes foglets10 y cuerpos físicos que contengan enjambres de nanorobots y de otras formas de nanotecnología. A mediados del siglo XXI los humanos podrán expandir su pensamiento sin límite.” (Kurzweil, p.372) A no ser que se llegue en algún momento a crear un duplicado artificial completo (clon), la identidad no variará. El duplicado sería evidentemente otro ser, que irá modificando progresivamente sus patrones. ¿Sería también un ser humano, un robot o algún nuevo tipo de entidad inteligente? He aquí una pregunta por ahora sin respuesta. Pero si fuese totalmente digital, sería una realidad virtual que se podría difícilmente considerar como ser humano. 8.5. Cuestiones de seguridad La “explosión” de datos que se transmitirán con los “wearables” y otros aparatos de la “internet de las cosas”, sumados a los datos y rastros que ya dejamos al utilizar nuestros teléfonos “inteligentes” plantean importantes problemas de seguridad, además de los relativos a la privacidad y propiedad de los datos personales. Lo que olvidan los optimistas como Kurzweil es que todo lo que está conectado se encuentra sujeto al peligro de la intervención de terceros no autorizados. Hemos mencionado antes que los piratas o hackers están muy interesados en los datos personales y encuentran ventajas donde menos los consideramos, como en el acceso a las fichas médicas y también encontrarán como sacar provecho de las conexiones de los innumerables objetos de la “internet de las cosas” (IoT). No es fácil ser optimista cuando se lee que desde el 2012, un error en el protocolo de seguridad OpenSSL (el HTTPS visible en la barra de dirección de nuestro navegador) permitía a cualquier hacker acceder a la memoria de un servidor y recuperar los datos de sus usuarios, obteniendo así sus nombres y claves de acceso, pero que ninguna compañía importante tomó en cuenta el problema hasta que se difundió en la web, a principio del 2014 (ABC, 9/04/2014). Es fácil imaginar el daño que podría provocarse accediendo directamente a los cerebros – tanto naturales como artificiales – que estén unidos a internet si no se implantan medidas de seguridad mucho más potentes que las que se utilizan hoy. He aquí un área donde se requiere mucho más investigación y desarrollo antes de atreverse a conectar los cerebros humanos. También se requieren campañas mucho más potentes de sensibilización de los usuarios al tema de la protección de sus datos (y equipos) personales. 10 Conjuntos de nanorobots que se unen como una nube (fog).
64
Conclusión “Están los optimistas del tema, quienes creen que gracias a la recolección y análisis de los datos la sociedad logrará una mejoría sustancial en la capacidad para realizar diagnósticos y pronósticos confiables en múltiples áreas de nuestras vidas. Esta mejoría se traduce, según sostienen, en un mundo mejor, más eficiente y con problemas resueltos. Duncan Watts, científico de Microsoft Research y autor del libro «Everything is Obvious», cree que la datificación es muy útil para tomar mejores decisiones. «Si tuviéramos que elegir entre un mundo en el que todo lo que uno hace se basa en instintos, tradiciones, o alguna sabiduría vaga, o hacer algo sobre la base de evidencias, yo diría que el segundo camino es el mejor», opinó. [...] Pero en la vereda de enfrente están sentados los pesimistas o mejor dicho, los desconfiados. Este grupo supone, a grandes rasgos, que el uso masivo de datos e información trae aparejados peligros cuyas consecuencias pueden resultar muy graves para todos.” (L.Zanoni, p.98) Creemos que no es posible ser optimistas hoy cuando se descubre lo que se hace – en forma supuestamente legal – con nuestros datos sin nuestro consentimiento y lo que ocurre en el campo ilegal (La empresa Sophos detecta más 250.000 amenazas únicas cada día, según declaró Kris Hagerman, su consejero delegado, a El Mundo.es, el 25/05/2014). La protección de datos no solo es un problema legal, también lo es de tecnología. Los riesgos a futuro son demasiados grandes para dejar que todo siga como hoy. Pero la rebelión de los consumidores ha empezado, advierten en Wired: 76% de los usuarios (norteamericanos) verifica los sellos de privacidad en línea, y 89% renuncia a operar con una compañía que no protege bien la privacidad (Wired, 23/03/2015). La recomendación para los usuarios es ésta: revisar los “permisos” que se les pide y rechazar los servicios que no justifican adecuadamente lo que piden. Para las empresas, es justificar claramente éstos, recolectar solamente los datos que les son indispensables y no venderlos a terceros. Si no buscamos la “inmortalidad digital”, reduzcamos al mínimo indispensable lo que revelamos de nosotros mismos, descarguemos los archivos que pusimos en la nube (Dropbox y otros) – o, al menos, encriptémoslos – y borremos lo que ya no es útil (como los mensajes de e-mail antiguos, que muchos conservan innecesariamente).
65
Bibliografía Anderson, Ch. (2007): La economía Long Tail, Barcelona, Urano. Bengio, Y. (2009): "Learning Deep Architectures for AI", en Foundations and Trends in Machine Learning, Vol. 2, No. 1 (2009) 1–127. Descargado el 8/01/2015 de http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf Brownlee, J. (2014): How to Become a Data Scientist, Machine Learning Mastery, descargado el 18/11/2014 de http://machinelearningmastery.com/become-data-scientist/ Burrus, D. (2014): The Internet of Things Is Far Bigger Than Anyone Realizes, en Wired, 26/11/2014, descargado ese día de http://www.wired.com/2014/11/the-internetof-things-bigger/ y http://www.wired.com/2014/11/iot-bigger-than-anyone-realizes-part2 Castells, M. (2014): El impacto de internet en la sociedad, en BBVA, “C@mbio. Cómo internet está cambiando nuestras vidas”, Madrid, OpenMind BBVA Colle, R. (2002): Explotar la información noticiosa – Data mining aplicado a la documentación periodística, Madrid, Depto. De Biblioteconomía y Documentación, Universidad Complutense. Visible en http://issuu.com/raymondcolle/docs/librodmdp - (2013): “Prensa y Big Data: El desafío de la acumulación y análisis de datos”, Revista Mediterránea de Comunicación, vol. 4, nº 1. http://www.mediterraneacomunicacion.org/Mediterranea/article/view/65/133 - (2014): Internet ayer, hoy y mañana, auto-edición, en ISSUU: http://issuu.com/raymondcolle/docs/universointernet -(2015): ¿Ser digital o ser humano?, (en preparación) Haikus, E. (2014): Informe sobre Medición de la Sociedad de la Información Resumen Ejecutivo, IUT, En línea en http://www.slideshare.net/eraser/informe-sobre-medicin-dela-sociedad-de-la-informacin-resumen-ejecutivo Hodgson, D. (2014): “The Internet of Things — Total Transparency or Total Control?”, blog Computer Associated, descargado el 28/04/2014 de http://blogs.ca.com/mainframevoice/2014/04/23/the-internet-of-things-total-transparency-or-total-control/ Hope, B. (2014): "A la caza de los datos que valen millones", en Economía y Negocios, El Mercurio, 28/11/2014. Jaokar, A. (2014): Implementing Tim Berners-Lee’s vision of Rich Data vs. Big Data, descargado el 9/12/2014 de
66
http://www.opengardensblog.futuretext.com/archives/2014/12/implementing-timberners-lees-vision-of-rich-data-vs-big-data.html Jiménez de Luís, A. (2014): “Internet nos ha convertido en la generación transparente”, El Mundo.es, Descargado el 21/11/2014, de http://www.elmundo.es/tecnologia/2014/11/20/546dfb Kihn, M. (2014): “What do marketers need to know about Hadoop?”, FirstBiz, 29/11/2014, descargado el 2/12/2014 de http://firstbiz.firstpost.com/biztech/marketersneed-know-hadoop-110723.html Kurzweil, R. (2012): La singularidad está cerca, Lola Books (Original: The Singularity is Near, Viking Press, 2005) Lee, R. (2014): “Privacy, big data and analytics: A perfect storm”, IBM Big Data & Analytics Hub, 6/06/2014, descargado el 18/06/2014 de http://www.ibmbigdatahub.com/blog/privacy-big-data-and-analytics-perfect-storm Lewis, Seth C. (2014): “Journalism in an era of big data: Cases, concepts, and critiques”, en Franklin, B. & col.: Digital Journalism, Londres, Routledge, descargado el 16/12/2014 de http://culturedigitally.org/2014/12/journalism-in-an-era-of-big-data-casesconcepts-and-critiques/ Mortier, R. & col. (2014): Human-Data Interaction: The Human Face of the Data-Driven Society, Cornell University Library, descargado el 6/02/2015 de http://arxiv.org/pdf/1412.6159v1.pdf Nielsen, M. (2013): “Big data: ¿a quién pertenece?”, en C@mbio: Cómo Internet está cambiando nuestras vidas, OpenMind BBVA, pp.83-102. Peglar, R. (2012): Introduction to Analytics and Big Data - Hadoops, Education SNIA, descargado el 5/02/2015 de http://www.snia.org/sites/default/files2/ABDS2012/Tutorials/RobPeglar_Introduction_A nalytics%20_Big%20Data_Hadoop.pdf Rifkin, J. (2014): La sociedad de coste marginal cero, Paidós. Schoenborn, B. (2014): Big Data Analytics Infrastructure For Dummies, IBM Limited Edition, John Wiley & Sons, disponible en http://newsroom.roularta.be/static/19092014/XBM03004USEN-%20BD&%20A%20for %20dummies.pdf Tierney, J. (2014): “Customer Data Privacy has Become an Everyman Problem”, Loyalty36org, 14/03/2014, descargado ese día de http://loyalty36.org/resources/article/customer-data-privacy-has-become-an-everymanproblem
67
UIT (2014a): The World in 2014. Facts and figures, Ginebra, UIT, descargado el 25/11/2014 de http://www.itu.int/go/mis2014 UIT (2014b): Informe sobre Medici贸n de la Sociedad de la Informaci贸n 2014 - Resumen Ejecutivo, Ginebra, UIT, descargado el 1/12/2014. de http://www.itu.int/en/ITUD/Statistics/Documents/publications/mis2014/MIS_2014_Exec-sum-S.pdf Wessler, M. (2013): Big Data Analytics For Dummies, Alteryx Special Edition, John Wiley & Sons, disponible en http://www.mosaic.geo-strategies.com/wpcontent/uploads/2013/10/Big-Data-for-Dummies.pdf Zanoni, L. (2014): Futuro inteligente, Autoedici贸n, descargado el 13/01/2015 de http://www.futurointeligente.com.ar/ (Disponible en varios formatos)
68
PRESENTACION Todas las empresas presentes en internet tratan de capturar nuestra información personal, que es ahora un valioso producto comercial. Y éste crecerá exponencialmente con los gadgets que formarán la llamada “Internet de las Cosas”. Los datos privados pueden ser analizados con o sin nuestro consentimiento y constituyen material “comerciable”, que lo deseemos o no. Abordamos aquí los diferentes aspectos de la captura y la gestión de estos datos, lo que los científicos y los profesionales pueden hacer en esta nueva ecología informática así como nuestras -limitadas- defensas. EL AUTOR Raymond Colle nació en Bruselas, Bélgica, y emigró a Chile en 1969 al terminar sus estudios de licenciatura en la Universidad Católica de Lovaina, Bélgica. Más tarde obtuvo el Doctorado en Ciencias de la Información en la Universidad de La Laguna (Tenerife, España) con una tesis sobre “La representación del conocimiento en sistemas hipermediales”. Es también analista de sistemas. Fue por más de veinte años profesor de las Facultades de Comunicación de la Pontificia Universidad Católica de Chile y de la Universidad Diego Portales (Santiago de Chile). Es autor de varios textos e investigaciones sobre lenguaje visual y análisis de contenido así como de asignaturas online sobre computación, comunicación y conocimiento. Actualmente jubilado, administra algunos blogs y colecciones académicas de libros digitales.
69