GB. 50 principios de la ciencia de datos

Page 1

GUÍA BREVE

BEST SELLER MÁS DE

CUATRO MILLONES DE EJEMPLARES DE LA COLECCIÓN VENDIDOS

EN TODO EL MUNDO

50 PRINCIPIOS DE LA CIENCIA DE DATOS INNOVACIONES FUNDAMENTALES

Liberty Vittert



GUÍA BREVE

50 PRINCIPIOS DE LA CIENCIA DE DATOS INNOVACIONES FUNDAMENTALES

Editora Liberty Vittert Colaboradores Maryam Ahmed Vinny Davies Sivan Gamliel Rafael Irizarry Robert Mastrodomenico Stephanie McClellan Regina Nuzzo Rupa R. Patel Aditya Ranganathan

Willy Shih Stephen Stigler Scott Tranter Liberty Vittert Katrina Westerhof Ilustraciones Steve Rawlings


Título original 30-Second Data Science Edición David Breuer, Tom Kitch, Natalia Price-Cabrera, Caroline Earle Dirección de arte James Lawrence Diseño Ginny Zeal Ilustración Steve Rawlings Glosarios Maryam Ahmed Traducción Lluïsa Moreno Llort Coordinación de la edición en lengua española Cristina Rodríguez Fischer Primera edición en lengua española 2021 © 2021 Naturart, S.A. Editado por BLUME Carrer de les Alberes, 52, 2.º, Vallvidrera 08017 Barcelona Tel. 93 205 40 00 e-mail: info@blume.net © 2020 Quarto Publishing plc, Londres I.S.B.N.: 978-84-18459-07-8 Impreso en China Todos los derechos reservados. Queda prohibida la reproducción total o parcial de esta obra, sea por medios mecánicos o electrónicos, sin la debida autorización por escrito del editor.

WWW.BLUME.NET

C008047


CONTENIDO

7 Prólogo 8 Introducción 12 Ideas básicas 14 GLOSARIO 16 Recopilación de datos 18 Cómo visualizamos los datos 20 Aprendemos a partir de los datos 22 Herramientas 24 Regresión 26 Perfil: Francis Galton 28 Clusterización 30 Estadística y modelización 32 Aprendizaje automático 34 Redes neuronales y aprendizaje profundo 36 Incertidumbre 38 GLOSARIO 40 Muestreo 42 Correlación 44 Regresión a la media 46 Intervalos de confianza 48 Sesgo de muestreo 50 Sesgo en los algoritmos 52 Perfil: George Box 54 Relevancia estadística 56 Sobreajuste

58 Ciencia 60 GLOSARIO 62 El CERN y el bosón de Higgs 64 Astrofísica 66 CRISPR y los datos 68 El proyecto Un Millón de Genomas 70 Perfil: Gertrude Cox 72 Cambio climático 74 La curación del cáncer 76 Epidemiología 78 Sociedad 80 GLOSARIO 82 Vigilancia 84 Seguridad 86 Privacidad 88 Perfil: Florence Nightingale 90 La ciencia de las elecciones 92 Salud 94 Watson, de IBM, y DeepMind, de Google 96 Negocios 98 GLOSARIO 100 Industria 4.0 102 Suministro y distribución de la energía 104 Logística 106 Perfil: Herman Hollerith 108 Marketing 110 Modelización financiera 112 Desarrollo de un nuevo producto

114 Placer 116 GLOSARIO 118 Compras 120 Citas 122 Música 124 Perfil: Ada Lovelace 126 Deportes 128 Redes sociales 130 Videojuegos 132 Apuestas 134 El futuro 136 GLOSARIO 138 Medicina personalizada 140 Salud mental 142 Casas inteligentes 144 Perfil: John W. Tukey 146 Puntuación de confianza 148 Inteligencia artificial (IA) 150 Normativa 152 Ética 154 Fuentes 156 Colaboradores 158 Índice 160 Agradecimientos


RECOPILACIÓN DE DATOS los datos en 30 segundos La ciencia de datos surgió como una MUESTRA EN 3 SEGUNDOS

Desde la invención de la informática moderna, los macrodatos (big data) se han convertido en una moneda que ayuda a las empresas a crecer hasta transformarse en gigantes corporativos en unos diez años.

ANÁLISIS EN 3 MINUTOS

La cantidad de datos que ahora recopilamos es tan extensa que se ha creado un término propio para referirse a estos: macrodatos. Los macrodatos recopilados en la era contemporánea son tan voluminosos que las empresas e investigadores deben apresurarse a satisfacer las necesidades relativas al almacenamiento, análisis y privacidad de ellos. Se calcula que Facebook recopila más de 500 terabytes de datos cada día; es decir, ¡se necesitarían más de quince mil portátiles MacBook Pro al día para almacenarlos!

16 g Ideas básicas

disciplina cuando los progresos en la informática moderna permitieron obtener de pronto información en grandes cantidades. Anteriormente, la recopilación y análisis de datos estaba limitado a lo que podía hacerse a mano. En la actualidad, gracias a los avances modernos, se recoge información en todos los ámbitos de nuestras vidas, desde la compra de alimentos hasta nuestros movimientos mediante relojes inteligentes. Esta enorme cantidad de datos que se recopilan hoy en día supone una revolución en todos los aspectos de nuestras vidas, y esto ha generado la aparición de grandes empresas que recogen datos en cantidades casi inimaginables. Facebook y Google, por citar solo un par, acumulan tanta información sobre cada uno de nosotros que probablemente descubren cosas que ni siquiera saben nuestros amigos y familiares más allegados. Cada vez que pinchamos en un enlace de Google o le damos a «me gusta» en una entrada de Facebook, la información se guarda, y estas empresas nos conocen un poco más. Combinan este conocimiento con lo que saben de otras personas con perfiles similares al nuestro y, de este modo, nos convierten en el público objetivo de determinados anuncios y hacen previsiones sobre nosotros que jamás consideraríamos posibles, como, por ejemplo, nuestras afinidades políticas.

TEMAS RELACIONADOS

Véanse también HERRAMIENTAS página 22 VIGILANCIA página 82 NORMATIVA página 150

MINIBIOGRAFÍAS GOTTFRIED LEIBNIZ

1646-1716

Ayudó a desarrollar el sistema de numeración binaria, los cimientos de la informática moderna. MARK ZUCKERBERG

1984-

En 2004 fundó Facebook junto con sus compañeros de habitación de la universidad. Actualmente es su director general y presidente.

TEXTO EN 30 SEGUNDOS Vinny Davies

Los datos personales se han convertido en el bien codiciado de la era tecnológica.



REDES NEURONALES Y APRENDIZAJE PROFUNDO los datos en 30 segundos Originariamente inspiradas por MUESTRA EN 3 SEGUNDOS

Muchas tecnologías se basan en redes neuronales y en el aprendizaje profundo, lo que permite la existencia de coches autónomos y asistentes virtuales. ANÁLISIS EN 3 MINUTOS

Amazon ha creado un supermercado donde no es necesario escanear los artículos. Es tan sencillo como coger los productos deseados, guardarlos en la bolsa y salir del establecimiento. El supermercado graba en vídeo a todos sus clientes mientras compran y, mediante un aprendizaje profundo, identifica cada uno de los artículos que los clientes cogen y registra si lo introducen en su bolsa o bien lo devuelven al estante. Al salir, el coste de sus artículos se carga en su cuenta.

34 g Ideas básicas

el cerebro humano, las redes neuronales son uno de los métodos de aprendizaje automático más habituales. Estas, como las del cerebro, consisten en una red de neuronas (artificiales) interconectadas que permiten la interpretación de imágenes u otros tipos de datos. Se usan en la vida cotidiana, tanto para localizar los rostros en fotografías tomadas con teléfonos inteligentes como para, por ejemplo, leer las direcciones en sobres y garantizar que se mandan al destino correcto. El aprendizaje profundo es un conjunto de métodos basados en las redes neuronales, pero con un número mucho mayor de capas de neuronas artificiales interconectadas. Uno de los usos de este tipo de aprendizaje es analizar y responder a mensajes, ya sea en forma de texto (asistentes de voz en el servicio de atención al cliente, por ejemplo) o locución (como Alexa o Siri). Sin embargo, el aprendizaje profundo se usa sobre todo en el procesamiento de imágenes: se puede emplear, por ejemplo, para analizar las imágenes captadas por coches autónomos, que le servirán para interpretar los resultados y aconsejar cambios de trayectoria al vehículo si es necesario. También se empieza a usar en medicina, para analizar imágenes de RMI o rayos X, por lo que es una buena forma de identificar anomalías tales como tumores.

TEMAS RELACIONADOS

Véanse también APRENDIZAJE AUTOMÁTICO página 32 WATSON, DE IBM, Y DEEPMIND, DE GOOGLE página 94 INTELIGENCIA ARTIFICIAL (IA) página 148

MINIBIOGRAFÍAS FRANK ROSENBLATT

1928-1971

Psicólogo estadounidense célebre por haber ideado el primer método similar a una red neuronal moderna. YOSHUA BENGIO

1964-

Científico informático canadiense célebre por su obra sobre redes neuronales y aprendizaje profundo.

TEXTO EN 30 SEGUNDOS Vinny Davies

Puesto que el aprendizaje profundo es un procedimiento extremadamente sofisticado, su prevalencia en el futuro dependerá del nivel de confianza que sea capaz de generar.



APUESTAS los datos en 30 segundos En el juego, todo, desde las MUESTRA EN 3 SEGUNDOS

Cuando la ciencia de datos y las apuestas se unen, el efecto es devastador, por lo que el dicho «la casa siempre gana» es aún más cierto.

ANÁLISIS EN 3 MINUTOS

Existen informes sobre las formas en que los casinos han usado los datos de sus usuarios durante décadas (a través de sus tarjetas de puntos), mientras que muchos jugadores «experimentados» han escrito libros con el propósito de «derrotar a la casa». Aquellos cuyo planteamiento sobre las apuestas se basa en la suerte simplemente no saben jugar (deberían basarse en las estadísticas) y tienen la esperanza de que el destino les sonría.

132 g Placer

probabilidades de que el que apuesta se quede sin blanca en el blackjack hasta la colocación de unas máquinas tragaperras concretas en unas ubicaciones clave, viene determinado por la estadística. Y, en el mundo en evolución de la ciencia de datos, aquellos que tienen un mayor acceso a ella pueden encontrarse en una posición más ventajosa que los demás. Eso comprende desde la simple táctica de un experimentado jugador de póker que entiende las probabilidades que tiene de convertir una escalera interna en una mano ganadora (y el riesgo que esto conlleva) hasta las técnicas más avanzadas que los casinos usan para transformar enormes cantidades de datos no estructurados en predicciones sobre la mejor forma de convencer a los jugadores para que apuesten, y apuesten más, cuando las cantidades a pagar son menores. Existen recursos tanto para la casa como para el jugador, y van más allá de los juegos de cartas y las máquinas tragaperras. Los modelos estadísticos pueden influir en la cantidad a desembolsar en eventos deportivos, a menudo ajustando las probabilidades en tiempo real y según la dirección en que se mueve el dinero, de tal forma que se minimice el riesgo de la casa de apuestas deportivas (la parte de los casinos que gestiona las apuestas en los deportes). Algunos jugadores usan o crean modelos estadísticos para tomar decisiones fundamentadas sobre resultados motivados por los datos y no por la narrativa, lo que les da una ventaja respecto a los que siguen su intuición.

TEMAS RELACIONADOS

Véanse también APRENDEMOS A PARTIR DE LOS DATOS página 20 VIGILANCIA página 82 DEPORTES página 126

MINIBIOGRAFÍAS RICHARD EPSTEIN

1927-

Teórico del juego que ha trabajado de influyente asesor estadístico para casinos. EDWARD O. THORP

1932-

Matemático precursor de modelos exitosos que se usaron en Wall Street y en casinos.

TEXTO EN 30 SEGUNDOS Scott Tranter

Desafío a la suerte: los jugadores profesionales enfrentan su habilidad con los datos contra las de la casa.



recopilación de datos cómo visualizamos los datos aprendemos a partir de los datos herramientas regresión clusterización estadística y modelización aprendizaje automático redes neuronales y aprendizaje profundo muestreo correlación regresión a la media

La ciencia de datos es un ecosistema artificial emergente que configura una nueva era de la información, y que permite desde localizar delincuentes hasta predecir epidemias. Pero ¿sabe qué hay detrás de esas ingentes cantidades de datos obtenidos por nuestros ordenadores, teléfonos inteligentes y tarjetas de crédito?

intervalos de confianza sesgo de muestreo sesgo en los algoritmos relevancia estadística sobreajuste el cern y el bosón de higgs astrofísica crispr y los datos el proyecto un millón de genomas cambio climático la curación del cáncer

Este libro trata de los principios estadísticos elementales que rigen los algoritmos, del modo en que los datos nos afectan en todos los ámbitos (ciencia, sociedad, negocios, placer), así como de los dilemas éticos y su promesa futura de un mundo mejor. Cada entrada detalla en 30 segundos una faceta distinta de la ciencia de datos en solo 300 palabras y una imagen, y muestra cómo el concepto de reunir distintos tipos de datos y utilizar potentes programas informáticos para hallar patrones que ningún ojo humano es capaz de detectar transforma nuestro mundo. A través de las ideas clave y de las biografías de quienes están detrás de ellas, en esta obra descubrirá por qué los datos no son tan solo el eje que determina los grandes temas, tales como el cambio climático y la asistencia sanitaria, sino también nuestra vida cotidiana.

epidemiología vigilancia seguridad privacidad la ciencia de las elecciones salud watson, de ibm, y deepmind, de google industria 4.0 suministro y distribución de la energía logística marketing modelización financiera desarrollo de nuevos productos compras citas música deportes redes sociales videojuegos apuestas medicina personalizada salud mental casas inteligentes puntuación de confianza

C008047

inteligencia artificial (ia) normativa

ISBN 978-84-18459-07-8

ética

9 788418 459078


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.