Sobre el uso profesional de las herramientas tecnológicas de Data Analysis para la legitimación académica y social de la Ciencia Política en México Carlos Estrada | carlos.estrada@pmsp.mx | FCPyS UNAM
CONTENIDO 1. Cruzada contra la Ciencia Política 2. Explosión de información en siglo XXI
3. Casos de éxito de data analysis en política 4. Desarrollo de la Ciencia Política mexicana 5. Propuesta de reforma a planes de estudio carlos.estrada@pmsp.mx
1. Cruzada contra la Ciencia Política
“Political Scientists Are Lousy Forecasters” (Katia Fouquet/The New York Times, junio 24 de 2012) carlos.estrada@pmsp.mx
SIN PREDICTIBILIDAD Columna de Carlos Elizondo Mayer-Serra: “Politólogos inútiles” (Reforma, abril 25 de 2013) • 18 años argumentando imposibilidad de reformas estructurales con gobiernos divididos • Sorpresa: encarcelamiento de Elba Esther Gordillo • ¿Quién anticipó Pacto por México? NADIE, al menos no por escrito • Sólo en los pasillos de los altos ejecutivos de algunos de dichos poderes fácticos, como Televisa carlos.estrada@pmsp.mx
ES MEJOR UN MONO • 1980: experimento del psicólogo político Dr. Philip E. Tetlock • Sistematizó predicciones de 284 expertos en ciencia política • Sobre 12 preguntas de coyuntura de política interna y mundial (guerra en Medio Oriente, la continuidad de la OTAN, etc.) • Al mismo tiempo, puso a un grupo de chimpancés a tirar dardos en una ruleta de posibles escenarios • Resultado fue prácticamente el mismo que de los expertos • Libro: Expert Political Judgment: How Good Is It? How Can We Know? • Ganó el premio de la American Political Science Association a mejor libro sobre política y gobierno carlos.estrada@pmsp.mx
EL MAYOR GOLPE EN 2013 • Senador Tom Coburn, republicano por Oklahoma • Marzo 13: enmienda 65 para prohibir usar el presupuesto de la National Science Foundation a proyectos de ciencia política • Marzo 20: se aprobó (73-26) con la excepción de patrocinar proyectos que sean "vitales a la seguridad nacional o al interés económico del país" • Marzo 26: fue firmada por el Presidente Obama y entró en vigor (Public Law 113-6) carlos.estrada@pmsp.mx
POR CIENCIA INNOVADORA • Objetivo: asegurarse de que los fondos se dirigen a "ciencia innovadora“, incorporando nuevas tecnologías de la información • Coburn: “No hay razón para gastar USD $251,000 dólares estudiando la opinión de la población hacia el Senado estadounidense, cuando los ciudadanos pueden obtener esa información de manera gratuita” • Trasfondo: crítica generalizada a la incapacidad de predicción de la actual Ciencia Política • Necesidad: asimilar tecnologías del siglo XXI • Renovarse o morir carlos.estrada@pmsp.mx
2. Explosión de información en S. XXI
Estimación potencial económico principales tecnologías 2025 (USD trillions), IBM 2013
carlos.estrada@pmsp.mx
AUMENTO DIGITAL Bit: A Bit is the smallest unit of data that a computer uses. Represents: such as Yes - No or 0 - 1. Byte: A Byte is equal to 8 Bits. 1 Byte could be equal to one character. 10 Bytes could be equal to a word. 100 Bytes would equal an average sentence. Kilobyte (KB) = approximately 1,000 bytes A kilobyte (KB) is normally defined as 1,000 bytes. Technically, a kilobyte is actually 1,024 bytes which is 2 to the 10th power (1,024) bytes. Kilobit = approximately 1,000 bits. A kilobit is different than a Kilobyte. A kilobit is approximately 1000 bits while a Kilobyte is approximately 1000 bytes. Megabyte (MB) = approximately 1,000 KB or 1,000,000 bytes. Megabit = approximately 1,000 kilobits = 1,000,000 bits
carlos.estrada@pmsp.mx
AUMENTO DIGITAL (2) Gigabyte = approximately 1000 Megabytes = 1,000,000 Kilobytes = Billion bytes (1,000,000,000 bytes) Terabyte (TB) = approximately 1,000 Gigabytes = 1,000,000 Megabytes = Trillion bytes (1,000,000,000,000 bytes) Petabyte (PB) = approximately 1,000 Terabytes = 1,000,000,000,000,000 bytes
Exabyte (EB) = approximately 1,000 Petabytes = 1,000,000,000,000,000,000 bytes It is estimated that if you were to type up every word ever spoken by every human being ever to live in all of the history of the world, the resulting file would be between 2 and 5 Exabytes in size.
Zettabyte = 1000 Exabytes Yottabyte = 1000 Zettabytes Brontobyte = 1000 Yottabytes Source: Shelbyville Central Schools at http://www.shelbycs.org/technology/howbigisagigabyte.html carlos.estrada@pmsp.mx
EXPLOSIÓN DE INFO • Agosto 2010: ex CEO de Google, Eric Schmidt dijo: “Desde el inicio de nuestra civilización hasta el año 2003 se crearon 5 exabytes de información, pero actualmente la misma cantidad de información se crea cada dos días, y el ritmo sigue aumentando” carlos.estrada@pmsp.mx
INFO POR DOQUIER • ¿Cuánta información hay en Internet? • Se estiman 5 millones de terabytes • Google apenas ha indexado 170 terabytes. • Explosión de información: por contenido generado por los usuarios (redes sociales) y nuevas tecnologías (cloud computing, artificial intelligence, quantic computing, etc.) carlos.estrada@pmsp.mx
NUBES Y RELOJES “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”. Chris Anderson, Wired, junio 23 de 2008
• Siglos de método científico: hipótesis "testeables" • Modelos: sistemas visualizados en las mentes de los científicos • Los modelos se ponían a prueba, los experimentos los confirmaban o invalidaban • Los científicos son entrenados para reconocer que correlación no es causación • Prenoción: sin un modelo, la información es puro ruido • Pero con la masividad de información, el modelo es obsoleto • Con millones de registros los algoritmos estadísticos pueden encontrar patrones donde la ciencia no podría o tardaría años carlos.estrada@pmsp.mx
CIENCIA A ALTA VELOCIDAD “Sergey Brin’s Search for a Parkinson’s Cure”, Thomas Goetz, Wired, junio 2010 Modelo tradicional 1. Hipótesis: estudio previo, pacientes con la enfermedad Gaucher (mutación del gen GBA) pudieran incrementar riesgo de Parkinson 2. Estudios: investigadores conducen estudios sucesivos 3. Agregación: se conjunta info de 5,500 pacientes 4. Análisis: un estadístico procesa la info 5. Redacción: se aprueba por 64 autores 6. Aceptación: se somete a la New England Journal of Medicine 7. Publicación: se refiere que personas con Parkinson tienen 5.4 más de posibilidades de tener la mutación GBA
Tiempo total: 6 años
Iniciativa Parkinson 1. Diseño del instrumento: se establece una encuesta para pacientes 2. Reclutamiento: se anuncia la meta de reclutar 10 mil pacientes 3. Agregación: voluntarios aportan su ADN y llenan encuestas 4. Análisis: investigadores realizan búsquedas con queries en 3,200 sujetos 5. Presentación: resultados ante la Royal Society of Medicine, personas con GBA son 5 veces más propensas a tener Parkinson Tiempo total: 8 meses carlos.estrada@pmsp.mx
DATA MINING RELACIONAL
Wired 2010 carlos.estrada@pmsp.mx
FUTURO DATA ANALYSIS Cientos de miles de empleados por rol en las industrias de administraci贸n, ciencia y servicios de consultor铆a, 2009 (McKinsey, 2011)
carlos.estrada@pmsp.mx
3. Casos de ĂŠxito data analysis polĂtico
carlos.estrada@pmsp.mx
NATE SILVER • Elección de 2012 de Barack Obama: adelantó que ganaría re-elección con 30 por ciento de ventaja. • Acertó también en el pronóstico del resultado para los 50 Estados de la Unión Americana
carlos.estrada@pmsp.mx
CAMPAĂ‘A OBAMA
"Predicting the Vote: Pollsters Identify Tiny Voting Blocs" (Garrett M. Graff, Wired) carlos.estrada@pmsp.mx
CAMPAÑAS SIGLO XXI • Partido demócrata: desarrolló un equipo de politólogos, analistas estadísticos y programadores • Objetivo: combinar sondeos en tiempo real con bases de datos de más de 56 millones de votantes • Resultado: correlaciones de más de mil variables por votante para determinar qué ciudadanos eran más propensos a cambiar de opinión y votar por Obama y así contactarlos por teléfono o en su domicilio (Issenberg, Sasha, “How President Obama’s campaign used big data to rally individual voters”, Technology Review, 16 de diciembre de 2012 carlos.estrada@pmsp.mx
MASIVIDAD DE INFO EN EL SECTOR GOBIERNO • XX
Fuente: IDC 2012 carlos.estrada@pmsp.mx
SOLUCIÓN A GOBIERNOS • XX
Fuente: McKinsey carlos.estrada@pmsp.mx
4. Desarrollo de la Ciencia PolĂtica en MĂŠxico
carlos.estrada@pmsp.mx
CP: MEJOR QUE NUNCA Cédulas de Ciencias Políticas ante la SEP (1970-2010) 1400
1057 1032
1200
1000
716 697
800
724
796 661
600
417 400
200
60
99
132
211
274
0
carlos.estrada@pmsp.mx
TOTAL LICENCIATURAS LICENCIATURA EN CIENCIAS POLÍTICAS Y ADMINISTRACIÓN PÚBLICA LICENCIATURA EN ADMINISTRACIÓN PÚBLICA
3.27% 5.90%
LICENCIATURA EN CIENCIA POLÍTICA
7.76%
30.05%
45.27%
LICENCIATURA EN ADMINISTRACIÓN PÚBLICA Y CIENCIAS POLÍTICAS LICENCIATURA EN CIENCIAS POLÍTICAS LICENCIATURA EN CIENCIA POLÍTICA Y ADMINISTRACIÓN PÚBLICA carlos.estrada@pmsp.mx
¿HOMBRES O MUJERES? Evolución por género de la disciplina 700 600 500 400 300 200 100 0
Hombres
Mujeres carlos.estrada@pmsp.mx
Cantidades por entidades -
1,000
2,000
3,000
4,000
DISTRITO FEDERAL
6,000
7,000 6,441
TÍTULO PUEBLA
HIDALGO
3,593
963
BAJA CALIFORNIA
780
COLIMA
772
NUEVO LEON
764
EDO. DE MEXICO
720
COAHUILA
458
JALISCO
451
TAMAULIPAS
366
TABASCO
351
AGUASCALIENTES
300
TLAXCALA
236
SINALOA
188
CHIHUAHUA
150
SAN LUIS POTOSI
142
BAJA CALIFORNIA SUR
141
SONORA
133
CAMPECHE
130
GUANAJUATO
5,000
Los semilleros de politólogos en la historia de México
68
MORELOS
59
QUERETARO
57
YUCATAN
45
OAXACA
37
CHIAPAS
26
ZACATECAS
19
DURANGO
16
GUERRERO
15
VERACRUZ
9
NAYARIT
4
QUINTANA ROO
2
MICHOACAN
2
carlos.estrada@pmsp.mx
SEMILLEROS CP Evoluci贸n por entidad federativa 400
DISTRITO FEDERAL 350
300
PUEBLA HIDALGO BAJA CALIFORNIA
250
200
COLIMA NUEVO LEON EDO. DE MEXICO
150
100
COAHUILA JALISCO TAMAULIPAS
50
0
TABASCO AGUASCALIENTES TLAXCALA carlos.estrada@pmsp.mx
Politólogos por cada 10 mil habitantes COLIMA DISTRITO FEDERAL PUEBLA HIDALGO AGUASCALIENTES BAJA CALIFORNIA BAJA CALIFORNIA SUR TLAXCALA NUEVO LEON CAMPECHE TABASCO Nacional COAHUILA TAMAULIPAS SINALOA JALISCO SAN LUIS POTOSI SONORA EDO. DE MEXICO CHIHUAHUA MORELOS QUERETARO YUCATAN ZACATECAS GUANAJUATO DURANGO OAXACA CHIAPAS GUERRERO NAYARIT QUINTANA ROO VERACRUZ MICHOACAN
2.00
4.00
8.00
10.00
12.00
14.00
11.87
TÍTULO
XXXXX
6.00
2.53 2.47 2.21 2.02 1.64 1.58 1.57
1.55 1.50 1.12 0.68 0.61 0.55 0.50 0.47 0.44 0.33 0.31 0.23 0.13 0.12 0.10 0.10 0.05 0.04 0.04 0.02 0.01 0.00
7.28 6.22
3.61
¿Cuántos politólogos necesita México? La concentración de politólogos por entidad federativa muestra diferencias relevantes carlos.estrada@pmsp.mx
TOPTEN ESCUELAS CP UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
23%
BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA UNIVERSIDAD AUTÓNOMA METROPOLITANA
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA
3% UNIVERSIDAD DE COLIMA
4% 3%
19%
4% 4% 4%
5%
6%
UNIVERSIDAD IBEROAMERICANA
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO carlos.estrada@pmsp.mx
TOPTEN CÉDULAS 2010 350
300
250
200
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA UNIVERSIDAD AUTÓNOMA METROPOLITANA
UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA 150
100
50
0
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INSTITUTO TECNOLÓGICO AUTÓNOMO DE MÉXICO UNIVERSIDAD AUTÓNOMA DE COAHUILA INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY
carlos.estrada@pmsp.mx
5. Propuesta de reforma a planes de estudio
carlos.estrada@pmsp.mx
NÚCLEO BÁSICO SEMESTRE
OBJETIVO
HERRAMIENTAS
PRIMERO
Búsqueda avanzada de información
Motores de búsqueda
SEGUNDO
Análisis en hojas de cálculo
Excel, Access
TERCERO
Programas estadísticos avanzados
SPSS, STATA
CUARTO
Visualización de información
Tableau, Monarch
QUINTO
Análisis y programación estadística
R
SEXTO
Manejo de bases de datos
SQL, NoSQL
SÉPTIMO
Minería de datos
ACL, SAS, MATLAB
OCTAVO
Lenguajes de programación
C++, Java, Python
NOVENO
Programación para Big Data
Hadoop carlos.estrada@pmsp.mx
CASO PRÁCTICO • Tesis de pensamiento político medieval • Aplicación concreta de data analysis
• Empleabilidad al 100%
carlos.estrada@pmsp.mx
X
carlos.estrada@pmsp.mx
Gracias
Carlos Estrada Nava | carlos.estrada@pmsp.mx