Developing a Google SRE Culture

Page 33

Site Reliability Engineering

Developing a google sre culture

Movimiento DevOps

Origen

Tensión entre los grupos de desarrollo y operaciones, ya que los desarrolladores quieren lanzar nuevas funcionalidades rápidamente y los operadores quieren trabajar más lento, garantizando la fiabilidad del sitio. Por este motivo surgió DevOps.

31/01/2023 Developing a google sre culture 2

Categorización de DevOps Según Google

Hay 5 categorías clave

1. Reducción de los silos organizacionales

2. Aceptar que el fracaso es normal

3. Implementar cambios graduales

4. Aprovechar las herramientas de automatización

5. Medición

Es una filosofía

31/01/2023 Developing a google sre culture 3

¿Qué es SRE?

SRE evolucionó en Google a principios del 2000 por separado de DevOps. En 2003, Benjamin Treynor Sloss, actualmente vicepresidente de ingeniería en Google, se le encomendó la gestión de un equipo de ingenieros que son responsables de mantener los sitioswebdeGoogleenfuncionamiento.

31/01/2023 Developing a google sre culture 4

¿Qué es SRE?

"Espera, entonces un grupo de ingenieros de software que escriben el código ahora también tiene que ser responsable para ejecutar sus sistemas de producción? ¿Pero el equipo de operaciones no hace eso? "Bueno, la respuesta al menos tradicionalmente es sí. Sin embargo, este equipo solo tenía ingenieros de software, así que Ben les pidió que pasaran parte de su tiempo en tareas de operaciones además de las tareas de desarrollo. Para que puedan entender mejor cómo se ejecuta su código y producción.

31/01/2023 Developing a google sre culture 5

¿Qué es SRE?

Esta forma de trabajar es lo que llevó al equipo al sitio ingeniería de confiabilidad y el puesto de trabajo asociado eran SRE, que generalmente son ingenieros, son responsables de las operaciones. Así como DevOps pretende cerrar la brecha entre desarrollo de software y operaciones de software, este nuevo enfoque de SRE es una forma concreta de resolver problemas que aborda la filosofía DevOps. Tenga en cuenta que SRE es tanto una prácticacomounrol.

31/01/2023 Developing a google sre culture 6

¿Qué es SRE?

Varias prácticas de SRE se alinean con Las categorizaciones de Google de DevOps, y además de implementar prácticas técnicas de SRE, también querrá implementar prácticas culturales. Sin una cultura que los sostenga, no es posible mantenerlos aspectosprácticosdelaSRE.

31/01/2023 Developing a google sre culture 7

¿Qué es SRE?

Con respecto a la reducción de los silos organizacionales, los SRE comparten la propiedad de la producción con los desarrolladores. Juntos definen los objetivos de nivel de servicio o SLO y presupuestos de error, y compartir la responsabilidad de cómo determinar la confiabilidad y priorizar el trabajo. Culturalmente, esto promueve una visión compartida y el conocimiento así como la necesidad de mejorar la colaboración y comunicaciones.

31/01/2023 Developing a google sre culture 8

¿Qué es SRE?

Una autopsia sin culpa se lleva a cabo después de un incidente para mejorar la comprensión del modo de falla e identificar acciones preventivas eficaces para reducir la probabilidad o el impacto de un incidente similar. Aprender de los incidentes en este asunto requiere una cultura de seguridad psicológica y de inocencia.

31/01/2023 Developing a google sre culture 9

¿Qué es SRE?

Al implementar un cambio gradual, Los SRE apuntan a reducir el costo de falla implementando cambios a un pequeño porcentaje de usuarios antes de ponerlos a disposición del público en general.

Culturalmente, esto promueve más el pensamiento dediseñoycreacióndeprototipos.

31/01/2023 Developing a google sre culture 10

¿Qué es SRE?

Para aprovechar las herramientas y la automatización. Los SRE se centran en la automatización del trabajo reducir la cantidad de trabajo manual repetitivo.Automatizar el trabajo de este año puede indudablemente encontrar resistencia, por eso los equipos necesitan hablar, conocer y comprender la psicología de cambiar y cómo abordar la resistencia al cambio dentro del equipo.

31/01/2023 Developing a google sre culture 11

¿Qué es SRE?

Medir todo significa que losSRE trabajan para medir todo lo relacionado con el trabajo, confiabilidad y la salud de sus sistemas. Para fomentar estas prácticas, las organizaciones necesitan una cultura de establecimiento de metas, transparencia y toma dedecisionesbasadaendatos.

31/01/2023 Developing a google sre culture 12

¿Qué es SRE?

Medir todo significa que losSRE trabajan para medir todo lo relacionado con el trabajo, confiabilidad y la salud de sus sistemas. Para fomentar estas prácticas, las organizaciones necesitan una cultura de establecimiento de metas, transparencia y toma dedecisionesbasadaendatos.

31/01/2023 Developing a google sre culture 13

Valor SRE

SRE tiene como misión proteger, proveer,y software y sistemas de progreso con enfoque constante en la disponibilidad, latencia, rendimiento y capacidad.Al adoptar SRE en su negocio ,está cuidando a sus dos equipos de desarrolladores internos y los clientes queconsumensusservicios.

31/01/2023 Developing a google sre culture 14

Valor SRE

SRE tiene como misión proteger, proveer,y software y sistemas de progreso con enfoque constante en la disponibilidad, latencia, rendimiento y capacidad.Al adoptar SRE en su negocio ,está cuidando a sus dos equipos de desarrolladores internos y los clientes queconsumensusservicios.

31/01/2023 Developing a google sre culture 15

Postmortem

Los ingenieros experimentados en confiabilidad del sitio se sienten cómodos con las fallas y saben que incidentes y apagones van a ocurrir, aunque hayan tomado todas las precauciones necesarias.Antes de un apagón, los SRE buscan eliminar la ambigüedad al construir el monitoreo y observabilidad en la plataforma, y establecer y documentar procesos para respuesta y gestión de incidentes, traspasos y otrasactividadesdeinterrupción.

31/01/2023 Developing a google sre culture 16

Postmortem

Esto les permite concentrarse con confianza en el problema relevante durante un incidente. Después deuna interrupción,esimportanteentenderporqué ocurrió un incidente y luego tome medidas para asegurarse de que no vuelva a suceder de la misma manera.

31/01/2023 Developing a google sre culture 17

Postmortem

LosSRE hacen esto documentando y realizando una autopsiasinculpa.Algunaspersonastambiénllaman a esto una retrospectiva. En entornos acelerados donde constantemente se abordan nuevos problemas, es fácil abordar un incidente y luego pasar al siguiente sin tomarse el tiempo para aprender realmente de lo que sucedió.

31/01/2023 Developing a google sre culture 18

Postmortem

¿Cuál es el propósito de una autopsia? El resultado final de una autopsia es un registro escrito del incidente que consta de partes específicas.

Detalles del incidente y su línea de tiempo.Las acciones tomadas para mitigar o resolver el incidente.Los incidentes impactan.

Es desencadenante o causa raíz o causas. Las acciones de seguimiento para evitar su recurrencia. En particular, una autopsia sin culpa solo se enfoca en las causas fundamentales de un incidente. Sin acusar a una persona o equipo en particular, o sus acciones o comportamiento.

31/01/2023 Developing a google sre culture 19

Postmortem

Personas específicas escribirán y revisarán la autopsia, pero todos los que tuvieron un papel en el evento serán parte del proceso post mortem para que pueda recopilar la mayor cantidad de informaciónposible.

31/01/2023 Developing a google sre culture 20

Postmortem

Una autopsia tiene varios objetivos específicos e importantes.Desea asegurarse de que todas las causas raíz estén correctamente entendidas por el equipo.

31/01/2023 Developing a google sre culture 21

Postmortem

Casi todas las interrupciones tienen múltiples causas en su raíz. Muchas veces, cada una de esas causas tomadas de forma aislada puede no haber sido suficiente para causar una falla, pero cuando se combinan, conducen a un incidente. Tácticas como los cinco porqués se utilizan para profundizar en la causa de un incidente en todos los factores contribuyentes, no solo el que primero parece ser el culpable.

31/01/2023 Developing a google sre culture 22

Postmortem

Gran parte del tiempo, las soluciones rápidas están involucradas en la resolución de incidentes y evitando su recurrencia inmediata. Cada una de esas correcciones es como una curita o parche en el sistema.

Si no realiza buenas autopsias y previene permanentemente la recurrencia, con el tiempo, las correcciones se volverán interdependientes y pegajosas a medida que cada una se acumule sobre la otra. Esto hace que el sistema sea más complejo de lo necesario y menos fácil de mantener y, en última instancia, aumenta la probabilidad de fallas futuras.

31/01/2023 Developing a google sre culture 23

Postmortem

Gran parte del tiempo, las soluciones rápidas están involucradas en la resolución de incidentes y evitando su recurrencia inmediata. Cada una de esas correcciones es como una curita o parche en el sistema.

Si no realiza buenas autopsias y previene permanentemente la recurrencia, con el tiempo, las correcciones se volverán interdependientes y pegajosas a medida que cada una se acumule sobre la otra. Esto hace que el sistema sea más complejo de lo necesario y menos fácil de mantener y, en última instancia, aumenta la probabilidad de fallas futuras.

31/01/2023 Developing a google sre culture 24

Postmortem

Además de crear un registro documentado para que su equipo aprenda, la práctica de escribir una autopsia proporciona un valor adicional a su organización. Centrarse en la inocencia ayuda a aumentar la eficacia de sus equipos. Se vuelven 100% enfocados en prevenir que ocurra un problema,enlugardepreocuparseporserculpadosi algo sale mal. También promueve una cultura de seguridadpsicológica.

31/01/2023 Developing a google sre culture 25

Inculpabilidad y Seguridad Psicológica

Una autopsia SRE es intachable, lo que significa que el incidente se mira objetivamente sin designar a una persona o equipo como la causa raíz. La inocenciapuedeteneruninmensoefectopositivoen la cultura de su organización. Específicamente, crea una cultura de seguridad psicológica para sus equipos.

31/01/2023 Developing a google sre culture 26

Inculpabilidad y Seguridad Psicológica

¿Quéseentiendeporseguridadpsicológica?

Retroalimentación a un momento en que tenías una preocupación sobre una tarea que está se le pide que actúe como gerente o colaborador individual. Tal vez hubo un acercamiento su gerente le pidió a su equipo que tomará, y mientras todos los demás estaban de acuerdo, tenías algunas reservas. ¿Qué hiciste en esa situación? ¿Habló y expresó sus preocupaciones, o te quedaste callado?Si te quedaras callado, ¿recuerdas por qué lo hiciste? En ambientes de trabajo con baja seguridad psicológica, los miembros del equipo son más propensos a mantener sus preocupaciones o ideas para ellos mismos porque sienten que se verán incompetentes, o ignorantes, o incluso ser ridiculizados por tener una opinión diferente. Este miedo puede tener un impacto duradero en sus equipos.

31/01/2023 Developing a google sre culture 27

Inculpabilidad y Seguridad Psicológica

¿Cuál crees que es una consecuencia de la baja seguridad psicológica entrelosequipos?

Cuando no dices lo que quieres decir, en realidad te estás robando a ti mismo y los miembros de su equipo de pequeños momentos de aprendizaje. Tal vez la inquietud o pregunta que tenga tiene una aclaración o respuesta sencilla. Si lo expresas, usted y otros pueden aprender fácilmente cuál es esa respuesta, pero tal vez lo que tienes que decir o preguntar no es tan sencillo. Tal vez haga que otros piensen diferente, iniciar una nueva conversación, o conducir a una nueva idea. Cuando las personas están ocupadas administrando impresiones, no contribuyen a crear una mejor organización. En definitiva, la baja seguridadpsicológica enellugarde trabajopuede sofocarel aprendizaje y lainnovación.

31/01/2023 Developing a google sre culture 28

Inculpabilidad y Seguridad Psicológica

La seguridad psicológica juega un papel clave tanto en impulsar la dinámica del equipo SRE, y también influye directamente en la excelencia operativa y entregadesoftware.

¿Porquélagenteculpa?

Hay dos factores principales que alimentan las tendencias de las personas a culpar a los demás: sesgoretrospectivoydescargadeincomodidad.

31/01/2023 Developing a google sre culture 29

Inculpabilidad y Seguridad Psicológica

En resumen, no te enfoques en las personas, enfócate en los sistemas, y procesos para apoyar mejor a las personas que hacen las opciones correctas al diseñar y mantener sistemas complejos.

También es importante mencionar que aparte de la capacidad de aprender de los errores anteriores, culpar a las personas en lugar de a los sistemas y procesos tiene un impacto negativo en la capacidad delaorganizaciónparainnovarymejorar.

31/01/2023 Developing a google sre culture 30

SLO y presupuestos de error

La ingeniería de software como disciplina se centra en el diseño y construir en lugar de operar y mantener, a pesar de las estimaciones de que el 40-90% de los costos totales se incurren después del lanzamiento. Si la mayor parte del costo total de propiedad del software es mantener después de que esté en producción, y los desarrolladores no están trabajando en esto, entonces, ¿quién lo está? SRE emplea prácticas que rompen efectivamente estos silos y promover la propiedad compartida entre los equipos de desarrollo y operaciones. Más importante, estos fundamentos ayudan a los equipos a mantener la confiabilidad de sus servicios. Hay varias prácticas que respaldan esto, pero en este curso aprenderás sobre dos específicos: presupuestos de error y objetivos de nivel de servicio, oSLO.

31/01/2023 Developing a google sre culture 31

Compartir visión

y

conocimiento

Las prácticas de definir SLO en presupuestos de error ayudan a reducir y romper los silos en organizaciones enfocadas en SRE.

31/01/2023 Developing a google sre culture 32

Compartir visión y conocimiento

También es importante entender y construir ciertas prácticas culturales en su negocio para ayudar a respaldar estas prácticas técnicas. Específicamente, las organizaciones que desarrollan la cultura SRE debe centrarse en: crear una visión unificada, determinar cómo se ve la colaboración, y el intercambio de conocimientos entre los equipos. Echemos un vistazo más de cerca a cada uno de estos. Visión unificada, todas las empresas deberían tener una declaración de visión que sirva como su guía para el trabajo que hacen. Para dar un sentido de dirección, la visión de su equipo de TId ebe apoyar la visión de la empresa.

31/01/2023 Developing a google sre culture 33

Compartir visión y conocimiento

La investigación interna de Google ha demostrado que los equipos que tienen un propósito y significado a su trabajo tienen mayor satisfacción en la vida y el trabajo, conexiones más fuertes entre equiposymenosconflictos.

La misión del equipo articula un objetivo claro y convincentequeelequiposeesfuerzaporlograr.

31/01/2023 Developing a google sre culture 34

Compartir visión y conocimiento

En Google, usamos OKR, que son Objetivos y Resultados Clave, para establecer metas ambiciosas y hacer un seguimiento de nuestro progreso. En la práctica, el uso de OKR es diferente de otras técnicasdefijacióndeobjetivo.

31/01/2023 Developing a google sre culture 35

Compartir visión y conocimiento

Los OKR pueden permitir que los equipos se concentren en grandes apuestas y lograr más de lo que el equipo pensó que era posible, incluso si no logran completamente su objetivo previsto. Los OKR pueden alentar a las personas a probar cosas nuevas, priorizar el trabajo, y aprender tanto de los éxitos como de los fracasos.Si bien es posible que el equipo no alcance todos los OKR, les da algo por lo quelucharjuntos.

31/01/2023 Developing a google sre culture 36

Pensamiento de diseño y creación de prototipos Google utiliza el pensamiento de diseño como un método para enseñar a equipos e individuos a pensar creativamente, lo cual es un paso importante enelprocesodeinnovación.

31/01/2023 Developing a google sre culture 37

Pensamiento de diseño y creación de prototipos

La metodología del Design Thinking consta de cinco fases. Primero, empatizar. En esta fase, desea observar e interactuar con sus usuarios previstos para obtener más información sobre ellos y sumergirse en sus entornos. La empatía te ayuda a dejar de lado tus propias suposiciones para obtener información sobre sus usuarios y sus necesidades. En segundo lugar, defina el problema que está tratando de resolver. Expresar el problema en forma de un punto de vista del usuario frente a lo que desea lograr. Tercero, idear. Ahora que ha definido el problema, puede comenzar a generar ideas para soluciones. Este es el momento de pensar fuera de la caja. Cuarto, es hora de crear un prototipo. En esta fase, puede obtenerlas ideas de su cabeza y en el mundo real. Está destinado a ser experimental, para que puedas identificar las mejores posibles soluciones antes de comprometerse. Finalmente, prueba. Querrá probar sus prototipos de soluciones en un escenario del mundo real con sus usuarios previstos.

31/01/2023 Developing a google sre culture 38

Pensamiento de diseño y creación de prototipos

Si analizas esto aún más simplemente con una mentalidad de desarrollo de software, primero quieres centrarte en el usuario, entonces haz un poco de pensamiento 10x, y luego haz un prototipo para probar su solución. Este enfoque fomenta a sus equipos a pensar en lo que están tratando de resolver desde la perspectiva del usuario. Luego pueden intercambiar ideas ampliamente sobre la solución, y luego prototipar su solución. Finalmente, pueden probar gradualmente usando prácticasdeSREcomoCICD ycanarying.

31/01/2023 Developing a google sre culture 39

Esfuerzo

Aleliminareltrabajoduro,losSREpuedencentrarla mayor parte de su tiempo en el trabajo que ya sea reducir el esfuerzo futuro o agregar funciones de servicio que generalmente se enfocan en mejorar fiabilidad,rendimientooutilización.

31/01/2023 Developing a google sre culture 40

Psicología del cambio

La psicología del cambio, el cambio provoca emociones, hay cientos de diferentes tipos de reacciones y emociones. Siempre debe esperar obtener reacciones positivas y negativas, aunque el cambio sea para bien. En términos generales, las personas y sus emociones se dividen en cuatro categorías:

◼ Navegantes: líderes

◼ Críticos:Apasionados

◼ Víctimas: Expresan sus emociones

◼ Nómadas: No saben lo que está pasando, continúan como si nada.

31/01/2023 Developing a google sre culture 41

Trabajo y fiabilidad

El último pilar de la filosofía DevOps que veremos es medir todo. La medición lo ayuda a ver claramente lo que sucede con sus servicios. En Google, creemos que hay tres objetivos principales para medir todo.

En primer lugar, el equipo de TI de la empresa puede comprender el estado actual del servicio de manera objetiva. Ya aprendió cómo puede medir la confiabilidad con SLI y SLO.

En segundo lugar, el equipo puede analizar los datos e identificar las acciones necesarias para mejorar el estado.

Y tercero, el equipo de TI puede colaborar con el negocio para comenzar a tomar mejores decisiones e impacto en toda la organización en general.

31/01/2023 Developing a google sre culture 42

Trabajo y fiabilidad

Puede medir el esfuerzo en tres pasos. Primero, identifícalo. Quién está mejor posicionado para identificar el trabajo duro depende de su organización. Idealmente, estas personas son las partes interesadas y quienes realizan el trabajo real.

A continuación, seleccione una unidad de medida adecuada .Esta unidad debe expresar la cantidad de esfuerzo humano aplicado a esta labor.

Los minutos y las horas son una buena opción porque son objetivos y entendido universalmente.

Y tercero, realizar un seguimiento continuo de las medidas. Haga esto antes, durante y después de los esfuerzos de reducción del trabajo. Optimice el proceso de medición utilizando herramientas o scripts para que recopilar estas medidas no crea trabajo adicional.

31/01/2023 Developing a google sre culture 43

Trabajo y fiabilidad

Los beneficios de medir el trabajo. En primer lugar, desencadena un esfuerzo de reducción. Identificar y cuantificar el trabajo puede llevar a eliminarlo en su origen. Y segundo, empodera a sus equipos para pensar en el trabajo duro. Un equipo cargado de trabajo debe tomar decisiones basadas en datos sobre la mejor manera de gastar su tiempo y esfuerzos de ingeniería. Los beneficios adicionales incluyen el crecimiento en el trabajo de proyectos de ingeniería a lo largo del tiempo, algunos de los cuales reducirán aún más el esfuerzo, aumentan la moral del equipo y disminuir el desgaste y el agotamiento del equipo, menos cambios de contexto por interrupciones, lo que aumenta la productividad del equipo, aumenta la claridad del proceso y estandarización, habilidades técnicas mejoradas y crecimiento profesional para los miembros del equipo, reducción del tiempo de formación, menos interrupciones atribuibles a errores humanos,seguridad mejorada y tiempos de respuesta más cortos para las solicitudes de los usuarios.

31/01/2023 Developing a google sre culture 44

El establecimiento de metas

Para medir todo, debe asegurarse de tener una cultura de establecimiento de objetivos, transparencia y toma de decisiones basada en datos en su organización.

¿Cómo puedes lograr esto?

Comencemos con el establecimiento de objetivos. Para esto, querrá crear un proceso de establecimiento de objetivos basado en datos. Debe mirar los KPI para quién y para ¿Qué estás midiendo y un enfoque, qué medir y cómo?

Google usaOKR, objetivos y resultados clave, como KPI.

31/01/2023 Developing a google sre culture 45

El establecimiento de metas

Los OKR generalmente se califican en una escala de 0.0 a 1.0, donde 1.0 indica un objetivo completamente alcanzado. Considere estas cosas al calificar los OKR. El punto óptimo para una calificación OKR es de 60 a 70%.

Piense en grande cuando desarrolle sus OKR. Los OKR no son sinónimo de evaluación del desempeño, en cambio, muestran las contribuciones y el impacto de los individuos.

Los OKR organizacionales se califican públicamente, para que todos puedan ver su progreso. Comprobaciones frecuentes durante todo el trimestre ayudan a los equipos y los individuos a mantener el progreso.

31/01/2023 Developing a google sre culture 46

Madurez

organizacional Es importante que evalúes el nivel de madurez de su organización para adoptar SRE, antes de implementar los diversos principios. Hemos analizado la ingeniería de confiabilidad del sitio como un viaje de tres partes; SLO con consecuencias, hacer mañana mejor que hoy, y regularlacargadetrabajo.

https://www.devops-research.com/quickcheck.html

31/01/2023 Developing a google sre culture 47

Habilidades y entrenamiento

◼ Infraestructura

◼ Desarrollo de software

◼ Arquitectura de software

◼ Monitoreo

◼ Automatización

◼ Resolución de problemas

◼ Curiosos

◼ Comunicación, acuerdo y confianza

◼ Gestión del tiempo y tareas,y mantenimiento de registros

31/01/2023 Developing a google sre culture 48

Equipos SRE

1.

2.

3.

4.

5.

6. Consultoría

Fregadero de cocina o todo SRE Infraestructura Herramientas Producto/aplicación Integrado
31/01/2023 Developing a google sre culture 49
Referencias 31/01/2023 50 ◼https://www.coursera.org/learn/developinga-google-sre-culture Developing a google sre culture

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.