Contenido Introducción ...................................................................................................................................... 3 El proceso del restablecimiento ..................................................................................................... 4 Definir los requisitos........................................................................................................................ 4 Definir el alcance .............................................................................................................................. 5 Definir los posibles escenarios de desastre. ................................................................................ 5 Crea planes de respuesta ............................................................................................................... 7 Probar y ajustar procesos .............................................................................................................. 7 Programar pruebas ......................................................................................................................... 8
Equilibrar la necesidad y el alcance ................................................................................................. 8 Realizar pruebas de recuperación fuera de horario................................................................... 8 Actualiza los planes ............................................................................................................................... 8 El equilibrio es la clave .................................................................................................................... 9
Introducción Las copias de seguridad que se realizan cada vez que se ejecuta la terea de copia de seguridad (En caso de que tengas una solución automatizada), valen menos que un refresco de cola si no sabes cómo o si pueden ser restablecidas o no, cayendo en la paradoja de copias de seguridad de shrödinger, en el que la copia de seguridad puede o no ser funcional, pero sólo lo sabrás hasta que lo restablezcas. La finalidad de la infraestructura de TI con recursos distribuidos entre entornos locales en la nube, y entre estaciones de trabajo, servidores y máquinas virtuales, debemos debe saber con certeza que podemos recuperar cada archivo, carpeta o máquina completa en un tiempo aceptable (RTO), en caso de cualquier incidente. El restablecimiento de copias de seguridad puede no parecer una idea muy atractiva, sin embargo, es la mejor manera de superar un desastre, aunque siendo sinceros tú y tu personal técnico pasarán mucho tiempo realizando pruebas y describiendo escenarios que podemos decir, son impensables. Todo esto es un procedimiento de suma importancia. Sin una correcta planificación, organización y documentación, el procedimiento de restablecimiento vale tanto como las copias de seguridad no probadas. En este documento técnico, vamos a proponer y analizar diferentes formas para organizar y ejecutar el proceso de prueba de restablecimiento de las copias de seguridad.
El proceso del restablecimiento Antes de iniciar, algo que debes de saber es definir los procesos exactos a restablecer, en otras palabras, necesitas conocer, por ejemplo ¿Qué proceso critico de la empresa necesitas restablecer? ¿cómo recuperarás los procesos criticos de trabajo? ¿Qué escenarios criticos establecerás para recuperarte? Con base en nuestra experiencia, hay cuatro pasos que debemos establecer para poder realizar pruebas de restablecimiento adecuado dentro de los cuales se encuentran:
Definir los requisitos La infraestructura, recursos y tecnologías de TI de cada organización son únicas, también el ciclo de vida de datos y formas de uso, por ello, lo primero que te recomendamos es crear una lista de todos los requisitos específicos de la organización, que incluyen: • El tiempo de recuperación de la operación y los objetivos de punto de recuperación para las cargas de trabajo de procesos críticos. Estas dos métricas son críticas y debes tenerlas en cuenta para tus procesos, ya que muestran cuántos datos puede permitirse perder (RPO) y el tiempo de inactividad más largo tolerable (RTO) que tu organización puede soportar antes de comenzar a tener perdidas. Si todavía no has definido el RTO / RPO para tu organización, es un buen momento para establecerla. •
Cumplimiento de regulación nacional. Dependiendo del país en el que te encuentres, así como el giro de negocio podremos estar sujetos a cumplir con diversas normativas y regulaciones, como HIPAA, PCI u otros cumplimientos que van a influir directamente en la forma en que vas a almacena, procesar, o realizar copias de seguridad, y por qué no, la forma en las que prepararás el restablecimiento de tus datos. Todos tus procesos deben cumplir con dichas regulaciones, de lo contrario, es fácil terminar con sanciones por parte de unidades de regulación y tener que pagar multas importantes, y dependiendo de la gravedad, podría significar el cese de las operaciones.
Definir el alcance Te invitamos a revisar todas las operaciones o tareas de respaldo que tengas ejecutándose actualmente, comenzando desde el principio, desde donde se originan los datos o información. Realiza un inventario de los datos que están utilizando, administrando. Esto incluye: • • •
Información o documentos de trabajo de las estaciones de trabajo de los usuarios finales. Aplicaciones y bases de datos en los servidores o estaciones de trabajo Datos nativos en servicios en la nube, incluidos correos electrónicos, archivos compartidos, servidores de nube virtual, etc.
Todos los datos tienen su propio ciclo operativo y objetivos de recuperación. La de lo que mencionamos radica en que debes asegurarte de que tus copias de seguridad no sean excesivas. Ejemplo de esto es, no es necesario realizar una copia de seguridad basada en imágenes de cada una de las estaciones de trabajo en la empresa. Simplemente podemos hacer una copia de seguridad de nuestros archivos de trabajo, crear una o dos imágenes de estaciones de trabajo estándar con la configuración requerida y mantenerlas actualizadas. De esta forma, consumiremos menos almacenamiento y tanto el respaldo como la recuperación se ejecutarán más rápido.
Definir los posibles escenarios de desastre. Es importante definir diferentes escenarios que puedan ocasionarte pérdida de datos y que afecten directamente a tu organización. Para esto te recomendamos considerar estos escenarios comunes: •
Ataque de ransomware. El ransomware y otros tipos de ataques de malware se han extendido en los últimos años para convertirse en la razón más aterradora para que un administrador comience a realizar copias de seguridad de datos y realice pruebas de recuperación exhaustivas. Antes de prepararte para un ataque de ransomware, evalúa la seguridad de tus redes y verifica que el acceso a los dispositivos donde almacenas las copias de seguridad esté limitado solo a los usuarios privilegiados. Considera que las familias modernas de ransomware pueden buscar copias de seguridad locales e incluso en la nube para infectarlas junto con los datos de producción, para ello te recomendamos implementar la regla 3R de copias de seguridad del Instituto de ciberseguridad, con la finalidad de garantizar la máxima protección. La recuperación de un ataque de ransomware exige un enfoque
complejo e incluye el aislamiento y la creación de nuevas imágenes de las máquinas afectadas, así como un análisis completo de vulnerabilidades de la red después del ataque, pero no es el enfoque de este documento. • Factor humano. Regularmente podemos reducirlo a un archivo de trabajo o una carpeta que se elimina o modifica por error, aquí es necesario encontrar la última versión de esos datos en el respaldo, si piensas prepararte para este escenario, es de vital importancia que las copias de seguridad de los archivos de los usuarios finales se ejecuten con bastante frecuencia y que todo su personal técnico tenga acceso a dichas copias de seguridad. • Fallo de Hardware. El administrar usuarios con cargas de trabajo en las instalaciones, en servidores o estaciones de trabajo, siempre existe la posibilidad de que el hardware falle, ya sea por falta de mantenimiento, o falla mecánica, por lo tanto, no solo necesitamos preparar las copias de seguridad de los datos, sino también las formas de recuperar nuestro hardware. Si el presupuesto no permite mantener un servidor de repuesto para recuperación, podemos probar algún servicio en la nube. •
Fallo de Software. El hardware y el Ransomware, son sólo alguna de las cosas que pueden salir mal. Las aplicaciones operativas del negocio son difíciles de respaldar, respaldar y recuperar. Por otro lado, una simple actualización puede bloquear las estaciones de trabajo de su cliente en minutos.
•
Desastre natural. Dependerá dónde te encuentres, existen diferentes posibilidades de desastres, como tornados, inundaciones o terremotos. Es posible que tengas copias de seguridad de todas las estaciones de trabajo, la operación o datos necesarios, pero ¿qué harías si la oficina de su cliente se incendiara hasta los cimientos como le pasó a OVH? Ese escenario va más allá de los procedimientos de recuperación estándar y se convierte en una solución más específica y costosa: la planificación completa de la recuperación ante desastres.
Crea planes de respuesta •
Crear diferentes procedimientos de restablecimiento. La parte más importante aquí es documentar cuidadosamente todos los planes y procedimientos de restablecimiento.
•
Prepara tu equipo. Una vez teniendo los diferentes escenarios, planes y procedimientos de restablecimiento, asegurarte que tu personal técnico comprenda cómo actuar en esta o aquella situación.
•
Prepare a la empresa. La empresa también debe conocer los procedimientos y escenarios de recuperación. Parte fundamental de esto es que no necesitan tecnicismos. Tenemos que dejar claro sobre a dónde deben llamar o escribir para informar la pérdida de información, así como el potencial escenario presentado. o Asegúrate de que los niveles C (CEO, CFO, etc) comprendan las posibles actividades de recuperación y el tiempo que podrían tomar, importante que estos detalles estén documentados, esto podría ser un problema si el nivel directivo no lo comprende.
Probar y ajustar procesos Antes de pensar en programar las pruebas de recuperación de los procesos de producción, te recomendamos averiguar si carecen de algo o son excesivos para las necesidades actuales de la organización. Aquí hay dos posibles puntos a tomar en cuenta: •
Los objetivos de recuperación no cumplen los procedimientos actuales. A veces, los RTO / RPO son tan ambiciosos que no se pueden cumplir sin una revisión del hardware, el software y los procesos de la empresa. Si ese es tu caso, asegúrate de que la empresa esté al tanto del problema y comprenda los riesgos. Si se niegan a actualizar la infraestructura para cumplir con sus objetivos de recuperación, asegúrate de cambiar el acuerdo de nivel de servicio (SLA) con ellos en consecuencia y notificarles sobre estos cambios, parte importante, mantener esa notificación por escrito, ayudará en caso de una potencial materialización de un incidente.
•
Tu propuesta es absurda. Si la empresa puede vivir uno o dos días sin activos críticos y no críticos, por lo tanto, no es necesario recuperar esos activos inmediatamente y preparar capas adicionales de soluciones de hardware y software para tales cargas de trabajo, y buscas implementar una solución para restablecer la operación en un RTO y RPO inviable a la operación de la empresa, entonces tu propuesta es absurda.
Programar pruebas El programar las tareas de restablecimiento hará de tu vida mucho más fácil si crea un cronograma preciso para las pruebas de recuperación. Estos son algunos consejos para crear un horario eficiente.
Equilibrar la necesidad y el alcance Debes encontrar la solución óptima para estar seguro de que en la realización de los procedimientos de recuperación no vas a perder el tiempo y el de tu personal técnico en pruebas excesivas. Por lo tanto, programa una recuperación única de una única estación de trabajo difiere en el tiempo, y el alcance requerido de la operación critica de la organización.
Realizar pruebas de recuperación fuera de horario ¡Uffff! Sabemos lo que estás pensando ¿Me tengo que quedar más horas o trabajar fuera de horario? Sí, como recomendación, busca probar la infraestructura de producción de la empresa. Trata de programar pruebas fuera de horario, para no interferir con sus operaciones diarias. Otra ventaja de esto es que, si algo sale mal, tendrá tiempo para solucionarlo y no vas a tener la presión de la dirección o de los usuarios.
Actualiza los planes Conforme la infraestructura que mantiene la operación critica en la empresa cambia, nuestros planes de recuperación también tienen que cambiar. Un ejemplo de esto es, imagina tus procesos y operaciones para la recuperación de servicios locales, estos no funcionarán para una configuración de nube pura, si hemos migrado por completo nuestros servicios de Microsoft Exchange local a Office 365, debemos olvidar nuestros antiguos planes de recuperación de Exchange local, y volver a redefinir las nuevas amenazas, vulnerabilidades y los procedimientos de recuperación para la nueva infraestructura en la nube.
El equilibrio es la clave Y no, no hablamos de tu equilibrio emocional, sabemos que es complicado encontrar el equilibrio adecuado en las pruebas de restablecimiento. No intentes implementar en la organización una solución con todas las funciones de copia de seguridad y recuperación técnicamente avanzadas a su disposición. Primero, piensa en los procesos del negocio y en la continuidad del negocio y no sobredimensione sus planes de recuperación, a veces es mucho más simple de lo que imaginas, no lo compliques.
Como podrás ver, a lo largo de una diversa lista documentos técnicos que hemos preparado respecto a las copias de seguridad, no sólo es una actividad en la que vas a una consola, generas una tarea de respaldo y todo está hecho, al contrario, es una actividad bastante compleja que requiere mucha planeación.
Si requieres ayuda con todo esto, no dudes ponerte en contacto con nosotros.