Cuatro pasos para impulsar tu práctica de SRE

blog.products.devops-sre.four-steps-to-jumpstarting-your-sre-practice-es-LA.html Type HTML Size 25 KB Storage used 25 KBOwned by Venga Location To Publish Owner Valentina Salerni Modified Jun 8, 2021 by Valentina Salerni Opened 10:20 PM by me Created Jun 8, 2021 Add a description Viewers can download  code { background-color: transparent }

Hace unos meses, escribimos sobre cómo el primer paso para implementar ingeniería de confiabilidad de sitios (SRE) en una organización consiste en la adopción del liderazgo. Supongamos que ya avanzaste y completaste el primer paso. ¿Qué sigue? ¿Cuáles son los pasos concretos que puedes realizar para progresar con la SRE? En esta entrada de blog, analizaremos lo que puedes hacer como líder de TI para acelerar la implementación de la SRE dentro de tu equipo.

Paso 1: Comienza de a poco y de manera iterativa

Como dice el refrán: «Roma no se construyó en un día», pero tienes que comenzar en algún lugar. Cuando se trata de implementar los principios de la SRE, el enfoque que resultó efectivo para mí (y mi equipo) es comenzar con una prueba de concepto, aprender de nuestros errores e iterar.

Comienza por identificar una aplicación o un equipo relevantes

Se deben tener en cuenta muchos factores cuando se elige una aplicación o un equipo específicos para la prueba de concepto de la SRE. Sin embargo, la mayor parte del tiempo se trata de una decisión estratégica para la organización, lo que no se evaluará en este artículo. Como posibles escenarios, se puede mencionar un equipo que cambia de operaciones tradicionales o DevOps a SRE, o la necesidad de aumentar la confiabilidad de un producto esencial para la empresa. No importa el motivo, es esencial elegir una aplicación con las siguientes características:

  1. Es fundamental para la empresa. A tus clientes les debe importar mucho el tiempo de actividad y la confiabilidad.

  2. Está actualmente en desarrollo. Elige una aplicación en la que la empresa invierta recursos de manera activa.

  3. En un mundo ideal, la aplicación brinda datos y métricas sobre su comportamiento.

Por el contrario, deberías evitar el software patentado. Si no fuiste tú quien compiló la aplicación, esta no es una buena candidata para la SRE. Es importante que puedas tomar decisiones estratégicas sobre la aplicación y realizar cambios de ingeniería en ella, según sea necesario.

Sugerencia de un profesional: En general, si tienes cargas de trabajo locales y en la nube, trata de comenzar con la app basada en la nube. Si tus ingenieros provienen de un entorno de operaciones tradicionales, cambiar y alejar su manera de pensar de las métricas de infraestructura y los «equipos físicos» será más sencillo para una app basada en la nube, ya que la infraestructura administrada convierte a los profesionales en usuarios y los obliga a consumirla como desarrolladores (API, infraestructura como código, etc.).

Recuerda: Establece metas realistas. Si desalientas a tu equipo con expectativas difíciles de cumplir desde el principio, se producirá un efecto negativo en la iniciativa.

Paso 2: Bríndales poder a tus equipos

Para implementar los principios de la SRE, es necesario fomentar una cultura de aprendizaje y, en ese sentido, la habilitación del equipo implica capacitarlo (en cuanto al conocimiento), así como otorgarle poder.

Crear un programa de capacitación es un tema en sí mismo, pero es importante pensar en una estrategia de habilitación en una etapa inicial. Particularmente, en organizaciones de gran tamaño, debes abordar temas como el perfeccionamiento de las habilidades internas, la contratación y el escalamiento del equipo, así como la incorporación y la creación de una comunidad de aprendizaje.

Tu estrategia de habilitación también debe adaptarse a los empleados de diferentes niveles y con diferentes funciones. Por ejemplo, la capacitación de los líderes de mayor jerarquía será muy diferente a la capacitación de los profesionales. La capacitación de los empleados en posiciones de liderazgo debería ser suficiente para que estos obtengan aceptación y puedan tomar decisiones organizativas. Con el fin de impulsar el cambio en toda la organización, es posible que se requiera capacitación adicional para los líderes sobre conceptos y prácticas culturales.

Artículo relacionado

Leer artículo

Cuando se trata de liderazgo en ingeniería y administración intermedia (gerentes que supervisan gerentes), la capacitación debe ser una combinación de conceptos culturales de alto nivel, de modo que se fomente la cultura necesaria, y prácticas técnicas de SRE lo suficientemente profundas para comprender la priorización, la asignación de recursos, la creación de procesos y las necesidades futuras.

Cuando se trata de profesionales, lo ideal es que toda la organización esté alineada desde una perspectiva del conocimiento y de la cultura. Sin embargo, como mencioné anteriormente, es mejor comenzar de a poco, con un solo equipo.

El punto de partida para esos equipos debe ser comprender la confiabilidad y los conceptos clave, como ANS, SLO, SLI y los porcentajes de error aceptables. Estos conceptos son importantes porque la SRE se centra en la experiencia del cliente. Medir si los sistemas cumplen con las expectativas del cliente exige un cambio de mentalidad y puede llevar tiempo.

Artículo relacionado

Leer artículo

Después de que identifiques tu primera aplicación o el equipo que se ocupará de ella, deberás determinar los procesos del usuario de la app (es decir, el conjunto de interacciones que un usuario tiene con un servicio para lograr un objetivo único; por ejemplo, un solo clic o una canalización de varios pasos) y clasificarlos según el impacto empresarial que tienen. Los procesos más importantes se denominan recorridos críticos del usuario (CUJ) y, en estos, debes comenzar a redactar acuerdos de SLO/SLI.

image1.jpg

Sugerencia de un profesional: Existen algunas prácticas técnicas generales que te pueden permitir adoptar la SRE con mayor rapidez. Por ejemplo, usar menos repositorios en lugar de más te puede ayudar a reducir los entornos aislados dentro de la organización y utilizar mejor los recursos.

Asimismo, priorizar los procesos automáticos y los sistemas con reparación automática puede beneficiar la confiabilidad, pero también la satisfacción del equipo, lo que ayuda a que la organización conserve el talento.

Artículo relacionado

Leer artículo

Nota final: De manera similar a la forma en que tomas decisiones con respecto a la arquitectura, la tecnología, las soluciones y las herramientas de implementación que elijas deben permitirte llevar a la práctica tus objetivos, en lugar de impedírtelo.

Paso 3: Escala los aprendizajes

Después de establecer estas prácticas de SRE con uno o varios equipos, el siguiente paso es pensar en construir una comunidad de SRE y procesos formalizados en toda la organización. En algunas organizaciones, puedes realizar este paso de manera simultánea con el final del paso 2, y en otras, solo después de completar algunas implementaciones de manera correcta.

En esta fase, es probable que desees ocuparte de la comunidad, la cultura, la capacitación y los procesos. Deberás abordarlos todos, en especial, porque están entrelazados. Sin embargo, el área que priorices dependerá de tu organización.

Construir una comunidad de SRE en la organización es importante desde una perspectiva de aprendizaje, pero también es fundamental para establecer una base de conocimientos sobre prácticas recomendadas, capacitar a expertos en la materia, permitir la implementación de mecanismos de seguridad necesarios y alinear los procesos.

Construir una comunidad va de la mano con fomentar una cultura empoderada y capacitar a los equipos. La idea es que los primeros usuarios sean embajadores de la SRE que compartan sus aprendizajes y capaciten a otros equipos de la organización.

También es útil identificar embajadores o defensores potenciales en equipos de desarrollo individual que demuestran entusiasmo por la SRE y ayudarán con la adopción de estas prácticas.

También es fundamental diseñar capacitaciones que se puedan repetir para cada función práctica, incluidas las sesiones de incorporación. La incorporación de miembros nuevos al equipo es un aspecto crucial para capacitar y fomentar una cultura empoderada de SRE. Por lo tanto, es vital que seas consciente de tu proceso de incorporación y te asegures de que el conocimiento no se pierda cuando los miembros del equipo cambien de funciones.

Artículo relacionado

Leer artículo

Durante esta fase, también deseas fomentar una cultura en toda la organización que promueva la seguridad psicológica, acepte el fracaso como algo normal y le permita al equipo aprender de los errores. Para ello, los empleados en posición de liderazgo deben moldear la cultura deseada y promover la transparencia.

Por último, contar con procesos estructurados y formalizados puede ayudar a reducir el estrés con respecto a la respuesta ante emergencias, en especial, en el servicio de guardia. Además, los procesos pueden brindar claridad y lograr que los equipos trabajen de manera más colaborativa y efectiva.

Si deseas producir un mayor impacto, comienza priorizando las áreas más difíciles en el ámbito de trabajo de tu equipo. Por ejemplo, quita las alarmas ruidosas a fin de evitar (o abordar) la fatiga por alarmas, automatiza tus procesos de administración de cambios y, por último, involucra solo a las personas necesarias con el objeto de ahorrar el ancho de banda que utiliza el equipo. Los miembros del equipo no deben trabajar en proyectos de ingeniería de software mientras administran incidentes durante el servicio de guardia, y viceversa. Asegúrate de que cuenten con suficiente ancho de banda para realizar ambas tareas por separado. De manera similar a otras áreas, querrás utilizar datos para impulsar tus decisiones. Por lo tanto, debes identificar en qué sectores pasan más tiempo tus equipos y durante cuánto tiempo.

Si la recopilación de este tipo de datos te resulta un desafío, ya sea cuantitativo o cualitativo, un buen punto de partida suelen ser tus procesos de respuesta ante emergencias. Estos producen un impacto directo en la empresa, en especial, en lo que respecta al proceso de escalamiento, la administración de incidentes y las políticas relacionadas.

Sugerencia de un profesional: Todas las prácticas anteriores contribuyen a reducir los entornos asilados y alinear los objetivos en toda la organización, que también deben incluir a tus proveedores y socios de ingeniería. Para ello, asegúrate de que tus contratos con ellos también reflejen estos objetivos.

Paso 4: Adopta una mentalidad basada en datos

Comenzar el recorrido de la SRE puede llevar tiempo, incluso si solo lo implementas para un equipo. Dos victorias rápidas con las que puedes comenzar, y que producirán un efecto positivo, son la recopilación de datos y el análisis retrospectivo libre de responsabilidad.

En la SRE, intentamos basarnos en los datos en la mayor medida posible, por lo que, en tu organización, es fundamental que fomentes una cultura de medición. Cuando se prioriza la recopilación de datos, lo ideal es buscar datos que representen la experiencia del cliente. La recopilación de estos datos te permitirá identificar tus brechas y priorizar según las necesidades de la empresa y, en consecuencia, las expectativas de tus clientes.

Artículo relacionado

Leer artículo

Otra medida que puedes tomar es generar o mejorar los análisis retrospectivos, que representan una manera fundamental de aprender de los errores y fomentar una cultura sólida de SRE. Según nuestra experiencia, incluso las organizaciones que sí generan análisis retrospectivos, pueden beneficiarse mucho más con algunas leves mejoras. Es importante recordar que los análisis retrospectivos deben deshacerse de la responsabilidad para que el equipo se sienta seguro de compartir y aprender de los errores. Además, para lograr que el futuro sea mejor que el presente (es decir, no repetir los mismos errores), es importante que los análisis retrospectivos incluyan elementos de acción y se asignen a un propietario.

Crear un repositorio compartido para los análisis retrospectivos puede generar un impacto inmenso en el equipo: aumenta la transparencia, reduce los entornos aislados y contribuye a la cultura de aprendizaje. También le demuestra al equipo que la organización «practica lo que predica». Esta implementación puede ser tan sencilla como crear una unidad compartida.

Sugerencia de un profesional: Los análisis retrospectivos deberían deshacerse de la responsabilidad y ser prácticos.

Artículo relacionado

Leer artículo

Implementación rápida de la SRE

Desde luego, no existen dos organizaciones iguales ni tampoco dos equipos iguales de SRE. Sin embargo, si sigues estos pasos, puedes lograr que tu equipo implemente la SRE de manera correcta y rápida. Para obtener más información sobre cómo desarrollar una práctica efectiva de SRE, consulta los siguientes recursos.

Artículo relacionado

Con la SRE, la falta de planificación implica planificar errores

El proceso para convertirse en un taller exitoso de ingeniería de confiabilidad de sitios comienza mucho antes de que tomes tu primera clase o leas tu primer ma…

Leer artículo

Source: Google Dev

Deja un comentario