HistoriasEngineering · Documentación interna
Engineering · Documentación interna

Sustituir un README de 2400 líneas por doce guías.

Un staff engineer en una plataforma B2B de observabilidad grabó el setup del entorno de dev una sola vez. El time-to-first-PR de los nuevos fichajes bajó de tres semanas a una.

Staff Engineer, Plataforma B2B de observabilidad, 65 ingenieros, Series B
Staff engineer en un setup con portátil limpio y dos pantallas, ilustración editorial brutalista
Time-to-first-PR
1 semana
3 semanas
Para nuevos ingenieros
DMs de Slack en la semana 1
1
6
Por nuevo fichaje
Biblioteca de guías
12
Entorno de dev, despliegue, guardia
Setup sin ayuda
90%
Nuevos fichajes terminando solos

01

El documento de onboarding de ingeniero era un README de 2400 líneas. Era exhaustivo y poco fiable. Algunas secciones referenciaban un sistema de build que ya se había sustituido. Algunas asumían una versión de SO que ningún portátil de la empresa seguía corriendo. La frase "esto debería funcionar sin más" aparecía diecisiete veces.

Cada ingeniero nuevo se chocaba con los mismos fallos: extensión de Postgres ausente, versión de Node equivocada, el certificado SSL que había que regenerar, las cuatro variables de entorno que nadie había documentado. Cada fallo se convertía en un DM de Slack a un ingeniero senior. En el mes dos de una oleada de contrataciones, los seniors se pasaban media semana en onboarding.

La solución que todo el mundo proponía era "reescribir el README". Tres ingenieros lo habían intentado el año anterior. Cada reescritura aguantaba dos semanas y luego se quedaba obsoleta. El README se pudría porque nadie lo llevaba. El coste se distribuía entre cada senior que respondía los mismos DMs.

Cada onboarding de ingeniero se chocaba con los mismos seis modos de fallo. Grabé cómo se resolvía cada uno y los fallos dejaron de sentirse personales.
Staff Engineer
Plataforma B2B de observabilidad, 65 ingenieros, Series B

02

El setup se grabó desde cero en un portátil limpio, con Capture corriendo. Cada paso y cada fallo quedó narrado. El entregable fue una guía de veintitrés pasos con capturas del setup actual de verdad.

La guía sustituyó al README. Los nuevos fichajes la abrían el día uno y avanzaban paso a paso. Los seis modos de fallo conocidos tuvieron sus propias guías cortas de troubleshooting, enlazadas desde la principal.

Cuando un paso cambia (un upgrade de herramienta, una variable de entorno nueva), se vuelve a grabar el paso afectado. Dos minutos de trabajo, no una reescritura del README. Los DMs de los seniors relacionados con onboarding bajaron de seis por nuevo fichaje en la semana uno a uno aproximadamente. Y ese uno suele ser una pregunta legítima.

Pipeline de onboarding desde el clone hasta el primer PR, diagrama isométrico brutalista

03

  1. 01
    Hacer el setup en directo.

    Portátil limpio, Capture corriendo. Narrar cada paso, incluidos los fallos.

  2. 02
    Tratar los fallos como ciudadanos de primera.

    Cada modo de fallo conocido tiene su propia guía corta de troubleshooting.

  3. 03
    Enlazado desde un solo sitio.

    El wiki de ingeniería tiene una sola entrada: empieza aquí.

  4. 04
    Mantener paso a paso.

    Volver a grabar el paso afectado cuando una herramienta cambia. No la guía entera.

  5. 05
    Medir el time-to-first-PR.

    El éxito del onboarding se mide por el tiempo hasta el primer PR enviado.

04

El time-to-first-PR pasó de tres semanas a una. Los seniors recuperaron su semana uno. El volumen de DMs relacionados con onboarding bajó alrededor del 80%.

El patrón se extendió. El runbook de la guardia recibió el mismo tratamiento. El proceso de revisión de PR se grabó. El flujo de despliegue se grabó. El wiki de ingeniería tiene ahora doce guías, no 2400 líneas de README casi obsoleto.

Distribución del time-to-first-PR antes y después, estilo esquemático
Probadlo

Grabad un flujo de trabajo.

Extensión de Chrome gratuita. Sin registro.