Track Soporte Senior
Plan de capacitación para soporte senior: root cause, tuning, recovery y conducción de incidentes mayores.
Objetivos y criterios
Track Soporte Senior
Objetivo del rol
Resolver root cause, tunear, conducir recuperaciones de incidentes mayores y acompañar al cliente en escenarios críticos (role-swap real, recovery tras desastre, performance crítica). Es el último escalón antes del fabricante.
Audiencia y perfil
- •Ingenieros de soporte avanzados.
- •Generalmente con experiencia previa como L1 o como administrador de sistemas en ambientes IBM i.
- •Expectativa: liderar incidentes, mentorar L1, mantener runbooks y procedimientos.
Prerequisitos
- •Track L1 completado o experiencia equivalente demostrable.
- •Acceso completo al laboratorio compartido con permisos de configuración.
- •Cuentas activas en portales Precisely Support y M81 con permisos de manejo de cases.
Día 0 común
2 horas. Base común de plataforma. Ver modulo-hardware.md y modulo-ibm-i.md.
Plan de capacitación
| Orden | Tema | Duración | Material principal | |---|---|---|---| | 1 | Hardware iSeries / Power | 1 día | Hardware — Para Soporte Senior | | 2 | IBM i (sistema operativo) | 4 días | IBM i — Para Soporte Senior | | 3 | AIX | 2 días | AIX — Para Soporte Senior | | 4 | Assure Quick EDD | 5 días | Quick EDD — Para Soporte Senior | | 5 | Connect CDC | 3 días | Connect CDC — Para Soporte Senior | | 6 | Flash For i | 2 días | Flash For i — Para Soporte Senior |
Total: 17 días lectivos. Hasta 22 días con laboratorios extendidos y semana de incidentes pasados.
Foco práctico del track
Capacidades que un senior debe demostrar:
- •Performance — leer Performance Data Investigator, Job Watcher,
nmon/topas, identificar bottlenecks (CPU, paging, I/O, lock contention). - •Journaling profundo — apply lag, manejo de receivers, recovery con
APYJRNCHG, troubleshooting de divergencias. - •Recovery — IPL types, restore desde DST/SST, restore desde
mksysb/NIM en AIX, restore desde Flash for i. - •Role-swap real de Quick EDD — coordinación, validación, retorno.
- •CDC RCA — separar problema en captura, motor o destino; tuning end-to-end.
- •Casos límite — objetos no replicables, schema evolution, catch-up tras caída larga, upgrades complejos.
Laboratorio de incidentes
Eje del track: 5 casos reales históricos seleccionados, anonimizados y reproducidos en el laboratorio. El senior debe llegar al RCA y proponer remediación con:
- •Análisis técnico del incidente.
- •Identificación del root cause.
- •Plan de remediación (corto plazo) y de prevención (largo plazo).
- •Documentación del aprendizaje para alimentar runbooks.
Entregable de cierre
Carpeta de incidentes resueltos. El senior entrega:
- •Los 5 RCAs documentados (~5 páginas cada uno) con timeline, evidencia, root cause y remediación.
- •Actualización propuesta de al menos 2 runbooks de L1 surgida de los aprendizajes.
- •Presentación de uno de los casos al equipo en formato post-mortem.
Criterios de aprobación
- •RCA correcto en al menos 4 de 5 casos.
- •Diagnóstico fundamentado en evidencia (logs, joblogs, métricas), no en suposiciones.
- •Manejo correcto de versiones y TRs — saber qué TR introduce qué fix antes de proponer una vía.
- •Capacidad demostrada de conducir un role-swap end-to-end en el lab sin pérdida de datos.
Coaching y desarrollo continuo
- •Participación en post-mortems formales tras cada incidente P1/P2 real.
- •Aporte mensual a la base de conocimiento (un runbook nuevo o actualización significativa).
- •Renovación anual: revisión de release notes + un caso nuevo + ejercicio de role-swap.
- •Asistencia a eventos técnicos (COMMON, Common Europe) y comunidad (IT Jungle, IBM Champions, blogs de Precisely / M81).
Recursos transversales
Módulos del track
Agenda día por día
Agenda día por día — Track Soporte Senior
Cronograma base de 17 días lectivos (extensible a 22 con laboratorios extendidos). Bloques estándar: mañana 9:00–13:00, tarde 14:00–17:00.
Track completo: track-soporte-senior.md.
Día 0 — Día común
14:00–16:00 (2 h). Historia, portafolio, vocabulario.
Día 1 — Hardware (avanzado)
Mañana (4 h)
- •9:00–10:30 Service Tools (DST, SST). Acceso, cuándo usar cada uno.
- •11:00–13:00 HMC avanzada: PESH, Service Focal Point, recolección de system data.
Tarde (3 h)
- •14:00–15:30 Lectura de SRC y errores de firmware.
- •15:30–17:00 Escenarios típicos: IPL fallido, falla de disco, falla de memoria, pérdida de comunicación HMC.
Material: Hardware — Para Soporte Senior.
Días 2–5 — IBM i (avanzado)
Día 2 — Performance
- •9:00–13:00 Performance Data Investigator (PDI), Job Watcher, SQL Performance Center.
- •14:00–17:00 Lab: identificar bottleneck en LPAR de práctica con carga sintética.
Día 3 — Journaling profundo
- •9:00–13:00 Receivers, threshold, attach automático. Standby y remote journals.
APYJRNCHG,RMVJRNCHG. - •14:00–17:00 Lab: simular divergencia y recovery con journal.
Día 4 — IPL, recovery, debugging
- •9:00–13:00 Tipos de IPL (A, B, D), recovery desde DST. Recovery de IASP. SAVRSTLIB / SAVSYS completo.
- •14:00–17:00 Debugging:
STRDBG,STRSRVJOB, dumps,STRTRC/TRCJOB.
Día 5 — System values y subsistemas
- •9:00–13:00 System values críticos (revisión profunda con seguridad). Anexo de seguridad.
- •14:00–17:00 Tuning de subsistemas: pools de memoria, activity levels, routing.
Material: IBM i — Para Soporte Senior.
Días 6–7 — AIX (avanzado)
Día 6 — Performance + recovery
- •9:00–10:30 Kit de performance:
nmon,topas -R,vmstat,iostat,mpstat,sar,svmon. - •11:00–13:00 Recovery:
mksysb, NIM,alt_disk_install, Live Update (LLU). - •14:00–17:00 Mejoras AIX 7.3 (compresión NX, LLU TL3, FC 16Gbps).
Día 7 — PowerHA + escenarios
- •9:00–13:00 PowerHA SystemMirror profundo: CAA, RSCT, RGs, comandos
clmgr/cltopinfo/clstat. Diferencias con HA en IBM i. (Ver PowerHA expandido) - •14:00–17:00 Escenarios típicos AIX: corrupción de rootvg, tuning de paging, balanceo multipath FC, TL/SP con minimal downtime.
Material: AIX — Para Soporte Senior.
Días 8–12 — Assure Quick EDD (deep)
Día 8 — RCA típicos
- •9:00–13:00 Divergencia que no autoresuelve: leer audit logs, identificar cambio.
- •14:00–17:00 Apply lag persistente: contention, red, volumen.
Día 9 — Tuning + objetos no replicables
- •9:00–13:00 Paralelización de apply, prioridad de subsystems, sizing de receivers.
- •14:00–17:00 Objetos no replicables: tipos, autoridad, conflictos bidireccionales.
Día 10 — Role-swap real
- •9:00–13:00 Validación previa, coordinación con aplicación/red/DBA, ejecución del switch.
- •14:00–17:00 Validación post-switch. Plan de retorno.
Día 11 — Lab role-swap end-to-end
- •Día completo: ejecutar role-swap real en lab, validar, regresar.
Día 12 — Catch-up, casos límite, upgrades
- •9:00–13:00 Catch-up tras caída larga (red, target detenido, retención de receivers).
- •14:00–17:00 Upgrades de Quick EDD: compatibilidad, rollback. Runbook completo Quick EDD.
Material: Quick EDD — Para Soporte Senior.
Días 13–15 — Connect CDC (deep)
Día 13 — RCA y separación de cuellos
- •9:00–13:00 Lag persistente: separar captura, motor, destino.
- •14:00–17:00 Pérdida o duplicado de filas: pseudo-2PC, idempotencia destino.
Día 14 — Performance tuning
- •9:00–13:00 Lado IBM i (receivers, paralelismo, prioridad subsystem).
- •14:00–17:00 Lado motor + destino (Kafka, Snowflake, RDBMS).
Día 15 — Schema evolution + escenarios complejos
- •9:00–13:00 Schema evolution con compatibilidad hacia atrás. Re-sync end-to-end.
- •14:00–17:00 Migraciones del motor, HA del motor, upgrades coordinados con IBM i. Runbook completo Connect CDC.
Material: Connect CDC — Para Soporte Senior.
Días 16–17 — Flash For i + entregable de cierre
Día 16 — Recovery + integración avanzada
- •9:00–13:00 Recovery desde snapshot (parcial y completo).
- •14:00–17:00 Coordinación con HA: backup desde target de Quick EDD. Riesgos de inconsistencia.
Día 17 — Performance + entregable
Mañana (4 h)
- •9:00–10:30 Tiempo de FlashCopy, IPL del clon, SAVE21.
- •11:00–13:00 Runbook completo Flash For i. Casos límite.
Tarde (3 h) — Entregable de cierre
- •14:00–17:00 Presentación de un post-mortem real (uno de los 5 RCAs entregados).
Material: Flash For i — Para Soporte Senior, Entregable — Track Senior.
Días 18–22 (opcional)
- •Laboratorio de incidentes históricos extendido (5 casos completos con timeline, evidencia, RCA, remediación).
- •Sesiones de actualización de runbooks de L1 en base a aprendizajes.
- •Sit-in en cases reales con clientes Tier 1.
Recursos del track
- •Track Soporte Senior — overview
- •Runbooks
- •Glosario
- •Cheatsheet de comandos
- •Anexo de seguridad
- •Recursos — Redbooks (PowerHA Cookbook SG24-7739, Best Practices SG24-8234)