Caso de uso — Banco mediano sin HA sobre IBM i
Contexto
Industria: banca de retail mediana, ~150 sucursales. Plataforma: IBM Power S922 con IBM i 7.4 TR9. Una LPAR productiva única para core bancario, otra para batch nocturno. Aplicativo crítico: core bancario propietario en RPG IV / DB2 for i, con ~3 TB de datos productivos. Window operativa 24×6 (domingos noche con ventana acotada para mantenimiento). Equipo: dos administradores de IBM i de larga trayectoria, un DBA, infra externalizada.
Situación inicial (síntoma)
El banco está pasando una auditoría regulatoria. El auditor observa que:
- •No hay un plan de continuidad operativa probado sobre el core bancario.
- •El sitio principal es único — sin DR remoto.
- •El backup nocturno con BRMS sobre cinta tarda 6 horas y crece cada año.
- •La última prueba de restore fue hace 18 meses y no se documentó.
El CIO escala el tema y pide propuestas. Comercial llega via referido con una conversación corta: "Tenemos que demostrar continuidad ya. ¿Qué nos podés ofrecer?".
Discovery con preventa
Preguntas calificadoras aplicadas
(Ver Quick EDD — Para Comercial.)
| Pregunta | Respuesta del cliente | |---|---| | ¿Tienen RTO y RPO definidos? | RTO 4 horas, RPO 30 minutos (definidos por riesgo regulatorio). | | ¿Tienen sitio secundario? | Sí, un data center en otra ciudad para infraestructura corporativa, sin IBM i hoy. | | ¿Cuánto cuesta una hora de downtime? | ~50.000 USD según estimaciones internas. | | ¿Qué versión de IBM i y TR? | 7.4 TR9. | | ¿Están todos los objetos críticos journaled? | "Los principales sí, los nuevos del último release no estamos seguros." | | ¿Hay solución HA hoy? | No. | | ¿Db2 Mirror? | No, no la conocen. | | ¿Qué hardware tienen disponible para target? | Hay un Power S914 nuevo en sitio secundario, asignado al proyecto. |
Datos técnicos relevados
- •Power S922 productivo, 4 cores activos, 256 GB RAM, storage interno SAS + IASP de 1 TB.
- •Power S914 en sitio secundario, 4 cores, 128 GB RAM, storage interno SAS.
- •Conectividad entre sitios: enlace MPLS de 100 Mbps con latencia ~12 ms.
- •Volumen de cambios: ~5 GB de receivers/día.
- •Bibliotecas productivas: 12, suman ~3 TB.
Hallazgos críticos
- •Journaling parcial — varias tablas críticas del último release no quedaron journaled.
- •Sin HA documentado.
- •Ventana de backup creciente que ya está rozando el corte operativo.
Solución propuesta
Arquitectura
Quick EDD HA + DR combinado:
- •Source: Power S922 (sitio principal).
- •Target HA local: ninguna LPAR adicional en sitio principal — se omitió por costos. (En segunda iteración, se podría sumar.)
- •Target DR remoto: Power S914 (sitio secundario), recibiendo replicación lógica desde el source vía MPLS.
- •Topología: 1 → 1 (DR remoto único), futuro upgrade a 1 → 2 con HA local.
Productos en scope
- •Assure Quick EDD sobre source y target.
- •BRMS existente en source — sigue como está.
- •(Recomendación adicional: evaluar Flash For i en una segunda fase para resolver la ventana de backup nocturna sin afectar el core. No incluido en esta propuesta inicial para mantener foco.)
Sizing
- •Storage adicional para receivers en source: +200 GB con política de retención de 7 días.
- •CPU/memoria en target: suficiente para apply en régimen normal, monitoreado.
- •Ancho de banda: 100 Mbps con headroom; 5 GB/día en horas pico = ~10 minutos de transferencia, OK con margen.
- •RTO objetivo: < 30 minutos con switch automatizado.
- •RPO objetivo: < 1 minuto en condición normal.
Plan de implementación (alto nivel)
- •Fase 0 — Saneamiento previo (4 semanas)
- •Relevamiento exhaustivo de objetos por biblioteca productiva.
- •Iniciar journaling sobre todos los objetos productivos faltantes (
STRJRNPF— ver Lab Journaling). - •Política de retención de receivers definida.
- •Fase 1 — Instalación y carga inicial (3 semanas)
- •Instalación Quick EDD source + target.
- •Configuración de grupos de replicación por biblioteca.
- •Carga inicial completa source → target.
- •Fase 2 — Operación regular y tuning (2 semanas)
- •Quick EDD operando, monitoreo de lag.
- •Ajustes de paralelismo y subsystems.
- •Auditorías programadas.
- •Fase 3 — Drill de switch (1 semana)
- •Drill de role-swap controlado (ver Lab Role-Swap).
- •Validación end-to-end.
- •Documentación del procedure final.
- •Fase 4 — Pase a producción + handover (2 semanas)
- •Operación supervisada.
- •Capacitación del equipo del cliente (track soporte L1 + senior).
- •Plan de drills periódicos (trimestral).
Tiempo total estimado: 12 semanas.
Riesgos y mitigaciones
| Riesgo | Mitigación | |---|---| | Journaling incompleto detectado a último momento | Fase 0 dedicada explícitamente a esto, con freeze de releases hasta cerrar | | Ancho de banda insuficiente en picos extraordinarios | Política de QoS sobre el enlace + monitoreo proactivo | | Equipo del cliente sin experiencia en role-swap | Drill obligatorio antes de ir a producción + capacitación incluida | | Aplicación con dependencia de IPs hardcodeadas | Relevar y proponer reverse-DNS o capa de servicio antes del swap |
Resultado al cierre del proyecto
- •RPO real medido: < 30 segundos en operación normal.
- •RTO en drill de role-swap controlado: 22 minutos end-to-end (incluyendo validación de aplicación).
- •Auditoría regulatoria aprobada con la evidencia del drill documentada.
- •Reducción del riesgo financiero: 50.000 USD/h de downtime evitado en cualquier incidente que requiera DR.
Lecciones para preventa (qué dejar sin decir hasta que pregunten)
- •No hablar de pricing en discovery — eso es para la propuesta formal.
- •Anticipar la pregunta sobre journaling — es típico que parte del parque no esté journaled, y eso impacta cronograma.
- •Vender el drill como entregable, no como nice-to-have. Es el evento que valida que el cliente "tiene HA real".
- •Sembrar Flash For i para la fase 2 — la ventana de backup que ya rozan es un dolor que se resuelve con M81. No empujar en esta venta para no diluir.
Productos relacionados en el portafolio
- •Quick EDD — solución central de este caso.
- •Flash For i — venta secundaria para la ventana de backup (segunda fase).
- •Connect CDC — eventual, si el banco quiere modernizar reportería con un data lake. No es prioridad ahora.