Runbook — Assure Quick EDD
Para cada incidente: síntoma observable, evidencia mínima a recolectar, flujo de diagnóstico inicial (lo que un L1 puede hacer) y criterio de escalado al senior o al fabricante.
Convenciones: ⚠️ = acción que puede afectar producción, no la haga un L1 sin aprobación.
RB-QE-001 — Apply lag elevado / persistente
Síntoma
Dashboard de Quick EDD muestra lag creciente entre source y target. Alertas por email/SNMP de "apply lag exceeds threshold".
Evidencia a recolectar
- •Captura del dashboard mostrando lag actual e histórico.
- •
WRKACTJOB SBS(quickedd_subsystem)en target (estado de los apply jobs). - •
WRKDSKSTSen target (utilización de disco). - •
WRKSYSACTen target (CPU saturada?). - •Estado de la red entre source y target (latencia, drops).
- •Joblog del job de apply.
Flujo de diagnóstico inicial (L1)
- •
Confirmar que los apply jobs están activos (no
*MSGWni*HLD).WRKACTJOB SBS(QEDDSBSYS)→ Salida esperada: ver jobs con status
ACTIVE. ColumnaSTSdebe mostrarRUNoDEQW. Si algún job aparece enMSGW→ ese job tiene un mensaje pendiente que bloquea el proceso. Anotar el nombre de job y el mensaje antes de escalar. Si apareceHLD→ el job está en hold; capturar joblog antes de liberar. - •
Verificar utilización de CPU y disco en target.
WRKSYSACT→ CPU acumulada al 80% o más sostenida durante más de 10 minutos indica saturación. Presionar F5 para refrescar. Si supera el 90%, notificar al senior inmediatamente.
WRKDSKSTS→ Revisar columna
% USEDde cada unidad de disco (ASP 1). Si supera el 80%, riesgo real. Si supera el 90%, escalación urgente. - •
Verificar latencia de red entre source y target.
PING RMTSYS(ip_o_nombre_del_target)→ Tiempos de respuesta menores a 5 ms son normales en red LAN. Más de 20 ms en una red LAN es anómalo. Si hay pérdida de paquetes (timeout), escalar a redes.
- •
Revisar QSYSOPR en source y target en la franja del incidente.
WRKMSG MSGQ(QSYS/QSYSOPR)→ Buscar mensajes con severidad 40 o mayor en la franja del incidente. Anotar IDs de mensaje y timestamps.
- •
Si el lag es por una operación masiva conocida (carga de batch, mass update), documentar y monitorear. → Si el lag supera los 300 segundos y sigue creciendo después de confirmar que los jobs están activos y la infraestructura está sana, escalar al senior.
Criterio de escalado
- •Lag persistente >300 segundos por más de 30 minutos sin causa operativa conocida.
- •CPU/disk al 90% o más sostenido en target.
- •Apply jobs en
*MSGWcon mensaje no documentado en este runbook.
RB-QE-002 — Apply job inactivo / subsystem caído
Síntoma
Alerta "inactive subsystem" o "process not running". El target deja de aplicar.
Evidencia a recolectar
- •
WRKSBSen target (estado del subsystem de Quick EDD). - •
WRKACTJOB SBS(...)en target. - •QSYSOPR en target.
- •Joblog del subsystem.
Flujo de diagnóstico inicial (L1)
- •
Verificar si el subsystem está down.
WRKSBS→ En la lista buscar el subsystem de Quick EDD (nombre típico:
QEDDSBSYSo el definido en la instalación del cliente). ColumnaSTATUSdebe mostrarACTIVE. Si diceINACTIVEo no aparece, está caído. - •
Si está down: capturar el último joblog antes de tomar cualquier acción.
DSPJOBLOG JOB(nombre_job_subsystem) OUTPUT(*PRINT)→ Buscar en el joblog el último mensaje con severidad 40+ antes de la terminación. Ese mensaje es el punto de partida para el RCA.
- •
Revisar QSYSOPR para mensajes que dispararon el down.
WRKMSG MSGQ(QSYS/QSYSOPR) SEQ(*NEW)→ Buscar mensajes como
CPF1080(subsystem ended),CPF1240(out of memory), o mensajes de hardware en la franja del incidente. - •
⚠️ Reinicio del subsystem solo si hay procedimiento aprobado y ventana operativa OK.
STRSBS SBSD(QEDD/QEDDSBSYS)→ Confirmar que el subsystem levantó volviendo a ejecutar
WRKSBS. El status debe volver aACTIVEen menos de 60 segundos. Si no levanta, NO reintentar — escalar.
Criterio de escalado
- •Subsystem no levanta tras un intento estándar.
- •Joblog muestra error de hardware / OS / autoridad.
- •Más de un intento fallido.
RB-QE-003 — Object not journaled (objeto nuevo en producción)
Síntoma
Alerta "object not journaled" o "object cannot be replicated". Aparece tras un release de aplicación.
Evidencia a recolectar
- •Nombre exacto del objeto y biblioteca (típicamente en la alerta).
- •
DSPFD FILE(LIB/OBJ)para confirmar estado de journaling del archivo. - •Owner del objeto y fecha de creación.
- •Confirmación con el equipo de aplicación si fue un release reciente.
Flujo de diagnóstico inicial (L1)
- •
Confirmar el estado de journaling del objeto.
DSPFD FILE(MILIB/MITABLA)→ Buscar la sección "Journaling information". El campo
Journaleddebe decirYes. Si diceNo, el archivo no está journaled. Anotar también el nombre del journal y la biblioteca del journal si están listados. - •
Identificar si es un objeto nuevo (post-release) o uno que se removió del journal.
DSPOBJD OBJ(MILIB/MITABLA) OBJTYPE(*FILE)→ El campo
Object creation dateconfirma cuándo se creó. Comparar con la fecha del último release. - •
Notificar al equipo de aplicación.
- •
⚠️ Iniciar journaling con
STRJRNPFsolo bajo procedimiento aprobado y con autoridad correspondiente.STRJRNPF FILE(MILIB/MITABLA) JRN(MILIB/MIJRN) IMAGES(*BOTH) OMTJRNE(*OPNCLO)→ Confirmar éxito con
DSPFD FILE(MILIB/MITABLA)— el campoJournaledahora debe decirYes. - •
Documentar en el ticket con el objeto y la causa raíz (release sin
STRJRNPF).
Criterio de escalado
- •Si el objeto tiene contenido productivo y no estuvo journaled desde su creación: escalado a senior por riesgo de inconsistencia.
- •Si la cantidad de objetos sin journaling es grande: escalación a aplicación + senior.
RB-QE-004 — Authority error sobre objeto
Síntoma
Alerta "authority not sufficient" en operación normal de Quick EDD. Replicación o auditoría de un objeto falla.
Evidencia a recolectar
- •Nombre exacto del objeto y biblioteca.
- •Perfil con el que corre Quick EDD.
- •
DSPOBJAUT OBJ(LIB/OBJ)— autoridades vigentes. - •
DSPUSRPRF QUICKEDD_PROFILE(o el perfil real) — autoridades del perfil.
Flujo de diagnóstico inicial (L1)
- •
Verificar las autoridades actuales sobre el objeto.
DSPOBJAUT OBJ(MILIB/MITABLA) OBJTYPE(*FILE)→ Buscar la entrada del perfil de Quick EDD (nombre definido en la instalación, típicamente algo como
QEDDUSERo el nombre del cliente). El perfil debe tener*CHANGEo*ALLsobre el archivo. Si no aparece o tiene*EXCLUDE, ese es el problema. - •
Confirmar si es objeto nuevo (release reciente) o histórico.
DSPUSRPRF QEDDUSER→ Revisar que el perfil de Quick EDD tiene
*ALLOBJo las autoridades de objeto necesarias según el diseño de seguridad del cliente. También confirmar que el perfil está*ENABLED. - •
Documentar en ticket. ⚠️ No otorgar autoridades sin procedimiento aprobado.
Criterio de escalado
- •Objeto productivo crítico: escalación inmediata.
- •Cambio de modelo de autoridades en el cliente: senior + aplicación.
RB-QE-005 — Receiver threshold (journal receiver lleno)
Síntoma
Alerta "journal receiver near threshold" o "no space" sobre journal receivers en source o target.
Evidencia a recolectar
- •
WRKJRNen el sistema afectado. - •
WRKJRNRCV JRN(LIB/JRN)para ver receivers, tamaño y estado. - •
WRKDSKSTSpara utilización de disco. - •Política de purga vigente (
DSPJRN JRN).
Flujo de diagnóstico inicial (L1)
- •
Identificar el journal y listar los receivers.
WRKJRNRCV JRN(MILIB/MIJRN)→ La lista muestra todos los receivers con su tamaño y estado. El receiver activo (marcado como
ATT) es el que está creciendo. Receivers con estadoONLy libres pueden purgarse según política. Receivers con estadoSAVya fueron salvados. - •
Verificar el threshold configurado y el tamaño actual.
DSPJRN JRN(MILIB/MIJRN)→ Buscar el campo
Threshold— es el tamaño máximo permitido antes de que se genere un mensaje de alerta. Comparar con el tamaño actual del receiver activo. - •
Verificar utilización de disco.
WRKDSKSTS→ Si el
% USEDdel ASP donde viven los receivers supera el 80%, el riesgo es alto. Por encima del 85% se debe actuar sin demora. - •
⚠️
CHGJRN JRN(...) JRNRCV(*GEN)para encadenar a un receptor nuevo — solo bajo procedimiento aprobado.CHGJRN JRN(MILIB/MIJRN) JRNRCV(*GEN)→ Esto cierra el receiver actual y crea uno nuevo automáticamente. Confirmar con
WRKJRNRCV JRN(MILIB/MIJRN)que apareció un nuevo receiver en estadoATT. - •
Verificar si hay receivers viejos que se pueden purgar (verificar política de retención antes).
DLTJRNRCV JRNRCV(MILIB/JRNRCV0001) DLTOPT(*IGNINQMSG)→ Solo ejecutar si el receiver ya está salvado (estado
SAV) y si la política de retención lo permite. Confirmar con Quick EDD que ese receiver ya no es necesario para catch-up.
Criterio de escalado
- •Disco al 85% o más en source o target.
- •Política de purga rota (receivers viejos no eliminados automáticamente).
- •Encadenamiento manual fallido.
RB-QE-006 — Divergencia detectada por auditoría
Síntoma
Auditoría programada o on-demand reporta diferencia entre source y target sobre uno o más objetos. Quick EDD intenta auto-reparar (típicamente lo hace), pero queda registrado.
Evidencia a recolectar
- •Reporte de auditoría completo.
- •Lista de objetos divergentes.
- •Joblog de auditoría.
- •Cambios recientes (releases, manuales) en source o target.
Flujo de diagnóstico inicial (L1)
- •
Verificar si la auditoría ya reparó automáticamente. → El reporte de auditoría incluye una sección de "repaired objects". Si el objeto aparece ahí, la auto-reparación funcionó. Documentar de todas formas.
- •
Verificar el estado del objeto en ambos sistemas.
DSPOBJD OBJ(MILIB/MITABLA) OBJTYPE(*FILE)→ Ejecutar en source y en target. Comparar
Object size,Last change date, yNumber of records(para PFs). Si difieren y la auditoría no reparó, escalar. - •
Revisar journal entries recientes en source para ver qué operaciones ocurrieron sobre el objeto.
DSPJRN JRN(MILIB/MIJRN) RCVRNG(*CURCHAIN) JRNCDE(R) ENTTYP(PT UB) FILE((MILIB/MITABLA))→
JRNCDE(R)filtra entradas de tipo record operation. Buscar INSerts, UPDates, DELetes recientes. Si hay operaciones masivas recientes, puede explicar la divergencia. - •
Notificar al equipo de aplicación si los objetos son productivos críticos.
- •
Si la auto-reparación falló: escalación a senior.
Criterio de escalado
- •Divergencias persistentes que no auto-resuelven.
- •Patrón sospechoso (mismo objeto recurrente) → posible problema de aplicación o de configuración.
RB-QE-007 — Comunicación caída entre source y target
Síntoma
Alerta "lost connection" o "communication error". Apply lag empieza a crecer indefinidamente.
Evidencia a recolectar
- •
PINGdesde source a target y viceversa. - •
NETSTATambos lados. - •Estado del subsystem de Quick EDD ambos lados.
- •Logs de red corporativa si existen.
- •Eventos en sitio (mantenimiento, change control vigente).
Flujo de diagnóstico inicial (L1)
- •
Verificar conectividad básica desde source hacia target.
PING RMTSYS('ip_del_target')→ Si el ping responde, la conectividad IP básica existe. Anotar el tiempo de respuesta. Si no responde, la conexión está caída — escalar a redes inmediatamente.
- •
Verificar puertos de Quick EDD desde source al target (si hay herramienta disponible).
STRTCPSVR SERVER(*INETD) NETSTAT OPTION(*CNN)→ En
NETSTAT *CNNbuscar conexiones establecidas hacia la IP del target en el puerto que usa Quick EDD (típicamente definido en la configuración del producto). Si no aparecen conexionesESTABLISHED, la sesión TCP cayó. - •
Verificar subsistemas activos en ambos lados.
WRKSBS→ Confirmar que el subsystem de Quick EDD está
ACTIVEtanto en source como en target. - •
Consultar change control — ¿hay cambio de red, firewall, certificado? → Si hay un change control activo que involucra red o firewall, coordinarlo con el equipo responsable antes de hacer cualquier reinicio.
- •
Documentar eventos con timestamps exactos.
Criterio de escalado
- •Conectividad caída sin causa clara → networking + senior.
- •Si el corte es prolongado y se acerca al límite de retención de receivers → riesgo de catch-up imposible. Si el corte supera el 70% de la ventana de retención configurada, escalar con urgencia.
RB-QE-008 — Switch (role-swap) fallido o incompleto
Síntoma
⚠️ Incidente crítico. Procedimiento de switch no completó las etapas. Producción puede haber quedado en estado inconsistente.
Evidencia a recolectar
- •
Log completo de la ejecución del switch.
- •
Estado actual de subsystems en ambos nodos.
WRKSBS→ Ejecutar en ambos nodos. Anotar qué subsystems están
ACTIVEy cuálesINACTIVE. Buscar si Quick EDD está corriendo en ambos nodos simultáneamente (estado inválido). - •
Estado de servicios de aplicación (¿están arriba en el nuevo nodo?).
- •
Estado de DNS / IPs si aplica.
- •
Joblogs de Quick EDD ambos lados.
WRKACTJOB SBS(QEDDSBSYS) OUTPUT(*PRINT)→ En ambos nodos. Capturar la salida completa.
Flujo de diagnóstico inicial (L1)
- •No tomar acciones unilaterales. Es incidente de senior + manager + cliente.
- •Documentar el estado exacto de cada componente con screenshots y joblogs.
- •Notificar al senior y al cliente inmediatamente.
Criterio de escalado
- •Siempre escalado inmediato — no es incidente para L1 resolver.
RB-QE-009 — Auto-reparación detenida (audit no repara)
Síntoma
Auditoría detecta divergencia y reporta "could not auto-repair". El objeto queda en hold o flag.
Evidencia a recolectar
- •Reporte de auditoría con detalle del fallo.
- •Atributos del objeto en source y target (
DSPOBJDambos lados). - •Autoridades.
- •Locks activos en target (
WRKOBJLCK).
Flujo de diagnóstico inicial (L1)
- •
Verificar lock en target — ¿alguien estaba usando el objeto?
WRKOBJLCK OBJ(MILIB/MITABLA) OBJTYPE(*FILE)→ Si hay locks de tipo
*EXCLRDo*EXCL, algún job tiene el archivo abierto en modo exclusivo. Anotar qué job tiene el lock. Si el lock es transitorio (job de aplicación), esperar y reintentar. Si el lock es persistente, escalar. - •
Verificar autoridades en target.
DSPOBJAUT OBJ(MILIB/MITABLA) OBJTYPE(*FILE)→ El perfil de Quick EDD debe tener al menos
*CHANGEsobre el objeto en target para poder reparar. - •
Verificar integridad del objeto en target.
CHKOBJ OBJ(MILIB/MITABLA) OBJTYPE(*FILE)→ Si el comando retorna error (objeto dañado), escalar inmediatamente — no intentar reparar sin senior.
- •
Documentar y escalar.
Criterio de escalado
- •Cualquier caso fuera del checklist anterior → senior.
RB-QE-010 — Upgrade de Quick EDD: post-upgrade check fallido
Síntoma
Tras un upgrade del producto (planeado), aparecen comportamientos anómalos: lag inusual, validación de auditoría fallida, alertas nuevas.
Evidencia a recolectar
- •Versión exacta antes y después del upgrade.
- •Release notes del upgrade aplicado.
- •Joblogs del subsystem post-upgrade.
- •QSYSOPR durante y después del upgrade.
Flujo de diagnóstico inicial (L1)
- •
Confirmar que el upgrade ejecutó todos los pasos documentados.
DSPPTF LICPGM(producto_quickedd)→ Verificar que los PTFs incluidos en el upgrade están instalados y en estado
PRM(permanent). Si alguno está en estadoTMP(temporary), el upgrade no se aplicó permanentemente. - •
Verificar requisitos del nuevo release (versión IBM i, TR, PTFs).
DSPSYSVAL SYSVAL(QOSPF) DSPSFWRSC→
DSPSFWRSClista los productos instalados con sus versiones. Confirmar que la versión de IBM i y el TR vigente cumplen los requisitos mínimos listados en las release notes del upgrade. - •
Verificar el subsystem post-upgrade.
WRKACTJOB SBS(QEDDSBSYS)→ Los jobs deben estar
ACTIVE. Si hay jobs nuevos que no reconocés, consultar las release notes — pueden ser features nuevos del upgrade. - •
Documentar discrepancias entre lo esperado (release notes) y lo observado.
Criterio de escalado
- •Cualquier indicador de regresión funcional post-upgrade → senior + Precisely Support.
Anexo — convenciones de escalado a Precisely Support
Cuando se abre un case con Precisely Support — Assure Quick EDD, incluir siempre:
- •Versión IBM i + TR (ambos sistemas).
- •Versión Quick EDD (ambos sistemas).
- •Modelo Power y firmware.
- •Descripción reproducible del problema.
- •Joblogs y outputs recolectados.
- •Ventana del incidente (timestamps).
- •Criticidad (P1 / P2 / P3 / P4) según contrato del cliente.
Plantilla de comunicación P1
Usar cuando el incidente es P1 (producción caída o en riesgo real de pérdida de datos). Enviar por email y por el canal de guardia definido en el contrato del cliente.
ASUNTO: [P1] Quick EDD — [cliente] — [descripción breve] — [timestamp]
CLIENTE: [nombre]
PRODUCTO: Assure Quick EDD v[versión]
ENTORNO: Source [hostname/IP IBM i] → Target [hostname/IP IBM i]
INICIO DEL INCIDENTE: [fecha y hora con timezone]
DETECTADO POR: [quién detectó — alerta automática / usuario / soporte]
IMPACTO:
- [Describe el impacto en producción: replicación detenida, riesgo de datos, etc.]
- Lag actual: [valor] segundos / minutos
ESTADO ACTUAL:
- [Qué está pasando ahora mismo]
- Acciones ya ejecutadas: [lista de comandos corridos y resultados]
EVIDENCIA RECOLECTADA:
- [x] Joblog del subsystem Quick EDD — adjunto
- [x] WRKACTJOB output — adjunto
- [x] WRKDSKSTS output — adjunto
- [x] QSYSOPR — adjunto
- [ ] [Lo que aún falta]
PRÓXIMA ACCIÓN:
- Esperando instrucción de [senior / cliente / Precisely Support]
CONTACTO GUARDIA SOPORTE SENIOR: [nombre y celular]
CONTACTO CLIENTE (técnico): [nombre y celular]