Soporte L11 día

Módulo 6 — Flash For i

Solución de M81 que automatiza FlashCopy/SnapShot del storage externo desde IBM i, para backups con downtime mínimo, dev/test y refresh de data warehouse.

Conocer **Flash For i** de **M81** como solución que automatiza la integración entre IBM i y los servicios de **FlashCopy / SnapShot** de los storage arrays externos, permitiendo backups del sistema con downtime mínimo y la creación de partition clones para usos secundarios.

Base común — todos los roles

Quién es M81

M81 es un ISV francés especializado exclusivamente en la plataforma IBM i. La empresa se posiciona como un vendor de productos de "sistema y tecnología" para IBM i, con foco en automatización, backups sin impacto en producción y monitoreo. Su escala actual habla de más de 800 instalaciones de Flash for i y más de 900 instalaciones de Control for i en más de 26 países, con más de 750 clientes finales y más de 1.600 LPARs gestionadas. La empresa publica entre 3 y 4 actualizaciones de producto por año y se distingue por un soporte técnico de respuesta rápida.

El portafolio de M81 para IBM i incluye:

•Flash for i — automatización de FlashCopy/SnapShot (foco de este módulo).
•Control for i — conecta los eventos del log de IBM i a herramientas generales de monitoreo, con más de 200 controles plug & play compatibles con Nagios, PRTG y similares.
•Recover for i — backup continuo basado en journaling local.

Qué es Flash for i

Flash for i gestiona, automatiza, controla y reporta todas las operaciones de FlashCopy (IBM Storage: DS8000, FlashSystem, SVC, Storwize) y SnapShot (otros arrays como EMC VMAX/PowerMax/Unity y PureStorage) sobre el storage externo, desde las propias LPARs de IBM i, usando comandos IBM i nativos.

La pieza central es el comando FLCLONE, que desde la partición productiva desencadena todo el proceso de clonado: quiesce del storage, disparo del FlashCopy, arranque de la partición clon y ejecución de las tareas configuradas sobre esa copia. El operador no necesita acceder al storage o al HMC directamente — Flash for i orquesta las conexiones seguras con esos componentes de forma transparente.

Los discos del clon aprovechan la naturaleza de las tecnologías FlashCopy/SnapShot: utilizan solo entre el 5 y el 15 % del espacio del disco original en el momento de la copia, y crecen solo con los bloques que divergen desde ese punto. Esto elimina la necesidad de duplicar el storage completo para tener un clon funcional.

Cómo se inserta en la operación

El flujo completo tiene cuatro fases automatizadas por Flash for i:

•Quiesce del source — se ejecuta el comando CHGASPACT sobre la partición productiva para vaciar la memoria caché a disco y garantizar consistencia del punto en el tiempo antes del snapshot. Esta es una operación rápida que no detiene la aplicación.
•FlashCopy / SnapShot — se dispara el grupo de consistencia en el storage externo. Los volúmenes presentados a la partición clon se convierten en copias exactas e independientes del estado productivo en ese instante.
•Arranque del clon — Flash for i contacta el HMC (o NovaLink) para iniciar la LPAR clon. Antes de que la partición quede activa, Flash for i la hace "inofensiva": detiene los auto-jobs, cambia la IP, ajusta los parámetros del entorno para que no interfiera con producción.
•Ejecución de tareas sobre el clon — por ejemplo, SAVE21 completo, backup incremental, refresh de ambiente de test, o extracción de datos para ETL.

Al finalizar, Flash for i reintegra el log de operaciones a la partición productiva (que puede ser BRMS u otro catálogo) y puede detener la partición clon si ya no se necesita.

Promesa cuantificada

Para entornos IBM i ocupados, un SAVE21 completo puede completarse con apenas dos minutos de downtime sobre la producción. Ese tiempo corresponde al quiesce + FlashCopy, que típicamente tarda alrededor de dos minutos. El backup en sí — que puede durar horas sobre un sistema grande — se ejecuta sobre la partición clon mientras producción opera normalmente con usuarios activos.

El impacto en producción se limita a esos minutos del quiesce inicial. En instalaciones donde el backup nocturno ya no entra en la ventana operativa o el sistema opera 24×7, esta reducción es el argumento técnico central.

Usos del clon (no solo backup)

El clon point-in-time tiene múltiples usos más allá del backup nocturno:

•Ambientes de test y desarrollo con datos productivos reales — sin copias manuales que tardan horas.
•Validación de upgrades, parches, scripts, migraciones antes de tocar producción.
•ETL / refresh de data warehouse desde una copia consistente de producción, sin impacto en los usuarios.
•Anonimización para cumplimiento de GDPR y CCPA — el clon puede tener datos sensibles substituidos antes de exponerse al equipo de desarrollo.
•Generación de múltiples copias simultáneas para diferentes equipos (rollback, compliance, analytics).

Posicionamiento frente a HA

Flash for i no reemplaza una solución de HA como Assure Quick EDD ni un esquema de DR remoto. Es complementario: cubre el problema del backup window y la disponibilidad de un clon point-in-time sobre el mismo data center. La combinación Flash for i + Quick EDD + BRMS es coherente y cubre capas distintas: backup eficiente, HA/DR remoto y gestión de medios.

Soporte L1Para Soporte L1 (1 día)

Objetivo del rol en este módulo: operar la rutina diaria, leer el reporte y escalar bien si algo falla.

Operación normal

•Verificar diariamente que el ciclo Flash for i ejecutó: snapshot disparado, LPAR clon arrancada, SAVE21 completado, log reintegrado a BRMS.
•Revisar el reporte/log generado por el producto.
•Validar contra el dashboard de BRMS que el catálogo de medios esté actualizado.

Fallas comunes que un L1 debe reconocer

•FlashCopy no se disparó — problema con autoridades en storage, pool de target lleno, política de FlashCopy mal configurada.
•LPAR clon no arrancó — recursos no disponibles en el HMC, problemas de IPL del clon.
•SAVE21 falló — drive de tape ocupado, VTL inaccesible, falta de espacio en medios.
•Reintegración a BRMS falló — desincronización del catálogo, ventana cerrada, autoridades.

Recolección de evidencia

•Reporte del ciclo Flash for i.
•Joblog de los jobs de Flash for i en IBM i.
•Mensajes QSYSOPR en la ventana del incidente.
•Estado del storage externo en el momento del fallo.
•Versión de Flash for i instalada.

Comandos para verificar estado del ciclo Flash for i

Ver el estado del último ciclo:

DSPFLSTS

Este comando muestra el estado del último ciclo Flash for i ejecutado: fecha/hora de inicio, fecha/hora de fin, resultado (completado/fallido), pasos ejecutados y duración de cada fase.

Ver el log del ciclo:

DSPFLLOG

Muestra el log detallado del ciclo con timestamps por paso:

Flash for i Cycle Log
  Cycle: 2026-05-08 02:00:00
  -----------------------------------------
  02:00:00  START   Cycle initiated by JOBSCDE
  02:00:01  QUIESCE CHGASPACT started
  02:01:45  QUIESCE CHGASPACT completed (104 sec)
  02:01:46  FLASH   FlashCopy group PRODCOPY initiated
  02:01:52  FLASH   FlashCopy completed (6 sec)
  02:01:53  RESUME  Production resumed
  02:01:55  CLONE   IPL of clone LPAR initiated
  02:08:30  CLONE   Clone LPAR active (395 sec IPL)
  02:08:31  SAVE    SAVE21 started on clone
  04:23:15  SAVE    SAVE21 completed (8,084 sec)
  04:23:16  BRMS    Log reintegration to BRMS started
  04:23:45  BRMS    Log reintegration completed
  04:23:46  SHUTDOWN Clone LPAR shutdown
  04:24:00  END     Cycle completed successfully

Qué buscar en el reporte:

•QUIESCE duration: debería ser <3 minutos. Si es >5 minutos, hay algo reteniendo el flush a disco (objetos con journaling pendiente, IFS pesado).
•FlashCopy duration: debería ser segundos (<30 seg). Si es >1 minuto, hay un problema en el storage (pool de target lleno, firmware issue).
•SAVE21 duration: este es el backup real sobre el clon. Varía según el volumen de datos (puede ser horas), pero no afecta producción porque corre en la LPAR clon.
•Status final: completed successfully vs FAILED at step X.

Mensajes de fallo comunes y primera respuesta

| Mensaje | Significado | Primera respuesta | |---|---|---| | FLC0010 - FlashCopy target pool exhausted | No hay espacio disponible en el pool de FlashCopy del storage. | Verificar el uso del pool de FlashCopy en la consola del storage. Liberar snapshots viejos que ya no se necesitan. | | FLC0025 - CHGASPACT timeout after 600 seconds | El quiesce no se completó en el tiempo máximo. Posible causa: objetos muy grandes en IFS, journal flush pendiente. | Verificar si había jobs con operaciones de I/O masivas al momento del quiesce. Reprogramar el ciclo para una ventana con menos actividad. | | FLC0040 - HMC communication failure | Flash for i no puede comunicarse con el HMC para iniciar la LPAR clon. | Verificar conectividad de red entre la LPAR productiva y el HMC. Verificar que las credenciales de HMC configuradas en Flash for i estén vigentes. | | FLC0055 - Clone LPAR IPL failed | La LPAR clon no arrancó correctamente. | Verificar desde HMC el estado de la LPAR clon. Verificar que los recursos (CPU, memoria) asignados a la LPAR clon estén disponibles. Revisar SRC en panel del clon. | | FLC0070 - SAVE21 ended abnormally on clone | El backup SAVE21 falló en la LPAR clon. | Verificar joblog del SAVE21 en la LPAR clon. Causas comunes: drive de tape ocupado, VTL sin espacio, timeout de comunicación con el medio de backup. | | FLC0085 - BRMS catalog reintegration failed | El log de backup no se pudo incorporar al catálogo BRMS de producción. | Verificar que BRMS esté activo en producción. Verificar que el catálogo no esté corrupto con DSPBRMLOG. Ejecutar la reintegración manualmente si es necesario. |

Cómo escalar a M81

•M81 ofrece soporte directo y vía partners autorizados.
•Adjuntar versión instalada del producto, evidencia recolectada (joblogs, reporte del ciclo, mensajes QSYSOPR), y descripción reproducible del fallo.

Recursos relacionados

Runbook

Runbook — Connect CDC

Los 10 incidentes más frecuentes en operación de Connect CDC (Precisely), con síntoma, evidencia, primer paso y criterio de escalado.

Runbook

Runbook — Flash For i

Los 10 incidentes más frecuentes en operación de Flash For i (M81), con síntoma, evidencia, primer paso y criterio de escalado.

Runbook

Runbook — Assure Quick EDD

Los 10 incidentes más frecuentes en operación de Quick EDD, con síntoma, evidencia, primer paso y criterio de escalado.