Cisco ha introducido una nueva fase en la observabilidad al integrar IA agente en su cartera de Splunk Observability, diseñada para obtener información instantánea y centrada en el negocio a través de redes, aplicaciones y sistemas de IA. Este cambio alinea la telemetría con los resultados empresariales, automatiza el triaje de incidentes y proporciona supervisión especializada para LLM y agentes de IA. El resultado es un enfoque unificado que vincula el estado de las aplicaciones, la experiencia del usuario y las señales de costes a las decisiones operativas, lo que permite a los equipos detectar, investigar y solucionar problemas con mucha más rapidez y contexto que las pilas de supervisión tradicionales.
Cisco Agentic AI Observability impulsa la información empresarial en tiempo real
El anuncio de que Cisco ha infundido Splunk Observabilidad con agentic AI marca un pivote estratégico de registro pasivo y alerta a la proactiva, la observabilidad orientada a los resultados. En este caso, IA agéntica significa sistemas que hacen algo más que señales superficiales: actúan sobre la telemetría para automatizar la recopilación, ajustar las alertas y recomendar o incluso aplicar soluciones. Esta capacidad replantea la observabilidad como un socio operativo, no sólo como un panel de control.
Desde el punto de vista de la ingeniería y la ciberresiliencia, las implicaciones son amplias. Las empresas que ejecutan pilas híbridas -que abarcan microservicios nativos de la nube, aplicaciones heredadas de tres niveles y servicios de IA integrados- ahora necesitan telemetría correlacionada que respete las prioridades técnicas y empresariales. La integración de Cisco de Splunk AppDynamics y Splunk Observability Cloud tiene como objetivo proporcionar esa correlación, manteniendo la compatibilidad con estándares como OpenTelemetry para facilitar la migración de proveedores y la continuidad de los datos.
Entre los cambios técnicos clave introducidos por la observabilidad de la IA agéntica se incluyen:
- Orquestación automatizada de telemetría-agentes que descubren dónde faltan métricas, trazas y registros y orquestan la recopilación sin instrumentación manual.
- Alertas contextuales-alertas priorizadas en función del impacto en la empresa (por ejemplo, fallos en la comprobación frente a latencia de trabajos en segundo plano).
- Orientación adaptativa-Correcciones sugeridas por la IA a partir de incidentes históricos y líneas de base conocidas.
- Telemetría con inteligencia artificial-Métricas especializadas para validar el comportamiento del LLM, el coste por llamada a la API y la deriva del modelo.
Un ejemplo práctico: una plataforma minorista detecta un aumento del abandono de carritos. La observabilidad tradicional revelaría tasas de error elevadas y un aumento de la latencia. La Inteligencia Artificial Agentic aumenta esto correlacionando automáticamente los errores con un despliegue reciente, asignando las transacciones afectadas a los procesos de negocio críticos para los ingresos y sugiriendo una reversión o un modelado del tráfico específico hasta que se aplique una corrección del código. Esta priorización del contexto empresarial contrasta fuertemente con muchas herramientas tradicionales que presentan señales brutas sin clasificación de impacto.
El contexto comparativo de los proveedores es importante. Mientras que empresas como New Relic, Datadog, Dynatrace, Elástico y IBM Instana han invertido fuertemente en la observabilidad y la detección de anomalías basada en ML, el enfoque de Cisco hace hincapié en la automatización agéntica y una mayor alineación con las métricas de negocio a través de las capacidades de Splunk AppDynamics. Simultáneamente, especialistas como Panal y Amazon CloudWatch ofrecen puntos fuertes en cuanto a capacidad de consulta e integración profunda con plataformas específicas en la nube, lo que pone de manifiesto que persisten las estrategias multiherramienta.
Lista de beneficios operativos inmediatos previstos:
- Menor tiempo medio hasta la detección (MTTD) gracias a la recogida proactiva de telemetría.
- Reducción del tiempo medio hasta la resolución (MTTR) mediante flujos de trabajo de causas raíz guiados por IA.
- Reducción del ruido de alerta agrupando y resumiendo las señales ruidosas en episodios.
- Visibilidad de costes para cargas de trabajo de IA, alineando el gasto en la nube con los resultados empresariales.
Para los equipos que se enfrentan a una sobrecarga de señales, la promesa es clara: reducir el trabajo repetitivo y reorientar a los ingenieros hacia la innovación de productos. En la siguiente sección se detalla cómo la IA agéntica hace operativa la gestión de incidencias y el análisis de la causa raíz con funciones concretas y disponibilidad.
Cisco Splunk Observability: Inteligencia Artificial Agéntica para Respuesta a Incidentes y Análisis de Causa Raíz
La integración de la IA agéntica en Splunk Observability está diseñada para abordar el ciclo de vida completo de los incidentes: detección, correlación, investigación y remediación. Varias capacidades con nombre propio ilustran esta tendencia: Agentes de resolución de problemas de IA, Evento iQ para la correlación automática de alertas, y Resumen de episodios ITSI. Cada una de estas funciones reduce la carga cognitiva de los operadores al tiempo que aumenta la fidelidad de la información.
Los AI Troubleshooting Agents operan dentro de las plataformas Observability Cloud y AppDynamics para analizar automáticamente las incidencias. Procesan trazas, registros y métricas conjuntamente para proponer probables causas raíz y pasos de remediación. Estos agentes pueden:
- Recopile telemetría adicional bajo demanda, como trazas ampliadas o registros de depuración.
- Clasificar las causas raíz probables utilizando patrones históricos de incidentes.
- Sugerir pasos prioritarios y puntuaciones de confianza para cada recomendación.
Event iQ aborda un problema perenne: el ruido de las alertas. Al agrupar las alertas relacionadas y reducir las duplicadas, Event iQ crea una narración coherente del incidente. Para los equipos de SRE e ITOps, esto significa menos ingenieros llamados a las 2 de la mañana y más tiempo para la ingeniería de fiabilidad proactiva.
A continuación, ITSI Episode Summarization convierte las alertas agrupadas en resúmenes consumibles que muestran las tendencias, los impactos y las causas raíz hipotéticas. Esta función acelera el traspaso del personal de guardia a los ingenieros responsables de las soluciones a largo plazo.
Disponibilidad de funciones, aplicabilidad y mapa competitivo
Una matriz concisa pone de relieve cómo estas características de observabilidad agéntica se alinean con las necesidades operativas y cómo se relacionan con otras ofertas del mercado.
Característica | Beneficio operacional | Disponibilidad |
---|---|---|
Agentes de resolución de problemas de IA | Sugerencias automatizadas sobre las causas principales, aumento de la telemetría | Disponible en Splunk Observability Cloud & AppDynamics (GA/Preview) |
Evento iQ | Correlación de alertas y reducción del ruido | Se ofrece en Splunk ITSI (GA) |
Resumen de episodios ITSI | Alertas agrupadas con tendencias e impacto | Vista previa alfa/privada de algunas funciones |
Los equipos operativos deben tener en cuenta que algunas capacidades están en fase alfa o de vista previa privada, mientras que otras están disponibles de forma general. Planificar la adopción por fases -empezando por entornos que no son de producción- ayuda a validar la eficacia y los controles de gobernanza. Este enfoque por etapas refleja los despliegues típicos de las empresas, especialmente cuando se permite a los agentes de IA realizar acciones automatizadas.
Los escenarios prácticos demuestran el valor rápidamente:
- Servicios financieros: correlación automática de la migración de una base de datos con los fallos en las transacciones, con un resumen de episodios para el equipo de conformidad.
- Telecomunicaciones: Un agente de inteligencia artificial detecta un desvío de configuración en un equilibrador de carga que causa interrupciones regionales y recomienda una reversión selectiva de la configuración.
- Plataforma sanitaria: Event iQ suprime una avalancha de alertas relacionadas durante un trabajo por lotes programado, evitando escaladas innecesarias.
Estas capacidades encajan con las mejores prácticas de observabilidad y complementan las cadenas de herramientas existentes de Datadog, Dynatrace y New Relic. Integración con estándares abiertos, como OpenTelemetry-y los agentes AppDynamics existentes permite a las organizaciones adoptar la observabilidad agéntica de forma incremental al tiempo que se protegen las inversiones previas.
A medida que los equipos validan estas características, surgen cuestiones de gobernanza: ¿cuándo debe permitirse a los agentes de IA tomar medidas correctivas automatizadas y cómo deben construirse las salvaguardas de reversión? En las secciones siguientes se analiza la observabilidad de las cargas de trabajo de IA y los marcos de gobernanza que operacionalizan la confianza.
Cisco Observability for AI: Supervisión de LLM, agentes e infraestructura a escala
La observabilidad debe adaptarse a la llegada de los LLM y los flujos de trabajo agénticos dentro de las aplicaciones empresariales. La supervisión de modelos es materialmente diferente de la supervisión de microservicios sin estado: los modelos tienen dimensiones de calidad, coste y comportamiento que requieren telemetría especializada. Los avances de Splunk de Cisco introducen Supervisión de agentes de IA y Supervisión de infraestructuras de IA para obtener métricas de superficie como la latencia de la inferencia, los costes de los tokens, la deriva del modelo y la calidad de la consulta.
Consideremos un minorista hipotético, Aurora Retail, que despliega un agente de recomendación basado en LLM en los canales web y de atención telefónica. Sin una observabilidad consciente de la IA, problemas como la degradación de la relevancia, las alucinaciones inesperadas o los picos de costes pueden pasar desapercibidos hasta que los KPI empresariales se resientan. Con la observabilidad agéntica, Aurora puede:
- Controle la precisión de las recomendaciones comparando los resultados del modelo con los resultados conocidos.
- Alerta sobre la deriva semántica cuando la distribución de los datos de formación diverge de la entrada de producción.
- Supervise el coste por consulta y reduzca automáticamente las rutas de inferencia costosas.
Entre las métricas prácticas que deben instrumentarse para los LLM y los agentes se incluyen:
- Métricas de calidad: proxies de precisión/recuerdo, ratios de retroalimentación humana, puntuaciones de coherencia de respuesta.
- Métricas operativas: percentiles de latencia de inferencia, límites de concurrencia, tasas de reintento.
- Métricas de costes: tokens por solicitud, frecuencia de selección de modelos, consumo de horas GPU por servicio.
La supervisión de la infraestructura de IA se centra en el estado y el consumo de las GPU, los clústeres de servicio de modelos y los orquestadores. Alerta sobre cuellos de botella (por ejemplo, saturación de GPU) y anticipa picos que podrían cambiar materialmente el coste operativo. Estas señales se incorporan a la planificación de la capacidad y pueden activar automáticamente estrategias de escalado o recuperación en modo degradado.
Una lista de pasos recomendados para que los equipos adopten la observabilidad de la IA:
- Inventariar los activos de IA (modelos, puntos finales, agentes) y asignarlos a los procesos empresariales.
- Definir objetivos de calidad para los resultados del modelo en términos empresariales (elevación de la conversión, consultas satisfechas).
- Telemetría instrumental para la calidad, el coste y la salud de las infraestructuras mediante colectores compatibles con OpenTelemetry.
- Despliegue monitores agénticos en entornos de previsualización para validar la fidelidad de las alertas antes del despliegue en producción.
- Establezca puertas de revisión para las acciones automatizadas y defina vías de escalado humanas.
Integración con otras herramientas de observabilidad y análisis, como Elástico, Panal y las soluciones APM heredadas- pueden ofrecer puntos de vista complementarios. Por ejemplo, Elastic puede utilizarse para análisis forenses con muchos registros, mientras que Honeycomb ofrece seguimiento basado en eventos para casos de uso de alta cardinalidad en los que las entradas del modelo varían mucho.
En la práctica, la supervisión de la IA a escala es tanto organizativa como técnica. El equipo de SRE de Aurora Retail descubre que correlacionar una caída de 15% en la relevancia de las recomendaciones con un cambio en la canalización de datos reduce la pérdida de ingresos en un solo día laborable. Esto demuestra que la observabilidad de la IA protege directamente los ingresos y la reputación de la marca, y debe integrarse en los procesos de gestión de versiones e incidentes.
Visión clave: La observabilidad de la IA convierte el comportamiento opaco de los modelos en señales operativas procesables, lo que permite controlar los costes y garantizar la calidad vinculada a los resultados empresariales.
Observabilidad Unificada de Cisco: Correlación del impacto empresarial, la red y la experiencia del usuario
Una importante propuesta de valor del enfoque de Cisco es unificar la telemetría de aplicaciones con señales de red y de usuario final. Mediante la combinación de Splunk AppDynamics, Splunk Observability Cloud y Cisco ThousandEyes, los equipos pueden rastrear un problema de rendimiento de cara al cliente desde el navegador a través de la red a los servicios de back-end y bases de datos. Esta visibilidad unificada es fundamental para las organizaciones con huellas globales y dependencias complejas de terceros.
Entre las funciones básicas que permiten esta correlación se incluyen:
- Información empresarial-vincula las métricas de la aplicación a procesos empresariales como la caja o la tramitación de préstamos.
- Análisis de la experiencia digital-capta datos detallados del recorrido del usuario para los equipos de producto y diseño.
- Repetición de la sesión para RUM-registra las sesiones de navegador y móvil para reproducir y analizar los problemas de los usuarios.
- Integración de ThousandEyes-correlaciona la experiencia del usuario real con el rendimiento de la red en dominios propios y de terceros.
Esta perspectiva unificada resuelve un rompecabezas familiar: ¿un pico en las tasas de error se debe a microservicios de backend, a una interrupción del proveedor de CDN o a un lanzamiento del lado del cliente mal configurado? Una pila consolidada reduce el tiempo dedicado a cambiar de herramientas y mejora la precisión del análisis de la causa raíz.
Comparaciones con enfoques competidores:
Capacidad | Cisco + Splunk | Fortalezas alternativas |
---|---|---|
Correlación Red-App | Profunda integración de ThousandEyes; trazas de extremo a extremo | Datadog y Dynatrace cuentan con un sólido rastreo de pila completa; ThousandEyes proporciona profundidad de red |
Análisis del recorrido del usuario | Repetición de la sesión + Análisis de la experiencia digital | New Relic y AppDynamics destacan en métricas APM UX |
Observabilidad de la IA | Agente de IA especializado/supervisión de infraestructuras | Capacidad emergente entre Elastic, Honeycomb y los proveedores centrados en la instrumentación personalizada. |
Para los equipos de producto, las funciones de análisis de experiencia digital y reproducción de sesiones permiten formular hipótesis rápidas sobre regresiones de UX sin interrupciones por buscapersonas. Para los equipos de NetOps, la telemetría de red de ThousandEyes aclara si las respuestas lentas de la API están causadas por los proveedores de tránsito o por la degradación del servicio ascendente.
Una breve lista de escenarios operativos que se benefician:
- Comercio electrónico global: Correlacionar la latencia de red específica de una región con el abandono de la compra y adaptar el enrutamiento de borde.
- Servicios financieros: Asigne los tiempos de espera de las transacciones a una incidencia de la pasarela de pago de terceros para agilizar la escalada del proveedor.
- Plataforma SaaS: Utilice la repetición de sesiones para reproducir los bloqueos móviles relacionados con una actualización de la biblioteca, reduciendo el MTTR.
La interoperabilidad sigue siendo una prioridad. El soporte de Cisco para OpenTelemetry y el agente Splunk AppDynamics permite la portabilidad de datos y la coexistencia con otras herramientas de telemetría, incluyendo New Relic, Datadog, Dynatrace, Elástico y IBM Instana. Esto reduce el riesgo de dependencia y permite a las organizaciones crear las mejores arquitecturas de observabilidad.
Idea final para esta sección: la observabilidad unificada que vincula la experiencia del usuario, las redes y los KPI empresariales crea una única fuente de verdad para los equipos multifuncionales, lo que permite tomar decisiones más rápidas y precisas y reducir las escaladas a través de los límites de los proveedores.
Cisco Operationalizing Agentic AI Observability: Gobernanza, seguridad y control de costes
La operacionalización de la observabilidad potenciada por IA agéntica requiere marcos de gobernanza sólidos que abarquen la seguridad, la privacidad, el control de costes y la responsabilidad del modelo. Las empresas deben equilibrar las ventajas de la automatización con controles que protejan los datos y mantengan la auditabilidad. El anuncio de Cisco se ajusta a esta necesidad al ofrecer fases alfa y GA para diferentes funciones, lo que indica un modelo de adopción por fases en el que las capacidades sensibles pueden validarse antes de su despliegue completo.
Componentes clave de la gobernanza que deben aplicarse:
- Políticas de acceso y actuación: definir qué agentes pueden ejecutar la reparación automatizada y en qué condiciones.
- Registros de auditoría: registrar las decisiones de los agentes, las instantáneas de telemetría y las anulaciones de los operadores para garantizar el cumplimiento.
- Vigilancia de la seguridad: garantizar que los agentes de IA y los puntos finales modelo estén cubiertos por la pila de seguridad para detectar usos indebidos o filtración de datos.
- Gobernanza de costes: establecer presupuestos y aplicar reglas de selección de modelos para evitar gastos de inferencia desbocados.
Marcos como la guía de seguridad de IA del NIST proporcionan un punto de partida útil. Los recursos y debates prácticos, como los que se encuentran en los seminarios web del sector y los escritos técnicos, ayudan a los equipos a traducir los marcos en controles operativos. Para los equipos técnicos que buscan ejemplos de aplicación y un contexto más amplio, los recursos sobre temas que van desde la seguridad de la IA a la orquestación multiagente son lecturas útiles: véase el material curado sobre arquitectura de observabilidad, gestión de riesgos y eventos de IA agéntica (Marcos de seguridad de la IA del NIST), (seminario web sobre IA agéntica) y (orquestación multiagente y fiabilidad).
Lista de comprobación operativa recomendada:
- Ejecutar funciones de observabilidad agéntica en un piloto de alcance limitado con procedimientos claros de reversión.
- Definir SLO que combinen métricas técnicas y empresariales para priorizar las decisiones de automatización.
- Entradas y salidas del modelo instrumental para la auditabilidad y la detección de desviaciones.
- Integrar las señales de coste en las guías de incidentes para evitar pasos de mitigación involuntariamente caros.
- Involucre a los equipos de seguridad desde el principio para trazar los flujos de datos y aplicar políticas de cifrado, enmascaramiento y conservación.
Algunos enlaces prácticos que ofrecen información complementaria incluyen investigaciones y estudios de casos sobre operaciones impulsadas por IA, ciberseguridad para sistemas agénticos y arquitecturas de observabilidad aplicada. El material relevante incluye análisis de IA en hostelería, integraciones sanitarias y comunicaciones de crisis para ciberataques, que muestran cómo la observabilidad se cruza con las operaciones del mundo real (La IA transforma la hostelería), (La IA en las integraciones sanitarias), (comunicación de crisis en caso de ciberataque).
Hay que destacar el papel de la observabilidad específica de la seguridad. La supervisión de patrones anómalos de entrada de modelos, picos en el uso de tokens o solicitudes salientes inesperadas puede revelar agentes comprometidos o un uso indebido de la cadena de suministro; los recursos sobre agentes de IA para la ciberdefensa y las mejores prácticas de seguridad de IA son cada vez más relevantes (Agentes de IA ciberdefensa), (Seguridad de la IA y riesgo para la ciberseguridad).
Por último, la operacionalización de la observabilidad de la IA agéntica produce beneficios empresariales directos: menores costes por incidentes, mayor tiempo de actividad para los flujos críticos de ingresos y gastos en IA más predecibles. Unas barandillas adecuadas y una adopción escalonada ayudan a las organizaciones a obtener estos beneficios sin comprometer la seguridad ni el cumplimiento normativo.
Perspectiva operativa: tratar la automatización de la observabilidad como un producto aplicable con SLO, presupuestos y auditabilidad incorporados; esto garantiza que la IA agéntica aumenta la fiabilidad al tiempo que preserva el control.