Cisco a introduit une nouvelle phase dans l'observabilité en incorporant IA agentique dans son portefeuille Splunk Observability, conçu pour faire émerger des informations instantanées et orientées métier sur les réseaux, les applications et les systèmes d'intelligence artificielle. Ce changement aligne la télémétrie sur les résultats commerciaux, automatise le triage des incidents et fournit une surveillance spécialisée pour les LLM et les agents d'IA. Le résultat est une approche unifiée qui relie la santé des applications, l'expérience utilisateur et les signaux de coût aux décisions opérationnelles, permettant aux équipes de détecter, d'étudier et de remédier aux problèmes avec une rapidité et un contexte bien supérieurs à ceux des piles de surveillance traditionnelles.
L'observabilité de l'IA de Cisco Agentic permet de mieux comprendre l'activité en temps réel
L'annonce que Cisco L'intégration de l'IA agentique dans Splunk Observability marque un tournant stratégique dans l'évolution de la journalisation et de l'alerte passives vers une observabilité proactive et orientée vers les résultats. L'IA agentique signifie ici des systèmes qui font plus que remonter des signaux : ils agissent sur la télémétrie pour automatiser la collecte, régler les alertes et recommander ou même appliquer des remédiations. Cette capacité fait de l'observabilité un partenaire opérationnel et non un simple tableau de bord.
Du point de vue de l'ingénierie et de la cyber-résilience, les implications sont vastes. Les entreprises qui exploitent des piles hybrides - couvrant des microservices natifs du cloud, des applications à trois niveaux héritées et des services d'IA intégrés - ont désormais besoin d'une télémétrie corrélée qui respecte à la fois les priorités techniques et commerciales. L'intégration par Cisco de Splunk AppDynamics et de Splunk Observability Cloud vise à fournir cette corrélation, tout en maintenant la compatibilité avec des normes comme OpenTelemetry pour faciliter la migration des fournisseurs et la continuité des données.
Les principaux changements techniques introduits par l'observabilité de l'IA agentique sont les suivants :
- Orchestration automatisée de la télémétrie-Des agents qui découvrent où les métriques, les traces et les journaux manquent et orchestrent la collecte sans instrumentation manuelle.
- Alertes contextuellesLes alertes sont classées par ordre de priorité en fonction de l'impact sur l'entreprise (par exemple, échecs d'extraction par rapport à la latence des tâches d'arrière-plan).
- Orientations en matière de remédiation adaptative-Corrections suggérées par l'IA à partir d'incidents historiques et de bonnes lignes de base connues.
- Télémétrie intelligente-des mesures spécialisées pour valider le comportement du LLM, le coût par appel d'API et la dérive du modèle.
Un exemple pratique : une plateforme de vente au détail détecte une augmentation des abandons de panier. L'observabilité traditionnelle mettrait en évidence des taux d'erreur élevés et une latence accrue. L'IA agentique complète cette observation en corrélant automatiquement les erreurs à un déploiement récent, en cartographiant les transactions affectées avec les processus commerciaux critiques en termes de revenus, et en suggérant un retour en arrière ou une mise en forme ciblée du trafic jusqu'à ce qu'un correctif de code soit appliqué. Cette hiérarchisation en fonction du contexte commercial contraste fortement avec de nombreux outils traditionnels qui présentent des signaux bruts sans classement de l'impact.
Le contexte comparatif des fournisseurs est important. Alors que des entreprises comme New Relic, Datadog, Dynatrace, Elastique et IBM Instana ont beaucoup investi dans l'observabilité et la détection d'anomalies par ML, l'approche de Cisco met l'accent sur l'automatisation agentique et sur un alignement plus étroit avec les métriques de l'entreprise grâce aux capacités de Splunk AppDynamics. Simultanément, des spécialistes tels que Nid d'abeille et Amazon CloudWatch offrent des avantages en termes de possibilités d'interrogation et d'intégration avec des plates-formes cloud spécifiques, ce qui montre que les stratégies multi-outils sont toujours d'actualité.
Liste des avantages opérationnels immédiats attendus :
- Délai moyen de détection plus rapide grâce à la collecte proactive de données télémétriques.
- Réduire le temps moyen de résolution (MTTR) grâce à des flux de travail guidés par l'IA.
- Réduction du bruit des alertes en regroupant et en résumant les signaux bruyants en épisodes.
- Visibilité des coûts pour les charges de travail d'IA, en alignant les dépenses de cloud sur les résultats de l'entreprise.
Pour les équipes confrontées à une surcharge de signaux, la promesse est claire : réduire le travail répétitif et réorienter les ingénieurs vers l'innovation de produits. La section suivante détaille comment l'IA agentique opérationnalise la gestion des incidents et l'analyse des causes profondes avec des fonctionnalités et une disponibilité concrètes.
Cisco Splunk Observability : L'IA agentique pour la réponse aux incidents et l'analyse des causes profondes
L'intégration de l'IA agentique dans Splunk Observability est conçue pour s'attaquer au cycle de vie complet des incidents : détection, corrélation, investigation et remédiation. Plusieurs capacités nommées illustrent cette tendance : Agents de dépannage IA, Event iQ pour la corrélation automatisée des alertes, et Résumé des épisodes de l'ITSI. Chaque caractéristique réduit la charge cognitive des opérateurs tout en augmentant la fidélité des informations.
Les agents de dépannage AI opèrent au sein des plateformes Observability Cloud et AppDynamics pour analyser automatiquement les incidents. Ils traitent les traces, les journaux et les mesures ensemble pour proposer des causes profondes probables et des étapes de remédiation. Ces agents peuvent :
- Collecter des données télémétriques supplémentaires à la demande, telles que des traces étendues ou des journaux de débogage.
- Classer les causes profondes probables en fonction de l'historique des incidents.
- Proposer des étapes suivantes classées par ordre de priorité et des notes de confiance pour chaque recommandation.
Event iQ s'attaque à un problème récurrent : le bruit des alertes. En regroupant les alertes connexes et en réduisant les doublons, Event iQ crée un récit d'incident cohérent. Pour les équipes SRE et ITOps, cela signifie moins d'ingénieurs bipés à 2 heures du matin et plus de temps pour une ingénierie de fiabilité proactive.
L'ITSI Episode Summarization convertit ensuite les alertes groupées en résumés consommables montrant les tendances, les impacts et les causes profondes supposées. Cette capacité permet d'accélérer les transferts entre les intervenants sur appel et les ingénieurs responsables des corrections à long terme.
Disponibilité des caractéristiques, applicabilité et cartographie concurrentielle
Une matrice concise montre comment ces caractéristiques d'observabilité agentique s'alignent sur les besoins opérationnels et comment elles se situent par rapport à d'autres offres du marché.
Fonctionnalité | Avantage opérationnel | Disponibilité |
---|---|---|
Agents de dépannage IA | Suggestions automatisées de causes profondes, augmentation de la télémétrie | Disponible dans Splunk Observability Cloud et AppDynamics (GA/Preview) |
Event iQ | Corrélation des alertes et réduction du bruit | Proposé dans Splunk ITSI (GA) |
Résumé des épisodes de l'ITSI | Aperçu des alertes regroupées avec les tendances et l'impact | Alpha/Private Preview pour certaines fonctionnalités |
Les équipes opérationnelles doivent tenir compte du fait que certaines fonctionnalités sont en alpha ou en aperçu privé, tandis que d'autres sont généralement disponibles. La planification d'une adoption progressive - en commençant par les environnements de non-production - permet de valider l'efficacité et les contrôles de gouvernance. Cette approche progressive reflète les déploiements typiques des entreprises, en particulier lorsque les agents d'IA sont autorisés à prendre des mesures automatisées.
Des scénarios pratiques démontrent rapidement la valeur du produit :
- Services financiers : corrélation automatique entre la migration d'une base de données et les échecs de transaction, avec un résumé de l'épisode pour l'équipe chargée de la conformité.
- Télécom : Un agent d'intelligence artificielle identifie une dérive de configuration dans un équilibreur de charge causant des pannes régionales et recommande un retour en arrière ciblé de la configuration.
- Plate-forme de soins de santé : Event iQ supprime une multitude d'alertes connexes au cours d'un travail par lots programmé, évitant ainsi des escalades inutiles.
Ces capacités s'inscrivent dans le cadre des meilleures pratiques en matière d'observabilité et complètent les chaînes d'outils existantes des organismes suivants Datadog, Dynatrace et New Relic. Intégration avec des normes ouvertes, telles que OpenTelemetry-et les agents AppDynamics existants permet aux organisations d'adopter l'observabilité agentique de manière incrémentale tout en protégeant les investissements antérieurs.
Au fur et à mesure que les équipes valident ces fonctionnalités, des questions de gouvernance émergent : quand les agents d'IA doivent-ils être autorisés à prendre des mesures correctives automatisées, et comment les garanties de retour en arrière doivent-elles être construites ? Les sections suivantes analysent l'observabilité des charges de travail d'IA et les cadres de gouvernance qui opérationnalisent la confiance.
Cisco Observability for AI : Monitoring LLMs, Agents and Infrastructure at Scale (Observabilité de Cisco pour l'IA : surveillance des LLMs, des agents et de l'infrastructure à l'échelle)
L'observabilité doit s'adapter à l'arrivée des LLM et des flux de travail agentiques dans les applications d'entreprise. La surveillance des modèles est matériellement différente de la surveillance des microservices sans état : les modèles ont des dimensions de qualité, de coût et de comportement qui nécessitent une télémétrie spécialisée. Les avancées de Splunk de Cisco introduisent Surveillance des agents d'IA et Surveillance de l'infrastructure par l'IA pour obtenir des mesures telles que la latence d'inférence, le coût des jetons, la dérive du modèle et la qualité des requêtes.
Prenons l'exemple d'un détaillant hypothétique, Aurora Retail, qui déploie un agent de recommandation piloté par LLM sur le web et dans les centres d'appels. Sans une observabilité consciente de l'IA, des problèmes tels que la dégradation de la pertinence, des hallucinations inattendues ou des pics de coûts peuvent passer inaperçus jusqu'à ce que les KPI de l'entreprise en pâtissent. Avec l'observabilité agentique, Aurora peut :
- Suivre l'exactitude des recommandations en échantillonnant les résultats du modèle par rapport aux résultats connus.
- Alerte sur la dérive sémantique lorsque la distribution des données de formation diverge de celle des données de production.
- Surveillez les coûts par requête et limitez automatiquement les chemins d'inférence coûteux.
Les mesures pratiques à utiliser pour les MFR et les agents sont les suivantes :
- Mesures de la qualité : les indicateurs de précision/rappel, les ratios de rétroaction humaine, les scores de cohérence des réponses.
- Mesures opérationnelles : les percentiles de latence d'inférence, les limites de concurrence, les taux de réessai.
- Mesures des coûts : jetons par demande, fréquence de sélection des modèles, consommation d'heures de GPU par service.
La surveillance de l'infrastructure d'IA se concentre sur l'état de santé et la consommation des GPU, des clusters de modélisation et des orchestrateurs. Elle alerte sur les goulets d'étranglement (par exemple, la saturation des GPU) et anticipe les pics qui pourraient modifier sensiblement les coûts opérationnels. Ces signaux alimentent la planification de la capacité et peuvent déclencher automatiquement des stratégies de mise à l'échelle ou de repli en mode dégradé.
Une liste d'étapes recommandées pour les équipes qui adoptent l'observabilité de l'IA :
- Inventorier les actifs d'IA (modèles, points d'extrémité, agents) et les mettre en correspondance avec les processus d'entreprise.
- Définir des critères de qualité pour les résultats du modèle en termes commerciaux (taux de conversion, requêtes satisfaites).
- Télémétrie des instruments pour la qualité, le coût et la santé des infrastructures à l'aide de collecteurs compatibles avec OpenTelemetry.
- Déployer des moniteurs agentiques dans des environnements de prévisualisation pour valider la fidélité des alertes avant la mise en production.
- Établir des points de contrôle pour les actions automatisées et définir des voies d'escalade humaines dans la boucle.
Intégration avec d'autres outils d'observabilité et d'analyse, tels que Elastique, Nid d'abeille et les solutions APM existantes - peuvent fournir des vues complémentaires. Par exemple, Elastic peut être utilisé pour l'analyse médico-légale des journaux, tandis que Honeycomb offre un traçage piloté par les événements pour les cas d'utilisation à forte cardinalité où les entrées du modèle varient considérablement.
Dans la pratique, la surveillance de l'IA à grande échelle est aussi bien organisationnelle que technique. L'équipe SRE d'Aurora Retail apprend que la corrélation entre une baisse de 15% de la pertinence des recommandations et une modification du pipeline de données réduit la perte de revenus en un seul jour ouvrable. Cela démontre que l'observabilité de l'IA protège directement le chiffre d'affaires et la réputation de la marque, et qu'elle doit être intégrée aux processus de gestion des versions et des incidents.
Aperçu clé : L'observabilité de l'IA convertit le comportement opaque des modèles en signaux opérationnels exploitables, ce qui permet de contrôler les coûts et d'assurer la qualité en fonction des résultats de l'entreprise.
Observabilité unifiée de Cisco : Corrélation entre l'impact sur l'entreprise, le réseau et l'expérience de l'utilisateur
L'une des principales propositions de valeur de l'approche de Cisco consiste à unifier la télémétrie des applications avec les signaux du réseau et de l'utilisateur final. En combinant Splunk AppDynamics, Splunk Observability Cloud et Cisco ThousandEyes, les équipes peuvent retracer les problèmes de performance d'un client depuis le navigateur jusqu'aux services dorsaux et aux bases de données, en passant par le réseau. Cette visibilité unifiée est essentielle pour les organisations ayant une empreinte mondiale et des dépendances complexes avec des tiers.
Les capacités essentielles qui permettent cette corrélation sont les suivantes
- Informations sur les entreprises-relie les mesures de l'application aux processus commerciaux tels que la caisse ou le traitement des prêts.
- Analyse de l'expérience numérique-capture des données détaillées sur le parcours de l'utilisateur pour les équipes de conception et de production.
- Reprise de la session pour RUM-enregistre les sessions de navigation et les sessions mobiles afin de reproduire et d'analyser les problèmes rencontrés par les utilisateurs.
- Intégration de ThousandEyes-Corrélation entre l'expérience de l'utilisateur réel et les performances du réseau dans les domaines appartenant à l'entreprise et à des tiers.
Cette perspective unifiée résout une énigme familière : un pic dans les taux d'erreur est-il dû aux microservices du backend, à une panne du fournisseur de CDN ou à une version côté client mal configurée ? Une pile consolidée réduit le temps passé à changer d'outil et améliore la précision de l'analyse des causes profondes.
Comparaisons avec des approches concurrentes :
Capacité | Cisco + Splunk | Autres points forts |
---|---|---|
Corrélation réseau-application | Intégration profonde de ThousandEyes ; traces de bout en bout | Datadog et Dynatrace offrent un traçage complet et solide ; ThousandEyes fournit une profondeur de réseau. |
Analyse du parcours de l'utilisateur | Session Replay + Digital Experience Analytics | New Relic et AppDynamics excellent dans les mesures APM UX |
Observabilité de l'IA | Surveillance spécialisée des agents d'IA et de l'infrastructure | Capacité émergente parmi Elastic, Honeycomb et les vendeurs qui se concentrent sur l'instrumentation personnalisée |
Pour les équipes produit, les fonctions d'analyse de l'expérience numérique et de relecture des sessions permettent de formuler rapidement des hypothèses sur les régressions de l'interface utilisateur sans interruption due à l'utilisation d'un téléavertisseur. Pour les équipes NetOps, la télémétrie réseau de ThousandEyes clarifie si les réponses lentes des API sont causées par les fournisseurs de transit ou par la dégradation du service en amont.
Une courte liste de scénarios opérationnels avantageux :
- Commerce électronique mondial : Établir une corrélation entre la latence du réseau spécifique à une région et l'abandon de la caisse et adapter le routage à la périphérie.
- Services financiers : Associer les délais de transaction à un incident lié à une passerelle de paiement tierce afin d'accélérer la remontée des informations vers le fournisseur.
- Plate-forme SaaS : Utiliser le rejeu de session pour reproduire les pannes mobiles liées à la mise à jour d'une bibliothèque, réduisant ainsi le temps de réponse moyen (MTTR).
L'interopérabilité reste une priorité. La prise en charge par Cisco d'OpenTelemetry et de l'agent Splunk AppDynamics permet la portabilité des données et la coexistence avec d'autres outils de télémétrie, notamment New Relic, Datadog, Dynatrace, Elastique et IBM Instana. Cela réduit le risque de verrouillage et permet aux organisations d'assembler les meilleures architectures d'observabilité.
Dernière idée pour cette section : l'observabilité unifiée qui relie l'expérience de l'utilisateur, le réseau et les indicateurs clés de performance crée une source unique de vérité pour les équipes interfonctionnelles, ce qui permet de prendre des décisions plus rapides et plus précises et de réduire les escalades au-delà des frontières des fournisseurs.
Cisco Operationalizing Agentic AI Observability (Opérationnalisation de l'observabilité de l'IA agentique) : Gouvernance, sécurité et contrôle des coûts
L'opérationnalisation de l'observabilité agentique alimentée par l'IA nécessite des cadres de gouvernance solides couvrant la sécurité, la protection de la vie privée, le contrôle des coûts et la responsabilité du modèle. Les entreprises doivent trouver un équilibre entre les avantages de l'automatisation et les contrôles qui protègent les données et maintiennent l'auditabilité. L'annonce de Cisco s'aligne sur ce besoin en proposant des phases alpha et GA pour différentes fonctionnalités, signalant un modèle d'adoption progressive où les capacités sensibles peuvent être validées avant le déploiement complet.
Principaux éléments de gouvernance à mettre en œuvre :
- Politiques d'accès et d'action : définir quels agents peuvent exécuter une remédiation automatisée et dans quelles conditions.
- Pistes d'audit : enregistrer les décisions de l'agent, les instantanés de télémétrie et les dérogations de l'opérateur pour assurer la conformité.
- Surveillance de la sécurité : s'assurer que les agents d'IA et les terminaux modèles sont couverts par la pile de sécurité afin de détecter les utilisations abusives ou l'exfiltration de données.
- Gouvernance des coûts : fixer des budgets et appliquer des règles de sélection de modèles pour éviter des dépenses d'inférence excessives.
Les cadres tels que le guide de sécurité de l'IA du NIST constituent un point de départ utile. Les ressources pratiques et les discussions, comme celles que l'on trouve dans les webinaires de l'industrie et les documents techniques, aident les équipes à traduire les cadres en contrôles opérationnels. Pour les équipes techniques à la recherche d'exemples de mise en œuvre et d'un contexte plus large, des ressources sur des sujets allant de la sécurité de l'IA à l'orchestration multi-agents sont utiles : voir les documents sur l'architecture d'observabilité, la gestion des risques et les événements liés à l'IA agentique (Cadres de sécurité de l'IA du NIST), (webinaire sur l'IA agentique) et (orchestration multi-agents et fiabilité).
Liste de contrôle opérationnelle recommandée :
- Exécuter les fonctions d'observabilité agentique dans le cadre d'un projet pilote de portée limitée assorti de procédures claires de retour en arrière.
- Définir des SLO qui combinent des mesures techniques et commerciales afin de hiérarchiser les décisions en matière d'automatisation.
- Instrumenter les entrées et les sorties du modèle pour permettre l'audit et la détection des dérives.
- Intégrer les signaux de coût dans les plans d'intervention en cas d'incident afin d'éviter les mesures d'atténuation involontairement coûteuses.
- Impliquer les équipes de sécurité dès le début pour cartographier les flux de données et appliquer des politiques de cryptage, de masquage et de conservation.
Quelques liens pratiques offrent des perspectives supplémentaires, notamment des recherches et des études de cas sur les opérations pilotées par l'IA, la cybersécurité pour les systèmes agentiques et les architectures d'observabilité appliquées. Parmi les documents pertinents, citons l'analyse de l'IA dans l'hôtellerie, l'intégration des soins de santé et les communications de crise en cas de cyberattaque, qui montrent comment l'observabilité s'articule avec les opérations du monde réel (L'IA transforme l'hôtellerie), (L'IA dans l'intégration des soins de santé), (communication de crise en cas de cyberattaque).
Le rôle de l'observabilité spécifique à la sécurité mérite d'être souligné. La surveillance des modèles d'entrée anormaux, des pics d'utilisation des jetons ou des demandes sortantes inattendues peut révéler des agents compromis ou une mauvaise utilisation de la chaîne d'approvisionnement ; les ressources sur les agents d'IA pour la cyberdéfense et les meilleures pratiques en matière de sécurité de l'IA sont de plus en plus pertinentes (Agents d'intelligence artificielle pour la cyberdéfense), (Sécurité de l'IA et risque de cybersécurité).
Enfin, l'opérationnalisation de l'observabilité de l'IA agentique apporte des avantages commerciaux directs : réduction des coûts des incidents, amélioration du temps de fonctionnement des flux critiques pour les revenus, et dépenses d'IA plus prévisibles. Des garde-fous appropriés et une adoption progressive aident les organisations à réaliser ces gains sans compromettre la sécurité ou la conformité.
Aperçu opérationnel : traiter l'automatisation de l'observabilité comme un produit exécutoire avec des objectifs de niveau de service, des budgets et des possibilités d'audit - cela permet à l'IA agentique d'augmenter la fiabilité tout en préservant le contrôle.