La dernière initiative de Netdata est Insights, une IA couche qui se superpose à l’agent d’observabilité open source de l’entreprise. L’idée est directe : arrêter de faire reconstruire à la main aux ingénieurs les chronologies d’incidents. À la place, le système ingère une télémétrie par seconde, filtre ce qui compte et produit des synthèses avec des graphiques intégrés. La vraie question est de savoir si cette promesse résistera à l’épreuve des environnements de production réels.
Ce que fait réellement Netdata Insights
La plupart des stacks d’observabilité aujourd’hui obligent les ingénieurs à suivre la même boucle. Ouvrir Grafana. Recouper Datadog. Extraire les métriques de Prometheus. Assembler une histoire dans un fil Slack ou un document de postmortem. Le goulot d’étranglement n’est pas la donnée, c’est le travail manuel de corrélation.
Insights compresse cette boucle en un rapport généré. L’agent collecte déjà des métriques haute résolution à la source (Netdata revendique une granularité d’une seconde par défaut, contre la norme de 15 secondes de Datadog). La nouveauté, c’est la couche LLM qui prend ces flux, isole les fenêtres anormales et produit un résumé écrit accompagné des graphiques pertinents. Le résultat ressemble moins à un tableau Grafana qu’à la note d’incident d’un SRE junior.
Trois capacités concrètes comptent :
- Des résumés d’incident qui regroupent texte et graphiques dans un seul document, prêt à être collé dans un postmortem
- Une classification des anomalies qui sépare les vraies dérives du bruit (un domaine où Datadog Watchdog a historiquement eu du mal avec les faux positifs)
- Des rapports de capacité générés à la demande, sans qu’un humain ait à extraire des exports de tableur
Pourquoi l’architecture en périphérie compte ici
Le facteur différenciant de Netdata a toujours été sa conception edge-first. L’agent s’exécute sur chaque nœud surveillé, traite les métriques localement et n’envoie au plan de contrôle central que ce qui est nécessaire. C’est atypique sur un marché où Datadog, New Relic et Splunk envoient tout vers un backend SaaS et facturent au gigaoctet ingéré.
Pour Insights en particulier, cela compte de deux façons. D’abord, le LLM n’a pas à parcourir un an de métriques brutes pour générer un rapport. L’agent a déjà fait le filtrage. Ensuite, les coûts d’infrastructure restent prévisibles. Quiconque a vu une facture Datadog tripler après une migration vers des microservices sait pourquoi ce n’est pas anodin.
Là où cela montre ses limites
La présentation dans le commercialisation de Netdata fait passer Insights pour un produit abouti. Ce n’est pas le cas, et l’équipe l’admettrait probablement volontiers hors micro.
- Le LLM hallucine encore dans les cas limites. Les anomalies pour lesquelles il n’a pas de contexte d’entraînement sont parfois résumées comme une « activité accrue dans le composant X » alors que la cause réelle était un rollback de déploiement. Vérifiez toujours les graphiques sous-jacents.
- Le niveau gratuit couvre la génération de base d’Insights, mais les corrélations complexes sur plusieurs nœuds sont réservées au plan Cloud payant. Attendez-vous à payer si vous exploitez plus de 50 nœuds avec des dépendances inter-clusters.
- L’intégration avec des sources de données non Netdata est superficielle. Si votre stack inclut déjà Prometheus, OpenTelemetry ou un collecteur personnalisé, vous êtes soit en train de migrer, soit en train d’exécuter des pipelines en parallèle.
- La qualité des rapports baisse lorsque la densité de télémétrie est faible. Sur de petits déploiements VPS avec moins de 20 métriques suivies, le LLM a trop peu de matière et produit des résumés vagues.
Comment cela se compare
| Outil | Résumé par IA | Traitement en périphérie | Modèle de tarification | Open source agent |
|---|---|---|---|---|
| Netdata Insights | Rapports générés par LLM | Oui, par nœud | Offre gratuite + Cloud payant | Oui |
| Datadog Watchdog | Détection des anomalies | Non, SaaS centralisé | Par hôte + par Go ingéré | Non |
| Grafana + Loki + Tempo | Aucun natif (LLM via plugins) | Partiel | Auto-hébergé gratuit ou Cloud payant | Oui |
| New Relic AI | Générés par LLM, depuis 2024 | Non | Par utilisateur + ingestion de données | Non |
La comparaison avec Datadog Watchdog est la plus pertinente pour les équipes qui paient déjà pour l’observabilité SaaS. Watchdog existe depuis plus longtemps et la détection d’anomalies est mature, mais il ne génère pas de rapports écrits. New Relic a lancé ses propres fonctionnalités LLM en 2024, mais la tarification par utilisateur le rend peu adaptée aux grandes organisations d’ingénierie.
Qui devrait réellement s’y intéresser
Insights est intéressant pour trois publics.
Les équipes SRE qui utilisent déjà Netdata obtiennent la valeur la plus forte, puisque l’agent est en place et que la couche LLM s’ajoute par-dessus sans travail de migration. Pour elles, Insights est essentiellement une fonctionnalité de productivité.
Les entreprises de taille intermédiaire lassées de la facturation de Datadog ont une vraie raison d’évaluer l’offre. Le niveau gratuit est réellement utilisable, et le forfait Cloud payant est moins cher que la plupart des concurrents par hôte. Prévoyez simplement une vraie migration, pas un simple changement le temps d’un week-end.
Les grandes entreprises disposant de piles d’observabilité sur mesure (Prometheus + Thanos + tableaux de bord personnalisés) attendront probablement. L’histoire de l’intégration n’est pas encore au point, et les avantages de l’LLM ne compensent pas les frictions liées à la migration.
Le verdict pour 2026
Insights est réel, pas du vent. Il génère des rapports exploitables, l’architecture edge maintient réellement des coûts prévisibles, et ses racines open source permettent aux équipes de vérifier ce qui se passe sous le capot. C’est aussi clairement la version 1 de quelque chose qui nécessitera 18 mois de perfectionnement avant de pouvoir rivaliser directement avec le moteur d’anomalies mature de Datadog.
Pour l’instant : essayez-le dans un environnement non critique, conservez votre système d’alerting existant, et laissez les rapports générés par l’LLM fonctionner en parallèle de votre processus normal de gestion d’incidents pendant quelques semaines. Si les synthèses tiennent la route, vous récupérerez plusieurs heures de travail de post-mortem par semaine. Sinon, vous n’aurez rien perdu.


