Postée il y a 11 jours
Mission(s) principale(s)
L'ingénieur spécialiste de l'Observabilité et de la Performance Applicative (APM) a pour responsabilité de développer la plateforme correspondante aujourd?hui basée sur Splunk Cloud et sa suite de produits d?observabilité (Splunk Observability Cloud, Splunk IT Service Intelligence, SignalFx). Il jouera un rôle clé dans la mise en place et l'évolution des capacités de surveillance avancée et de gestion des incidents IT, en optimisant l'utilisation de Splunk pour offrir une visibilité en temps réel et opérationnelle.
Vos missions principales seront :
1. Développement et optimisation de la plateforme Splunk (Cloud) :
o Configurer et maintenir la plateforme Splunk en accord avec les besoins métier et techniques.
o Développer des tableaux de bord, recherches, et alertes pour une visualisation optimale des données IT.
o Intégrer des sources de données multiples et complexes (logs, métriques, traces) sur des stacks variées (Java, Python, Node.js, PHP).
2. Implémentation et utilisation de l'observabilité :
o Configurer la suite Splunk Observability (Infra Monitoring, APM, RUM, Synthetic Monitoring).
o Intégrer OpenTelemetry pour collecter les métriques, traces et logs.
o Configurer les agents (ex: Fluentd) pour surveiller les environnements ECS et EC2.
o Participer à la surveillance des performances et à l'identification des problèmes de performances applicatives.
o Mise en ?uvre de Splunk Log Observer pour un analyse avancée des logs.
o Configuration de Splunk RUM pour analyser les interactions d'utilisateurs avec les applications digitales.
o Déploiements de tests synthétiques (Synthetic Monitoring) pour vérifier la disponibilité des services. Suivi des performances des API et détection de dégradations avant qu'elles n'affectent les utilisateurs réels.
3. Mise en place et gestion de l?ITSI :
o Implémenter et configurer ITSI pour surveiller les services critiques de l?entreprise.
o Créer et optimiser des services, indicateurs clés de performance (KPI), et modules de corrélation d?événements.
o Développer des plans d?action basés sur les insights ITSI pour améliorer la disponibilité des services et réduire les temps d?interruption.
4. Intégration avec des outils tiers :
o Intégration des métriques et logs provenant d?AWS CloudWatch, Datadog ou Prometheus pour enrichir la visibilité.
o Automatiser les workflows avec des outils comme Terraform.
5. Amélioration continue et innovation :
o Proposer et mettre en ?uvre des solutions d?observabilité avancée pour garantir la performance des systèmes et applications.
o Intégrer Splunk Observability dans les pipelines CI/CD pour détecter les problèmes en amont.
o Fournir des rapports stratégiques sur les indicateurs clés (KPI) et objectifs de niveau de service (SLOs).
6. Formation et support :
o Accompagner les équipes internes dans l?utilisation optimale de Splunk et ITSI.
o Fournir un support technique avancé pour la résolution des incidents liés à Splunk et ITSI.Vos compétences
Profil candidat:
Techniques :
Vous disposez d?une expérience de 5 ans au cours de laquelle vous avez développé :
o Bonne connaissance en solutions de supervision et d?observabilité.
o Bon bagage technique en développement (Python, Java?).
o Bonne compétence en scripting (Python, Bash, etc?)
o Certifications
Bonne approche :
o Finops
o Industrialisation
o Automatisation
Bonne maîtrise :
o Des solutions de Supervision et d?Observabilité (Splunk ou solution équivalente).
o Des concepts d?observabilité (logs, métriques, traces).
o Des environnements Cloud et supervision Cloud.
o Des concepts d?automatisation.
o Des méthodologies de gestion des services IT (ITIL).
Naturellement vous :
o Êtes autonome, force de proposition et faites preuve d?initiative.
o Possédez une bonne communication (orale/écrite).
o Avez la capacité à travailler dans un environnement agile.
o Avez du dynamisme et l?esprit d?innovation.
o Avez le sens du service et l?esprit d?équipe.
o Êtes à l?écoute et vous avez un bon sens du relationnel.
o Êtes méthodique et organisé.