مسئولیتها:
مدیریت و مانیتورینگ زیرساختهای ارائه سرویس
بهینهسازی عملکرد سیستمها و افزایش پایداری سرویسها
همکاری نزدیک با تیمهای توسعه، امنیت و عملیات
مهارتهای مورد نیاز:
تسلط بر ابزارهای Observability در Elasticsearch
تجربه کار با ابزارهای مانیتورینگ مانند Prometheus, Grafana, ELK Stack
ایجاد منبع واحد (Single Source of Truth): طراحی و راهاندازی پلتفرم مانیتورینگ متمرکز و جمعآوری تمامی متریکهای مربوط به اپلیکیشن، زیرساخت و تجربه کاربری
نظارت مداوم بر Latency (تاخیر)، Traffic (ترافیک)، Errors (خطاها) و Saturation (اشباع شدن منابع) برای تمامی سرویسها
نظارت بر سلامت سرورها (CPU, Memory, Disk, Network)، کلاسترهای Kubernetes و سرویسهای شبکه
APM: نظارت بر عملکرد میکروسرویسها، کشها (مانند Redis) و صفهای پیام (مانند Kafka) با ابزارهایی مانند Grafana Tempo, Jaeger یا New Relic
تجربه کاربر نهایی (RUM/Synthetic): شبیهسازی رفتار کاربران و اندازهگیری عملکرد واقعی اپلیکیشن از دیدگاه آنان
طراحی و بهینه سازی هوشمندانه Alertهای بر اساس SLOها
توانایی مدیریت بحران Incident Management
تعریف SLIها (Service Level Indicators): شناسایی و اندازهگیری معیارهای کلیدی که سلامت سرویس را نشان میدهند
تعیین SLOها (Service Level Objectives): تعیین اهداف قابل اندازهگیری برای قابلیت اطمینان سرویس
محاسبه و نظارت بر "Error Budget" و تعیین خطای مجاز سیستم