کارشناس Observability مسئول طراحی، پیادهسازی و مدیریت سیستمهای پایش، هشداردهی، لاگینگ و تحلیل رفتار سرویسها در سطح Enterprise است. هدف ما از ایجاد این نقش ایجاد دید کامل (End-to-End Visibility) نسبت به وضعیت سرویسها، زیرساخت، شبکه و برنامهها، برای افزایش پایداری، کاهش زمان رفع خطا و ارتقاء کیفیت خدمات است.
مسئولیتها (Responsibilities)
1. طراحی و پیادهسازی Observability Platform
طراحی و نگهداری پلتفرمهای مانیتورینگ مدرن: Prometheus / Thanos / VictoriaMetrics, Grafana, Zabbix / Netdata, Elastic Stack (ELK/EFK), Jaeger / OpenTelemetry
طراحی Architecture برای Metrics, Logs, Traces و Events.
2. مانیتورینگ زیرساخت و سرویسها (Infra & Application Monitoring)
مانیتورینگ: Linux و Windows Server, Kubernetes (Cluster, Nodes, Pod, Deployment, HPA), NGINX, HAProxy, API Gateways, دیتابیسها (Oracle, PostgreSQL, MySQL, MongoDB), Ceph و سیستمهای SDS, Network Devices (Cisco, Fortigate, Mikrotik), تولید داشبوردهای حرفهای Grafana.
3. طراحی و مدیریت Alerting
طراحی Alert Ruleهای دقیق برای: SLA/SLO/SI, Latency, IOPS, Throughput, Pod CrashLoop, OOMKill, API Errors (4xx/5xx), سرویسهای حیاتی مثل Kafka، ELK، Oracle
جلوگیری از Alert Fatigue (تنظیم حساسیت و Throttling).
اتصال به PagerDuty/Slack/Email/SMS.
4. Observability برای Kubernetes و Microservices
نصب و مدیریت: Prometheus Operator, Grafana Operator, Loki + Promtail, Jaeger / Tempo for tracing
پیادهسازی Service Monitoring و AutoDiscovery.
5. Logging & Tracing
طراحی Log pipeline: Fluentd / FluentBit, Elasticsearch / OpenSearch / Loki
پیادهسازی Distributed Tracing: OpenTelemetry, Jaeger, Tempo
آنالیز Logهای سرویسها و ایجاد Dashboardهای عملیاتی.
6. APM و Performance Analysis
کار با APM Tools: Dynatrace, New Relic, Datadog یا راهحلهای OpenSource
تحلیل Bottleneckهای: CPU/RAM, Network, Storage, DB Latency, Application Errors
7. عملیات و Incident Handling
تحلیل Root Cause (RCA) با استفاده از Metrics/Logs/Traces.
تشخیص مشکلات: Network Latency, Memory Leak, DB Slow Query, Storage Bottleneck, API Error Explosion
مستندسازی و همکاری با تیم DevOps و Backend.
مهارتهای لازم (Requirements)
مهارتهای فنی
تسلط کامل روی Prometheus, Grafana, Elastic Stack.
تجربه بالا در Kubernetes Monitoring.
آشنایی با OpenTelemetry و Tracing.
آشنایی با سیستمهای لینوکسی (RHEL, Rocky, Ubuntu).
تسلط روی Bash یا Python برای Script نویسی.
توانایی طراحی SLA و SLO و SLI.
آشنایی با زیرساخت: Ceph / SDS, Kafka, Oracle DB, Nginx / HAProxy
مهارتهای نرم (Soft Skills)
تحلیل قوی رفتار سرویسها.
تفکر سیستمی و توانایی پیشبینی Failures.
مستندسازی و تولید Runbook.
کار تیمی بین واحدهای DevOps، Backend، شبکه و DBA.
تجربههای ترجیحی
تجربه مانیتورینگ در محیطهای High Availability.
کار با Cisco ACI و Fabric Monitoring.
تجربه نوشتن Exporterهای سفارشی.
تجربه در Capacity Planning و Resource Forecasting.