متیران
متیران

کارشناس Observability

تهران، آپادانا
تمام وقت
شنبه تا چهارشنبه از ساعت 7:30 تا 16:30
-
وام -پاداش -کمک هزینه دوره آموزشی -بن خرید -ناهار -امکانات ورزشی -تسهیلات تفریحی و گردشگری -بسته ها و هدایای مناسبتی
201 تا 500 نفر
فناوری اطلاعات / نرم افزار و سخت افزار
شرکت ایرانی دارای مشتریان داخلی
1388
متیران
خصوصی
توضیحات بیشتر

شاخص های کلیدی از نظر کارفرما

4 سال سابقه کار در گروه شغلی مشابه
MySql - متوسط
Oracle Database - متوسط
Elastic Search - پیشرفته
MongoDB - متوسط
Zabbix - پیشرفته
Prometheus - پیشرفته
Gerafana - پیشرفته

شرح شغل و وظایف

کارشناس Observability مسئول طراحی، پیاده‌سازی و مدیریت سیستم‌های پایش، هشداردهی، لاگینگ و تحلیل رفتار سرویس‌ها در سطح Enterprise است. هدف ما از ایجاد این نقش ایجاد دید کامل (End-to-End Visibility) نسبت به وضعیت سرویس‌ها، زیرساخت، شبکه و برنامه‌ها، برای افزایش پایداری، کاهش زمان رفع خطا و ارتقاء کیفیت خدمات است.

مسئولیت‌ها (Responsibilities)
1. طراحی و پیاده‌سازی Observability Platform
طراحی و نگهداری پلتفرم‌های مانیتورینگ مدرن: Prometheus / Thanos / VictoriaMetrics, Grafana, Zabbix / Netdata, Elastic Stack (ELK/EFK), Jaeger / OpenTelemetry
طراحی Architecture برای Metrics, Logs, Traces و Events.
2. مانیتورینگ زیرساخت و سرویس‌ها (Infra & Application Monitoring)
مانیتورینگ: Linux و Windows Server, Kubernetes (Cluster, Nodes, Pod, Deployment, HPA), NGINX, HAProxy, API Gateways, دیتابیس‌ها (Oracle, PostgreSQL, MySQL, MongoDB), Ceph و سیستم‌های SDS, Network Devices (Cisco, Fortigate, Mikrotik), تولید داشبوردهای حرفه‌ای Grafana.
3. طراحی و مدیریت Alerting
طراحی Alert Ruleهای دقیق برای: SLA/SLO/SI, Latency, IOPS, Throughput, Pod CrashLoop, OOMKill, API Errors (4xx/5xx), سرویس‌های حیاتی مثل Kafka، ELK، Oracle
جلوگیری از Alert Fatigue (تنظیم حساسیت و Throttling).
اتصال به PagerDuty/Slack/Email/SMS.
4. Observability برای Kubernetes و Microservices
نصب و مدیریت: Prometheus Operator, Grafana Operator, Loki + Promtail, Jaeger / Tempo for tracing
پیاده‌سازی Service Monitoring و AutoDiscovery.
5. Logging & Tracing
طراحی Log pipeline: Fluentd / FluentBit, Elasticsearch / OpenSearch / Loki
پیاده‌سازی Distributed Tracing: OpenTelemetry, Jaeger, Tempo
آنالیز Logهای سرویس‌ها و ایجاد Dashboardهای عملیاتی.
6. APM و Performance Analysis
کار با APM Tools: Dynatrace, New Relic, Datadog یا راه‌حل‌های OpenSource
تحلیل Bottleneckهای: CPU/RAM, Network, Storage, DB Latency, Application Errors
7. عملیات و Incident Handling
تحلیل Root Cause (RCA) با استفاده از Metrics/Logs/Traces.
تشخیص مشکلات: Network Latency, Memory Leak, DB Slow Query, Storage Bottleneck, API Error Explosion
مستندسازی و همکاری با تیم DevOps و Backend.
مهارت‌های لازم (Requirements)
مهارت‌های فنی
تسلط کامل روی Prometheus, Grafana, Elastic Stack.
تجربه بالا در Kubernetes Monitoring.
آشنایی با OpenTelemetry و Tracing.
آشنایی با سیستم‌های لینوکسی (RHEL, Rocky, Ubuntu).
تسلط روی Bash یا Python برای Script نویسی.
توانایی طراحی SLA و SLO و SLI.
آشنایی با زیرساخت: Ceph / SDS, Kafka, Oracle DB, Nginx / HAProxy
مهارت‌های نرم (Soft Skills)
تحلیل قوی رفتار سرویس‌ها.
تفکر سیستمی و توانایی پیش‌بینی Failures.
مستندسازی و تولید Runbook.
کار تیمی بین واحدهای DevOps، Backend، شبکه و DBA.
تجربه‌های ترجیحی
تجربه مانیتورینگ در محیط‌های High Availability.
کار با Cisco ACI و Fabric Monitoring.
تجربه نوشتن Exporterهای سفارشی.
تجربه در Capacity Planning و Resource Forecasting.

شرایط احراز شغل

سن
25 - 45 سال
جنسیت
تفاوتی ندارد
خدمت سربازی
اتمام خدمت سربازی و یا معافیت از آن الزامی است
تحصیلات
کارشناسی| کامپیوتر / فناوری اطلاعات
زبان
انگلیسی| متوسط ۵۰٪
نرم افزارها
Prometheus| پیشرفته Gerafana| پیشرفته Zabbix| پیشرفته Elastic Search| پیشرفته MongoDB| متوسط MySql| متوسط Oracle Database| متوسط

ثبت مشکل و تخلف آگهی

ارسال رزومه برای متیران