کارشناس Observability

(106 روز پیش)

متیران

تهران، آپادانا

تمام وقت

روز و ساعت کاری

شنبه تا چهارشنبه از ساعت 7:30 تا 16:30

سفرهای کاری

مزایا و تسهیلات

وام -پاداش -کمک هزینه دوره آموزشی -بن خرید -ناهار -امکانات ورزشی -تسهیلات تفریحی و گردشگری -بسته ها و هدایای مناسبتی

درباره شرکت

اندازه سازمان

201 تا 500 نفر

صنعت

فناوری اطلاعات / نرم افزار و سخت افزار

نوع فعالیت

شرکت ایرانی دارای مشتریان داخلی

سال تاسیس

1388

برند

متیران

مالکیت

خصوصی

توضیحات بیشتر

شاخص های کلیدی از نظر کارفرما

4 سال سابقه کار در گروه شغلی مشابه

MySql - متوسط

Oracle Database - متوسط

Elastic Search - پیشرفته

MongoDB - متوسط

Zabbix - پیشرفته

Prometheus - پیشرفته

Gerafana - پیشرفته

شرح شغل و وظایف

کارشناس Observability مسئول طراحی، پیاده‌سازی و مدیریت سیستم‌های پایش، هشداردهی، لاگینگ و تحلیل رفتار سرویس‌ها در سطح Enterprise است. هدف ما از ایجاد این نقش ایجاد دید کامل (End-to-End Visibility) نسبت به وضعیت سرویس‌ها، زیرساخت، شبکه و برنامه‌ها، برای افزایش پایداری، کاهش زمان رفع خطا و ارتقاء کیفیت خدمات است.

مسئولیت‌ها (Responsibilities)
1. طراحی و پیاده‌سازی Observability Platform
طراحی و نگهداری پلتفرم‌های مانیتورینگ مدرن: Prometheus / Thanos / VictoriaMetrics, Grafana, Zabbix / Netdata, Elastic Stack (ELK/EFK), Jaeger / OpenTelemetry
طراحی Architecture برای Metrics, Logs, Traces و Events.
2. مانیتورینگ زیرساخت و سرویس‌ها (Infra & Application Monitoring)
مانیتورینگ: Linux و Windows Server, Kubernetes (Cluster, Nodes, Pod, Deployment, HPA), NGINX, HAProxy, API Gateways, دیتابیس‌ها (Oracle, PostgreSQL, MySQL, MongoDB), Ceph و سیستم‌های SDS, Network Devices (Cisco, Fortigate, Mikrotik), تولید داشبوردهای حرفه‌ای Grafana.
3. طراحی و مدیریت Alerting
طراحی Alert Ruleهای دقیق برای: SLA/SLO/SI, Latency, IOPS, Throughput, Pod CrashLoop, OOMKill, API Errors (4xx/5xx), سرویس‌های حیاتی مثل Kafka، ELK، Oracle
جلوگیری از Alert Fatigue (تنظیم حساسیت و Throttling).
اتصال به PagerDuty/Slack/Email/SMS.
4. Observability برای Kubernetes و Microservices
نصب و مدیریت: Prometheus Operator, Grafana Operator, Loki + Promtail, Jaeger / Tempo for tracing
پیاده‌سازی Service Monitoring و AutoDiscovery.
5. Logging & Tracing
طراحی Log pipeline: Fluentd / FluentBit, Elasticsearch / OpenSearch / Loki
پیاده‌سازی Distributed Tracing: OpenTelemetry, Jaeger, Tempo
آنالیز Logهای سرویس‌ها و ایجاد Dashboardهای عملیاتی.
6. APM و Performance Analysis
کار با APM Tools: Dynatrace, New Relic, Datadog یا راه‌حل‌های OpenSource
تحلیل Bottleneckهای: CPU/RAM, Network, Storage, DB Latency, Application Errors
7. عملیات و Incident Handling
تحلیل Root Cause (RCA) با استفاده از Metrics/Logs/Traces.
تشخیص مشکلات: Network Latency, Memory Leak, DB Slow Query, Storage Bottleneck, API Error Explosion
مستندسازی و همکاری با تیم DevOps و Backend.
مهارت‌های لازم (Requirements)
مهارت‌های فنی
تسلط کامل روی Prometheus, Grafana, Elastic Stack.
تجربه بالا در Kubernetes Monitoring.
آشنایی با OpenTelemetry و Tracing.
آشنایی با سیستم‌های لینوکسی (RHEL, Rocky, Ubuntu).
تسلط روی Bash یا Python برای Script نویسی.
توانایی طراحی SLA و SLO و SLI.
آشنایی با زیرساخت: Ceph / SDS, Kafka, Oracle DB, Nginx / HAProxy
مهارت‌های نرم (Soft Skills)
تحلیل قوی رفتار سرویس‌ها.
تفکر سیستمی و توانایی پیش‌بینی Failures.
مستندسازی و تولید Runbook.
کار تیمی بین واحدهای DevOps، Backend، شبکه و DBA.
تجربه‌های ترجیحی
تجربه مانیتورینگ در محیط‌های High Availability.
کار با Cisco ACI و Fabric Monitoring.
تجربه نوشتن Exporterهای سفارشی.
تجربه در Capacity Planning و Resource Forecasting.

شرایط احراز شغل

سن

25 - 45 سال

جنسیت

تفاوتی ندارد

خدمت سربازی

اتمام خدمت سربازی و یا معافیت از آن الزامی است

تحصیلات

کارشناسی| کامپیوتر / فناوری اطلاعات

زبان

انگلیسی| متوسط ۵۰٪

نرم افزارها

Prometheus| پیشرفته

Gerafana| پیشرفته

Zabbix| پیشرفته

Elastic Search| پیشرفته

MongoDB| متوسط

MySql| متوسط

Oracle Database| متوسط

ثبت مشکل و تخلف آگهی

ارسال رزومه برای متیران

این آگهی بسته شده است

مقایسه من با سایر متقاضیان

سوابق ارسال رزومه برای این شرکت

کارشناس Observability

مزایا و امکانات رفاهی

شاخص های کلیدی از نظر کارفرما

شرح شغل و وظایف

شرایط احراز شغل