ما در فناوران به دنبال یک Site Reliability Engineer مسئولیتپذیر و دقیق هستیم تا در یک نقش شیفتی 24/7 به تیم ما بپیوندد. این موقعیت شغلی ماهیتی عمدتاً عملیاتی و مانیتورینگمحور دارد و از نظر مسئولیتها، بیشتر به پشتیبانی عملیاتی به سبک NOC نزدیک است تا فعالیتهای Platform Engineering یا توسعه نرمافزار؛ در این نقش، شما مسئول پایش سیستمها و نرمافزارها، رسیدگی به هشدارها، انجام عیبیابی اولیه، و اجرای اقدامات اولیه برای حفظ سلامت و در دسترسبودن سرویسها در محیط Production خواهید بود.
مسئولیتها:
- پایش مستمر سیستمها، نرمافزارها، سرورها، پایگاههای داده و زیرساخت
- پاسخگویی به هشدارها و رخدادها در زمان مناسب، انجام بررسی اولیه، و ارجاع موارد در صورت نیاز
- انجام اقدامات عملیاتی اولیه مانند راهاندازی مجدد سرویسها، عیبیابی اولیه، بررسیهای SQL، بررسیهای IIS و اجرای رانبوکها
- پایش سلامت، در دسترسبودن و عملکرد اپلیکیشنهای .NET در محیطهای عمدتاً ویندوزی
- استفاده از Prometheus ،Grafana ،ELK ،Zabbix و Redgate برای بررسی مشکلات، تحلیل هشدارها و شناسایی رفتارهای غیرعادی
- مشارکت در بررسی مشکلات تکرارشونده، شناسایی الگوها و کمک به تحلیل ریشهای مشکلات (RCA)
- ثبت دقیق لاگهای شیفت و مستندسازی رخدادها، و تهیه گزارشهای شفاف و مختصر برای ذینفعان فنی
- شناسایی مسائل تکرارشونده، الگوهای مشکوک و ریسکهای احتمالی، و اطلاعرسانی آنها به تیمهای مرتبط
- همکاری با تیمهای زیرساخت، DevOps و توسعه برای حفظ پایداری عملیاتی
- مشارکت در بهبود پوشش مانیتورینگ، کیفیت هشدارها، رویههای عملیاتی و رانبوکها
- شناسایی فرصتهای مناسب برای اتوماسیون یا بهبود فرآیندها و مشارکت در اجرای آنها متناسب با سطح تجربه
- پایبندی به رویههای عملیاتی تعریفشده و مشارکت در بهبود مستمر آنها
شرایط احراز:
- دارا بودن حداقل دو سال تجربه کاری در حوزه NOC، عملیات فناوری اطلاعات، مانیتورینگ، یا نقشهای مشابه
- آمادگی کار در شیفتهای چرخشی 24/7 شامل شبها، آخر هفتهها و تعطیلات
- توانایی انجام مستقل اقدامات عملیاتی اولیه و پیروی از مسیرهای ارجاع تعریفشده
- درک مناسب از مفاهیم مانیتورینگ، مدیریت رخداد، مسیرهای ارجاع و فرآیندهای پشتیبانی عملیاتی
- تجربه کار با محیطهای ویندوزی و آشنایی پایه با لینوکس
- آشنایی عملیاتی مناسب با Microsoft SQL Server و IIS
- آشنایی با محیطهای مبتنی بر .NET و شیوههای مانیتورینگ در محیط Production
- تجربه کار با ابزارهای مانیتورینگ و لاگینگ مانند Prometheus ،Grafana ،ELK Stack و Zabbix یا ابزارهای مشابه
- آشنایی با Redgate یا ابزارهای مشابه برای مانیتورینگ پایگاه داده
- توانایی انجام عیبیابی اولیه و اجرای رویههای عملیاتی تعریفشده و رانبوکها
- درک مناسب از پایش زیرساخت، وابستگی بین سرویسها و رخدادهای مرتبط با شبکه
- دقت بالا، حس مسئولیتپذیری و توانایی کار مؤثر در محیطهای شیفتی
- مهارت ارتباطی مناسب برای گزارش رخدادها، مستندسازی و تحویل شیفت
- فردی منظم، منعطف، خودانگیخته و علاقهمند به یادگیری مستمر و بهبود کیفیت
ویژگی هایی که مزیت محسوب می شوند:
- تجربه پشتیبانی از اپلیکیشنهای .NET در محیط Production
- آشنایی با پشتیبانی IIS و پایش سلامت SQL Server
- تجربه کار در محیطهای عملیاتی On-Premises
- آشنایی با پلتفرمهای مانیتورینگ مبتنی بر Kubernetes
- درک مناسب از بهبود کیفیت هشدارها، فرآیندهای عملیاتی و پیگیری رخدادها
- علاقهمندی به رشد و توسعه در حوزه SRE و عملیات مرتبط با پایداری سرویس
شرایط کاری:
همکاری به صورت تمام وقت است.