شما بهعنوان کارشناس ارشد عملیات شبکه و سرویسها (NOC & Service Operations) در تیم سرویس ما، مسئول پایش مستمر زیرساخت و سرویسها، عیبیابی و رفع مشکلات کاربران و سرویسهای زیرساختی در سطح لایه یک، و راهبری عملیات NOC خواهید بود. در این نقش، با مانیتورینگ و تحلیل رخدادها، مدیریت Incidentها، پاسخگویی و هماهنگی ارتباط با مشتریان، و تشخیص و Escalation اصولی مشکلات مرتبط با سرویسهایی مانند VPN، IAM، ESXi و تجهیزات زیرساختی، به تضمین پایداری، کیفیت و دسترسپذیری سرویسها کمک خواهید کرد.
وظایف اصلی:
درصورت نیاز پایش مستمر (24×7) شبکه، زیرساخت و سرویسها از طریق سیستمهای مانیتورینگ و فعالیت در NOC
تحلیل هشدارها (Alerts)، تشخیص رخدادهای واقعی و مدیریت Incidentهای لایه یک
عیبیابی و رفع مشکلات کاربران و سرویسهای زیرساختی در سطح لایه یک در حوزههای شبکه، VPN، IAM و احراز هویت، ESXi و ماشینهای مجازی، و تجهیزات سختافزاری
اجرای اقدامات اصلاحی استاندارد بر اساس Runbookها و رویههای عملیاتی مصوب
تشخیص بهموقع نیاز به Escalation و انتقال دقیق و مستند Incidentها به تیمهای لایه بالاتر (L2/L3)
مدیریت ارتباطات فنی و پاسخگویی به مشتریان در طول رخدادها و اطلاعرسانی وضعیت سرویسها
ثبت، مستندسازی و بهروزرسانی Incidentها، اقدامات انجامشده و Root Cause اولیه
همکاری در بهبود فرآیندهای مانیتورینگ، پاسخ به رخداد و افزایش پایداری و کیفیت سرویسها
راهنمایی و پشتیبانی فنی از کارشناسان پشتیبانی لایه یک و کمک به ارتقای سطح فنی تیم
بررسی و تست سرویس ها و زیرساختها پس از بروزرسانی های تیم DevOps
برای موفقیت در این نقش انتظار داریم مهارتهای زیر را داشته باشید:
تسلط مناسب بر مفاهیم شبکه (TCP/IP، DNS، Routing، Switching) و عیبیابی ارتباطات شبکه
آشنایی عملی با سرویسهای زیرساختی مانند VPN، IAM و فرآیندهای احراز هویت و دسترسی
شناخت محیطهای مجازیسازی بهویژه ESXi و مفاهیم پایه Virtual Machine، Resource و Availability
توانایی کار با سیستمهای مانیتورینگ، لاگ و Alerting و تحلیل رخدادها
آشنایی با تجهیزات سختافزاری شبکه، سرورها و تشخیص مشکلات متداول در سطح لایه یک
درک فرآیندهای Incident Management و Escalation در محیطهای عملیاتی (NOC)
افزون بر این داشتن مهارتهای زیر اولویت جذب شما را بیشتر میکند:
ذهنیت مالکیت سرویس (حل واقعی مسئله، نه صرفاً بستن تیکت)
توان مدیریت Incident در شرایط فشار و بحرانی
مهارت Escalation دقیق و مستند به L2/L3
تجربه بهبود مانیتورینگ و کاهش Alertهای بیارزش
توان نوشتن Runbook و مشارکت در Post‑Incident Review
درک SLA/SLO و اولویتبندی بر اساس Impact
توان منتورینگ L1 و بالا بردن بلوغ تیم
آشنایی با Automation ساده (Shell / Python)
نرمافزارهایی که باید در آنها مهارت داشته باشید:
ابزارهای لاگ و Incident (مانند ELK / Graylog)
VMware vSphere / ESXi
ابزارهای VPN و سامانههای احراز هویت (IAM / Active Directory)
سیستمهای ثبت و مدیریت تیکت (مانند Jira Service Desk)
Linux (در سطح عملیاتی)
آشنایی با Bash یا Python (مزیت محسوب میشود)