راهگزین رایانه
راهگزین رایانه

مهندس DevOps (MLOps)

تهران، شهرک غرب (شهرک قدس)
تمام وقت
شنبه تا چهارشنبه 8 الی 17
-
وام -بیمه درمان تکمیلی -ناهار
201 تا 500 نفر
فناوری اطلاعات / نرم افزار و سخت افزار
شرکت ایرانی دارای مشتریان داخلی
1373
خصوصی
توضیحات بیشتر

شاخص های کلیدی از نظر کارفرما

5 سال سابقه کار در گروه شغلی مشابه
Python - متوسط
GIT - متوسط
Kafka - متوسط
Kubernetes - متوسط
Prometheus - متوسط

شرح شغل و وظایف

ما به‌دنبال یک مهندس ارشد DevOps/MLOps (AI Infrastructure & Model Operations) هستیم که بتواند به‌صورت end-to-end مسئولیت طراحی، پیاده‌سازی و نگهداشت زیرساخت‌های مقیاس‌پذیر و پایدار را برای سرویس‌های هوش مصنوعی برعهده بگیرد. این نقش شامل مالکیت کامل چرخهٔ CI/CD و GitOps، مدیریت و بهینه‌سازی کلاسترهای Kubernetes، استقرار و مانیتورینگ سرویس‌های AI مبتنی بر GPU، و ایجاد پایپ‌لاین‌های MLOps و MALOps برای آموزش و استقرار مداوم مدل‌ها است.
مهندس منتخب باید ذهنی ساختارمند، نگاه سیستمی و تسلط عمیق به مفاهیم Observability، امنیت، و چرخهٔ عمر مدل‌های یادگیری ماشین داشته باشد تا بتواند پلی میان تیم‌های توسعه، داده و یادگیری ماشین ایجاد کند و زیرساختی پایدار، امن و قابل‌گسترش برای هوش مصنوعی فراهم آورد.

شرح وظایف و مسئولیت‌های موقعیت شغلی:

CI/CD و GitOps
• طراحی و نگهداشت پایپلاین‌های ساخت، تست و انتشار، به‌همراه کشینگ آرتیفکت و کنترل کیفیت
• استقرار فرآیندهای GitOps برای چند محیط و چند کلاستر، شامل استقرار تدریجی (Canary) و همگام‌سازی خودکار

Kubernetes/Rancher Ops
• مدیریت و نگهداشت کلاسترها شامل ظرفیت، مقیاس‌پذیری خودکار، آپگرید و رول‌بک امن
• بهینه‌سازی منابع برای بارهای کاری هوش مصنوعی و یادگیری ماشین با زمان‌بندی GPU و مدیریت سهمیه منابع

Observability (Metrics/Logs/Traces)
• پیاده‌سازی Prometheus + Alertmanager برای قواعد آلارمینگ و روتینگ
• استفاده از OpenTelemetry Collector برای تراسینگ و متریک‌ها

امنیت و کامپلاینس K8s
• تعریف و اعمال سیاست‌های امنیتی و کنترل دسترسی در سطح کلاستر
• مدیریت اسرار و رمزگذاری داده‌های حساس برای افزایش امنیت

Backup/DR
• طراحی و اجرای فرآیندهای پشتیبان‌گیری و بازیابی کلاستر و منابع
• پشتیبان‌گیری از داده‌ها و دیسک‌ها و تست دوره‌ای ریکاوری برای اطمینان از آماده‌به‌کار بودن سیستم

AI Serving (GPU)
• استقرار و تیونینگ سروینگ مدل‌ها با KServe، NVIDIA Triton و vLLM روی Kubernetes
• پایش عملکرد GPU، مدیریت منابع و تنظیم توازن بار بین کارت‌های گرافیک

MLOps و MALOps
• طراحی پایپ‌لاین‌های Kubeflow Pipelines یا Airflow برای CI/CD/CT (Continuous Training) و reproducibility
• ثبت و مدیریت نسخه‌های مدل و ترفیع تدریجی از محیط آزمایشی به تولید
• مانیتورینگ کیفیت داده و مدل، شناسایی انحراف (Drift) و اجرای بازآموزی خودکار
• تعریف و مدیریت چرخه عمر مدل شامل استقرار، پایش عملکرد، بازآموزی و بازگشت نسخه
• خودکارسازی عملیات مدل‌ها شامل زمان‌بندی هوشمند بازآموزی و کنترل نسخه‌ی مدل‌ها


شایستگی ها و مهارت های مورد نیاز شغل:

دانش تخصصی:
• تسلط عمیق بر مفاهیم DevOps، CI/CD، GitOps، Kubernetes، Containerization Architecture
• درک جامع از MLOps، Model Lifecycle Management، Data/Model Drift، Continuous Training (CT) و AI Serving
• آشنایی با اصول امنیت، Observability، Disaster Recovery، Backup، Resource Optimization و طراحی زیرساخت پایدار
• شناخت از پروسه‌های یادگیری ماشین و یادگیری عمیق و نحوه‌ی استقرار مدل‌ها در محیط تولید


مهارت‌های فنی:

 • تسلط بر طراحی و نگهداشت پایپلاین‌های Jenkins و GitOps
 • مهارت در مدیریت کلاسترهای Kubernetes/Rancher و بهینه‌سازی منابع GPU
 • تجربه در مانیتورینگ و تحلیل متریک‌ها با Prometheus + Alertmanager و OpenTelemetry Collector
 • تسلط بر استقرار مدل‌ها با KServe، NVIDIA Triton، vLLM
 • توانایی طراحی پایپ‌لاین‌های Kubeflow Pipelines یا Airflow برای آموزش و استقرار مداوم
 • مهارت در اسکریپت‌نویسی (Python/Bash/YAML) و کار با سیستم‌های کنترل نسخه (Git)


حداقل 5 سال تجربهٔ حرفه‌ای در حوزهٔ DevOps، و حداقل 2 سال سابقهٔ مستقیم در MLOps / AI Infrastructure 

شرایط احراز شغل

جنسیت
تفاوتی ندارد
تحصیلات
کارشناسی| کامپیوتر / فناوری اطلاعات کارشناسی| مهندسی برق
نرم افزارها
Kubernetes| متوسط Prometheus| متوسط Kafka| متوسط GIT| متوسط Python| متوسط

ثبت مشکل و تخلف آگهی

ارسال رزومه برای راهگزین رایانه