شرکت راه گزین رایانه در زمینه های اتوماسیون صنعتی و بانکی، ساخت و تولید سیستم های الکترونیک و الکترومکانیکی فعالیت دارد.
شرکت راه گزین رایانه در زمینه های اتوماسیون صنعتی و بانکی، ساخت و تولید سیستم های الکترونیک و الکترومکانیکی فعالیت دارد.
این شرکت سعی کرده مجرب ترین متخصصین را در حوزه های مختلف شامل تحلیل کسب و کار، تحلیل و طراحی، تحقیق و توسعه، پیاده سازی و اجرا، امنیت، پشتیبانی و راهبری به کار بگیرد تا در راستای اهداف خود در حوزه طراحی و توسعه سیستم های بانکی و راهکارهای پرداخت بهتر قدم بردارد.
ما بهدنبال یک مهندس ارشد DevOps/MLOps (AI Infrastructure & Model Operations) هستیم که بتواند بهصورت end-to-end مسئولیت طراحی، پیادهسازی و نگهداشت زیرساختهای مقیاسپذیر و پایدار را برای سرویسهای هوش مصنوعی برعهده بگیرد. این نقش شامل مالکیت کامل چرخهٔ CI/CD و GitOps، مدیریت و بهینهسازی کلاسترهای Kubernetes، استقرار و مانیتورینگ سرویسهای AI مبتنی بر GPU، و ایجاد پایپلاینهای MLOps و MALOps برای آموزش و استقرار مداوم مدلها است. مهندس منتخب باید ذهنی ساختارمند، نگاه سیستمی و تسلط عمیق به مفاهیم Observability، امنیت، و چرخهٔ عمر مدلهای یادگیری ماشین داشته باشد تا بتواند پلی میان تیمهای توسعه، داده و یادگیری ماشین ایجاد کند و زیرساختی پایدار، امن و قابلگسترش برای هوش مصنوعی فراهم آورد.
شرح وظایف و مسئولیتهای موقعیت شغلی:
CI/CD و GitOps • طراحی و نگهداشت پایپلاینهای ساخت، تست و انتشار، بههمراه کشینگ آرتیفکت و کنترل کیفیت • استقرار فرآیندهای GitOps برای چند محیط و چند کلاستر، شامل استقرار تدریجی (Canary) و همگامسازی خودکار
Kubernetes/Rancher Ops • مدیریت و نگهداشت کلاسترها شامل ظرفیت، مقیاسپذیری خودکار، آپگرید و رولبک امن • بهینهسازی منابع برای بارهای کاری هوش مصنوعی و یادگیری ماشین با زمانبندی GPU و مدیریت سهمیه منابع
Observability (Metrics/Logs/Traces) • پیادهسازی Prometheus + Alertmanager برای قواعد آلارمینگ و روتینگ • استفاده از OpenTelemetry Collector برای تراسینگ و متریکها
امنیت و کامپلاینس K8s • تعریف و اعمال سیاستهای امنیتی و کنترل دسترسی در سطح کلاستر • مدیریت اسرار و رمزگذاری دادههای حساس برای افزایش امنیت
Backup/DR • طراحی و اجرای فرآیندهای پشتیبانگیری و بازیابی کلاستر و منابع • پشتیبانگیری از دادهها و دیسکها و تست دورهای ریکاوری برای اطمینان از آمادهبهکار بودن سیستم
AI Serving (GPU) • استقرار و تیونینگ سروینگ مدلها با KServe، NVIDIA Triton و vLLM روی Kubernetes • پایش عملکرد GPU، مدیریت منابع و تنظیم توازن بار بین کارتهای گرافیک
MLOps و MALOps • طراحی پایپلاینهای Kubeflow Pipelines یا Airflow برای CI/CD/CT (Continuous Training) و reproducibility • ثبت و مدیریت نسخههای مدل و ترفیع تدریجی از محیط آزمایشی به تولید • مانیتورینگ کیفیت داده و مدل، شناسایی انحراف (Drift) و اجرای بازآموزی خودکار • تعریف و مدیریت چرخه عمر مدل شامل استقرار، پایش عملکرد، بازآموزی و بازگشت نسخه • خودکارسازی عملیات مدلها شامل زمانبندی هوشمند بازآموزی و کنترل نسخهی مدلها
شایستگی ها و مهارت های مورد نیاز شغل:
دانش تخصصی: • تسلط عمیق بر مفاهیم DevOps، CI/CD، GitOps، Kubernetes، Containerization Architecture • درک جامع از MLOps، Model Lifecycle Management، Data/Model Drift، Continuous Training (CT) و AI Serving • آشنایی با اصول امنیت، Observability، Disaster Recovery، Backup، Resource Optimization و طراحی زیرساخت پایدار • شناخت از پروسههای یادگیری ماشین و یادگیری عمیق و نحوهی استقرار مدلها در محیط تولید
مهارتهای فنی:
• تسلط بر طراحی و نگهداشت پایپلاینهای Jenkins و GitOps • مهارت در مدیریت کلاسترهای Kubernetes/Rancher و بهینهسازی منابع GPU • تجربه در مانیتورینگ و تحلیل متریکها با Prometheus + Alertmanager و OpenTelemetry Collector • تسلط بر استقرار مدلها با KServe، NVIDIA Triton، vLLM • توانایی طراحی پایپلاینهای Kubeflow Pipelines یا Airflow برای آموزش و استقرار مداوم • مهارت در اسکریپتنویسی (Python/Bash/YAML) و کار با سیستمهای کنترل نسخه (Git)
حداقل 5 سال تجربهٔ حرفهای در حوزهٔ DevOps، و حداقل 2 سال سابقهٔ مستقیم در MLOps / AI Infrastructure
شرایط احراز شغل
جنسیت
تفاوتی ندارد
تحصیلات
کارشناسی| کامپیوتر / فناوری اطلاعات کارشناسی| مهندسی برق
نرم افزارها
Kubernetes| متوسط Prometheus| متوسط Kafka| متوسط GIT| متوسط Python| متوسط
ثبت مشکل و تخلف آگهی
ارسال رزومه برای راهگزین رایانه
برای دیدن سوابق ارسال رزومه، لطفا وارد حساب کاربری خود شوید.