شما به عنوان یک Data Engineer، نقش مهمی در ایجاد، مدیریت و بهینه سازی جریانهای داده (Data Pipelines) و زیرساخت های داده به گونهای که دادهها قابل استفاده برای تحلیلگران داده، دانشمندان داده و سیستمهای هوش مصنوعی باشند.
مسئولیت ها:
طراحی و ساخت پایگاههای داده و دادهخانهها (Data Warehouses / Data Lakes)
طراحی ساختار داده (schemas)
بهینهسازی ذخیرهسازی داده برای سرعت و هزینه
ایجاد و مدیریت جریان داده (Data Pipelines)
استخراج دادهها از منابع مختلف (SQL, NoSQL, API, فایلها)
تبدیل و پاکسازی دادهها (ETL/ELT)
بارگذاری دادهها در سیستم هدف (Data Lake, Data Warehouse, Iceberg, BigQuery و غیره)
مدیریت و نظارت بر کیفیت دادهها
پیادهسازی قواعد کیفیت داده (Data Validation, Data Cleaning)
ایجاد لاگ و مانیتورینگ برای دادهها
یکپارچهسازی دادهها و آمادهسازی برای تحلیل
آمادهسازی دادهها برای تیمهای BI و تحلیلگران داده
پشتیبانی از مدلهای AI/ML با فراهم کردن دادههای ساختیافته و قابل استفاده
بهینهسازی عملکرد سیستمهای دادهای
بهبود سرعت پردازش و ذخیرهسازی دادهها
مدیریت دسترسی و امنیت دادهها
مهارتها و دانش مورد نیاز:
برنامهنویسی: Python, SQL, Java/Scala (برای Spark)
پایگاه داده: Oracle, Sqlserver, mysql
Data Warehousing / Data Lake: Snowflake, BigQuery, Iceberg, MinIO
ETL / ELT Tools: Apache Airflow, Talend, dbt, Airbyte
ابزارهای BI: Superset, Power BI
Big Data & Distributed Systems: Hadoop, Spark
داشتن ویژگیهای زیر مزیت محسوب میشود:
تجربه عملی در ساخت Data Pipeline و Data Warehouse
تجربه کار با دادههای حجیم و سیستمهای توزیعشده