Skip to content

hamzaabdalla305-cmyk/Python_Data_Engineering

Repository files navigation

Simple ETL Pipeline: Shipping Data Cleaning

Project Overview

هذا المشروع يمثل "ماسورة بيانات" (Data Pipeline) مصغرة. الهدف منها هو محاكاة عملية استلام بيانات شحن خام (Raw Data) من مصدر خارجي، تنظيفها من التكرار، وتحويلها من نصوص غير منظمة إلى هيكل بيانات محمي ومنظم.

Tech Stack

  • Language: Python 3.x
  • Concepts: Data Deduplication (Sets), Data Transformation (Strings & Dictionaries), Data Integrity (Tuples).

How it Works

  1. Extraction: استلام البيانات الخام في شكل قائمة (List).
  2. Cleaning: استخدام الـ set لإزالة السجلات المكررة فوراً لضمان دقة الحسابات.
  3. Transformation: - تقطيع النصوص (Parsing) باستخدام .split().
    • تنظيف القيم من الكلمات التعريفية (Key stripping).
    • تحويل كل سجل إلى Dictionary لسهولة الوصول للمعلومات.
  4. Loading: تخزين النتيجة النهائية في Tuple لضمان عدم تعديل البيانات بعد معالجتها.

Sample Output

Input: "ID:500-ITEM:Monitor-PRICE:200" Output: {'id': '500', 'item': 'Monitor', 'price': '200'}

Future Improvements

  • إضافة ميزة تحويل الأسعار من نصوص (Strings) إلى أرقام (Integers).
  • حفظ النتائج النهائية في ملف CSV أو قاعدة بيانات SQL.

About

A Python-based ETL pipeline to clean, deduplicate, and structure raw shipping data

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages