هذا المشروع يمثل "ماسورة بيانات" (Data Pipeline) مصغرة. الهدف منها هو محاكاة عملية استلام بيانات شحن خام (Raw Data) من مصدر خارجي، تنظيفها من التكرار، وتحويلها من نصوص غير منظمة إلى هيكل بيانات محمي ومنظم.
- Language: Python 3.x
- Concepts: Data Deduplication (Sets), Data Transformation (Strings & Dictionaries), Data Integrity (Tuples).
- Extraction: استلام البيانات الخام في شكل قائمة (List).
- Cleaning: استخدام الـ
setلإزالة السجلات المكررة فوراً لضمان دقة الحسابات. - Transformation: - تقطيع النصوص (Parsing) باستخدام
.split().- تنظيف القيم من الكلمات التعريفية (Key stripping).
- تحويل كل سجل إلى
Dictionaryلسهولة الوصول للمعلومات.
- Loading: تخزين النتيجة النهائية في
Tupleلضمان عدم تعديل البيانات بعد معالجتها.
Input: "ID:500-ITEM:Monitor-PRICE:200"
Output: {'id': '500', 'item': 'Monitor', 'price': '200'}
- إضافة ميزة تحويل الأسعار من نصوص (Strings) إلى أرقام (Integers).
- حفظ النتائج النهائية في ملف CSV أو قاعدة بيانات SQL.