Simple ETL Pipeline: Shipping Data Cleaning

Project Overview

هذا المشروع يمثل "ماسورة بيانات" (Data Pipeline) مصغرة. الهدف منها هو محاكاة عملية استلام بيانات شحن خام (Raw Data) من مصدر خارجي، تنظيفها من التكرار، وتحويلها من نصوص غير منظمة إلى هيكل بيانات محمي ومنظم.

Tech Stack

Language: Python 3.x
Concepts: Data Deduplication (Sets), Data Transformation (Strings & Dictionaries), Data Integrity (Tuples).

How it Works

Extraction: استلام البيانات الخام في شكل قائمة (List).
Cleaning: استخدام الـ set لإزالة السجلات المكررة فوراً لضمان دقة الحسابات.
Transformation: - تقطيع النصوص (Parsing) باستخدام .split().
- تنظيف القيم من الكلمات التعريفية (Key stripping).
- تحويل كل سجل إلى Dictionary لسهولة الوصول للمعلومات.
Loading: تخزين النتيجة النهائية في Tuple لضمان عدم تعديل البيانات بعد معالجتها.

Sample Output

Input: "ID:500-ITEM:Monitor-PRICE:200" Output: {'id': '500', 'item': 'Monitor', 'price': '200'}

Future Improvements

إضافة ميزة تحويل الأسعار من نصوص (Strings) إلى أرقام (Integers).
حفظ النتائج النهائية في ملف CSV أو قاعدة بيانات SQL.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
Data-Engineering-Python-Path.py		Data-Engineering-Python-Path.py
README.md		README.md
main.py		main.py
simple_etl_pipeline.py		simple_etl_pipeline.py
smart_sales_data_processor.py		smart_sales_data_processor.py
week1_project		week1_project

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Simple ETL Pipeline: Shipping Data Cleaning

Project Overview

Tech Stack

How it Works

Sample Output

Future Improvements

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Simple ETL Pipeline: Shipping Data Cleaning

Project Overview

Tech Stack

How it Works

Sample Output

Future Improvements

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages