Data Distribusi Moda Transportasi merupakan proyek tugas Visualisasi Data yang berfokus pada eksplorasi distribusi variabel numerik menggunakan dataset pilihan moda transportasi. Dataset yang digunakan memiliki 840 observasi dengan empat kategori moda, yaitu Air, Train, Bus, dan Car.
Analisis utama dilakukan pada variabel GC (generalized cost) untuk memahami bentuk distribusi, kecenderungan data, kemungkinan penyimpangan dari distribusi normal, serta perbandingan distribusi antar moda transportasi. Notebook juga melakukan penyesuaian struktur data dengan memperlakukan kolom MODE sebagai indikator pilihan dan menggunakan kolom mode_label sebagai kategori moda transportasi.
- Python 3.x
- Jupyter Notebook
- Pandas (Manipulasi Data)
- NumPy (Komputasi Numerik)
- Matplotlib (Visualisasi)
- Seaborn (Visualisasi Statistik)
- SciPy (Analisis Statistik)
data-distribusi/
|-- DataDistribusi_FransMaylandgoSaragih.ipynb
|-- dataset_pilihan_moda_transportasi.csv
`-- README.md
-
Persiapan Lingkungan: Pastikan komputer sudah terinstal Python 3 dan Jupyter Notebook. Anda dapat menggunakan Anaconda atau instalasi berbasis
pip. -
Unduh Repositori: Unduh atau clone repositori ini ke komputer Anda.
-
Instalasi Dependensi: Buka terminal di dalam folder proyek, lalu jalankan perintah:
pip install pandas numpy matplotlib seaborn scipy notebook
-
Jalankan Jupyter Notebook: Jalankan perintah berikut dari folder proyek:
jupyter notebook
-
Akses Notebook: Buka file
DataDistribusi_FransMaylandgoSaragih.ipynbmelalui browser, lalu jalankan semua sel secara berurutan (Run All). -
Dataset: Pastikan file
dataset_pilihan_moda_transportasi.csvberada pada folder yang sama dengan notebook agar proses pembacaan data berjalan dengan benar.
Dataset berisi data pilihan moda transportasi dengan kolom:
MODE: indikator awal pilihan moda.TTME: waktu perjalanan terminal.INVC: biaya perjalanan.INVT: waktu perjalanan di dalam kendaraan.GC: generalized cost sebagai variabel numerik utama.HINC: pendapatan rumah tangga.PSIZE: ukuran kelompok perjalanan.choice: indikator apakah alternatif moda dipilih.mode: kode moda transportasi.mode_label: label kategori moda transportasi.
Kategori moda transportasi terdiri dari:
- Air
- Train
- Bus
- Car
Visualisasi histogram dibuat dengan beberapa variasi bin width untuk melihat pengaruh lebar bin terhadap interpretasi distribusi GC. Density plot juga dibuat dengan beberapa variasi bandwidth untuk membandingkan tingkat kehalusan kurva distribusi.
Hasil analisis menunjukkan bahwa GC cenderung miring ke kanan (right-skewed), dengan sebagian besar observasi berada pada biaya rendah hingga menengah dan sebagian kecil observasi berada pada biaya tinggi.
ECDF digunakan untuk membaca proporsi kumulatif dan persentil data secara langsung tanpa bergantung pada parameter seperti bin width atau bandwidth. Q-Q plot digunakan untuk membandingkan distribusi GC terhadap distribusi normal.
Hasil Q-Q plot menunjukkan bahwa distribusi GC tidak sepenuhnya normal, terutama karena terdapat penyimpangan pada bagian ekor kanan.
Distribusi GC dibandingkan berdasarkan kategori mode_label menggunakan boxplot, violin plot, strip chart, dan ridgeline plot.
Boxplot efektif untuk melihat median, rentang antarkuartil, dan kemungkinan outlier. Violin plot dengan strip chart memberikan gambaran yang lebih lengkap karena menampilkan bentuk distribusi, ringkasan kuartil, dan titik observasi. Ridgeline plot membantu membandingkan pola kepadatan antar moda secara ringkas.
Berdasarkan visualisasi yang dibuat, variabel GC memiliki distribusi yang cenderung tidak normal dan miring ke kanan. Pemilihan parameter visualisasi seperti bin width pada histogram dan bandwidth pada density plot berpengaruh besar terhadap interpretasi. Untuk membandingkan distribusi antar moda, violin plot dengan strip chart menjadi visualisasi yang paling informatif karena menampilkan ringkasan distribusi sekaligus data mentah.
Dikembangkan oleh: @franzxml