Skip to content

franzxml/data-distribusi

Repository files navigation

Data Distribusi Moda Transportasi

Deskripsi

Data Distribusi Moda Transportasi merupakan proyek tugas Visualisasi Data yang berfokus pada eksplorasi distribusi variabel numerik menggunakan dataset pilihan moda transportasi. Dataset yang digunakan memiliki 840 observasi dengan empat kategori moda, yaitu Air, Train, Bus, dan Car.

Analisis utama dilakukan pada variabel GC (generalized cost) untuk memahami bentuk distribusi, kecenderungan data, kemungkinan penyimpangan dari distribusi normal, serta perbandingan distribusi antar moda transportasi. Notebook juga melakukan penyesuaian struktur data dengan memperlakukan kolom MODE sebagai indikator pilihan dan menggunakan kolom mode_label sebagai kategori moda transportasi.

Teknologi

  • Python 3.x
  • Jupyter Notebook
  • Pandas (Manipulasi Data)
  • NumPy (Komputasi Numerik)
  • Matplotlib (Visualisasi)
  • Seaborn (Visualisasi Statistik)
  • SciPy (Analisis Statistik)

Struktur Folder

data-distribusi/
|-- DataDistribusi_FransMaylandgoSaragih.ipynb
|-- dataset_pilihan_moda_transportasi.csv
`-- README.md

Cara Menjalankan

  1. Persiapan Lingkungan: Pastikan komputer sudah terinstal Python 3 dan Jupyter Notebook. Anda dapat menggunakan Anaconda atau instalasi berbasis pip.

  2. Unduh Repositori: Unduh atau clone repositori ini ke komputer Anda.

  3. Instalasi Dependensi: Buka terminal di dalam folder proyek, lalu jalankan perintah:

    pip install pandas numpy matplotlib seaborn scipy notebook
  4. Jalankan Jupyter Notebook: Jalankan perintah berikut dari folder proyek:

    jupyter notebook
  5. Akses Notebook: Buka file DataDistribusi_FransMaylandgoSaragih.ipynb melalui browser, lalu jalankan semua sel secara berurutan (Run All).

  6. Dataset: Pastikan file dataset_pilihan_moda_transportasi.csv berada pada folder yang sama dengan notebook agar proses pembacaan data berjalan dengan benar.

Dataset

Dataset berisi data pilihan moda transportasi dengan kolom:

  • MODE: indikator awal pilihan moda.
  • TTME: waktu perjalanan terminal.
  • INVC: biaya perjalanan.
  • INVT: waktu perjalanan di dalam kendaraan.
  • GC: generalized cost sebagai variabel numerik utama.
  • HINC: pendapatan rumah tangga.
  • PSIZE: ukuran kelompok perjalanan.
  • choice: indikator apakah alternatif moda dipilih.
  • mode: kode moda transportasi.
  • mode_label: label kategori moda transportasi.

Kategori moda transportasi terdiri dari:

  • Air
  • Train
  • Bus
  • Car

Hasil Visualisasi

Soal 2 — Histogram dan Density Plot

Visualisasi histogram dibuat dengan beberapa variasi bin width untuk melihat pengaruh lebar bin terhadap interpretasi distribusi GC. Density plot juga dibuat dengan beberapa variasi bandwidth untuk membandingkan tingkat kehalusan kurva distribusi.

Hasil analisis menunjukkan bahwa GC cenderung miring ke kanan (right-skewed), dengan sebagian besar observasi berada pada biaya rendah hingga menengah dan sebagian kecil observasi berada pada biaya tinggi.

Soal 3 — ECDF dan Q-Q Plot

ECDF digunakan untuk membaca proporsi kumulatif dan persentil data secara langsung tanpa bergantung pada parameter seperti bin width atau bandwidth. Q-Q plot digunakan untuk membandingkan distribusi GC terhadap distribusi normal.

Hasil Q-Q plot menunjukkan bahwa distribusi GC tidak sepenuhnya normal, terutama karena terdapat penyimpangan pada bagian ekor kanan.

Soal 4 — Boxplot, Violin Plot, dan Ridgeline Plot

Distribusi GC dibandingkan berdasarkan kategori mode_label menggunakan boxplot, violin plot, strip chart, dan ridgeline plot.

Boxplot efektif untuk melihat median, rentang antarkuartil, dan kemungkinan outlier. Violin plot dengan strip chart memberikan gambaran yang lebih lengkap karena menampilkan bentuk distribusi, ringkasan kuartil, dan titik observasi. Ridgeline plot membantu membandingkan pola kepadatan antar moda secara ringkas.

Kesimpulan

Berdasarkan visualisasi yang dibuat, variabel GC memiliki distribusi yang cenderung tidak normal dan miring ke kanan. Pemilihan parameter visualisasi seperti bin width pada histogram dan bandwidth pada density plot berpengaruh besar terhadap interpretasi. Untuk membandingkan distribusi antar moda, violin plot dengan strip chart menjadi visualisasi yang paling informatif karena menampilkan ringkasan distribusi sekaligus data mentah.


Dikembangkan oleh: @franzxml

About

Repositori tugas mata kuliah Visualisasi Data terkait dengan data distribusi.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors