Diposting Sabtu, 16 April 2011 jam 10:31 pm oleh Evy Siscawati

Uji Kolmogorov-Smirnov

Suka dengan artikel ini?

Jelajahi artikel-artikel FaktaIlmiah yang berdasarkan apa yang dibaca dan ditonton teman-teman.
Terbitkan aktivitas Anda sendiri dan dapatkan kendali penuh.
Login

Sabtu, 16 April 2011 -


 

Uji KS mencoba menentukan apakah dua set data berbeda secara signifikan. Uji KS memiliki keunggulan karena tidak membuat asumsi mengenai persebaran data. Secara matematis, ini berarti ia non parametrik dan bebas distribusi. Memang keunggulan ini ada lemahnya, uji t Student bisa lebih sensitif bila datanya memenuhi persyaratan uji. Selain menghitung statistik D, uji KS juga melaporkan apakah data terlihat normal atau tidak normal (lognormal). Akan lebih mudah untuk melihat data secara grafik untuk memahami bagaimana datanya tersebar.

Keunggulan Uji Kolmogorov-Smirnov

Sekarang kita lihat contoh berikut. Pertimbangan set data ini:

A1= {0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10, 0.30, 0.15, 2.30, 0.19, -0.50, -0.09}

A2 ={-5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50}

Perhatikan kalau kedua himpunan data hampir seimbang di sekitar nol; jelas mean dari kedua data nilainya hampir nol. Walau begitu, ada lebih banyak variasi pada kelompok A2 yang jangkauannya dari -6 hingga 6 sementara kelompok A1 jangkauannya dari -2.5 hingga 2.5. Kedua data ini berbeda, tapi uji t tidak dapat melihat perbedaannya.

Kasus lain

Situasi berikut menunjukkan data yang berbeda dalam mean, namun berbeda secara distribusi.

B1={1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}

B2= {2.37, 2.16, 14.82, 1.73, 41.04, 0.23, 1.32, 2.91, 39.41, 0.11, 27.44, 4.51, 0.51, 4.50, 0.18, 14.68, 4.66, 1.30, 2.06, 1.19}

Himpunan-himpunan ini ditarik dari distribusi lognormal yang berbeda nyata dalam mean. Uji KS mendeteksi perbedaannya, uji t tidak. Tentu saja, bila peneliti tahu datanya tidak normal sejak awal, ia tidak akan memakai uji t dari awal.

Salah satu manfaat uji KS adalah ia menghasilkan presentasi grafis data, yang memungkinkan peneliti mendeteksi distribusi normal. Untuk himpunan data yang lebih besar (lebih dari 40), Teorema Limit Pusat menyarankan kalau uji t akan memberi hasil yang valid walaupun data tersebar tidak normal. Walau begitu, data yang tersebar sangat tidak normal tetap menyebabkan hasil uji t yang salah, bahkan untuk himpunan data besar.

Cara Kerja Uji KS

Statistik Deskriptif

Perhatikan data B1.

B1={1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}

Sekarang buat statistik deskriptifnya agar lebih sederhana:

Mean = 3.61
Median = 0.60
Maksima = 50.6 Minima = 0.08
Deviasi Standar = 11.2

Dari sini kita melihat ada yang tidak normal. Pada data yang normal, sekitar 15% data berada lebih dari 1 deviasi standar dibawah mean. Dalam kasus ini, seharusnya 15% data berada di bawah 3.61-11.2=-7.59), tapi tidak ada data yang sekecil itu, faktanya bahkan tidak ada satupun yang negatif. Pada data yang normal, seharusnya hanya ada 2% data yang berada lebih dari 2 deviasi standar di atas mean. Dalam kasus ini, seharusnya 2% data diatas 3.61+2×11.2=26.01), tapi kita punya satu titik data (50.57) yang jauh berada di luar itu (sehingga kita sebut pencilan). Ada yang lucu dari data ini, kita perlu melihat bagaimana ia tersebar.

Fungsi Persebaran Empiris

Fungsi fungsi persebaran empiris (disebut juga fungsi pecahan kumulatif) adalah tampilan grafis distribusi data. Bila anda menyusun ulang data B1 dari kecil ke besar hasilnya:

B1 diurutkan={0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}

Jelas tidak ada data yang berada di bawah 0.08, 5%=.05=1/20 data lebih kecil dari 0.10, 10%=.10=2/20 lebih kecil dari 0.15, 15%=.15=3/20 data lebih kecil dari 0.17… Ada 17 data lebih kecil dari 3,14 dan karenanya kita mengatakan kalau pecahan kumulatif data yang lebih kecil dari 3,14 adalah 0.85=17/20. Berikut adalah plot pecahan kumulatif dari data B1. Tiap anak tangga dari plot menunjukkan satu data.

Anda langsung dapat melihat kalau mayoritas data teremas dalam pecahan kecil plot di kiri jauh. Ini merupakan tanda distribusi datanya bersifat tidak normal. Untuk lebih mudah melihat persebaran data, perlu untuk menskalakan sumbu x secara berbeda, menggunakan ruang kecil untuk menunjukkan titik data x kecil. Karena semua data positif, anda dapat menggunakan skala logaritma, karena dalam logaritma, bilangan negatif dan nol tidak terdefinisi. Karena banyak ukuran kuantitas pasti positif, seperti lebar daun, berat tikus, konsentrasi ion hidrogen, skala logaritma umum ditemukan dalam sains. Berikut hasil penerapan skala logaritma.

Sekarang anda bisa melihat kalau median berada sedikit dibawah 1.

Sekarang kita memplot pecahan kumulatif kelompok B2 di grafik yang sama kita gunakan untuk memplot pecahan kumulatif B1. Grafik untuk kelompok B2 kita buat dengan garis putus-putus.

Sekarang anda bisa melihat kalau himpunan data B1 dan B2 menyebar pada jangkauan nilai yang kurang lebih sama (dari 0.1 hingga sekitar 50). Namun untuk sebagian besar nilai x, pecahan kelompok B2 kurang dari x jelas lebih sedikit daripada pecahan kelompok B1 yang kurang dari x. Dengan kata lain, nilai B2 lebih besar daripada nilai B1 untuk pecahan kumulatif yang sama. Sebagai contoh, median (pecahan kumulatif 0.5) untuk B1 jelas lebih kecil daripada 1 sementara median kelompok B2 lebih dari 1.

Uji KS menggunakan deviasi vertikal maksimum antara kedua kurva sebagai statistik D. Dalam kasus ini, deviasi maksimum terjadi dekat x=1 dimana D = 0.45. Nilai D diperoleh dari perhitungan berikut:

Pecahan kumulatif nilai B2 yang kurang dari 1 adalah 0.2.

Pecahan kumulatif nilai B1 yang kurang dari 1 adalah 0.65.

Perbedaan maksimum dalam pecahan kumulatif adalah 0.65 – 0.2 = 0.45

Berbeda dengan statistik t, nilai statistik D (dan berarti nilai P) tidak terpengaruh oleh perubahan skala seperti menggunakan logaritma. Uji KS adalah uji tegar yang hanya peduli dengan distribusi relatif data. Dalam kasus diatas, menggunakan skala logaritma hanya memindahkan daerah penting sehingga peneliti dapat melihat distribusi data.

Nilai F bersesuaian dengan nilai P. Dalam buku paket statistik, anda diminta menolak kalau data dianggap normal jika nilai P kurang dari 5%. Dalam kasus ini nilai F = 0.45, coba periksa apa nilai P nya, dan apakah kesimpulan yang berhasil ditarik dari uji KS yang baru saja kita lakukan. Lalu coba hitung nilai D untuk data dalam contoh pertama (A1 dan A2)

Referensi

Evy Siscawati
Facts are the air of scientists. Without them you can never fly (Linus Pauling). Berjalan di pantai, dud dud, berjalan di pantai, dud dud (ESW).
Bergabung dengan 1000 orang lebih dengan kami melalui sosial media

Berlangganan artikel dan berita terbaru dari kami via email


Aktifitas

© 2010 FaktaIlmiah.com. Hak cipta asli oleh faktailmiah
Anda boleh mendistribusikannya dengan mencantumkan referensi dari situs kami.