Uji Mann–Whitney (Bahasa Inggris: Mann–Whitney test, disingkat MWU); juga disebut uji Mann–Whitney–Wilcoxon (disingkat MWW), uji jumlah peringkat Wilcoxon, atau uji Wilcoxon–Mann–Whitney; adalah uji statistika nonparametrik dari hipotesis nol bahwa nilai X dan Y yang dipilih secara acak dari dua populasi memiliki distribusi yang sama.
Nilai U yang dihitung oleh uji ini dapat dikonversi menjadi ukuran efek dengan membaginya dengan nilai maksimum U, yang merupakan hasil perkalian ukuran kedua sampel yang dibandingkan. Ukuran ini adalah probabilitas bahwa nilai pengamatan acak dari kelompok yang lebih tinggi akan lebih besar daripada nilai pengamatan acak dari kelompok yang lebih rendah.[1]
Uji nonparametrik yang digunakan pada dua sampel "dependen" adalah uji tanda dan uji peringkat bertanda Wilcoxon.
Sejarah
suntingStatistika ini muncul dalam artikel tahun 1914[2] oleh Gustav Deuchler dari Jerman (dengan istilah yang hilang dalam varians).
Dalam sebuah makalah tunggal pada tahun 1945, Frank Wilcoxon mengusulkan[3] baik uji peringkat bertanda satu sampel maupun uji jumlah peringkat dua sampel, dalam uji signifikansi dengan hipotesis nol titik terhadap alternatif komplementernya (yaitu, sama versus tidak sama). Namun, ia hanya membuat tabel beberapa titik untuk kasus ukuran sampel yang sama dalam makalah tersebut (meskipun dalam makalah selanjutnya ia memberikan tabel yang lebih besar).
Analisis menyeluruh tentang statistika ini, yang mencakup rekurensi yang memungkinkan perhitungan probabilitas ekor untuk ukuran sampel sembarang dan tabel untuk ukuran sampel delapan atau kurang, muncul dalam artikel oleh Henry Mann dan muridnya Donald Ransom Whitney pada tahun 1947.[4] Artikel ini membahas hipotesis alternatif, termasuk pengurutan stokastik (di mana fungsi distribusi kumulatif memenuhi ketidaksetaraan titik FX(t) < FY(t)). Makalah ini juga menghitung empat momen pertama dan menetapkan normalitas batas statistika di bawah hipotesis nol, sehingga membuktikan bahwa statistika tersebut secara asimtotik bebas distribusi.
Asumsi dan pernyataan hipotesis formal
suntingHenry Mann dan Donald Ransom Whitney[4] mengembangkan uji U Mann–Whitney dengan asumsi respons sinambung dengan hipotesis alternatif bahwa satu distribusi secara stokastik lebih besar daripada yang lain. Artinya, probabilitas pengamatan acak dari satu kelompok lebih besar daripada pengamatan acak dari kelompok lain adalah 0,5. Ada banyak cara lain untuk merumuskan hipotesis nol dan alternatif sehingga uji U Mann–Whitney akan memberikan uji yang valid.[5]
Formulasi yang sangat umum adalah mengasumsikan kondisi berikut:
- Semua pengamatan dari kedua kelompok saling independen,
- Responsnya setidaknya ordinal (yaitu setidaknya dapat dikatakan, dari dua pengamatan mana pun, mana yang lebih besar),
- Di bawah hipotesis nol H0, distribusi kedua populasi identik.[6]
- Hipotesis alternatif H1 adalah bahwa distribusinya tidak identik.
Di bawah formulasi umum, pengujian hanya konsisten ketika hal berikut terjadi di bawah H1:
- Probabilitas pengamatan dari populasi X melebihi pengamatan dari populasi Y berbeda (lebih besar atau lebih kecil) daripada probabilitas pengamatan dari Y melebihi pengamatan dari X; yaitu P(X > Y) ≠ P(Y > X) or P(X > Y) + 0.5 · P(X = Y) ≠ 0.5.
Di bawah asumsi yang lebih ketat daripada formulasi umum di atas, misalnya jika respons diasumsikan sinambung dan alternatifnya dibatasi pada pergeseran lokasi, yaitu F1(x) = F2(x + δ), dapat diinterpretasikan uji U Mann-Whitney yang signifikan sebagai menunjukkan perbedaan median. Namun ini merupakan interpretasi, dan bukan hipotesis sebenarnya yang diuji (lihat di atas). Praktik ini bergantung pada asumsi ketat tentang distribusi data. Ketika asumsi ini tidak berlaku, mudah untuk menunjukkan bahwa uji tersebut menghasilkan hasil yang signifikan secara statistika ketika median dari kedua kelompok sebenarnya identik. Jika diperlukan uji median, regresi kuantil secara eksplisit menguji hal ini.[1]
Di bawah asumsi pergeseran lokasi ini, kita juga dapat menginterpretasikan uji U Mann–Whitney sebagai penilaian apakah estimasi Hodges–Lehmann dari perbedaan kecenderungan sentral antara kedua populasi berbeda dari nol. Estimasi Hodges–Lehmann untuk masalah dua sampel ini adalah median dari semua kemungkinan perbedaan antara observasi dalam sampel pertama dan observasi dalam sampel kedua.
Sebaliknya, jika dispersi dan bentuk distribusi kedua sampel berbeda, uji U Mann–Whitney gagal dalam uji median. Dimungkinkan untuk menunjukkan contoh di mana median secara numerik sama sementara uji tersebut menolak hipotesis nol dengan nilai p yang kecil.[7][8][9]
Uji U Mann–Whitney / uji jumlah peringkat Wilcoxon tidak sama dengan uji peringkat "bertanda" Wilcoxon, meskipun keduanya bersifat nonparametrik dan melibatkan penjumlahan peringkat. Uji U Mann–Whitney diterapkan pada sampel independen. Uji peringkat bertanda Wilcoxon diterapkan pada sampel berpasangan atau dependen.
Statistika U
suntingMeskipun makalah asli Mann dan Whitney menggambarkan uji ini sebagai uji superioritas stokastik – dengan kata lain, sebagai uji apakah observasi dari satu kelompok cenderung lebih besar daripada observasi dari kelompok lain, statistika uji, U, tidak memberikan probabilitas ini. Probabilitas ini dapat dihitung dengan mudah dengan membagi U dengan nilai maksimumnya, yang merupakan hasil perkalian dari kedua ukuran sampel.
Misalkan adalah kelompok 1, sampel i.i.d. dari , dan adalah kelompok 2, sampel i.i.d. dari , dan misalkan kedua sampel tersebut independen satu sama lain. Statistika U Mann–Whitney yang terkait didefinisikan sebagai nilai terkecil dari:
Dengan
- adalah jumlah peringkat dalam kelompok, setelah memberi peringkat semua sampel dari kedua kelompok sedemikian rupa sehingga nilai terkecil memperoleh peringkat 1 dan nilai terbesar memperoleh peringkat .[10]
Statistika area di bawah kurva (AUC) untuk kurva ROC
suntingStatistika U berkaitan dengan area di bawah kurva karakteristik operasi penerima:[11]
Perhatikan bahwa ini adalah definisi yang sama dengan ukuran efek bahasa umum, yaitu probabilitas bahwa pengklasifikasi akan memberi peringkat instance yang dipilih secara acak dari kelompok pertama lebih tinggi daripada instance yang dipilih secara acak dari kelompok kedua.[12]
Karena bentuk probabilistiknya, statistika U dapat digeneralisasikan menjadi ukuran daya pemisahan pengklasifikasi untuk lebih dari dua kelas:[13]
Di mana c adalah jumlah kelas, dan istilah Rk,ℓ dari AUCk,ℓ hanya mempertimbangkan peringkat item yang termasuk dalam kelas k dan ℓ (yaitu, item yang termasuk dalam semua kelas lain diabaikan) menurut perkiraan pengklasifikasi tentang probabilitas item tersebut termasuk dalam kelas k. AUCk,k akan selalu nol, tetapi tidak seperti pada kasus dua kelas, umumnya AUCk,ℓ ≠ AUCℓ,k, itulah sebabnya ukuran M menjumlahkan semua pasangan (k,ℓ), yang pada dasarnya menggunakan rata-rata AUCk,ℓ dan AUCℓ,k.
Perhitungan
suntingUji ini melibatkan perhitungan statistika, yang biasanya disebut U, yang distribusinya di bawah hipotesis nol diketahui:
- Dalam kasus sampel kecil, distribusinya ditabulasikan
- Untuk ukuran sampel di atas ~20, aproksimasi menggunakan distribusi normal cukup baik.
Sebagai alternatif, distribusi nol dapat didekati menggunakan uji permutasi dan simulasi Monte Carlo.
Beberapa buku mentabulasi statistika yang setara dengan U, seperti jumlah peringkat dalam salah satu sampel, daripada U itu sendiri.
Uji U Mann-Whitney termasuk dalam sebagian besar paket statistika.
Uji ini juga mudah dihitung secara manual, terutama untuk sampel kecil. Ada beberapa cara untuk melakukan ini.
Metode pertama:
Untuk membandingkan dua set pengamatan kecil, metode langsung cepat dan memberikan wawasan tentang arti statistika U, yang sesuai dengan jumlah kemenangan dari semua kontes berpasangan (lihat contoh kura-kura dan kelinci di bawah). Untuk setiap pengamatan dalam satu set, hitung berapa kali nilai pertama ini menang atas pengamatan apa pun di set lainnya (nilai lainnya kalah jika nilai pertama ini lebih besar). Hitung 0,5 untuk setiap hasil seri. Jumlah kemenangan dan hasil seri adalah U (yaitu ) untuk set pertama. U untuk set lainnya adalah kebalikannya (yaitu ).
Metode kedua:
Untuk sampel yang lebih besar:
- Berikan peringkat numerik kepada semua pengamatan (gabungkan pengamatan dari kedua kelompok ke dalam satu set), dimulai dengan 1 untuk nilai terkecil. Jika terdapat kelompok nilai yang sama, berikan peringkat yang sama dengan titik tengah peringkat yang belum disesuaikan (misalnya peringkat dari (3, 5, 5, 5, 5, 8) adalah (1, 3.5, 3.5, 3.5, 3.5, 6), sedangkan peringkat yang belum disesuaikan adalah (1, 2, 3, 4, 5, 6)).
- Sekarang, jumlahkan peringkat untuk observasi yang berasal dari sampel 1. Jumlah peringkat dalam sampel 2 sekarang ditentukan, karena jumlah semua peringkat sama dengan N(N + 1)/2 di mana N adalah jumlah total observasi
- U kemudian diberikan oleh:[14]
- di mana n1 adalah ukuran sampel untuk sampel 1, dan R1 adalah jumlah peringkat dalam sampel 1.
- Perhatikan bahwa tidak masalah sampel mana dari kedua sampel yang dianggap sebagai sampel 1. Rumus yang sama validnya untuk U adalah
- Nilai yang lebih kecil dari U1 dan U2 adalah yang digunakan saat berkonsultasi dengan tabel signifikansi. Jumlah dari kedua nilai tersebut diberikan oleh
- Nilai yang lebih kecil dari U1 dan U2 adalah yang digunakan saat berkonsultasi dengan tabel signifikansi. Jumlah dari kedua nilai tersebut diberikan oleh
- Mengetahui bahwa R1 + R2 = N(N + 1)/2 dan N = n1 + n2, dan melakukan beberapa aljabar, ditemukan bahwa jumlahnya adalah
- U1 + U2 = n1n2.
- Mengetahui bahwa R1 + R2 = N(N + 1)/2 dan N = n1 + n2, dan melakukan beberapa aljabar, ditemukan bahwa jumlahnya adalah
Properti
suntingNilai maksimum U adalah hasil perkalian ukuran sampel untuk kedua sampel (i.e., ). Dalam kasus seperti itu, U "lainnya" akan bernilai 0.
Contoh
suntingIlustrasi metode perhitungan
suntingMisalkan Aisopos tidak puas dengan eksperimen klasiknya di mana seekor kura-kura ditemukan mengalahkan seekor kelinci dalam perlombaan, dan memutuskan untuk melakukan uji signifikansi untuk mengetahui apakah hasilnya dapat diperluas ke kura-kura dan kelinci secara umum. Ia mengumpulkan sampel 6 kura-kura dan 6 kelinci, dan membuat mereka semua berlari dalam perlombaannya sekaligus. Urutan mereka mencapai garis finis (urutan peringkat mereka, dari pertama hingga terakhir melewati garis finis) adalah sebagai berikut, dengan menulis T untuk kura-kura dan H untuk kelinci:
- T H H H H H T T T T T H
Berapa nilai U?
- Dengan metode langsung, kita mengambil setiap kura-kura secara bergantian, dan menghitung jumlah kelinci yang dikalahkannya, sehingga diperoleh 6, 1, 1, 1, 1, 1, yang berarti UT = 11. Alternatifnya, kita dapat mengambil setiap kelinci secara bergantian, dan menghitung jumlah kura-kura yang dikalahkannya. Dalam hal ini, kita mendapatkan 5, 5, 5, 5, 5, 0, sehingga UH = 25. Perhatikan bahwa jumlah kedua nilai ini untuk U = 36, yang merupakan 6×6.
- Menggunakan metode tidak langsung:
- Urutkan hewan berdasarkan waktu yang mereka butuhkan untuk menyelesaikan lintasan, jadi berikan peringkat 12 untuk hewan pertama yang sampai di rumah, peringkat 11 untuk hewan kedua, dan seterusnya.
- Jumlah peringkat yang dicapai oleh kura-kura adalah 12 + 6 + 5 + 4 + 3 + 2 = 32.
- Oleh karena itu UT = 32 − (6×7)/2 = 32 − 21 = 11 (sama seperti metode pertama).
- Jumlah peringkat yang dicapai oleh kelinci adalah 11 + 10 + 9 + 8 + 7 + 1 = 46, sehingga UH = 46 − 21 = 25.
Contoh pernyataan hasil
suntingDalam melaporkan hasil uji U Mann–Whitney, penting untuk menyatakan:[15]
- Ukuran kecenderungan sentral dari kedua kelompok (Rata-rata atau median; karena uji U Mann–Whitney adalah uji ordinal, median biasanya direkomendasikan)
- Nilai U (mungkin dengan beberapa ukuran efek, seperti ukuran efek bahasa umum atau korelasi peringkat-biserial).
- Ukuran sampel
- Tingkat signifikansi.
Dalam praktiknya, beberapa informasi ini mungkin sudah diberikan dan akal sehat harus digunakan dalam memutuskan apakah akan mengulanginya. Laporan tipikal mungkin berbunyi,
- "Latensi median pada kelompok E dan C adalah 153 dan 247 ms; distribusi pada kedua kelompok berbeda secara signifikan (Mann–Whitney U = 10.5, n1 = n2 = 8, P < 0.05 dua arah)."
Pernyataan yang sepenuhnya menggambarkan status statistika pengujian tersebut dapat berbunyi,
- "Luaran dari kedua perlakuan dibandingkan menggunakan uji jumlah peringkat dua sampel Wilcoxon–Mann–Whitney. Efek perlakuan (perbedaan antar perlakuan) dikuantifikasi menggunakan estimator Hodges–Lehmann (HL), yang konsisten dengan uji Wilcoxon.[16] Estimator ini (HLΔ) adalah median dari semua kemungkinan perbedaan hasil antara subjek dalam kelompok B dan subjek dalam kelompok A. Interval kepercayaan non-parametrik 0,95 untuk HLΔ menyertai estimasi ini seperti halnya ρ, estimasi probabilitas bahwa subjek yang dipilih secara acak dari populasi B memiliki berat badan lebih tinggi daripada subjek yang dipilih secara acak dari populasi A. Median [kuartil] berat badan untuk subjek pada perlakuan A dan B masing-masing adalah 147 [121, 177] dan 151 [130, 180] kg. Perlakuan A menurunkan berat badan sebesar..." HLΔ = 5 kg (0,95 CL [2, 9] kg, 2P = 0.02, ρ = 0.58)."
Namun, akan jarang ditemukan laporan seluas ini dalam dokumen yang topik utamanya bukan inferensi statistik.
Aproksimasi normal dan koreksi ikatan
suntingUntuk sampel besar, U kira-kira terdistribusi normal. Dalam hal ini, nilai terstandarisasi
di mana mU dan σU adalah rata-rata dan deviasi standar dari U, kira-kira merupakan deviasi normal standar yang signifikansinya dapat diperiksa dalam tabel distribusi normal. mU dan σU diberikan oleh
- [17] dan
Rumus untuk deviasi standar lebih rumit jika terdapat peringkat yang sama. Jika terdapat peringkat yang sama, σ harus disesuaikan sebagai berikut:
di mana sisi kiri hanyalah varians dan sisi kanan adalah penyesuaian untuk peringkat yang sama, tk adalah jumlah peringkat yang sama untuk peringkat ke-k, dan K adalah jumlah total peringkat unik yang memiliki peringkat yang sama.
Bentuk yang lebih efisien secara komputasi dengan n1n2/12 dihilangkan adalah
di mana n = n1 + n2.
Jika jumlah nilai yang sama sedikit (dan terutama jika tidak ada nilai yang sama besar), nilai yang sama dapat diabaikan saat melakukan perhitungan secara manual. Paket statistika komputer akan menggunakan rumus yang disesuaikan dengan benar sebagai rutinitas.
Perhatikan bahwa karena U1 + U2 = n1n2, rata-rata n1n2/2 yang digunakan dalam pendekatan normal adalah rata-rata dari dua nilai U. Oleh karena itu, nilai absolut dari statistika z yang dihitung akan sama, terlepas dari nilai U mana yang digunakan.
Ukuran efek
suntingMerupakan praktik yang banyak direkomendasikan bagi para ilmuwan untuk melaporkan ukuran efek untuk uji inferensial.[19][20]
Proporsi konkordansi dari semua pasangan
suntingUkuran berikut ini setara.
Ukuran efek bahasa umum
suntingSalah satu metode pelaporan ukuran efek untuk uji U Mann–Whitney adalah dengan f, ukuran efek bahasa umum.[21][22] Sebagai statistik sampel, ukuran efek bahasa umum dihitung dengan membentuk semua pasangan yang mungkin antara kedua kelompok, kemudian menemukan proporsi pasangan yang mendukung suatu arah (misalnya, bahwa item dari kelompok 1 lebih besar daripada item dari kelompok 2).[22] Sebagai ilustrasi, dalam sebuah studi dengan sampel sepuluh kelinci dan sepuluh kura-kura, jumlah total pasangan berurutan adalah sepuluh kali sepuluh atau 100 pasangan kelinci dan kura-kura. Misalkan hasil menunjukkan bahwa kelinci berlari lebih cepat daripada kura-kura dalam 90 dari 100 pasangan sampel; dalam hal ini, ukuran efek bahasa umum sampel adalah 90%.[23]
Hubungan antara f dan U Mann–Whitney (khususnya ) adalah sebagai berikut:
Ini sama dengan area di bawah kurva (AUC) untuk kurva ROC.
Statistik ρ
suntingStatistik yang disebut ρ yang berhubungan secara linier dengan U dan banyak digunakan dalam studi kategorisasi (pembelajaran diskriminasi yang melibatkan konsep), dan di tempat lain,[24] dihitung dengan membagi U dengan nilai maksimumnya untuk ukuran sampel yang diberikan, yang hanya n1×n2. ρ adalah ukuran non-parametrik dari tumpang tindih antara dua distribusi; nilainya dapat berkisar antara 0 dan 1, dan memperkirakan P(Y > X) + 0.5 P(Y = X), di mana X dan Y adalah pengamatan yang dipilih secara acak dari kedua distribusi. Kedua nilai ekstrem tersebut mewakili pemisahan distribusi yang lengkap, sedangkan ρ sebesar 0,5 mewakili tumpang tindih yang lengkap. Kegunaan statistika ρ dapat dilihat pada contoh aneh yang digunakan di atas, di mana dua distribusi yang berbeda secara signifikan pada uji U Mann–Whitney namun memiliki median yang hampir identik: nilai ρ dalam kasus ini kira-kira 0,723 yang mendukung kelinci, yang secara tepat mencerminkan fakta bahwa meskipun kura-kura median mengalahkan kelinci median, kelinci secara kolektif berkinerja lebih baik daripada kura-kura secara kolektif.[butuh rujukan]
Korelasi peringkat biserial
suntingMetode pelaporan ukuran efek untuk uji Mann–Whitney U adalah dengan ukuran korelasi rank yang dikenal sebagai korelasi peringkat-biserial. Edward Cureton memperkenalkan dan menamai ukuran tersebut.[25] Seperti ukuran korelasi lainnya, korelasi peringkat-biserial dapat berkisar dari minus satu hingga plus satu, dengan nilai nol menunjukkan tidak ada hubungan.
Terdapat rumus perbedaan sederhana untuk menghitung korelasi peringkat-biserial dari ukuran efek bahasa umum: korelasi adalah perbedaan antara proporsi pasangan yang mendukung hipotesis (f) dikurangi komplemennya (yaitu, proporsi yang tidak mendukung (u)). Rumus perbedaan sederhana ini hanyalah perbedaan ukuran efek bahasa umum dari setiap kelompok, dan adalah sebagai berikut:[21]
Sebagai contoh, pertimbangkan contoh di mana kelinci berlari lebih cepat daripada kura-kura dalam 90 dari 100 pasangan. Ukuran efek bahasa umum adalah 90%, sehingga korelasi peringkat-biserial adalah 90% dikurangi 10%, dan peringkat-biserial r = 0.80.
Rumus alternatif untuk peringkat-biserial dapat digunakan untuk menghitungnya dari U Mann–Whitney (baik atau ) dan ukuran sampel masing-masing kelompok:[26]
Rumus ini berguna ketika data tidak tersedia, tetapi ketika ada laporan yang dipublikasikan, karena U dan ukuran sampel dilaporkan secara rutin. Dengan menggunakan contoh di atas dengan 90 pasang yang menyukai kelinci dan 10 pasang yang menyukai kura-kura, U2 adalah yang lebih kecil dari keduanya, sehingga U2 = 10. Rumus ini kemudian memberikan U2 = 10. This formula then gives r = 1 – (2×10) / (10×10) = 0.80, yang merupakan hasil yang sama dengan rumus perbedaan sederhana di atas.
Hubungan dengan uji lainnya
suntingPerbandingan dengan uji t Student
suntingUji U Mann–Whitney menguji hipotesis nol bahwa distribusi probabilitas dari pengamatan yang diambil secara acak dari satu kelompok sama dengan distribusi probabilitas dari pengamatan yang diambil secara acak dari kelompok lain terhadap hipotesis alternatif bahwa distribusi tersebut tidak sama (lihat Uji U Mann–Whitney#Asumsi dan pernyataan hipotesis formal). Sebaliknya, uji t menguji hipotesis nol tentang kesamaan rata-rata dalam dua kelompok terhadap hipotesis alternatif tentang ketidaksamaan rata-rata. Oleh karena itu, kecuali dalam kasus khusus, uji U Mann–Whitney dan uji t tidak menguji hipotesis yang sama dan harus dibandingkan dengan mempertimbangkan hal ini.
- Data ordinal
- Uji U Mann–Whitney lebih disukai daripada uji t ketika data bersifat ordinal tetapi tidak berskala interval, dalam hal ini jarak antara nilai-nilai yang berdekatan dari skala tidak dapat diasumsikan konstan.
- Ketahanan
- Karena membandingkan jumlah peringkat,[27] uji U Mann–Whitney cenderung kurang menunjukkan signifikansi secara keliru karena adanya outlier dibandingkan dengan uji t. Namun, uji U Mann–Whitney mungkin memiliki kontrol kesalahan tipe I yang lebih buruk ketika data bersifat heteroskedastik dan tidak normal.[28]
- Efisiensi
- Ketika normalitas berlaku, uji U Mann–Whitney memiliki efisiensi (asimptotik) sebesar 3/π atau sekitar 0,95 bila dibandingkan dengan uji t[29] Untuk distribusi yang cukup jauh dari normal dan untuk ukuran sampel yang cukup besar, uji U Mann–Whitney jauh lebih efisien daripada uji t.[30] Namun, perbandingan efisiensi ini harus ditafsirkan dengan hati-hati, karena Mann–Whitney dan uji t tidak menguji kuantitas yang sama. Misalnya, jika perbedaan rata-rata kelompok menjadi perhatian utama, Mann–Whitney bukanlah uji yang tepat.[31]
Uji U Mann–Whitney akan memberikan hasil yang sangat mirip dengan melakukan uji t dua sampel parametrik biasa pada peringkat data.[32]
| Distribusi | Efisiensi |
|---|---|
| Logistik | |
| Normal | |
| Laplace | 3/2 |
| Seragam | 1 |
Distribusi yang berbeda
suntingUji U Mann–Whitney tidak valid untuk menguji hipotesis nol terhadap hipotesis alternatif , tanpa mengasumsikan bahwa distribusinya sama di bawah hipotesis nol (yaitu mengasumsikan ).[5] Untuk menguji antara hipotesis tersebut, tersedia uji yang lebih baik. Di antaranya adalah uji Brunner-Munzel dan Fligner–Policello.[34] Secara khusus, di bawah hipotesis nol yang lebih umum , uji U Mann–Whitney dapat memiliki tingkat kesalahan tipe I yang meningkat bahkan pada sampel besar (terutama jika varians dari dua populasi tidak sama dan ukuran sampel berbeda), masalah yang diatasi oleh alternatif yang lebih baik. Akibatnya, disarankan untuk menggunakan salah satu alternatif (khususnya uji Brunner–Munzel) jika tidak dapat diasumsikan bahwa distribusi sama di bawah hipotesis nol.[35]
Alternatif
suntingJika seseorang menginginkan interpretasi pergeseran yang sederhana, uji U Mann–Whitney U tidak boleh digunakan ketika distribusi dari dua sampel sangat berbeda, karena dapat memberikan interpretasi yang salah terhadap hasil yang signifikan.[36] Dalam situasi tersebut, versi uji t dengan varians yang tidak sama dapat memberikan hasil yang lebih andal.
Demikian pula, beberapa penulis (Conover, W. J. (1999). Practical Nonparametric Statistics -- 3rd ed. New York: John Wiley & Sons. hlm. 272-281. ISBN 0-471-16068-7.) menyarankan untuk mengubah data menjadi peringkat (jika belum berupa peringkat) dan kemudian melakukan uji-t pada data yang telah diubah, versi uji-t yang digunakan bergantung pada apakah varians populasi diduga berbeda atau tidak. Transformasi peringkat tidak mempertahankan varians, tetapi varians dihitung ulang dari sampel setelah transformasi peringkat.
Uji yang lebih kuat adalah uji Brunner-Munzel, yang mengungguli uji U Mann–Whitney jika terjadi pelanggaran asumsi pertukaran.[37]
Uji U Mann–Whitney adalah kasus khusus dari model peluang proporsional, yang memungkinkan penyesuaian kovariat.[38]
Lihat juga uji Kolmogorov–Smirnov.
Implementasi perangkat lunak
suntingDalam banyak paket perangkat lunak, uji U Mann–Whitney (hipotesis distribusi yang sama terhadap alternatif yang sesuai) kurang terdokumentasi dengan baik. Beberapa paket secara tidak tepat menangani nilai yang sama atau gagal mendokumentasikan teknik asimtotik (misalnya, koreksi ketersinambungan). Sebuah tinjauan tahun 2000 membahas beberapa paket berikut:[39]
- MATLAB memiliki ranksum dalam Toolbox Statistiknya.
- Paket dasar statistika R mengimplementasikan wilcox.test dalam paket "stats"-nya.
- Fungsi wilcoxonZ from the rcompanion akan menghitung statistika z untuk uji Wilcoxon dua sampel, berpasangan, atau satu sampel.
- SAS mengimplementasikan uji tersebut dalam prosedur
PROC NPAR1WAY-nya. - Python memiliki implementasi pengujian ini yang disediakan oleh SciPy.[40]
- SigmaStat (SPSS Inc., Chicago, IL)
- SYSTAT (SPSS Inc., Chicago, IL)
- Java memiliki implementasi pengujian ini yang disediakan oleh Apache Commons[41]
- Julia memiliki implementasi pengujian ini melalui beberapa paket. Dalam paket
HypothesisTests.jl, ini ditemukan sebagaipvalue(MannWhitneyUTest(X, Y)).[42] - JMP (SAS Institute Inc., Cary, NC)
- SPlus (MathSoft, Inc., Seattle, WA)
- STATISTICA (StatSoft, Inc., Tulsa, OK)
- UNISTAT (Unistat Ltd, London)
- SPSS (SPSS Inc, Chicago)
- StatsDirect (StatsDirect Ltd, Manchester, UK) mengimplementasikan all common variants.
- Stata (Stata Corporation, College Station, TX) mengimplementasikan pengujian dalam perintah ranksum-nya.
- StatXact (Cytel Software Corporation, Cambridge, Massachusetts)
- PSPP mengimplementasikan pengujian dalam fungsi WILCOXON-nya.
- KNIME mengimplementasikan pengujian dalam node Wilcoxon–Mann–Whitney Testnya.
- ClickHouse mengimplementasikan pengujian tersebut dalam fungsi mannWhitneyUTest-nya.
Lihat juga
sunting- Uji Lepage
- Uji CERNO
- Uji Cucconi
- Uji Kolmogorov–Smirnov
- Uji peringkat bertanda Wilcoxon
- Uji Kruskal–Wallis
- Uji Brunner Munzel
- Model peluang proporsional
Referensi
sunting- ^ a b Conroy, Ronán M. (2012). "What Hypotheses do "Nonparametric" Two-Group Tests Actually Test?". The Stata Journal: Promoting communications on statistics and Stata (dalam bahasa Inggris). 12 (2): 182–190. doi:10.1177/1536867X1201200202. ISSN 1536-867X.
- ^ Kruskal, William H. (September 1957). "Historical Notes on the Wilcoxon Unpaired Two-Sample Test". Journal of the American Statistical Association. 52 (279): 356–360. doi:10.2307/2280906. JSTOR 2280906.
- ^ Wilcoxon, Frank (1945). "Individual comparisons by ranking methods". Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.
- ^ a b Mann, Henry B.; Whitney, Donald R. (1947). "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other". Annals of Mathematical Statistics. 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.
- ^ a b Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. MR 2595125. PMC 2857732. PMID 20414472.
- ^ [1], See Table 2.1 of Pratt (1964) "Robustness of Some Procedures for the Two-Sample Location Problem." Journal of the American Statistical Association. 59 (307): 655–680. If the two distributions are normal with the same mean but different variances, then Pr[X > Y] = Pr[Y < X] but the size of the Mann–Whitney test can be larger than the nominal level. So we cannot define the null hypothesis as Pr[X > Y] = Pr[Y < X] and get a valid test.
- ^ Divine, George W.; Norton, H. James; Barón, Anna E.; Juarez-Colunga, Elizabeth (2018). "The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians". The American Statistician. 72 (3): 278–286. doi:10.1080/00031305.2017.1305291.
- ^ Conroy, Ronán (2012). "What Hypotheses do "Nonparametric" Two-Group Tests Actually Test?". Stata Journal. 12 (2): 182–190. doi:10.1177/1536867X1201200202. S2CID 118445807. Diakses tanggal 24 May 2021.
- ^ Hart, Anna (2001). "Mann–Whitney test is not just a test of medians: differences in spread can be important". BMJ. 323 (7309): 391–393. doi:10.1136/bmj.323.7309.391. PMC 1120984. PMID 11509435.
- ^ Boston University (SPH), 2017
- ^ Mason, S. J., Graham, N. E. (2002). "Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation". Quarterly Journal of the Royal Meteorological Society. 128 (584): 2145–2166. doi:10.1256/003590002320603584. ISSN 1477-870X.
- ^ Fawcett, Tom (2006); An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874.
- ^ Hand, David J.; Till, Robert J. (2001). "A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems". Machine Learning. 45 (2): 171–186. doi:10.1023/A:1010920819831.
- ^ Zar, Jerrold H. (1998). Biostatistical Analysis. New Jersey: Prentice Hall International, INC. hlm. 147. ISBN 978-0-13-082390-8.
- ^ Fritz, Catherine O.; Morris, Peter E.; Richler, Jennifer J. (2012). "Effect size estimates: Current use, calculations, and interpretation". Journal of Experimental Psychology: General (dalam bahasa Inggris). 141 (1): 2–18. doi:10.1037/a0024338. ISSN 1939-2222. PMID 21823805.
- ^ Myles Hollander; Douglas A. Wolfe (1999). Nonparametric Statistical Methods (Edisi 2). Wiley-Interscience. ISBN 978-0-471-19045-5.
- ^ a b Siegal, Sidney (1956). Nonparametric statistics for the behavioral sciences. McGraw-Hill. hlm. 121. Pemeliharaan CS1: Nama numerik: authors list (link)
- ^ Lehmann, Erich; D'Abrera, Howard (1975). Nonparametrics: Statistical Methods Based on Ranks. Holden-Day. hlm. 20. Pemeliharaan CS1: Nama numerik: authors list (link)
- ^ Wilkinson, Leland (1999). "Statistical methods in psychology journals: Guidelines and explanations". American Psychologist. 54 (8): 594–604. doi:10.1037/0003-066X.54.8.594.
- ^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Effect size, confidence interval and statistical significance: a practical guide for biologists". Biological Reviews of the Cambridge Philosophical Society. 82 (4): 591–605. doi:10.1111/j.1469-185X.2007.00027.x. PMID 17944619. S2CID 615371.
- ^ a b Kerby, D.S. (2014). "The simple difference formula: An approach to teaching nonparametric correlation". Comprehensive Psychology. 3 11.IT.3.1. doi:10.2466/11.IT.3.1. S2CID 120622013.
- ^ a b McGraw, K.O.; Wong, J.J. (1992). "A common language effect size statistic". Psychological Bulletin. 111 (2): 361–365. doi:10.1037/0033-2909.111.2.361.
- ^ Grissom RJ (1994). "Statistical analysis of ordinal categorical status after therapies". Journal of Consulting and Clinical Psychology. 62 (2): 281–284. doi:10.1037/0022-006X.62.2.281. PMID 8201065.
- ^ Herrnstein, Richard J.; Loveland, Donald H.; Cable, Cynthia (1976). "Natural Concepts in Pigeons". Journal of Experimental Psychology: Animal Behavior Processes. 2 (4): 285–302. doi:10.1037/0097-7403.2.4.285. PMID 978139.
- ^ Cureton, E.E. (1956). "Rank-biserial correlation". Psychometrika. 21 (3): 287–290. doi:10.1007/BF02289138. S2CID 122500836.
- ^ Wendt, H.W. (1972). "Dealing with a common problem in social science: A simplified rank-biserial coefficient of correlation based on the U statistic". European Journal of Social Psychology. 2 (4): 463–465. doi:10.1002/ejsp.2420020412.
- ^ Motulsky, Harvey J.; Statistics Guide, San Diego, CA: GraphPad Software, 2007, p. 123
- ^ Zimmerman, Donald W. (1998-01-01). "Invalidation of Parametric and Nonparametric Statistical Tests by Concurrent Violation of Two Assumptions". The Journal of Experimental Education. 67 (1): 55–68. doi:10.1080/00220979809598344. ISSN 0022-0973.
- ^ Lehamnn, Erich L.; Elements of Large Sample Theory, Springer, 1999, p. 176
- ^ Conover, William J.; Practical Nonparametric Statistics, John Wiley & Sons, 1980 (2nd Edition), pp. 225–226
- ^ Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (May 2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23 (1): 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. ISSN 0163-7525. PMID 11910059.
- ^ Conover, William J.; Iman, Ronald L. (1981). "Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics". The American Statistician. 35 (3): 124–129. doi:10.2307/2683975. JSTOR 2683975.
- ^ Vaart, A. W. van der (1998-10-13). Asymptotic Statistics. Cambridge University Press. doi:10.1017/cbo9780511802256. ISBN 978-0-511-80225-6.
- ^ Brunner, Edgar; Bathke, Arne C.; Konietschke, Frank (2018). Rank and pseudo-rank procedures for independent observations in factorial designs: Using R and SAS. Springer Series in Statistics. Cham: Springer International Publishing. doi:10.1007/978-3-030-02914-2. ISBN 978-3-030-02912-8.
- ^ Karch, Julian D. (2021). "Psychologists Should Use Brunner–Munzel's Instead of Mann–Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602. hdl:1887/3209569. ISSN 2515-2459.
- ^ Kasuya, Eiiti (2001). "Mann–Whitney U test when variances are unequal". Animal Behaviour. 61 (6): 1247–1249. doi:10.1006/anbe.2001.1691. S2CID 140209347.
- ^ Karch, Julian (2021). "Psychologists Should Use Brunner–Munzel's Instead of Mann–Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602. hdl:1887/3209569. S2CID 235521799.
- ^ Harrell, Frank (20 September 2020). "Violation of Proportional Odds is Not Fatal".
- ^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will P.J.M. (2000). "Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages". The American Statistician. 54 (1): 72–77. doi:10.1080/00031305.2000.10474513. JSTOR 2685616. S2CID 120473946.
- ^ "scipy.stats.mannwhitneyu". SciPy v0.16.0 Reference Guide. The Scipy community. 24 July 2015. Diakses tanggal 11 September 2015.
scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.
- ^ "MannWhitneyUTest (Apache Commons Math 3.3 API)". commons.apache.org. Diarsipkan dari asli tanggal 2017-02-28. Diakses tanggal 2017-02-27.
- ^ "JuliaStats/HypothesisTests.jl". GitHub. 30 May 2021.
Pranala luar
sunting- Hettmansperger, T.P.; McKean, J.W. (1998). Robust nonparametric statistical methods. Kendall's Library of Statistics. Vol. 5 (Edisi First ed., rather than Taylor and Francis (2010) second). London; New York: Edward Arnold; John Wiley and Sons, Inc. hlm. xiv+467. ISBN 978-0-340-54937-7. MR 1604954.
- Corder, G.W.; Foreman, D.I. (2014). Nonparametric Statistics: A Step-by-Step Approach. Wiley. ISBN 978-1-118-84031-3.
- Hodges, J.L.; Lehmann, E.L. (1963). "Estimation of location based on ranks". Annals of Mathematical Statistics. 34 (2): 598–611. doi:10.1214/aoms/1177704172. JSTOR 2238406. MR 0152070. Zbl 0203.21105. Templat:Project Euclid.
- Kerby, D.S. (2014). "The simple difference formula: An approach to teaching nonparametric correlation". Comprehensive Psychology. 3 11.IT.3.1. doi:10.2466/11.IT.3.1. S2CID 120622013.
- Lehmann, Erich L. (2006). Nonparametrics: Statistical methods based on ranks. With the special assistance of H.J.M. D'Abrera (Edisi Reprinting of 1988 revision of 1975 Holden-Day). New York: Springer. hlm. xvi+463. ISBN 978-0-387-35212-1. MR 0395032.
- Oja, Hannu (2010). Multivariate nonparametric methods with R: An approach based on spatial signs and ranks. Lecture Notes in Statistics. Vol. 199. New York: Springer. hlm. xiv+232. doi:10.1007/978-1-4419-0468-3. ISBN 978-1-4419-0467-6. MR 2598854.
- Sen, Pranab Kumar (December 1963). "On the estimation of relative potency in dilution(-direct) assays by distribution-free methods". Biometrics. 19 (4): 532–552. doi:10.2307/2527532. JSTOR 2527532. Zbl 0119.15604.
- Chicco D.; Sichenze A.; Jurman G. (2025). "A simple guide to the use of Student's t-test, Mann-Whitney U test, Chi-squared test, and Kruskal-Wallis test in biostatistics". BioData Mining. 18 (56): 1-51. doi:10.1186/s13040-025-00465-6. PMC 12366075.
Pranala luar
sunting- Table of critical values of U (pdf) Diarsipkan 2011-07-06 di Wayback Machine.
- Interactive calculator for U and its significance
- Brief guide by experimental psychologist Karl L. Weunsch – Nonparametric effect size estimators (Copyright 2015 by Karl L. Weunsch)