Ketika Anda telah mengumpulkan data pada sistem atau proses Anda, langkah selanjutnya adalah menentukan jenis distribusi probabilitas yang dimiliki. Jenis-jenis distribusi probabilitas adalah: seragam diskrit, Bernoulli, binomial, binomial negatif, Poisson, geometri, seragam kontinu, normal (kurva lonceng), distribusi eksponensial, gamma, dan beta. Mempersempit bahkan beberapa dari daftar kemungkinan membuat menentukan nilai R kuadrat terdekat yang jauh lebih cepat.
Item yang Anda butuhkan
-
Perangkat lunak grafik
-
Cara menghitung nilai R kuadrat (analisis kecocokan terbaik)
Plot data untuk representasi visual dari tipe data.
Salah satu langkah pertama untuk menentukan distribusi data apa yang dimiliki seseorang - dan dengan demikian tipe persamaan yang digunakan untuk memodelkan data - adalah untuk mengesampingkan apa yang tidak bisa. • Jika ada puncak dalam set data, itu tidak bisa menjadi distribusi seragam diskrit. • Jika data memiliki lebih dari satu puncak, itu bukan Poisson atau binomial. • Jika memiliki kurva tunggal, tidak ada puncak sekunder, dan memiliki kemiringan lambat di setiap sisi, mungkin Poisson atau distribusi gamma. Tapi itu tidak bisa menjadi distribusi seragam yang terpisah. • Jika data terdistribusi secara merata, dan tanpa condong ke satu sisi, aman untuk menyingkirkan gamma atau distribusi Weibull. • Jika fungsi memiliki distribusi genap atau puncak di tengah hasil grafik, itu bukan distribusi geometris atau distribusi eksponensial. • Jika kemunculan faktor bervariasi dengan variabel lingkungan, kemungkinan itu bukan distribusi Poisson.
Setelah jenis distribusi probabilitas dipersempit, lakukan analisis R kuadrat dari masing-masing jenis kemungkinan distribusi. Yang dengan nilai kuadrat R tertinggi kemungkinan besar benar.
Hilangkan satu titik data outlier. Kemudian hitung ulang R kuadrat. Jika jenis distribusi probabilitas yang sama muncul sebagai kecocokan terdekat, maka ada keyakinan tinggi bahwa ini adalah distribusi probabilitas yang benar untuk digunakan untuk kumpulan data.
Kiat
-
Jika data menunjukkan banyak puncak yang tersebar luas, ada kemungkinan bahwa dua proses terpisah sedang berlangsung atau produk yang dijadikan sampel dicampur. Ingat kembali data dan kemudian analisis ulang.
Peringatan
Validasi persamaan yang dihasilkan terhadap set data yang lebih baru untuk mengonfirmasi bahwa itu masih akurat untuk set data. Ada kemungkinan bahwa faktor lingkungan dan penyimpangan proses telah membuat persamaan dan model saat ini salah.