March 2016

KESAHAN DAN KEBOLEHPERCAYAAN INSTRUMEN KAJIAN

Kamaruzaman Moidunny, PhD

Jabatan Pembangunan Pengurus, Pemimpin dan Eksekutif Pendidikan

Institut Aminuddin Baki, Genting Highlands

Pengenalan

Kertas penulisan ini akan membincangkan konsep kesahan dan kebolehpercayaan sebagaimana yang dialami oleh penulis dalam menyiapkan kajian dengan judul Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009) yang melibatkan soal selidik, ujian pencapaian, Program Sandaran dan temu bual. Definisi kesahan dan kebolehpercayaan sebagaimana yang dikemukakan oleh pakar-pakar penyelidikan diutarakan oleh penulis dengan memberikan contoh yang relevan, agar mudah difahami oleh pembaca. Adalah diharapkan dengan penulisan ini, dapat memberikan gambaran yang lebih jelas kepada pembaca tentang bagaimana usaha dijalankan untuk menentukan kesahan dan kebolehpercayaan sesuatu instrumen.

Kesahan Soal Selidik

Kesahan sesuatu instrumen merujuk kepada sejauh manakah sesuatu instrumen mengukur apa yang sepatutnya diukur (Alias 1992; Creswell 2002, 2005, 2010; Pallant 2001; Siti Rahayah 2003; Tuckman 1999). Sesuatu instrumen tersebut dikatakan mempunyai kesahan yang tinggi jika darjah kebolehannya mengukur apa yang sepatutnya diukur adalah tinggi (Mohd Majid 1990).

Soal selidik dan soalan temu bual yang dibina oleh seseorang pengkaji perlu diuji kesahan muka dan kesahan kandungannya. Sebagai contoh, seramai lima orang pensyarah kanan Institut Aminuddin Baki (IAB) dirujuk untuk mendapatkan pengesahan tentang kesahan muka dan kesahan kandungan bagi soal selidik dan temu bual. Soal selidik dan temu bual ini terdapat dalam kajian dengan judul, Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009).

Kesahan konstruk sesuatu soal selidik pula boleh diukur dengan menggunakan nilai korelasi antara skor setiap item dengan jumlah skor berkenaan. Hal ini dapat dilakukan dengan menggunakan analisis korelasi Pearson antara skor setiap item dengan jumlah skor mengikut konstruk yang berkenaan. Kaedah ini adalah bersesuaian dengan teori yang dikemukakan oleh Abu Bakar (1987) dan Nunnally (1967). Menurut Abu Bakar (1995) pula, nilai pekali korelasi yang minimum dan boleh diterima pakai adalah 0.30. Manakala Nunally (1967, 1978) serta Nunally dan Bernstein (1994) menyatakan bahawa nilai korelasi antara item dengan jumlah skor yang melebihi 0.25 adalah dianggap tinggi.

Bagi Cohen (1988), nilai pekali korelasi antara 0.10 hingga 0.29 dianggap kecil, nilai pekali korelasi antara 0.30 hingga 0.49 dianggap sederhana dan nilai pekali korelasi antara 0.50 hingga 1.00 dianggap sebagai tinggi. Bagi Norusis (1977) pula, kesahan sesuatu instrumen boleh dilihat pada nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) iaitu pekali korelasi Pearson antara skor setiap item dengan jumlah skor tanpa item berkenaan.

Dalam konteks kajian tersebut, penulis telah menggunakan dua kaedah untuk menentukan kesahan konstruk soal selidik iaitu (1) Menggunakan nilai korelasi antara skor setiap item dengan jumlah skor, dan (2) Menggunakan nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Penulis juga akan merujuk kepada kurikulum Program Latihan NPQH untuk menentukan kesahan konstruk.

Bagi item-item ujian pencapaian dan skima permarkahan Program Sandaran penulis menggunakan khidmat tiga orang pakar dalam bidang pengurusan dan kepimpinan. Komen dan teguran yang diterima daripada pakar-pakar ini diambil kira dan diguna pakai bagi memantapkan lagi maksud, bahasa dan kandungan soal selidik dan soalan temu bual yang akan digunakan. Di samping itu, komen dan teguran digunakan dalam menilai item-item yang digunakan dalam ujian dan skima permarkahan Program Sandaran.

Kebolehpercayaan Soal Selidik

Kebolehpercayaan pula seringkali dirujuk untuk menggambarkan kestabilan dan ketekalan dalaman (Creswell 2002, 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach Alpha pula seringkali dirujuk semasa pengukuran ketekalan dalaman sesuatu konstruk (Cronbach 1946; Norusis 1977). Nilai Cronbach Alpha yang melebihi 0.60 sering kali diguna pakai sebagai indeks kebolehpercayaan sesuatu instrumen (Mohd Majid 1990; Pallant 2001; Siti Rahayah 2003). Bagi Sekaran (1992) pula, nilai kebolehpercayaan yang kurang daripada 0.60 adalah dianggap rendah dan tidak boleh diterima, nilai Alfa antara 0.60 hingga 0.80 adalah diterima manakala nilai Alfa yang melebihi 0.80 adalah dianggap baik. Berdasarkan penerangan di atas, penulis telah menggunakan nilai Cronbach Alpha bagi menentukan kebolehpercayaan soal selidik.

Kesahan dan Kebolehpercayaan Ujian

Bagi kes di IAB, ujian pencapaian (Ujian Akhir Kursus – UAK) yang berbentuk item berbentuk objektif seringkali digunakan. Item-item ini berbentuk aneka pilihan atau aneka penlengkap dengan empat pilihan jawapan iaitu A, B C atau D. Manakala dalam Program Sandaran, memfokuskan kepada (1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Skor-skor diberikan oleh pensyarah-pensyarah apabila mereka menyemak hasil kerja peserta Program Sandaran. Kesahan item-item yang digunakan dalam ujian pencapaian dan Program Sandaran ditentukan dengan membuat analisis item. Analisis item akan dilakukan untuk membezakan item yang baik dengan item yang lemah. Dalam konteks kajian tersebut, semua item ujian pencapaian dan Program Sandaran telahpun dibina oleh IAB.

Analisis item bagi setiap ujian dan Program Sandaran dilaksanakan dengan menentukan Indeks Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) seperti yang disarankan oleh Macintosh dan Morrison (1969). Wood (1961) menyatakan bahawa kesukaran item merujuk kepada pecahan yang mendapat jawapan yang betul. Semakin besar indeks kesukaran, item itu semakin senang. Bagi aras kesukaran yang baik, nilai F berada di antara 40 peratus hingga 60 peratus iaitu 0.4 hingga 0.6. Nilai F yang tinggi menunjukkan item mempunyai aras kesukaran yang rendah iaitu soalan-soalan adalah senang. Nilai F yang rendah menunjukkan item mempunyai aras kesukaran yang tinggi iaitu soalan-soalan yang dikemukakan kepada peserta adalah sukar. Macintosh dan Morrisson (1969), menyatakan bahawa item dengan nilai F yang rendah boleh dibaiki. Jadual 1 di bawah ini menjelaskan aras kesukaran (F) dan indeks pembezaan (D) sebagaimana yang dikemukakan oleh Macintosh dan Morrisson (1969).

Jadual 1: Aras Kesukaran dan Indeks Pembezaan

	Aras Kesukaran (F)
Indeks Pembezaan (D)	Kurang daripada 40 %	40 % hingga 60 %	Lebih daripada 60 %

Lebih daripada 0.40	Sukar	Diterima	Senang
0.30 – 0.39	Sukar	Perlu dibaiki	Senang
0.20 – 0.29	Sukar	Marginal	Senang
Kurang daripada 0.20	Dibuang	Dibuang	Dibuang

Sumber: Macintosh dan Morrisson (1969): 67

Indeks Pembezaan, D, pula digunakan untuk membezakan antara kumpulan peserta yang memperolehi skor tinggi dengan kumpulan peserta yang memperolehi skor rendah. Indeks Pembezaan, D, mempunyai nilai antara – 1.00 hingga + 1.00. Nilai D yang negatif menunjukkan item tersebut gagal membezakan kumpulan peserta yang memperolehi skor tinggi dengan yang memperolehi skor rendah. Jika nilai D bersamaan dengan 1.00, ini menunjukkan bahawa 27 peratus daripada kumpulan yang memperolehi skor tinggi berjaya memberi jawapan betul dan 27 peratus daripada kumpulan yang memperolehi skor rendah memberi jawapan salah. Manakala jika nilai D bersamaan dengan sifar, menunjukkan kedua-dua kumpulan peserta memberi jawapan yang serupa bagi item berkenaan. Ini bermaksud bahawa item tersebut gagal membezakan antara kumpulan peserta yang memperolehi skor tinggi dengan memperolehi skor rendah. Bagi Sax dan Newton (1997), nilai D antara 0.10 hingga 1.00 menggambarkan bahawa item tersebut boleh diguna pakai. Sementara Ebel (1979) pula menyatakan bahawa nilai D yang bersamaan atau lebih besar daripada 0.20 adalah sesuai bagi item ujian.

Bagi konteks kajian tersebut, penulis telah menggunakan item yang mempunyai nilai D yang bersamaan atau lebih besar daripada 0.20 seperti yang disarankan oleh Ebel (1979). Sementara bagi nilai F pula, penulis telah menggunakan semua item yang dianalisis untuk mengelakkan kekurangan item bagi setiap konstruk yang dikaji. Dengan kata lain, item yang dipilih akan melibatkan item sukar, marginal dan senang seperti yang ditunjukkan dalam Jadual 1. Dalam hal ini, penulis menghadapi kesukaran untuk memilih item yang mempunyai nilai F antara 0.40 dengan 0.60 (Nunally 1978). Ini adalah kerana nilai F tidak mampu dikawal oleh penulis kerana semua item dibina oleh pihak IAB dan telah ditadbirkan kepada peserta Program Latihan NPQH. Oleh itu penulis berpendapat, pemilihan semua item yang mempunyai nilai D bersamaan atau lebih besar daripada 0.20 merupakan langkah paling baik bagi kajian tersebut .

Selepas menentukan nilai-nilai F dan D, kebolehpercayaan ujian pencapaian dan Program Sandaran dihitung dengan menggunakan rumus Kuder-Richardson 20 (K-R₂₀). Bagi Siti Rahayah (2003) dan Yap et al. (1985), rumus Kuder-Richardson digunakan untuk mengelakkan memberi ujian sebanyak dua kali dan mengelakkan masalah membahagi ujian kepada dua bahagian. Rumus ini boleh digunakan bagi ujian yang homogen iaitu setiap item ujian mengukur faktor-faktor kebolehan am atau personaliti yang sama. Bagi Yap et al. (1985), rumus Kuder-Richardson ini bergantung kepada konsistensi prestasi individu daripada satu item ke satu item iaitu berdasarkan sisihan piawai ujian.

Nilai K-R₂₀ adalah antara sifar (0) hingga 1.00, walaupun nilai negatif adalah mungkin. Nilai K-R₂₀ yang tinggi menunjukkan ujian mempunyai ketekalan dalaman. Bagi Carey (1994), nilai yang melebihi 0.90 menunjukkan kebolehpercayaan yang sangat tinggi. Nilai yang hampir dengan 0.80 adalah biasa didapati untuk ujian bilik darjah kepada peserta heterogen. Manakala nilai serendah 0.50 biasa didapati bagi kumpulan peserta-peserta homogen. Sementara bagi Ebel (1979), nilai K-R₂₀ 0.50 atau kurang adalah nilai yang biasa didapati bagi ujian pencapaian di sekolah rendah, menengah atau universiti. Bagi Carey (1994), nilai K-R₂₀ bergantung kepada kehomogenan kumpulan, kehomogenan kandungan, panjang ujian dan kesukaran item. Seterusnya Ebel (1979) pula menambah bahawa untuk menjadikan kebolehpercayaan ujian meningkat daripada 0.50 ke 0.90, ujian perlu lebih panjang sebanyak sembilan kali daripada panjang asal.

Kesahan dan Kebolehpercayaan Soal Selidik

Satu contoh hasil analisis yang telah dibuat untuk menentukan kesahan dan kebolehpercayaan soal selidik dipaparkan dalam Jadual 2 seperti yang ditunjukkan di bawah ini. Kesahan item soal selidik menggunakan nilai (1) Korelasi antara skor setiap item dengan jumlah skor, dan (2) Korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Manakala nilai Cronbach Alpha digunakan bagi mendapatkan indeks kebolehpercayaan setiap aspek atau konstruk berkenaan. Jadual 2 menunjukkan bahawa konstruk penyampaian pensyarah mempunyai nilai korelasi skor item dengan jumlah skor antara 0.73 hingga 0.88. Manakala nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah antara 0.65 hingga 0.85. Nilai Cronbach Alpha pula adalah 0.92.

Jadual 2: Nilai korelasi dan Alfa bagi konstruk Penyampaian Pensyarah

Konstruk	Item	Korelasi Skor Item dengan Jumlah Skor	Korelasi Item yang Diperbetulkan dengan Jumlah Skor	Nilai Alfa jika item digugurkan	Nilai Alfa Keseluruhan
Penyampaian Pensyarah	28 29 30 31 32 33 34 35	0.84 0.79 0.80 0.88 0.73 0.84 0.77 0.82	0.78 0.72 0.74 0.85 0.65 0.80 0.69 0.75	0.91 0.92 0.92 0.91 0.92 0.91 0.92 0.91	0.92

Jadual 2 menunjukkan (1) Nilai korelasi skor item dengan jumlah skor dan (2) Nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah melebihi 0.30. Hal ini memberikan kesimpulan bahawa item mempunyai nilai kesahan yang tinggi sebagaimana yang disarankan oleh Abu Bakar (1987), Cohen (1988), Norusis (1977) dan Nunally (1987). Sementara itu, nilai Cronbach Alpha adalah melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik (Cresswell 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach Alpha ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003).

Kesahan dan Kebolehpercayaan Ujian Pencapaian

Sebanyak 450 item ditadbirkan oleh IAB kepada semua peserta program latihan NPQH daripada ambilan pertama hinggalah ambilan kesepuluh. Item ini ditadbirkan melalui empat fasa kursus yang mengandungi lima kertas ujian. Terdapat dua kertas ujian dalam Fasa Asas dan satu kertas ujian bagi tiga fasa kursus berikutnya. Dan bagi memilih item yang sesuai dalam kajian tersebut, penulis telah melaksanakan proses yang dinamakan sebagai analisis item.

Analisis item telah dibuat terhadap 450 item iaitu bagi ujian Fasa Asas Kertas 1 (75 item), Fasa Asas Kertas 2 (75 item), Fasa Pertengahan (100 item), Fasa Khas (100 item) dan Fasa Berterusan (100 item). Analisis item dilaksanakan untuk menentukan Indeks Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) dalam usaha menentukan kesahan konstruk setiap item. Rumus yang digunakan dalam analisis ini ditunjukkan dalam Lampiran J dan K. Sehubungan dengan itu, cuma item yang mempunyai nilai D bersamaan atau melebihi 0.20 serta item yang mempunyai nilai F bersamaan atau melebihi 40 peratus sahaja dipilih oleh penulis untuk analisis seterusnya seperti yang disarankan oleh Macintosh dan Morrisson (1969). Manakala bagi menentukan kebolehpercayaan setiap item, nilai Kuder-Richardson 20 (K-R₂₀) bagi setiap konstruk dihitung seperti yang disarankan oleh Carey (1994).

Oleh kerana semua ujian pencapaian dalam Program Latihan NPQH ini dilaksanakan secara tertutup, IAB tidak membenarkan sebarang item dipaparkan untuk tatapan umum. Oleh itu penulis telah menggunakan kod bagi setiap item yang dipilih. Sebagai contoh, Jadual 3 di bawah ini akan memaparkan hasil analisis item yang telah dilaksanakan bagi item ujian pencapaian.

Jadual 3 di bawah menunjukkan konstruk Pengurusan dan Kepimpinan Organisasi yang mempunyai nilai F antara 41 peratus hingga 79 peratus, nilai D antara 0.21 hingga 0.54 dan nilai K-R₂₀adalah 0.65. Bagi konstruk ini, terdapat 25 item yang terdiri daripada item yang dikemukakan dalam Fasa Asas Kertas 1 (lapan item), Fasa Berterusan (14 item) dan Fasa Pertengahan (tiga item).

Jadual 3: Nilai F, D dan K-R₂₀ bagi konstruk Pengurusan dan Kepimpinan Organisasi

Konstruk	Bil	Kod	Aras Kesukaran (F)/%	Indeks Pembezaan (D)	Nilai K-R₂₀ (r)
Pengurusan dan Kepimpinan	1	AS04	76	0.21	0.65
Organisasi	2	AS20	53	0.33
	3	AS25	53	0.37
	4	AS33	77	0.30
	5	AS35	59	0.49
	6	AS46	54	0.25
	7	AS47	59	0.21
	8	AS53	73	0.21
	9	BT07	60	0.44
	10	BT10	79	0.26
	11	BT11	74	0.30
	12	BT16	59	0.21
	13	BT17	47	0.23
	14	BT18	57	0.23
	15	BT19	75	0.33
	16	BT20	42	0.25
	17	BT22	41	0.21
	18	BT23	66	0.28
	19	BT24	43	0.54
	20	BT25	45	0.30
	21	BT26	49	0.32
	22	BT27	64	0.25
	23	PT02	53	0.31
	24	PT07	51	0.22
	25	PT09	76	0.27
Jumlah item = 25

AS – Fasa Asas Kertas 1 BT – Fasa Berterusan PT – Fasa Pertengahan

Berdasarkan nilai yang terdapat dalam Jadual 3, nilai D adalah melebihi 0.20 serta nilai F adalah bersamaan atau melebihi 40 peratus. Hal ini adalah selaras seperti dinyatakan oleh Macintosh dan Morrisson (1969). Manakala K-R₂₀ yang dihitung mempunyai nilai di antara 0.62 hingga 0.70. Nilai K-R₂₀melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman (Cresswell 2005; Sekaran 1992). Nilai K-R₂₀ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003). Oleh itu, item objektif bagi ujian pencapaian yang telah dipilih oleh penulis boleh diguna pakai untuk analisis seterusnya kerana mempunyai kesahan dan kebolehpercayaan seperti yang dikehendaki.

Semua item ujian pencapaian yang digunakan dalam kajian tersebut telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R₂₀ pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai K-R₂₀ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut.

Kesahan dan Kebolehpercayaan Program Sandaran

Analisis item juga dilaksanakan bagi empat item Program Sandaran iaitu (1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Rumus yang digunakan bagi tujuan analisis ditunjukkan dalam Lampiran A. Jadual 4 di bawah ini menunjukkan nilai yang diperoleh daripada analisis tersebut.

Jadual 4: Nilai F, D dan K-R₂₀ bagi Program Sandaran

Konstruk	Aspek	Aras Kesukaran (F)/%	Indeks Pembezaan (D)	Nilai K-R₂₀

Program Sandaran	Pengenalpastian Masalah	83	0.22	0.84
	Perancangan Strategik	82	0.25
	Pelaksanaan dan Penilaian Strategik	81	0.25
	Kualiti Peribadi	88	0.23

Daripada Jadual 4, didapati bahawa aspek Pengenalpastian Masalah mempunyai nilai F = 83 peratus dan D = 0.22, aspek Perancangan Strategik mempunyai nilai F = 82 peratus dan D = 0.25, aspek Pelaksanaan dan Penilaian Strategik mempunyai nilai F = 81 peratus dan D = 0.23, serta aspek Kualiti Peribadi mempunyai nilai F = 88 peratus dan D = 0.23. Nilai F yang tinggi menunjukkan peserta mampu melaksanakan tugasan yang diberikan dengan baik. Manakala nilai D yang melebihi 0.20 pula menunjukkan bahawa item mempunyai tahap kesahan yang boleh diguna pakai seperti yang disarankan oleh Macintosh dan Morrisson (1969). Seterusnya, nilai K-R₂₀ adalah 0.84 yang dianggap tinggi (Cohen 1988) dan merupakan nilai biasa yang didapati bagi Ujian Rujukan Kriteria seperti yang ditegaskan oleh Ebel (1979). Nilai K-R₂₀ yang tinggi ini dihasilkan oleh korelasi antara item yang tinggi kerana mengukur objektif atau kriteria yang sama.

Bagi menentukan kebolehpercayaan antara penilai (interrater reliability) untuk Program Sandaran, penulis menghitung nilai indeks kebolehpercayaan seperti yang disarankan oleh Black (1999). Oleh kerana Program Sandaran merupakan Ujian Rujukan Kriteria maka apa yang dipentingkan adalah markah lulus yang mempunyai nilai sebanyak 40 markah. Rumus yang terdapat dalam Lampiran A digunakan oleh penulis untuk menghitung nilai indeks ini. Berdasarkan rumus ini nilai indeks kebolehpercayaan (k²) yang didapati adalah bersamaan dengan 0.85. Nilai ini merupakan satu nilai kebolehpercayaan yang sangat baik berdasarkan pendapat Landis dan Kosh (1977) (dalam Zamri dan Noriah, 2003) seperti yang terdapat dalam Jadual 5. Dengan kata lain, item-item yang digunakan dalam menentukan skor bagi Program Sandaran mempunyai kebolehpercayaan yang tinggi. Ini juga menunjukkan bahawa instrumen Program Sandaran adalah sesuai digunakan untuk menilai peserta Program Latihan NPQH.

Semua item ujian pencapaian Program Sandaran yang digunakan dalam kajian tersebut telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian Program Sandaran ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R₂₀ pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai K-R₂₀ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut. Sehubungan dengan itu, nilai kebolehpercayaan antara penilai (interrater reliability) sebanyak 0.85 juga menunjukkan bahawa item dalam Program Sandaran boleh diguna pakai dalam kajian tersebut . Dan dapat disimpulkan di sini bahawa empat item ujian pencapaian Program Sandaran ini sesuai digunakan dalam usaha penulis menentukan pencapaian objektif kajian ketiga dan kelima.

Kesahan dan Kebolehpercayaan Temu Bual

Protokol temu bual dibina oleh penulis menyentuh isu-isu yang terdapat dalam penilaian reaksi, penilaian pembelajaran dan penilaian tingkah laku (Kamaruzaman, 2009). Isu seperti reaksi responden terhadap Program Latihan NPQH, pengetahuan dan kemahiran yang diperoleh, pemindahan pengetahuan dan kemahiran semasa Program Sandaran, masalah yang dihadapi dan cadangan untuk meningkatkan kualiti program ini dimasukkan dalam protokol temu bual. Ini merupakan satu usaha untuk menguatkan bukti daripada data yang didapati melalui soal selidik, skor ujian pencapaian dan skor Program Sandaran. Tegasnya, temu bual ini merupakan satu triangulasi iaitu satu proses untuk menguatkan bukti daripada sumber yang berlainan.

Semua item dalam protokol temu bual yang digunakan dalam kajian tersebut telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh lima orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item temu bual ini. Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Penulis memadankan unit daripada data temu bual dengan tema yang dominan. Dalam hal ini, penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran B.

Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Hal ini dilaksanakan dengan memadankan unit daripada data temu bual dengan tema yang dominan. Penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran B. Seterusnya, penulis menghitung nilai persetujuan (Indeks Cohen Kappa) daripada borang yang diterima daripada pakar-pakar tersebut. Nilai persetujuan dihitung berdasarkan rumus berikut iaitu:

fa – fc

K = ----------

N – fc

Sumber: Cohen (1968) dalam Zamri dan Noriah (2003):4

di mana K – nilai koefisien Kappa

fa – frekuensi persetujuan

fc – frekuensi bagi 50 peratus jangkaan persetujuan

N – bilangan unit yang diuji nilai persetujuan

Bagi menentukan tahap persetujuan Kappa, nilai yang disyorkan oleh Landis dan Kosh (1977) dalam Zamri dan Noriah (2003) digunakan oleh penulis, seperti yang ditunjukkan dalam Jadual 5 di bawah.

Jadual 5: Nilai Kappa dan interpretasinya (tahap)

Nilai Kappa	Interpretasinya
Kurang daripada 0	Sangat lemah
0.00 – 0.20	Lemah
0.21 – 0.40	Sederhana lemah
0.41 – 0.60	Sederhana
0.61 – 0.80	Baik
0.81 – 1.00	Sangat baik

Sumber: Landis dan Kosh (1977) dalam Zamri dan Noriah (2003):3

Nilai min bagi koefisien Kappa yang dihitung adalah seperti yang ditunjukkan dalam Jadual 6 di bawah ini.

Jadual 6: Nilai persetujuan bagi koefisien Kappa

Pakar 1	Pakar 2	Pakar 3	Min Koefisien Kappa
46 – 24.5 K₁ = ------------ 49 – 24.5 21.5 = ------ 24.5 = 0.88	47 – 24.5 K₂ = ---------- 49 – 24.5 22.5 = ------ 24.5 = 0.92	46 – 24.5 K₃ = ----------- 49 – 24.5 21.5 = ------ 24.5 = 0.88	K₁ + K₂ + K₃ K = ------------------- 3 0.88 + 0.92 + 0.88 = ---------------------- 3 = 0.89

Berdasarkan nilai dalam Jadual 6, Indeks Cohen Kappa (K) adalah 0.89. Nilai ini merupakan satu nilai kebolehpercayaan yang sangat baik. Dengan kata lain, unit analisis yang dibuat oleh penulis adalah selari dengan tema yang dikemukakan, berdasarkan persetujuan pakar.

Kesimpulan

Penulis telah menjelaskan bagaimana kesahan dan kebolehpercayaan setiap item yang digunakan dalam penilaian kajian ditentukan. Di samping menggunakan khidmat pakar, penulis turut menggunakan kaedah statistik dengan mengemukakan nilai seperti korelasi skor item dengan jumlah skor, korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation), Indek Kesukaran (F) dan Indeks Diskriminasi (D) bagi menentukan kesahan item yang digunakan. Sementara nilai Cronbach Alpha dan Kuder-Richarson 20 (K-R₂₀) dikemukakan bagi menentukan kebolehpercayaan item yang diguna pakai.

Rujukan

Abu Bakar Nordin. 1986. Asas penilaian pendidikan. Siri Maktab Perguruan. Petaling Jaya: Longman Malaysia Sdn. Bhd.

Alias Baba. 1992. Statistik untuk penyelidikan dalam pendidikan dan sains sosial. Bangi: Penerbit Universiti Kebangsaan Malaysia.

Black, T. R. 1999. Doing quantitative research in the social sciences – an integrated approach to research design, measurement and statistics. London: Sage Publications.

Carey, L. M. 1994. Measuring and evaluating school learning. Ed. ke-2. Boston: Allyn and Bacon.

Cohen, J. 1968. Weighted Kappa – a nominal scale aggreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70: 213-220. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan bahasa – satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 – 20 Ogos.

Cohen, J. W. 1988. Statistical power analysis for the behavioral sciences Ed. Second. Hillsdale, New Jersey: Lawrence Erlbaum Associates.

Creswell, J. W. 2002. Educational research - planning, conducting, and evaluating quantitative and qualitative research (2nd Ed). New Jersey: Pearson Merril Prentice Hall.

Creswell, J. W. 2005. Educational research - planning, conducting, and evaluating quantitative and qualitative research (3rd Ed.). New Jersey: Pearson Merril Prentice Hall.

Creswell, J. W. 2010. Educational research - planning, conducting, and evaluating quantitative and qualitative research (4th Ed.). New Jersey: Pearson Merril Prentice Hall.

Cronbach, L. J. 1946. Response sets and test validity. Educational and psychological measurement 6:672-683.

Ebel, R. L. 1979. Essentials of Educational Measurement Ed. ke-3. New Jersey: Prentice-Hall Inc.

Kamaruzaman Moidunny. 20039. Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH). Disertasi Doktor Falsafah, Universiti Kebangsaan Malaysia.

Landis, J. & Kosh, G.G. 1977. The measurement of observer agreement for categorical data. Biometrics, 33:159-174. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan bahasa – satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 – 20 Ogos.

Macintosh, H. G., & Morrisson, R. B. 1969. Objective testing. London: University of London Press Ltd.

Mohd Majid Konting. 1990. Kaedah penyelidikan pendidikan. Kuala Lumpur: Dewan Bahasa dan Pustaka.

Norusis, M. J. 1977. SPSS professional statistic 7.5. North Michigan Avenue, Chicago.

Nunnally, J. C. 1967. Psychometric theory. New York: McGraw-Hill Book Company.

Nunnally, J. C. 1978. Psychometric theory. Ed. ke-2. New York: McGraw-Hill Book Company.

Nunnally, J. C. & Bernstein, I. R. 1994. Psychometric theory. Ed. ke-3. New York: McGraw-Hill, Inc.

Pallant, J. 2001. SPSS survival manual - a step by step guide to data analysis using SPSS for windows (version 10). Buckingham Open University Press.

Sekaran, U. 1992. Research methods for bussiness: a skill-building approach. New York: John Wiley & Sons, Inc.

Siti Rahayah Ariffin. 2003. Teori, konsep & amalan dalam pengukuran dan penilaian. Bangi: Pusat Pembangunan Akademik UKM.

Tabachnick, B. G. & Fidell, L. S. 2001. Using multivariate statistics. Ed. ke-4. London: Allyn and Bacon.

Tuckman, B. W. 1999. Conducting educational research. Ed. Ke-5. California: Wadsworth Thomson Learning.

Wood, D. A. 1961. Test construction - development and interpretation of achievement test. Ohio: Charles E. Merril Books, Inc.

Yap, Y. K., Wan, C. S. & Ismail Abu Bakar. 1985. Pengukuran dan penilaian dalam pendidikan. Edisi Baru. Petaling Jaya: Longman Malaysia Sdn. Bhd.

Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan bahasa – satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 – 20 Ogos.

Marwa Mursyid Mustaqim

Pages

Thursday 31 March 2016

Prioritising Technical and Vocational Education Training (TVET)

27 TANDA-TANDA ANDA SUDAH MENJADI HAMBA DUNIA

VALIDITY DAN RELIABILITY (KESAHAN DAN KEBOLEHPERCAYAAN)

Beli Belah di sini

Blog Kaum Kerabat

Followers

Popular Posts