Pages

Thursday 31 March 2016

Prioritising Technical and Vocational Education Training (TVET)

27 TANDA-TANDA ANDA SUDAH MENJADI HAMBA DUNIA


1. Anda tidak bersiap-siap saat waktu solat akan tiba.

2. Anda melalui hari ini tanpa sedikit pun membuka lembaran Al-Qur'an lantaran Anda terlalu sibuk.

3. Anda selalu berfikir setiap waktu bagaimana caranya agar harta Anda semakin bertambah.

4. Anda marah ketika ada orang yang memberikan nasihat bahawa perbuatan yang Anda lakukan adalah haram.

5. Anda terus menerus menunda untuk berbuat amal soleh. “Aku akan mengerjakannya besuk, nanti dan seterusnya.”

6. Anda sangat kagum dengan gaya hidup orang-orang kaya.

7. Anda selalu bersaing dengan orang lain untuk meraih cita-cita duniawi sehingga terabaikan amal ibadah

8. Anda tidak merasa bersalah saat melakukan dosa-dosa kecil.

9. Anda tidak mampu untuk segera berhenti berbuat yang haram, dan selalu menunda bertaubat kepada Allah.

10. Anda tidak kuasa berbuat sesuatu yang diredhai Allah sekiranya perbuatan itu boleh mengecewakan orang lain.

11. Anda sangat menumpukan perhatian terhadap harta benda yang sangat ingin Anda miliki.

12. Anda merencanakan kehidupan hingga jauh ke hadapan.

13. Anda menjadikan aktiviti belajar agama sebagai aktiviti pengisi waktu luang saja, setelah sibuk berkerjaya

14. Anda memiliki teman-teman yang kebanyakannya tidak bisa mengingatkan Anda kepada Allah.

15. Anda menilai orang lain berdasarkan status sosialnya di dunia.

16. Anda melalui hari ini tanpa sedikit pun memikirkan kematian, bahkan anda benci pada mati dan tidak ingin memikirkannya

17. Anda meluangkan banyak waktu sia-sia melakukan sesuatu yang tidak bermanfaat bagi kehidupan akhirat.

18. Anda merasa sangat malas dan berat untuk mengerjakan suatu ibadah.

19. Anda tidak kuasa mengubah gaya hidup Anda yang suka berfoya-foya, walaupun Anda tahu bahawa Allah tidak menyukai gaya hidup seperti itu.

20. Anda diberi nasihat tentang bahaya memakan harta riba, akan tetapi Anda beralasan bahawa beginilah satu-satunya cara agar tetap bertahan di tengah kesulitan ekonomi.

21. Anda ingin menikmati hidup ini sepuasnya-puasnya

22. Anda sangat perhatian dengan penampilan fisik Anda.

23. Anda meyakini bahawa kematian dan hari kiamat masih lambat lagi dan lama datangnya.

24. Anda ikut menguburkan orang lain yang meninggal, tapi Anda sedikit pun tidak mendapat pengajaran dari kematiannya.

25. Anda mengerjakan solat dengan tergesa-gesa agar bisa segera melanjutkan pekerjaan.

26. Anda tidak pernah berfikir bahawa hari ini bisa jadi hari terakhir Anda hidup di dunia.

27. Anda merasa mendapatkan ketenangan hidup dari berbagai kemewahan yang Anda miliki, bukan merasa tenang dengan mengingati Allah.

- Semoga Allah melindungi kita dari hal tersebut dan semoga kita termasuk golongan hamba-hamba Nya yang soleh..

Aamiin

VALIDITY DAN RELIABILITY (KESAHAN DAN KEBOLEHPERCAYAAN)

KESAHAN DAN KEBOLEHPERCAYAAN INSTRUMEN KAJIAN

Kamaruzaman Moidunny, PhD
Jabatan Pembangunan Pengurus, Pemimpin dan Eksekutif Pendidikan
Institut Aminuddin Baki, Genting Highlands

Pengenalan

Kertas penulisan ini akan membincangkan konsep kesahan dan kebolehpercayaan sebagaimana yang dialami oleh penulis dalam menyiapkan kajian dengan judul Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009) yang melibatkan soal selidik, ujian pencapaian, Program Sandaran dan temu bual. Definisi kesahan dan kebolehpercayaan sebagaimana yang dikemukakan oleh pakar-pakar penyelidikan diutarakan oleh penulis dengan memberikan contoh yang relevan, agar mudah difahami oleh pembaca. Adalah diharapkan dengan penulisan ini, dapat memberikan gambaran yang lebih jelas kepada pembaca tentang bagaimana usaha dijalankan untuk menentukan kesahan dan kebolehpercayaan sesuatu instrumen. 

Kesahan Soal Selidik

Kesahan sesuatu instrumen merujuk kepada sejauh manakah sesuatu instrumen mengukur apa yang sepatutnya diukur  (Alias 1992; Creswell 2002, 2005, 2010; Pallant 2001; Siti Rahayah 2003; Tuckman 1999). Sesuatu instrumen tersebut dikatakan mempunyai kesahan yang tinggi jika darjah kebolehannya mengukur apa yang sepatutnya diukur adalah tinggi (Mohd Majid 1990).  

Soal selidik dan soalan temu bual yang dibina oleh seseorang pengkaji perlu diuji kesahan muka dan kesahan kandungannya. Sebagai contoh, seramai lima orang pensyarah kanan Institut Aminuddin Baki (IAB) dirujuk untuk mendapatkan pengesahan tentang kesahan muka dan kesahan kandungan bagi soal selidik dan temu bual. Soal selidik dan temu bual ini terdapat dalam kajian dengan judul, Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009).

Kesahan konstruk sesuatu soal selidik pula boleh diukur dengan menggunakan nilai korelasi antara skor setiap item dengan jumlah skor berkenaan. Hal ini dapat dilakukan dengan menggunakan analisis korelasi Pearson antara skor setiap item dengan jumlah skor mengikut konstruk yang berkenaan. Kaedah ini adalah bersesuaian dengan teori yang dikemukakan oleh Abu Bakar (1987) dan Nunnally (1967).  Menurut Abu Bakar (1995) pula, nilai pekali korelasi yang minimum dan boleh diterima pakai adalah 0.30. Manakala Nunally (1967, 1978) serta Nunally dan Bernstein (1994) menyatakan bahawa nilai korelasi antara item dengan jumlah skor yang melebihi 0.25 adalah dianggap tinggi. 

Bagi Cohen (1988), nilai pekali korelasi antara 0.10 hingga 0.29 dianggap kecil, nilai pekali korelasi antara 0.30 hingga 0.49 dianggap sederhana dan  nilai pekali korelasi antara 0.50 hingga 1.00  dianggap sebagai tinggi. Bagi Norusis (1977) pula, kesahan sesuatu instrumen boleh dilihat pada nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) iaitu pekali korelasi Pearson antara skor setiap item dengan jumlah skor tanpa item berkenaan. 

Dalam konteks kajian tersebut, penulis telah menggunakan dua kaedah untuk menentukan kesahan konstruk soal selidik iaitu (1) Menggunakan nilai korelasi antara skor setiap item dengan jumlah skor,  dan (2) Menggunakan nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Penulis juga akan merujuk kepada kurikulum Program Latihan NPQH untuk menentukan kesahan konstruk.  

Bagi item-item ujian pencapaian dan skima permarkahan Program Sandaran penulis menggunakan khidmat tiga orang pakar dalam bidang pengurusan dan kepimpinan. Komen dan teguran yang diterima daripada pakar-pakar ini diambil kira dan diguna pakai bagi memantapkan lagi maksud, bahasa dan kandungan soal selidik dan soalan temu bual yang akan digunakan. Di samping itu, komen dan teguran digunakan dalam menilai item-item yang digunakan dalam ujian dan skima permarkahan Program Sandaran.

Kebolehpercayaan Soal Selidik

Kebolehpercayaan pula seringkali dirujuk untuk menggambarkan kestabilan dan ketekalan dalaman (Creswell 2002, 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach Alpha pula seringkali dirujuk semasa pengukuran ketekalan dalaman sesuatu konstruk (Cronbach 1946; Norusis 1977). Nilai Cronbach Alpha yang melebihi 0.60 sering kali diguna pakai sebagai indeks kebolehpercayaan sesuatu instrumen (Mohd Majid 1990; Pallant 2001; Siti Rahayah 2003).   Bagi Sekaran (1992) pula, nilai kebolehpercayaan yang kurang daripada 0.60 adalah dianggap rendah dan tidak boleh diterima, nilai Alfa antara 0.60 hingga 0.80 adalah diterima manakala nilai Alfa yang melebihi 0.80 adalah dianggap baik. Berdasarkan penerangan di atas, penulis telah menggunakan nilai Cronbach Alpha bagi menentukan kebolehpercayaan soal selidik.

Kesahan dan Kebolehpercayaan Ujian 

Bagi kes di IAB, ujian pencapaian (Ujian Akhir Kursus – UAK) yang berbentuk item berbentuk objektif seringkali digunakan. Item-item ini berbentuk aneka pilihan atau aneka penlengkap dengan empat pilihan jawapan iaitu A, B C atau D. Manakala dalam Program Sandaran, memfokuskan kepada (1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Skor-skor diberikan oleh pensyarah-pensyarah apabila mereka menyemak hasil kerja peserta Program Sandaran. Kesahan item-item yang digunakan dalam ujian pencapaian dan Program Sandaran ditentukan dengan membuat analisis item. Analisis item akan dilakukan untuk membezakan item yang baik dengan item yang lemah. Dalam konteks kajian tersebut, semua item ujian pencapaian dan Program Sandaran telahpun dibina oleh IAB. 

Analisis item bagi setiap ujian dan Program Sandaran dilaksanakan dengan menentukan Indeks Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) seperti yang disarankan oleh Macintosh dan Morrison (1969). Wood (1961) menyatakan bahawa kesukaran item merujuk kepada pecahan yang mendapat jawapan yang betul. Semakin besar indeks kesukaran, item itu semakin senang. Bagi aras kesukaran yang baik, nilai F berada di antara 40 peratus hingga 60 peratus iaitu 0.4 hingga 0.6. Nilai F yang tinggi menunjukkan item mempunyai aras kesukaran yang rendah iaitu soalan-soalan adalah senang. Nilai F yang rendah menunjukkan item mempunyai aras kesukaran yang tinggi iaitu soalan-soalan yang dikemukakan kepada peserta adalah sukar.  Macintosh dan Morrisson (1969), menyatakan bahawa item dengan nilai F yang rendah boleh dibaiki. Jadual 1 di bawah ini menjelaskan aras kesukaran (F) dan indeks pembezaan (D) sebagaimana yang dikemukakan oleh Macintosh dan Morrisson (1969). 

Jadual 1:  Aras Kesukaran dan Indeks Pembezaan


Aras Kesukaran (F)
Indeks Pembezaan (D)
Kurang 
daripada
40 %
40 %
hingga
60 %
Lebih daripada
60 %




Lebih daripada 0.40
Sukar
Diterima
Senang
0.30 – 0.39
Sukar
Perlu dibaiki
Senang
0.20 – 0.29
Sukar
Marginal
Senang
Kurang daripada 0.20
Dibuang
Dibuang
Dibuang

Sumber: Macintosh dan Morrisson (1969): 67

Indeks Pembezaan, D, pula digunakan untuk membezakan antara kumpulan peserta yang memperolehi skor tinggi dengan kumpulan peserta yang memperolehi skor rendah. Indeks Pembezaan, D, mempunyai nilai antara – 1.00 hingga + 1.00. Nilai D yang negatif menunjukkan item tersebut gagal membezakan kumpulan peserta yang memperolehi skor tinggi dengan yang memperolehi skor rendah. Jika nilai D bersamaan dengan 1.00, ini menunjukkan bahawa 27 peratus daripada kumpulan yang memperolehi skor tinggi berjaya memberi jawapan betul dan 27 peratus daripada kumpulan yang memperolehi skor rendah memberi jawapan salah. Manakala jika nilai D bersamaan dengan sifar, menunjukkan kedua-dua kumpulan peserta memberi jawapan yang serupa bagi item berkenaan. Ini bermaksud bahawa item tersebut gagal membezakan antara kumpulan peserta yang memperolehi skor tinggi dengan memperolehi skor rendah. Bagi Sax dan Newton (1997), nilai D antara 0.10 hingga 1.00 menggambarkan bahawa item tersebut boleh diguna pakai. Sementara Ebel (1979) pula menyatakan bahawa nilai D yang bersamaan atau lebih besar daripada 0.20 adalah sesuai bagi item ujian.

Bagi konteks kajian tersebut, penulis telah menggunakan item yang mempunyai nilai D yang bersamaan atau lebih besar daripada 0.20 seperti yang disarankan oleh Ebel (1979). Sementara bagi nilai F pula, penulis telah menggunakan semua item yang dianalisis untuk mengelakkan kekurangan item bagi setiap konstruk yang dikaji. Dengan kata lain, item yang dipilih akan melibatkan item sukar, marginal dan senang seperti yang ditunjukkan dalam Jadual 1. Dalam hal ini, penulis menghadapi kesukaran untuk memilih item yang mempunyai nilai F antara 0.40 dengan 0.60 (Nunally 1978). Ini adalah kerana nilai F tidak mampu dikawal oleh penulis kerana semua item dibina oleh pihak IAB dan telah ditadbirkan kepada peserta Program Latihan NPQH. Oleh itu penulis berpendapat, pemilihan semua item yang mempunyai nilai D bersamaan atau lebih besar daripada 0.20 merupakan langkah paling baik bagi kajian tersebut .                     

Selepas menentukan nilai-nilai F dan D, kebolehpercayaan ujian pencapaian dan Program Sandaran dihitung dengan menggunakan rumus Kuder-Richardson 20 (K-R20). Bagi Siti Rahayah (2003) dan Yap et al. (1985), rumus Kuder-Richardson digunakan untuk mengelakkan memberi ujian sebanyak dua kali dan mengelakkan masalah membahagi ujian kepada dua bahagian. Rumus ini boleh digunakan bagi ujian yang homogen iaitu setiap item ujian mengukur faktor-faktor kebolehan am atau personaliti yang sama. Bagi Yap et al. (1985), rumus Kuder-Richardson ini bergantung kepada konsistensi prestasi individu daripada satu item ke satu item iaitu berdasarkan sisihan piawai ujian. 

Nilai K-R20 adalah antara sifar (0) hingga 1.00, walaupun nilai negatif adalah mungkin. Nilai K-R20 yang tinggi menunjukkan ujian mempunyai ketekalan dalaman. Bagi Carey (1994), nilai yang melebihi 0.90 menunjukkan kebolehpercayaan yang sangat tinggi. Nilai yang hampir dengan 0.80 adalah biasa didapati untuk ujian bilik darjah kepada peserta heterogen. Manakala nilai serendah 0.50 biasa didapati bagi kumpulan peserta-peserta homogen.  Sementara bagi Ebel (1979), nilai K-R20 0.50 atau kurang adalah nilai yang biasa didapati bagi ujian pencapaian di sekolah rendah, menengah atau universiti.  Bagi Carey (1994), nilai K-R20 bergantung kepada kehomogenan kumpulan, kehomogenan kandungan, panjang ujian dan kesukaran item. Seterusnya Ebel (1979) pula menambah bahawa untuk menjadikan kebolehpercayaan ujian meningkat daripada 0.50 ke 0.90, ujian perlu lebih panjang sebanyak sembilan kali daripada panjang asal.

Kesahan dan Kebolehpercayaan Soal Selidik 

Satu contoh hasil analisis yang telah dibuat untuk menentukan kesahan dan kebolehpercayaan soal selidik dipaparkan dalam Jadual 2 seperti yang ditunjukkan di bawah ini. Kesahan item soal selidik menggunakan nilai (1) Korelasi antara skor setiap item dengan jumlah skor,  dan (2) Korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Manakala nilai Cronbach Alpha digunakan bagi mendapatkan indeks kebolehpercayaan setiap aspek atau konstruk berkenaan. Jadual 2 menunjukkan bahawa konstruk penyampaian pensyarah mempunyai nilai korelasi skor item dengan jumlah skor antara 0.73 hingga 0.88. Manakala nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah antara 0.65 hingga 0.85. Nilai Cronbach Alpha pula adalah 0.92.

Jadual 2:  Nilai korelasi dan Alfa bagi konstruk Penyampaian Pensyarah

Konstruk
Item
Korelasi Skor Item dengan Jumlah Skor
Korelasi Item yang Diperbetulkan dengan Jumlah Skor
Nilai Alfa jika item digugurkan
Nilai Alfa Keseluruhan
Penyampaian Pensyarah
28
29
30
31
32
33
34
35
0.84
0.79
0.80
0.88
0.73
0.84
0.77
0.82
0.78
0.72
0.74
0.85
0.65
0.80
0.69
0.75
0.91
0.92
0.92
0.91
0.92
0.91
0.92
0.91
0.92

Jadual 2 menunjukkan (1) Nilai korelasi skor item dengan jumlah skor dan (2) Nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah melebihi 0.30. Hal ini memberikan kesimpulan bahawa item mempunyai nilai kesahan yang tinggi sebagaimana yang disarankan oleh Abu Bakar (1987), Cohen (1988), Norusis (1977) dan Nunally (1987). Sementara itu, nilai Cronbach Alpha adalah melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik (Cresswell 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach Alpha ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003).

Kesahan dan Kebolehpercayaan Ujian Pencapaian

Sebanyak 450 item ditadbirkan oleh IAB kepada semua peserta program latihan NPQH daripada ambilan pertama hinggalah ambilan kesepuluh. Item ini ditadbirkan melalui empat fasa kursus yang mengandungi lima kertas ujian. Terdapat dua kertas ujian dalam Fasa Asas dan satu kertas ujian bagi tiga fasa kursus berikutnya. Dan bagi memilih item yang sesuai dalam kajian tersebut, penulis telah melaksanakan proses yang dinamakan sebagai analisis item.

Analisis item telah dibuat terhadap 450 item iaitu bagi ujian Fasa Asas Kertas 1 (75 item), Fasa Asas Kertas 2 (75 item), Fasa Pertengahan (100 item), Fasa Khas (100 item) dan Fasa Berterusan (100 item). Analisis item dilaksanakan untuk menentukan Indeks Kesukaran (Facility Index, F)  dan Indeks Pembezaan (Discrimination Index, D) dalam usaha menentukan kesahan konstruk setiap item. Rumus yang digunakan dalam analisis ini ditunjukkan dalam Lampiran J dan K. Sehubungan dengan itu, cuma item yang mempunyai nilai D bersamaan atau melebihi 0.20 serta item yang mempunyai nilai F bersamaan atau melebihi 40 peratus sahaja dipilih oleh penulis untuk analisis seterusnya seperti yang disarankan oleh Macintosh dan Morrisson (1969). Manakala bagi menentukan kebolehpercayaan setiap item, nilai Kuder-Richardson 20 (K-R20) bagi setiap konstruk dihitung seperti yang disarankan oleh Carey (1994).

Oleh kerana semua ujian pencapaian dalam Program Latihan NPQH ini dilaksanakan secara tertutup,  IAB tidak membenarkan sebarang item dipaparkan untuk tatapan umum. Oleh itu penulis telah menggunakan kod bagi setiap item yang dipilih. Sebagai contoh, Jadual 3 di bawah ini akan memaparkan hasil analisis item yang telah dilaksanakan bagi item ujian pencapaian.

Jadual 3 di bawah menunjukkan konstruk Pengurusan dan Kepimpinan Organisasi yang mempunyai nilai F antara 41 peratus hingga 79 peratus, nilai D antara 0.21 hingga 0.54 dan nilai K-R20 adalah 0.65.  Bagi konstruk ini, terdapat 25 item yang terdiri daripada item yang dikemukakan dalam Fasa Asas Kertas 1 (lapan item), Fasa Berterusan (14 item) dan Fasa Pertengahan (tiga item).

Jadual 3:  Nilai F, D dan K-R20 bagi konstruk  Pengurusan dan Kepimpinan Organisasi

Konstruk
Bil
Kod
Aras 
Kesukaran
(F)/%
Indeks Pembezaan
(D)
Nilai K-R20
(r)
Pengurusan dan Kepimpinan 
1
AS04
76 
0.21
0.65
Organisasi
2
AS20
53 
0.33


3
AS25
53 
0.37


4
AS33
77 
0.30


5
AS35
59 
0.49


6
AS46
54 
0.25


7
AS47
59 
0.21


8
AS53
73 
0.21


9
BT07
60 
0.44


10
BT10
79 
0.26


11
BT11
74 
0.30


12
BT16
59 
0.21


13
BT17
47 
0.23


14
BT18
57 
0.23


15
BT19
75 
0.33


16
BT20
42 
0.25


17
BT22
41 
0.21


18
BT23
66 
0.28


19
BT24
43 
0.54


20
BT25
45 
0.30


21
BT26
49 
0.32


22
BT27
64 
0.25


23
PT02
53 
0.31


24
PT07
51 
0.22


25
PT09
76 
0.27

Jumlah item = 25





AS – Fasa Asas Kertas 1     BT – Fasa Berterusan     PT – Fasa Pertengahan

Berdasarkan nilai yang terdapat dalam  Jadual 3, nilai D adalah melebihi 0.20 serta nilai F adalah bersamaan atau melebihi 40 peratus. Hal ini adalah selaras seperti dinyatakan oleh Macintosh dan Morrisson (1969). Manakala  K-R20 yang dihitung mempunyai nilai di antara 0.62 hingga 0.70. Nilai K-R20 melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman (Cresswell 2005; Sekaran 1992). Nilai K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003). Oleh itu, item objektif bagi ujian pencapaian yang telah dipilih oleh penulis boleh diguna pakai untuk analisis seterusnya kerana mempunyai kesahan dan kebolehpercayaan seperti yang dikehendaki.

Semua item ujian pencapaian yang digunakan dalam kajian tersebut  telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R20 pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut.

Kesahan dan Kebolehpercayaan Program Sandaran
Analisis item juga dilaksanakan bagi empat item Program Sandaran iaitu (1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Rumus yang digunakan bagi tujuan analisis ditunjukkan dalam Lampiran A. Jadual 4 di bawah ini menunjukkan nilai yang diperoleh daripada analisis tersebut.

Jadual 4:   Nilai F, D dan K-R20 bagi Program Sandaran

Konstruk
Aspek
Aras 
Kesukaran 
(F)/%
Indeks 
Pembezaan 
(D)
Nilai 
K-R20





Program Sandaran
Pengenalpastian Masalah
83 
0.22
0.84

Perancangan Strategik
82 
0.25


Pelaksanaan dan Penilaian Strategik
81 
0.25


Kualiti Peribadi
88 
0.23



Daripada Jadual 4, didapati bahawa aspek Pengenalpastian Masalah mempunyai nilai F = 83 peratus dan D = 0.22, aspek Perancangan Strategik mempunyai nilai F = 82 peratus dan D = 0.25, aspek Pelaksanaan dan Penilaian Strategik mempunyai nilai F = 81 peratus dan D = 0.23, serta aspek Kualiti Peribadi mempunyai nilai F = 88 peratus dan D = 0.23. Nilai F yang tinggi menunjukkan peserta mampu melaksanakan tugasan yang diberikan dengan baik. Manakala nilai D yang melebihi 0.20 pula menunjukkan bahawa item mempunyai tahap kesahan yang boleh diguna pakai seperti yang disarankan oleh Macintosh dan Morrisson (1969). Seterusnya, nilai K-R20 adalah 0.84 yang dianggap tinggi (Cohen 1988) dan merupakan nilai biasa yang didapati bagi Ujian Rujukan Kriteria seperti yang ditegaskan oleh Ebel (1979). Nilai K-R20  yang tinggi ini dihasilkan oleh korelasi antara item yang tinggi kerana mengukur objektif atau kriteria yang sama.

Bagi menentukan kebolehpercayaan antara penilai (interrater reliability) untuk Program Sandaran, penulis menghitung nilai indeks kebolehpercayaan seperti yang disarankan oleh Black (1999). Oleh kerana Program Sandaran merupakan Ujian Rujukan Kriteria maka apa yang dipentingkan adalah markah lulus yang mempunyai nilai sebanyak 40 markah. Rumus yang terdapat dalam Lampiran A digunakan oleh penulis untuk menghitung nilai indeks ini. Berdasarkan rumus ini nilai indeks kebolehpercayaan (k2) yang didapati adalah bersamaan dengan 0.85. Nilai ini merupakan satu nilai kebolehpercayaan yang sangat baik berdasarkan pendapat Landis dan Kosh (1977) (dalam Zamri dan Noriah, 2003) seperti yang terdapat dalam Jadual 5. Dengan kata lain, item-item yang digunakan dalam menentukan skor bagi Program Sandaran mempunyai kebolehpercayaan yang tinggi. Ini juga menunjukkan bahawa instrumen Program Sandaran adalah sesuai digunakan untuk menilai peserta Program Latihan NPQH. 

Semua item ujian pencapaian Program Sandaran yang digunakan dalam kajian tersebut  telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian Program Sandaran ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R20 pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut. Sehubungan dengan itu, nilai kebolehpercayaan antara penilai (interrater reliability) sebanyak 0.85 juga menunjukkan bahawa item dalam Program Sandaran boleh diguna pakai dalam kajian tersebut . Dan dapat disimpulkan di sini bahawa empat item ujian pencapaian Program Sandaran ini sesuai digunakan dalam usaha penulis menentukan pencapaian objektif kajian ketiga dan kelima.

Kesahan dan Kebolehpercayaan Temu Bual

Protokol temu bual dibina oleh penulis menyentuh isu-isu yang terdapat dalam penilaian reaksi, penilaian pembelajaran dan penilaian tingkah laku (Kamaruzaman, 2009). Isu seperti reaksi responden terhadap Program Latihan NPQH, pengetahuan dan kemahiran yang diperoleh, pemindahan pengetahuan dan kemahiran semasa Program Sandaran, masalah yang dihadapi dan cadangan untuk meningkatkan kualiti program ini dimasukkan dalam protokol temu bual. Ini merupakan satu usaha untuk menguatkan bukti daripada data yang didapati melalui soal selidik, skor ujian pencapaian dan skor Program Sandaran. Tegasnya, temu bual ini merupakan satu triangulasi iaitu satu proses untuk menguatkan bukti daripada sumber yang berlainan.

Semua item dalam protokol temu bual yang digunakan dalam kajian tersebut  telah ditentukan dengan kesahan muka dan kesahan kandungannya oleh lima orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item temu bual ini. Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Penulis memadankan unit daripada data temu bual dengan tema yang dominan. Dalam hal ini, penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran B. 

Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Hal ini dilaksanakan dengan memadankan unit daripada data temu bual dengan tema yang dominan. Penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran B. Seterusnya, penulis menghitung nilai persetujuan (Indeks Cohen Kappa) daripada borang yang diterima daripada pakar-pakar tersebut. Nilai persetujuan dihitung berdasarkan rumus berikut iaitu:



               fa  –  fc
   K  =    ---------- 
               N  –   fc 







Sumber: Cohen (1968) dalam Zamri dan Noriah (2003):4

di mana  K – nilai koefisien Kappa
               fa – frekuensi persetujuan
               fc – frekuensi bagi 50 peratus jangkaan persetujuan
               N – bilangan unit yang diuji nilai persetujuan
            
Bagi menentukan tahap persetujuan Kappa, nilai yang disyorkan oleh Landis dan Kosh (1977) dalam Zamri dan Noriah (2003) digunakan oleh penulis, seperti yang ditunjukkan dalam Jadual 5 di bawah.

                                Jadual 5:   Nilai Kappa dan interpretasinya (tahap)

Nilai Kappa
Interpretasinya
Kurang daripada 0
Sangat lemah
0.00 – 0.20
Lemah
0.21 – 0.40
Sederhana lemah
0.41 – 0.60
Sederhana
0.61 – 0.80
Baik
0.81 – 1.00
Sangat baik
Sumber: Landis dan Kosh (1977) dalam Zamri dan Noriah (2003):3

Nilai min bagi koefisien Kappa yang dihitung adalah seperti yang ditunjukkan dalam Jadual 6 di bawah ini.

Jadual 6:  Nilai persetujuan bagi koefisien Kappa

Pakar 1
Pakar 2
Pakar 3
Min Koefisien Kappa
          46 – 24.5
K1 =  ------------
          49 – 24.5

           21.5
      =  ------ 
           24.5

      =  0.88

          47 – 24.5
K2 =   ----------
          49 – 24.5

           22.5
      =  ------ 
           24.5

      =  0.92

          46 – 24.5
K3 =   -----------
          49 – 24.5

           21.5
      =  ------ 
           24.5

      =  0.88

         K1  +  K2  +  K3
K  =  -------------------
                     3

        0.88 + 0.92 + 0.88
     = ----------------------
                      3

     = 0.89


Berdasarkan nilai dalam Jadual 6, Indeks Cohen Kappa (K) adalah 0.89. Nilai ini merupakan satu nilai kebolehpercayaan yang sangat baik. Dengan kata lain, unit analisis yang dibuat oleh penulis adalah selari dengan tema yang dikemukakan, berdasarkan persetujuan pakar. 

Kesimpulan
Penulis telah menjelaskan bagaimana kesahan dan kebolehpercayaan setiap item yang digunakan dalam penilaian kajian ditentukan. Di samping menggunakan khidmat pakar, penulis turut menggunakan kaedah statistik dengan mengemukakan nilai seperti korelasi skor item dengan jumlah skor,  korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation),  Indek Kesukaran (F) dan  Indeks Diskriminasi (D) bagi menentukan kesahan item yang digunakan. Sementara nilai Cronbach Alpha dan Kuder-Richarson 20 (K-R20) dikemukakan bagi menentukan kebolehpercayaan item yang diguna pakai.  

Rujukan

Abu Bakar Nordin. 1986. Asas penilaian pendidikan. Siri Maktab Perguruan. Petaling Jaya: Longman Malaysia Sdn. Bhd.
Alias Baba. 1992. Statistik untuk penyelidikan dalam pendidikan dan sains sosial. Bangi: Penerbit Universiti Kebangsaan Malaysia.
Black, T. R. 1999. Doing quantitative research in the social sciences – an integrated approach to research design, measurement and statistics. London: Sage Publications. 
Carey, L. M. 1994. Measuring and evaluating school learning. Ed. ke-2. Boston: Allyn and Bacon.
Cohen, J. 1968. Weighted Kappa – a nominal scale aggreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70: 213-220. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan bahasa – satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 – 20 Ogos.
Cohen, J. W. 1988. Statistical power analysis for the behavioral sciences  Ed. Second. Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Creswell, J. W. 2002. Educational research - planning, conducting, and evaluating quantitative and qualitative research (2nd Ed). New Jersey: Pearson Merril Prentice Hall.
Creswell, J. W. 2005. Educational research - planning, conducting, and evaluating quantitative and qualitative research (3rd Ed.). New Jersey: Pearson Merril Prentice Hall.
Creswell, J. W. 2010. Educational research - planning, conducting, and evaluating quantitative and qualitative research (4th Ed.). New Jersey: Pearson Merril Prentice Hall.
Cronbach, L. J. 1946. Response sets and test validity. Educational and psychological measurement 6:672-683.
Ebel, R. L. 1979. Essentials of Educational Measurement  Ed. ke-3. New Jersey: Prentice-Hall Inc.
Kamaruzaman Moidunny. 20039. Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH). Disertasi Doktor Falsafah, Universiti Kebangsaan Malaysia.
Landis, J. & Kosh, G.G. 1977. The measurement of observer agreement for categorical data. Biometrics, 33:159-174. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan bahasa – satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 – 20 Ogos.
Macintosh, H. G., & Morrisson, R. B. 1969. Objective testing. London: University of London Press Ltd.
Mohd Majid Konting. 1990. Kaedah penyelidikan pendidikan. Kuala Lumpur: Dewan Bahasa dan Pustaka.
Norusis, M. J. 1977. SPSS professional statistic 7.5. North Michigan Avenue, Chicago.
Nunnally, J. C. 1967. Psychometric theory. New York: McGraw-Hill Book Company.
Nunnally, J. C. 1978. Psychometric theory. Ed. ke-2. New York: McGraw-Hill Book Company.
Nunnally, J. C. & Bernstein, I. R. 1994. Psychometric theory. Ed. ke-3. New York: McGraw-Hill, Inc.
Pallant, J. 2001. SPSS survival manual - a step by step guide to data analysis using SPSS for windows (version 10). Buckingham Open University Press.
Sekaran, U. 1992. Research methods for bussiness: a skill-building approach. New York: John Wiley & Sons, Inc.
Siti Rahayah Ariffin. 2003. Teori, konsep & amalan dalam pengukuran dan penilaian. Bangi: Pusat Pembangunan Akademik UKM.
Tabachnick, B. G. & Fidell, L. S. 2001. Using multivariate statistics. Ed. ke-4. London: Allyn and Bacon.
Tuckman, B. W. 1999. Conducting educational research. Ed. Ke-5. California: Wadsworth Thomson Learning. 
Wood, D. A. 1961. Test construction - development and interpretation of achievement test. Ohio: Charles E. Merril Books, Inc.
Yap, Y. K., Wan, C. S. & Ismail Abu Bakar. 1985. Pengukuran dan penilaian dalam pendidikan. Edisi Baru. Petaling Jaya: Longman Malaysia Sdn. Bhd.
Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan bahasa – satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 – 20 Ogos.