<bold id="bold-349c4ef2a39715ed2182fb3280c3c99b">Pendahuluan</bold>

Optimizing Arabic Language Assessment through Anates Analyn jg

Mengoptimalkan Penilaian Bahasa Arab melalui Analisis Anates

Haq

Alfa Izzul

theozzu13@gmail.com

Universitas Muhammadiyah Sidoarjo Indonesia 03 05 2024

This study evaluates the quality of Arabic Language questions in a Mid-Semester Summative Assessment using the Anates V4.0.9 program. Employing a descriptive quantitative approach, 20 multiple-choice questions were administered to 30 class 10 students at SMA Muhammadiyah 2 Sidoarjo. Results indicate an 80% validity rate, with a reliability coefficient of 0.87, suggesting consistency. The questions demonstrate a medium level of difficulty and an 80% discriminating power, effectively distinguishing between students' understanding levels. These findings underscore the importance of rigorous assessment practices in Arabic Language education, aiding educators in enhancing assessment quality and improving student learning outcomes.This study evaluates the quality of Arabic Language questions in a Mid-Semester Summative Assessment using the Anates V4.0.9 program. Employing a descriptive quantitative approach, 20 multiple-choice questions were administered to 30 class 10 students at SMA Muhammadiyah 2 Sidoarjo. Results indicate an 80% validity rate, with a reliability coefficient of 0.87, suggesting consistency. The questions demonstrate a medium level of difficulty and an 80% discriminating power, effectively distinguishing between students' understanding levels. These findings underscore the importance of rigorous assessment practices in Arabic Language education, aiding educators in enhancing assessment quality and improving student learning outcomes.This study evaluates the quality of Arabic Language questions in a Mid-Semester Summative Assessment using the Anates V4.0.9 program. Employing a descriptive quantitative approach, 20 multiple-choice questions were administered to 30 class 10 students at SMA Muhammadiyah 2 Sidoarjo. Results indicate an 80% validity rate, with a reliability coefficient of 0.87, suggesting consistency. The questions demonstrate a medium level of difficulty and an 80% discriminating power, effectively distinguishing between students' understanding levels. These findings underscore the importance of rigorous assessment practices in Arabic Language education, aiding educators in enhancing assessment quality and improving student learning outcomes.This study evaluates the quality of Arabic Language questions in a Mid-Semester Summative Assessment using the Anates V4.0.9 program. Employing a descriptive quantitative approach, 20 multiple-choice questions were administered to 30 class 10 students at SMA Muhammadiyah 2 Sidoarjo. Results indicate an 80% validity rate, with a reliability coefficient of 0.87, suggesting consistency. The questions demonstrate a medium level of difficulty and an 80% discriminating power, effectively distinguishing between students' understanding levels. These findings underscore the importance of rigorous assessment practices in Arabic Language education, aiding educators in enhancing assessment quality and improving student learning outcomes.

Arabic Language Assessment; Validity; Reliability; Difficulty Level; Distinguishing Power

<bold id="bold-349c4ef2a39715ed2182fb3280c3c99b">Pendahuluan</bold>

Proses pembelajaran bahasa Arab yang baik dapat dilihat dari seberapa sering diadakannya evaluasi untuk meninjau sejauh mana pencapaian tujuan pembelajaran baharab tersebut, dengan demikian guru dapat mengetahui dengan cepat apa yang harus diperbaiki. Evaluasi yang dimaksud adalah pengukuran pembelajaran (measurement).[1] Dalam konteks ini, pengukuran pembelajaran bahasa Arab dapat menggunakan dua metode, yaitu pendekatan tes dan pendekatan non-tes. Dalam mu’jam ikhtiba>ra>t tes (ikhtiba>r) diartikan sebagai alat ukur yang yang mencakup rangsang yang disiapkan secara ilmiah dengan tujuan menetukan besar kecilnya sesuatu yang hendak diukur.[2] Tes mencakup ujian tertulis yang disebut ikhtiba>ra>t kita>biyyah, dan ujian lisan yang dikenal sebagai ikhtibarat syafawiyah. Ujian lisan dimanfaatkan untuk mengukur kemampuan siswa dalam berbicara, seperti tingkat kefasihan berbicara, pemilihan kata yang tepat, pemahaman dialek, dan respons siswa terhadap informasi yang diberikan. Sementara itu, ujian tertulis dimanfaatkan untuk mengevaluasi keterampilan bahasa lainnya, seperti kemampuan mendengarkan, membaca, menulis, dan pemahaman tata bahasa.[3]Proses pembelajaran bahasa Arab yang baik dapat dilihat dari seberapa sering diadakannyaevaluasi untuk meninjau sejauh mana pencapaian tujuan pembelajaran bahasa Arab tersebut, dengan demikian guru dapat mengetahui dengan cepat apa yang harus diperbaiki. Evaluasi yang dimaksud adalah pengukuran pembelajaran (measurement).[1] Dalam konteks ini, pengukuran pembelajaran bahasa Arab dapat menggunakan dua metode, yaitu pendekatan tes dan pendekatan non-tes. Dalam mu’jam ikhtiba>ra>t tes (ikhtiba>r) diartikan sebagai alat ukur yang yang mencakup rangsang yang disiapkan secara ilmiah dengan tujuan menetukan besar kecilnya sesuatu yang hendak diukur.[2] Tes mencakup ujian tertulis yang disebut ikhtiba>ra>t kita>biyyah, dan ujian lisan yang dikenal sebagai ikhtibarat syafawiyah. Ujian lisan dimanfaatkan untuk mengukur kemampuan siswa dalam berbicara, seperti tingkat kefasihan berbicara, pemilihan kata yang tepat, pemahaman dialek, dan respons siswa terhadap informasi yang diberikan. Sementara itu, ujian tertulis dimanfaatkan untuk mengevaluasi keterampilan bahasa lainnya, seperti kemampuan mendengarkan, membaca, menulis, dan pemahaman tata bahasa.[3]

Tes tulis menurut syekh Ali al-huli dalam kitabnya asa>li>b tadri>s al-lughah adalah tes yang di berikan kepada siswa dengan pertanyaan dan jawaban berupa tulisan.[4] Tes tulis merupakan metode yang secara tidak langsung menilai kemampuan siswa melalui tanggapan mereka terhadap berbagai pertanyaan yang disusun. Oleh karena itu, sangat penting untuk merencanakan butir soal dengan cermat untuk menghindari kesalahan, sehingga instrumen tersebut memiliki kualitas yang baik. Dalam pembelajaran bahasa Arab, tes bisa diklasifikasikan menjadi empat kategori berdasarkan fungsinya, yakni: 1) Tes penempatan, 2) Tes diagnostik, 3) Tes formatif, dan 4) Tes sumatif.[5] Dari keempat pembagian tes tersebut terdapat tes sumatif, tes suamtif merupakan tes yang dilakukan setiap berakhirnya pemberian suatu program pembelajaran.[6] Tes ini dilakukan untuk monitoring perkembangan siswa setiap pertengahan maupun akhir semester guna mengetahui sejauh mana pencapaian siswa dalam pelajaran tertentu. [7]

Pembuatan butir soal bahasa Arab yang baik harus memperhatikan beberapa hal terkait mutu butir soal tersebut, yakni: pertama adalah validitas (Al-Si>dqu), yaitu seberapa tepatkah instrument penilaian dapat mengukur apa yang dikehendaki untuk di ukur. Yang kedua adalah reliabilitas (Tsaba>t Al-as’ilah), yang mengacu pada seberapa handal butir soal tersebut ketika digunakan berulang kali, suatu butir soal dianggap memiliki reliabilitas jika hasilnya konsisten dan tidak berfluktuasi secara signifikan ketika diberikan kepada populasi yang sama. Reliabilitas sangat penting dalam penilaian karena membantu memastikan bahwa hasil tes adalah representasi yang konsisten dan dapat diandalkan dari karakteristik atau kemampuan yang sedang diukur, maksudnya apabila butir soal memiliki reliabilitas yang tinggi maka hasil butir soal apabila di ujikan dua kali dalam waktu berdekatan maka tidak menunjukan perbedaan hasil yang sinifikan.[8] Ketiga, tingkat kesulitan (Mustawa> as-su’u>bah) digunakan untuk membedakan antara butir soal yang mudah dan sulit. Jika sebuah pertanyaan menunjukkan tingkat kesulitan yang seimbang atau proporsional, itu mengindikasikan bahwa kualitas dari pertanyaan tersebut baik. Empat, daya beda (Mustawa< at-tamyi<z) Kemampuan daya pembeda suatu pertanyaan merujuk pada kapasitasnya untuk memisahkan siswa yang menunjukkan tingkat pemahaman yang berbeda. Kemampuan daya pembeda pertanyaan ini berkaitan dengan sejauh mana pertanyaan tersebut mampu membedakan siswa yang memiliki pemahaman tinggi dan yang memiliki pemahaman rendah. Dengan kata lain, pertanyaan yang memiliki kemampuan daya pembeda yang baik akan dengan tegas memisahkan antara siswa-siswa yang sepenuhnya memahami materi atau memiliki kinerja yang unggul dengan mereka yang memiliki pemahaman yang terbatas atau kinerja yang rendah.[9] Keempat indikator diatas digunakan untuk menganalisis butir soal, manfaatnya adalah untuk mengetahui apakah butir soal yang digunakan dalam instrumen tes sesuai atau tidak, serta sejauh mana butir soal tersebut dapat mengukur kemampuan siswa dengan akurat.[10]

Terdapat beberapa program komputer yang dapat digunakan menganalisis butir soal antara lain Anates. Anates merupakan sebuah perogram komputer yang dirancang khusus untuk melakukan evaluasi pada butir soal yang terdiri dari penilaian pilihan ganda dan penilaian uraian. Aplikasi ini berguna dalam membantu guru menilai kualitas butir soal yang mereka buat. Dengan penggunaan Anates, guru dapat mengevaluasi aspek-aspek seperti validitas, reliabilitas, tingkat kesulitan, kemampuan untuk membedakan antara peserta yang mampu dan tidak, serta dampak dari masing-masing penilaian.[11] Kelebihan utama dari Anates adalah dari segi tampilannya yang simple dan penggunaannya yang mudah memungkinkan guru yang kurang. Selain itu, data yang dikumpulkan oleh Anates dapat segera diolah, memungkinkan guru untuk dengan cepat memperoleh hasil seperti reliabilitas tes, pengelompokan penilaian yang baik dan buruk, analisis tingkat kesulitan, korelasi antara hasil pada masing-masing penilaian dengan hasil keseluruhan, serta kualitas pilihan jawaban yang diberikan. Anates memudahkan pengguna dalam melaksanakan tugas analisis ini. Manfaat Anates mirip dengan perangkat analisis penilaian lainnya, tetapi lebih dikenal dalam hal kemudahan penggoprasian dan keakuratannya. Perangkat ini sangat berguna dalam mengkaji data pada tes pilihan ganda yang diujikan, dan versi 4.0.9 Anates bahkan memungkinkan guru untuk secara praktis dan cepat memeriksa jawaban yang benar dan salah pada setiap penilaian. Kesimpulannya, Anates merupakan alat yang sangat membantu bagi guru dalam mengevaluasi kualitas tes yang mereka susun. Namun, masih banyak guru yang melakukan analisis butir soal secara manual, yang mengakibatkan proses analisis tersebut tidak efisien waktu dan memiliki tingkat akurasi yang rendah. Dengan menggunakan program komputer seperti Anates, guru dapat memperpendek waktu yang diperlukan dalam proses analisis dan meningkatkan keakuratan hasil analisis mereka.[12]

Beberapa penelitian yang relevan dengan topik ini, seperti yang dilakukan oleh Raudhatul Husna pada tahun 2022 dalam studinya berjudul “Tahli>lu Bunu>di as’ilah Al-lughah Al-arabiah fi> madrasah Aliyah bi Ma’had Jeumala Amal Pidie Jaya”. Dalam hasil penelitian yang menggunakan Anates, didapati bahwa validitas butir soal mencapai (56%), reliabilitas mencapai (0,90), tingkat kesukaran butir soal terbagi menjadi tingkat mudah (36%), tingkat sedang (32%), dan tingkat kesulitan tinggi (36%). Butir soal juga dinilai cukup baik dalam membedakan antara kemampuan siswa. Dengan demikian, dapat disarankan bahwa penilaian-penilaian tersebut layak digunakan dalam konteks evaluasi pembelajaran. [13]

Penelitian kedua, yang dilaksanakan oleh Elviana pada tahun 2020 dalam studi yang berjudul "Analisis Butir Soal Evaluasi Pembelajaran Pendidikan Agama Islam Menggunakan Program Anates," mengungkapkan bahwa tingkat daya pembeda butir soal sangat rendah, hanya sekitar 20% dari seluruh butir penilaian. Kesulitan penilaian cenderung berada pada tingkat sedang, dengan sekitar 64% butir penilaian termasuk dalam kategori tersebut. Validitas tes hanya mencapai 0,24, menunjukkan tingkat validitas yang rendah sekitar 24%, yang signifikan. Reliabilitas tes juga dinilai rendah, dan hanya sekitar 32% butir soal yang berhasil dengan baik dalam menguji kemampuan siswa.[14]

Penelitian ketiga, yang dilakukan oleh Deni Maulana dan Anwar Sanusi pada tahun 2020 dalam studi berjudul "Evaluasi Butir Penilaian Bahasa Arab Ujian Akhir Madrasah Bersama Daerah (Uambd) Madrasah Ibtidaiyah Tahun 2017-2018," memanfaatkan aplikasi Anates sebagai alat analisis. Hasil penelitian ini mengungkapkan temuan yang signifikan. Validitas butir soal sangat tinggi, mencapai 100%, menunjukkan bahwa butir penilaian tersebut sangat efektif dalam mengukur kompetensi yang dikehendaki. Reliabilitas butir soal juga mencapai tingkat konsistensi yang tinggi, dengan nilai tes sebesar 0,68, berada dalam rentang yang baik, yaitu antara 0,60 hingga 0,80. Tingkat kesulitan butir soal berkisar sekitar 63,23%, dapat diartikan bahwa sebagian besar penilaian mempunyai tingkat kesulitan yang moderat. Kemampuan butir soal untuk membedakan antara siswa juga ditemukan pada tingkat yang dapat diterima, sekitar 31,4%, meskipun terdapat potensi perbaikan sebesar 25,7%. Selain itu, dalam hal kualitas pilihan jawaban, ditemukan bahwa ada 11 butir penilaian dengan penyebaran jawaban yang sangat baik, 5 butir soal dengan kualitas baik, 6 butir penilaian dengan kualitas kurang baik, dan empat butir soal dengan kualitas buruk.[15]

Berdasarkan tinjauan penelitian terdahulu yang telah diuraikan sebelumnya, dapat disimpulkan bahwa penelitian ini memiliki fokus yang serupa, yaitu tentang penggunaan alat evaluasi instrumen penilaian dan pemanfaatan aplikasi Anates. Meskipun demikian, perbedaan antara penelitian ini dan penelitian sebelumnya terletak pada subjek dan objek penelitiannya. Subjek dalam penelitian ini adalah siswa kelas X SMA Muhammadiyah 2 Sidoarjo, sementara objek penelitiannya adalah jawaban siswa pada soal bahasa Arab. Hasil pengamatan awal menunjukkan bahwa guru bahasa Arab di SMA Muhammadiyah 2 Sidoarjo telah melakukan analisis instrumen penilaian secara rutin, namun belum menerapkan aplikasi praktis seperti Anates dalam proses analisis tersebut. Dengan mengadopsi aplikasi seperti Anates, proses analisis instrumen penilaian dapat menjadi lebih efektif, efisien, dan tentu saja lebih akurat.

Rumusan masalah dalam penelitian ini adalah, bagaimana kualitas butir soal penilaian bahasa Arab untuk siswa kelas X di SMA Muhammadiyah 2 Sidoarjo dari aspek validitas, reliabilitas, tingkat kesukaran, daya pembeda, dengan menggunakan program Anates?.[16] Tujuan penelitian ini adalah untuk mengetahui kualitas butir soal berdasarkan validitas, reliabilitas, tingkat kesulitan dan daya pembeda dengan program Anates versi 4.0.9.

<bold id="bold-07d08843805526398bf2ab7d31216712">Metode</bold>

Penelitian ini menggunakan pendekatan deskriptif kuantitatif, pendekatan deskriptif digunakan untuk merincikan ciri-ciri suatu peristiwa yang sedang berlangsung selama penelitian berjalan, serta untuk menyelidiki faktor-faktor yang mempengaruhi fenomena tertentu tersebut. Dalam esensinya, metode deskriptif bertujuan untuk mengumpulkan informasi yang mencerminkan situasi yang sebenarnya saat penelitian dilakukan.[17] Di sisi lain, metode penelitian kuantitatif merupakan jenis penelitian yang berfokus pada penggunaan data dalam bentuk angka, mulai dari proses pengumpulan data, analisis data, hingga penyajian data. Pendekatan kuantitatif menekankan pada analisis data yang didasarkan pada angka-angka, yang selanjutnya dianalisis menggunakan metode statistik yang sesuai.[18]

Penelitian ini dilakukan di SMA Muhammadiyah 2 Sidoarjo, lokasi penelitian ini dipilih karena relevan dengan tujuan penelitian. Subjek penelitian ini adalah 30 siswa kelas X yang diambil secara acak dari 3 kelas yang berbeda. Objek penelitian mencakup jawaban siswa pada soal mata pelajaran Bahasa Arab tahun ajaran 2023/2024, termasuk penilaian dan kunci jawaban dari seluruh penilaian tersebut. Teknik dokumentasi dalam kajian ini dimanfaatkan sebagai metode pengumpulan data, memungkinkan pengumpulan data berupa penilaian dan kunci jawaban, serta hasil ujian dari seluruh siswa kelas X. Data dalam penelitian ini dianalisis secara kuantitatif dengan menggunakan perangkat lunak Anates versi 4.0.9.[19]

<bold id="bold-daff90749ae5ae207a181ec9de81332a">Hasil dan Pembahasan</bold>

Pada bagian ini berisi pemaparan hasil penelitian yaitu terkait validitas, reliabilitas, tingkat kesukaran dan daya pembeda pada butir soal bentuk pilihan ganda pada soal bahasa Arab SMA Muhammadiyah 2 Sidoarjo dengan menggunakan Anates.

A. Validitas Penilaian butir soal dilakukan dengan membandingkan skor setiap butir dengan skor total. Proses ini melibatkan penggunaan teknik korelasi product moment. Bila terdapat korelasi yang positif dan signifikan antara skor butir dan skor total, hal ini menunjukkan bahwa butir tersebut dianggap valid.[20]

Figure 1 <bold id="bold-1">Batas sinifikasi koefisien korelasi penilaian</bold>

Pada soal bahasa Arab terdapat sebanyak 20 butir soal pilihan ganda, sehingga dapat diketahui batas signifikasi koefisiennya berada direntang 0,423 sampai 0,549 maka hasilnya signifikan, apabila nilai lebih dari 0,549 maka hasilnya sangat signifikan sesuai dengan gambar 1. Dapat disimpulkan apabila nilai korelasinya berada dibawah 0,423 maka penilaian dinyatakan tidak signifikan atau tidak valid. Hasil analisa validitas butir soal pada aplikasi Anates adalah sebagai berikut;

Tabel 1. Hasil uji validitas dengan Anates

Table 1 Hasil Uji Validitas dengan Anates

No Nilai korelasi Tingkat signifikasi ( validitas ) catatan

1. 0.715 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.

2. 0.703 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.

3. 0.629 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.

4. 0.475 Signifikan Terdapat korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.

5. 0.578 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang macam-macam dhomir.

6. 0.611 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir munfashil.

7. 0.675 Sangat signifikan terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menerjemahkan kalimat bahasa Arab kedalam bahasa indonesia.

8. 0.138 Tidak signifikan Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menerjemahkan kalimat bahasa Arab kedalam bahasa indonesia.

9. 0.597 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir munfashil.

10. 0.590 Sangat signifikan Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir munfashil.

11. 0.684 Sangat signifikan terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.

12. 0.683 Sangat signifikan terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai

13. 0.556 Sangat signifikan terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.

14. 0.454 Signifikan terdapat korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.

15. 0.359 Tidak signifikan Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.

16. 0.593 Sangat signifikan terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total yang berkaitan tentang mengartikan mufrodat.

17. 0.482 signifikan Terdapat korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang mengartikan mufradat.

18. 0.673 Sangat signifikan terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muthasil.

19. 0.342 Tidak signifikan Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muthasil.

20. 0.216 Tidak signifikan 1. Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang benar salah.2. Untuk soal berbentuk benar salah sebaiknya menggunakan bahasa arab صحيح dan خطأ agar murid terbiasa dengan bahasa arab.

Catatan: Hasil validitas soal dapat berbeda-beda karena berbagai faktor yang mempengaruhi kualitas soal seperti reliabilitas, tingkat kesukaran dan daya pembedanya. Semakin baik kualitas empat aspek tersebut dalam suatu soal maka semakin tinggi pula nilai validitasnya.[21]

Berdasarkan tabel 1, pada hasil analisis butir soal bahasa Arab didapati 16 butir soal atau apabila dijadikan bentuk presentase yaitu sebesar 80% dari total soal dinyatakan sebagai soal yang valid dengan koefisien diatas 0,423, dan 4 butir soal atau sebesar 20% dinyatakan tidak valid dengan koefisien dibawah 0,423. 4 butir soal yang dinyatakan tidak valid yaitu nomor 8 yang hanya memiliki validitas sebesar 0,138, nomor 15 memiliki 0,359, nomor 19 memiliki validitas 0,342 dan butir soal nomor 20 hanya memiliki validitas 0,216. Rendahnya validitas pada soal tersebut menunjukan bahwa soal tersebut sangat kurang dalam mengukur kemampuan siswa yang seharusnya ingin diukur oleh guru melalui soal tersebut. Dengan kata lain keempat butir soal tersebut harus dikaji ulang oleh guru atau perlu diganti sebab memiliki validitas yang rendah. [22]

B. Reliabilitas butir soal mencerminkan sejauh mana butir soal tersebut konsisten dalam mengukur dimensi yang seharusnya diukur, sehingga hasil pengukuran dapat dianggap dapat dipercaya. Suatu butir soal dianggap memiliki reliabilitas tinggi jika hasil pengukuran pada percobaan pertama dan kedua menunjukkan kesamaan yang signifikan, sedangkan reliabilitas dianggap rendah jika hasil antara percobaan pertama dan kedua memiliki perbedaan yang besar.[23] Metode untuk menghitung reliabilitas butir soal ada tiga cara, yaitu: Pertama, metode bentuk paralel (equivalent). Kedua, metode tes ulang (Test- retest method). Ketiga, metode belah dua (Split-half method). Pada aplikasi Anates menggunakan metode yang ketiga yaitu metode belah dua (Split-half method), Metode belah dua dibuat untuk mengatasi kekurangan yang timbul pada metode paralel dan metode uji ulang karena metode ini memungkinkan estimasi reliabilitas tanpa perlu mengadakan pengujian dua kali.[22] Metode belah dua terbagi menjadi dua yaitu pembelahan ganjil-genap dan pembelahan awal dan akhir, setelah metode pembelahan dilakukan hanya diketahui reliabilitas separuh tes. dan untuk mengetahui reliabilitas seluruh tes maka menggunakan rumus Spearman-Brown.[21] Contoh pembelahan ganjil genap:

langkah pertama:

Table 2 Langkah Pertama

No Nama Item ganjil (X) Item genap (Y)

1 Yuni 5 5

2 Yuri 4 3

3 Yura 4 4

4 Yuta 3 2

5 Yuzi 3 3

6 Yuli 4 0

7 Yuki 4 3

8 Yumi 3 5

langkah kedua

Table 3 Langkah Kedua

No Nama X Y X2 Y2 XY

1 Yuni 5 5 25 25 25

2 Yuri 4 3 16 9 12

3 Yura 4 4 25 16 20

4 Yuta 3 2 9 4 6

5 Yuzi 3 3 9 9 9

6 Yuli 4 0 16 0 0

7 Yuki 4 3 16 9 12

8 Yumi 3 5 9 25 15

∑X= 31 ∑Y=25 ∑X2=125 ∑Y2=97 ∑XY=99

Rumus belah dua:

Figure 2 Rumus belah dua

Setelah koefisien korelasi diperoleh maka selanjutnya dihitung dengan formula Spearman-Brown sebagai berikut:

Figure 3 Rumus

Untuk menentukan kategori reabilitas maka perlu adanya indeks untuk mengklasifikasikannya, berikut adalah indeks reliabilitas penilaian:

Tabel 2. Indeks Reliabilitas dan kategorinya

Table 4 <bold id="bold-5cac5599b648a1e406e708547324f1ce">Indeks</bold> <bold id="bold-3f8ab67f6bbfec9fd3fec4ea929e2889">Reliabilitas dan kategori</bold> <bold id="bold-695454112943782b3b4335fd0e30ad8d">nya</bold>

Indeks Kategori

0,90 – 1,00 Amat tinggi

0,70 – 0,89 Tinggi

0,50 – 0,69 Sedang

0,30 – 0,49 Rendah

< 0,30 Amat rendah

Berikut hasil uji reliabilitas pada butir soal:

Figure 4 <bold id="bold-2a30007eaa8461f50859b58811156433">Hasil uji reliabilitas penilaian dengan Anates</bold>

Gambar 2 menunjukan hasil yang didapatkan dari aplikasi Anates, diketahui bahwa reliabilitas butir soal sebesar 0,87. Apabila disesuaikan dengan pengkategorian reliabilitas pada tabel 2 diatas maka hasil uji reliabilitas tes tersebut dikategorikan tinggi karena termasuk dalam rentang 0,70 – 0,89. Dari hasil tersebut dapat dikatakan bahwa soal bahasa Arab mempunyai koefisiensi yang baik dan handal dalam pengukuran kemampuan siswanya sebab reliabilitasnya ada pada kategori Tinggi, hal ini menunjukan bahwa soal tersebut layak untuk digunakan.[24]

Tingkat kesukaran suatu butir soal dapat diukur melalui perbandingan antara jumlah peserta yang memberikan jawaban benar dengan total peserta. Artinya, semakin banyak peserta tes yang mampu menjawab butir soal dengan benar maka indeksnya akan semakin tinggi, menunjukkan bahwa butir soal tersebut lebih mudah. Sebaliknya, jika sedikit peserta tes yang dapat menjawab butir soal dengan benar, maka indeksnya akan rendah dan menunjukan bahwa tingkat kesukaran butir soal tersebut akan semakin tinggi. Hasil butir soal yang terlalu mudah akan membuat siswa tidak terangsang kemampuannya dalam menjawab soal tersebut, begitupun sebaliknya apabila butir soal terlalu sukar maka akan membuat siswa mudah berputus asa dalam menjawabnya karena di luar kemampuannya. Berikut adalah hasil analisia tingkat kesukaran pada penilaian Sumatif tengah semester:

Figure 5 <bold id="bold-7b0a21b54726e0794d2b2779dcc6af39">Hasil uji tingkat kesukaran dengan Anates</bold>

Untuk hasil uji tingkat kesukaran berupa presentase sehingga perlu diubah kedalam bentuk desimal, agar mempermudah pembacaan data maka hasil tersebut dikelompokkan berdasarkan indeksnya:

T abel 3 . Pengelompokkan tingkat kesukaran

Table 5

Indeks Penilaian jumlah

P 0,00 – 0,30(Sukar) 8 1

P 0,31 – 0,70(Sedang) 2,3,4,7,11,13,14,15,17,19 10

P 0,71 – 1,00(Mudah) 1,5,6,9,10,12,16,18,20 9

Dari tabel 3 pada bagian kiri terdapat indeks tingkat kesukaran yang dibagi menjadi 3 yaitu sukar, sedang, dan mudah, dari hasil uji tingkat kesukaran tersebut diketahui butir soal sukar sebanyak 1 soal, kemudian soal yang sedang sebanyak 10 butir soal dan butir soal yang mudah sebanyak 9 soal. Dari hasil tersebut dapat disimpulkan bahwa tingkat kesukaran yang digunakan dalam butir soal dinyatakan masih belum proporsional, sebab dalam menyusun butir soal pada ujian sebaiknya butir soal yang digunakan mempunyai tingkat kesukaran yang berimbang atau proporsional. Terdapat beberapa perbandingan yang dapat digunakan sebagai ukuran dalam mengukur proporsianalnya suatu soal. Ada yang menggunakan 1:3:1, apabila jumlah soal sebanyak 5 nomor maka perbandingannya satu persen soal mudah, tiga persen soal sedang dan satu persen soal sukar. Ada juga yang memakai ukuran 3:4:3, jika soal sebanyak 10 maka tiga persen soal mudah, empat persen sedang dan tiga persen sukar. Ada juga yang memakai ukuran 3:5:2, tiga persen soal mudah, lima persen soal sedang dan dua persen soal sukar.[25]

Dari pernyataan tersebut diketahui bahwa tingkat kesukaran soal tersebut tidak menunjukan jumlah yang proporsional. yaitu 10 soal berkategori sedang, 1 soal berkategori sukar dan 9 soal berkategori mudah. Apabila kita merujuk pada pernyataan paragraf sebelumnya bahwa soal dikatakan proporsional apabila sekalanya 1:3:1, 3:5:2 maupun 3:4:3. Berbeda dengan soal yang tingkat kesukarannya sedang apabila kita menggunakan skala 3:5:2 maka sudah termasuk kedalam kategori soal yang proporsional seingga tidak perlu ada perbaikan, akan tetapi secara garis besar soal masih menunjukan proporsi tingkat kesukaran yang masih kurang sehingga perlu diperbaiki lagi. Banyaknya soal mudah dikarenakan banyak soal yang dengan mudah dijawab oleh sebagian besar siswa tanpa adanya kesulitan, berbeda dengan jumlah butir soal sukar yang hanya menunjukan presentase yang sangat kecil, padahal jumlah butir soal sukar yang proporsional mampu meningkatkan kemampuan berpikir siswa.

Daya beda butir soal adalah indikator yang menggambarkan sejauh mana butir soal mampu membedakan antara siswa yang memiliki penguasaan materi yang tinggi (klompok atas) dan rendah (kelompok bawah).[26] Hal ini tercermin dalam fakta bahwa siswa yang berpemahaman tinggi cenderung memberikan jawaban yang benar lebih sering pada butir soal tersebut, sedangkan siswa yang berpemahaman rendah cenderung memberikan jawaban yang kurang tepat. Tujuan menilai daya pembeda adalah untuk mengukur kinerja butir soal dan menentukan apakah penilaian tersebut termasuk dalam kategori skor tinggi atau skor rendah dalam keseluruhan tes. Selain itu, daya pembeda butir juga mencakup kemampuan butir soal untuk membedakan kelompok berdasarkan aspek yang diukur, sesuai dengan perbedaan antara kedua kelompok tersebut. Berikut hasil analisis daya beda:

Figure 6 <bold id="bold-ba6632a9e09d290983dea0af180a4e89">Hasil analisis daya pembeda</bold>

Indeks daya pembeda masih berupa presentase, sehingga perlu diubah terlebih dahulu dalam bentuk desimal. Kemudian data perlu dikelompokkan untuk mempermudah pembacaan data:

T abel 4 . Pengelompokan indeks daya pembeda

Table 6 <bold id="bold-da03899502f8c99a1722f52c7a3f5f33"> Hasil analisis daya pembeda</bold>

DP Penilaian jumlah

Negative(jelek) - -

<0,20(lemah) 8,20 2

0,20 – 0,39 (cukup) 15,19 2

0,40 – 0,69(baik) 4,5,6,9,10,12,14,16,17,18 10

0,70 – 1,00(Sangat baik) 1,2,3,7,11,13 6

Berdasarkan tabel 4 hasil daya pembeda penilaian Sumatif Tengah Semester dengan aplikasi Anates diketahui:

1. 2 butir soal atau sebesar 10% menunjukan daya beda lemah yang bermakna bahwa 2 butir soal ini jelek karena lebih banyak dijawab benar oleh kelompok bawah dibandingkan dengan jawaban kelompok atas. Ini berarti bahwa untuk menjawab soal dengan benar dapat dilakukan dengan menebak.

2. 2 butir soal atau 10% menunjukan daya beda yang cukup yang bermakna bahwa 2 butir soal ini tergolong mampu untuk memilah kemampuan murid walaupun masih belum lebih baik dari soal berkategori baik.

3. 10 butir soal atau 50% daya pembeda baik yang bermakna bahwa 10 butir soal ini tingkat akurasinya baik dalam membedakan kemampuan murid karena mayoritas murid kelompok atas menjawab soal tersebut dengan benar, sehingga dapat membedakan murid yang asal menjawab dan yang memiliki pengetahuan untuk menjawab soal.

4. 6 soal atau 30% daya pembedanya sangat baik yang bermakna 6 butir soal ini sangat bisa diandalkan dalam memilah kemampuan siswa dengan tingkat akurasi sempurna. dengan demikian hanya murid yang berkemampuan atas yang mampu menjawab dengan benar pada butir soal tersebut.

Kesimpulan

Dari hasil penelitian yang dilakukan mengenai analisis pada butir soal pilihan ganda penilaian Sumatif Tengah Semester SMA Muhammadiyah 2 Sidoarjo menunjukan bahwa terdapat beberapa poin yang dapat disimpulkan. 1) pada butir soal pilihan ganda terdapat 16 butir soal yang dinyatakan valid dan 4 butir soal dinyatakan tidak valid. 2) untuk hasil perhitungan tingkat reliabiltas soal tersebut menunjukan bahwa reliabilitasnya tergolong Tinggi dengan perolehan 0,87. 3) untuk tingkat kesukaran penilaian tersebut menunjukan nilai yang tidak proporsional dengan 1 butir soal sukar, 10 butir soal sedang dan 9 butir soal mudah. 4) hasil daya pembeda menunjukan bahwa 2 butir soal memiliki daya beda lemah sehingga perlu diganti, 2 butir soal memiliki daya beda yang cukup, 10 butir soal memiliki daya beda baik dan 6 butir soal memiliki daya beda yang sangat baik.Dari hasil penelitian yang dilakukan mengenai analisis pada butir soal pilihan ganda penilaian Sumatif Tengah Semester SMA Muhammadiyah 2 Sidoarjo menunjukan bahwa terdapat beberapa poin yang dapat disimpulkan. 1) pada butir soal pilihan ganda terdapat 16 butir soal yang dinyatakan valid dan 4 butir soal dinyatakan tidak valid. 2) untuk hasil perhitungan tingkat reliabiltas soal tersebut menunjukan bahwa reliabilitasnya tergolong Tinggi dengan perolehan 0,87. 3) untuk tingkat kesukaran penilaian tersebut menunjukan nilai yang tidak proporsional dengan 1 butir soal sukar, 10 butir soal sedang dan 9 butir soal mudah. 4) hasil daya pembeda menunjukan bahwa 2 butir soal memiliki daya beda lemah sehingga perlu diganti, 2 butir soal memiliki daya beda yang cukup, 10 butir soal memiliki daya beda baik dan 6 butir soal memiliki daya beda yang sangat baik.Dari hasil penelitian yang dilakukan mengenai analisis pada butir soal pilihan ganda penilaian Sumatif Tengah Semester SMA Muhammadiyah 2 Sidoarjo menunjukan bahwa terdapat beberapa poin yang dapat disimpulkan. 1) pada butir soal pilihan ganda terdapat 16 butir soal yang dinyatakan valid dan 4 butir soal dinyatakan tidak valid. 2) untuk hasil perhitungan tingkat reliabiltas soal tersebut menunjukan bahwa reliabilitasnya tergolong Tinggi dengan perolehan 0,87. 3) untuk tingkat kesukaran penilaian tersebut menunjukan nilai yang tidak proporsional dengan 1 butir soal sukar, 10 butir soal sedang dan 9 butir soal mudah. 4) hasil daya pembeda menunjukan bahwa 2 butir soal memiliki daya beda lemah sehingga perlu diganti, 2 butir soal memiliki daya beda yang cukup, 10 butir soal memiliki daya beda baik dan 6 butir soal memiliki daya beda yang sangat baik.

No	Nilai korelasi	Tingkat signifikasi ( validitas )	catatan
1.	0.715	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.
2.	0.703	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.
3.	0.629	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.
4.	0.475	Signifikan	Terdapat korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muttashil.
5.	0.578	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang macam-macam dhomir.
6.	0.611	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir munfashil.
7.	0.675	Sangat signifikan	terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menerjemahkan kalimat bahasa Arab kedalam bahasa indonesia.
8.	0.138	Tidak signifikan	Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menerjemahkan kalimat bahasa Arab kedalam bahasa indonesia.
9.	0.597	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir munfashil.
10.	0.590	Sangat signifikan	Terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir munfashil.
11.	0.684	Sangat signifikan	terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.
12.	0.683	Sangat signifikan	terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai
13.	0.556	Sangat signifikan	terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.
14.	0.454	Signifikan	terdapat korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.
15.	0.359	Tidak signifikan	Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang menyusun sebuah kalimat dari kata yang terurai.
16.	0.593	Sangat signifikan	terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total yang berkaitan tentang mengartikan mufrodat.
17.	0.482	signifikan	Terdapat korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang mengartikan mufradat.
18.	0.673	Sangat signifikan	terdapat korelasi yang sangat positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muthasil.
19.	0.342	Tidak signifikan	Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang dhomir muthasil.
20.	0.216	Tidak signifikan	1. Tidak adanya korelasi positif dan signifikan antara skor item dengan skor total pada soal yang berkaitan tentang benar salah.2. Untuk soal berbentuk benar salah sebaiknya menggunakan bahasa arab صحيح dan خطأ agar murid terbiasa dengan bahasa arab.

No	Nama	Item ganjil (X)	Item genap (Y)
1	Yuni	5	5
2	Yuri	4	3
3	Yura	4	4
4	Yuta	3	2
5	Yuzi	3	3
6	Yuli	4	0
7	Yuki	4	3
8	Yumi	3	5

Indeks	Kategori
0,90 – 1,00	Amat tinggi
0,70 – 0,89	Tinggi
0,50 – 0,69	Sedang
0,30 – 0,49	Rendah
< 0,30	Amat rendah

Indeks	Penilaian	jumlah
P 0,00 – 0,30(Sukar)	8	1
P 0,31 – 0,70(Sedang)	2,3,4,7,11,13,14,15,17,19	10
P 0,71 – 1,00(Mudah)	1,5,6,9,10,12,16,18,20	9

DP	Penilaian	jumlah
Negative(jelek)	-	-
<0,20(lemah)	8,20	2
0,20 – 0,39 (cukup)	15,19	2
0,40 – 0,69(baik)	4,5,6,9,10,12,14,16,17,18	10
0,70 – 1,00(Sangat baik)	1,2,3,7,11,13	6