Psikometri Instrumen Evaluasi

Instrumen evaluasi merupakan alat yang digunakan dalam melakukan penilaian (assessment) pendidikan. Instrumen yang bisa digunakan sangat banyak sesuai dengan metode penilaian yang diinginkan. Uji psikometri terhadap instrumen merupakan cara untuk menilai apakah instrumen tersebut memiliki nilai kegunaan/utilitas (utility).

Instrumen penilaian yang telah dilakukan uji psikometri dapat membantu mendorong proses pembelajaran. Instrumen yang baik merupakan sarana penilaian yang dibutuhkan sebagai bahan evaluasi pendidikan. Namun konsekuensi semakin baiknya instrumen penilaian adalah besarnya biaya yang dikeluarkan.

Instrumen yang digunakan untuk melakukan penilaian (assessment) sangat banyak. Untuk memilihnya kita mesti mengetahui apa yang akan dinilai dan mengapa dinilai. Apabila instrumen telah dipilih, maka kita mesti menanyakan apakah instrumen tersebut layak digunakan dan apakah dapat digunakan dengan mudah.

Unsur Nilai Psikometri

Suatu instrumen evaluasi dinilai dalam beberapa aspek unsur dasar nilai psikometri/utilitas (utility). Utilitas (U) tersebut meliputi reliability (R), validity (V), educational impact (E), acceptability (A), dan cost (C).1 Setiap variabel tersebut mempunyai bobot (weight), dilambangkan dengan “w”. Utilitas ini merupakan  fungsi perkalian dari seluruh variabel.1 Formula ini dapat digambarkan secara sederhana sebagai berikut:3

U = Rw x Vw x Ew x Aw x Cw

Definisi tersebut dimaksudkan hanya sebagai model konseptual, bukan sebagai algoritma aktuaria karena sebagian elemennya tidak dapat diukur. Meskipun demikian, bila salah satu elemen bernilai nol, maka utilitas juga bernilai nol.1

  1. Reliability

Reliabilitas merupakan konsistensi skor tes dari waktu ke waktu, di bawah kondisi pengujian yang berbeda dan dengan penilai berbeda.4 Reliabilitas dapat ditingkatkan dengan cara memperbesar sampel dan memperpanjang waktu pengujian.1 Hal ini juga dapat dilakukan dengan menggabungkan keduanya.5

Reliabilitas ada beberapa jenis di antaranya test-retest reliability, equivalent forms reliability, split-half reliability, scorer/rater reliability.3 Test-retest reliability mengukur konsistensi sebuah ujian dari waktu ke waktu. Proses ini dilakukan dengan menghubungkan nilai suatu tes dengan nilai yang didapat dengan pengulangan pada kelompok yang sama. Korelasi positif yang tinggi menunjukkan reliabilitas yang baik. Permasalahan dari metode ini adalah kesulitan menentukan periode waktu yang tepat antara dua pemeriksaan.

Equivalent forms reliability melihat konsistensi nilai dua format berbeda untuk hal yang sama pada waktu yang sama. Kedua format identik dalam jumlah pertanyaan, struktur, dan tingkat kesulitan. Perbedaannya hanya pada susunan kata-kata dari item tertentu.

Split-half reliability untuk mengukur konsistensi internal sebuah ujian. Pada metode ini ujian dibagi menjadi dua bagian. Nilai keduanya dikorelasikan dan derajat korelasinya menunjukkan konsistensi internal dari instrumen tersebut.

Scorer/rater reliability dilakukan pada instrumen yang terdapat sejumlah hal subyektif tertentu. Pada instrumen tersebut dilakukan uji interrater reliability dan intrarater reliability. Hal pertama dimaksudkan untuk mengetahui sebaik apa dua atau lebih penguji independen setuju dengan nilai yang diberikan. Hal kedua untuk melihat konsistensi nilai seorang mahasiswa pada dua waktu berbeda untuk kerja yang sama.

Reliabilitas juga merupakan hal yang rentan berubah akibat suatu pengaruh. Nilai reliabilitas suatu instrumen dipengaruhi oleh beberapa faktor yaitu lama uji, obyektivitas dalam penilaian, kesalahan faktor lingkungan, kesalahan proses, kesalahan klasifikasi, kesalahan generalisasi, dan kesalahan bias.3

  1. Validity

Validitas merupakan kelayakan/kepantasan suatu instrumen dipakai dalam pengukuran.4 Ada lima tipe utama validitas yaitu content validity, concurrent validity, predictive validity, construct validity, dan face validity.3,4

Content validity bertujuan untuk mengetahui apakah sebuah instrumen dapat mengukur area isi yang dimaksud. Sebuah instrumen sangat memerlukan hal ini ketika instrumen akan digunakan untuk penilaian. Instrumen yang baik harus dikembangkan berdasarkan area isi yang akan dinilai.

Concurrent validity mengacu pada sejauh mana nilai pada suatu tes berkorelasi dengan nilai pada tes lain yang dilaksanakan pada waktu yang sama. Validitas ini biasanya digunakan dalam pengembangan tes diagnostik.

Predictive validity berhubungan dengan kepastian sejauh mana tes bisa memprediksikan kinerja masa depan. Hal ini paling penting bila evaluasi bertujuan untuk menyeleksi. Namun tidak ada satupun tes yang dapat memprediksikan dengan sempurna, sehingga tetap memerlukan lebih dari satu prediktor.

Construct validity mengacu pada sejauh mana tes dapat mengukur konstruksi hipotetis atau sifat yang menjelaskan perilaku. Misalnya bila suatu instrumen memberikan hipotesis yang memiliki nilai tinggi memakan waktu yang lebih lama dari yang memiliki nilai rendah, dan ternyata benar, maka hal ini akan menjadi bukti untuk construct validity.

Face validity berhubungan dengan tampilan instrumen apakah tampak dapat menilai/mengukur atau tidak. Hal ini ditentukan dari umpan balik yang diterima dari seluruh yang terlibat dalam penilaian. Validitas ini selalu didapat melalui tanya jawab/interview atau kuesioner. Instrumen yang tampak sulit penggunaannya berarti memiliki face validity yang kurang baik.

Hal-hal berikut dapat memengaruhi validitas secara umum di antaranya:

  • Instruksi yang kurang jelas atau menyesatkn
  • Kosakata yang tidak mendukung atau kata-kata yang terlalu rumit
  • Item ujian yang terlalu sedikit sehingga validitas sampel rendah
  • Item tidak sesuai dengan apa yang hendak diukur
  • Item yang terlalu mudah atau terlalu sulit akan gagal melakukan diskriminasi
  • Waktu tidak cukup untuk menjawab
  1. Educational Impact

Setiap penilaian memiliki potensi dalam memberikan dampak bagi pendidikan. Dampak pendidikan (educational impact) merupakan efek dari penilaian terhadap proses belajar mengajar.4 Pada situasi tertentu penilaian memiliki peran yang lebih kuat (high stake) dalam menentukan dampak pendidikan, misalnya lulus dan tidak lulus.

Setidaknya penilaian dapat menggerakkan proses pembelajaran melalui empat cara yaitu:1

  • Melalui isinya. Bila kita ingin mahasiswa mampu mengelola masalah, maka kita tidak memberikan soal yang bersifat mengingat (memory reproduction).
  • Melalui formatnya. Checklist penilaian yang rumit dapat memberikan efek negatif. Hal ini menunjukkan bahwa format dapat memengaruhi pembelajaran.
  • Melalui informasi yang diberikannya. Pemberian informasi penilaian adalah kunci untuk mencapai hasil pembelajaran. Umpan balik dari hasil penilaian, profil skor, referensi, pertemuan tanya jawab, prosedur banding adalah elemen yang meningkatkan arus informasi dan meningkatkan nilai formatif penilaian.
  • Melalui programnya. Frekuensi, waktu, jumlah ujian ulang, regulasi promosi mahasiswa adalah elemen dari bagaimana pemrograman penilaian mendorong pembelajaran.
  1. Acceptability

Unsur-unsur yang memengaruhi tingkat penerimaan penilaian prestasi perlu dipertimbangkan dalam pemilihan dan desain prosedur penilaian atau program. Penilaian yang tidak diterima oleh staf dan mahasiswa tidak bisa dipertahankan. Hal ini bertujuan untuk menggunakan informasi di fakultas dan keyakinan mahasiswa untuk mendapatkan komitmennya.

  1. Cost

Penilaian yang baik pasti mahal. Uji konstruksi dengan proses review dan kontrol, pengembangan simulasi kesetiaan yang tinggi, pelatihan penguji dan pasien, administrasi tes, pengolahan data, umpan balik kepada siswa, staf dan institusi, pemantauan efek, adalah kegiatan intensif pengembangan sumber daya. Dalam pelaksanaannya, biaya penilaian memerlukan kompromi.

Peserta didik secara konstan sadar akan efek penilaian dalam pendidikan dan sebagai penggerak guna mencapai efek pendidikan yang bisa diharapkan.1 Oleh sebab itu diperlukan instrumen yang baik dalam evaluasi hasil belajar dan memiliki kemamputerapan. Selain itu, sasaran penilaian mesti sesuai dengan sasaran pendidikan agar hasil penilaian dapat menggambarkan kemampuan peserta didik yang sebenarnya.

Referensi

  1. van der Vleuten CPM. The assessment of professional competence: Developments, research and practical implications . Advances in Health Sciences Education 1996;1:41-67.
  2. Downing SM . Validity (on the meaningful interpretation of assessment data). Medical Education 2003;37:830–837.
  3. Dent JA, Harden RM. (Eds). A practical guide for medical teachers. 3rd ed. Churchill Livingstone Elsevier. 2009.
  4. Amin Z, Khoo HE. Basics in Medical Education. 2nd ed. Singapore: World Scientific Publishing. 2009.
  5. Hays RB, Fabb WE, van der Vleuten CPM. Reliability of the fellowship examination of the Royal Australian College of General Practitioners. Teaching and Learning in Medicine 1995;7: 43-50.

Leave a Reply

Your email address will not be published. Required fields are marked *