Apakah Psikometri Itu?
Seperti halnya ekonometri dan biometri, maka psikometri dapat
didefinisikan sebagai "penerapan/penggunaan metoda-metoda statistika pada
data tentang perilaku manusia (data psikologi)". Oieh sebab itu, jika anda
membaca buku-buku teks tentang psikometri atau jurnal yang diterbitkan oleh
perhimpunan ahli psikometri (the Psychometric Society) seperti
"Psikometrika", maka yang akan anda jumpal adalah dua hal, yaitu:
·
pembahasan teiitang teori-teori statistika yang sering dipakai
pada data psikologi seperti teori estimasi, teori distribusi, dsb,
·
pembahasan tentang penggunaan/ aplikasi metoda statistika tertentu
dalam pengolahan data di bidang psikologi.
Pada jenis yang pertama materinya lebih bersifat teori statistika
dan sering disebut sebagai "teori psikometri", sedangkan yang kedua
biasanya disebut "psikometri terapan". Baik pada jenis yang pertama
maupun yang kedua, yang dibahas dalam bidang psikometri adalah sama yaitu
selalu tentang statistika.
Berbeda dengan data di bidang ekonomi, biologi, dan fisika, data
di bidang psikologi sebagian besar diperoleh melalui proses pengukuran yang
bersifat tidak langsung, dan dilakukan dengan menggunakan alat ukur yang sulit
untuk divalidasi dan dikalibrasi. Oleh sebab itu, yang dibahas di dalam
psikometri tidak hanya tentang penggunaan statistika untuk menerangkan hubungan
antara variabel-variabel psikologis yang telah terukur/ada datanya, tetapi juga
mengenai aplikasi statistika untuk untuk menerangkan "mutu data" itu
sendiri sebagai hasil dari suatu upaya/proses pengukuran. Bahkan, di dalam
banyak buku tentang psikometri sering ditemui isi materi yang didominasi oleh
pembahasan yang mendalam dan panjang lebar tentang "pengukuran"
tersebut. Akibatnya, sering timbul kesan bahwa psikometri adalah ilmu/metoda
tentang pengukuran variabel-variabel psikologis (teori tes) semata.
Padahal, model-model matematis/statistis yang ditelaah di dalam psikometri
adalah menyangkut baik tentang "model pengukuran" measurement
model maupun "model tentang hubungan antara variabel-variabel yang
terukur" structural model. Bahkan, dalam perkembangannya saat ini,
ilmu psikometri telah mplangkah lebih maju lagi dengan telah berha'iil
dipadukannya kedua jenis model di atas sehingga hubungan antara variabel-variabel
yang "tak terukur" pun telah dapat diterangkan dan diuji secara
empirik.
Psikometri dan Pengembangan Tes
Karena yang menjadi fokus pembicaraan dalam lokakarya ini adalah
tentang pengggunaan tes psikologi untuk menseleksi calon karyawan, maka
konsep-konsep psikometri yang akan disajikan di sini pun adalah tentang kedua
model yang telah dikemukakan di atas dalam kaitannya dengs-n keberhasilan dari
suatu proses seleksi. Namun demikian, mengingat kemungkinan beragamnya tingkat
pemahaman statistika para peserta, maka seluruh pembahasan akan dilakukan
secara non-statistikal dalam arti bahwa rumus-rumus serta model
matematis dari konsep yang dibahas tidak akan disajikan. Pertama, pada bagian
ini akan dibahas konsep-konsep yang berkenaan dengan measurement model,
yang dalam hal ini adalah tentang hal-hal yang perlu diperhatikan dalam
pengembangan suatu tes sebagai "alat ukur" sehingga data yang
dihasilkannya dapat dipercaya. Kemudian, pada bagian selanjutnya akan dibahas
pula segi structural model nya, yang dalam hal ini adalah berkenaan
dengan "penggunaan yang tepat dari suatu atau beberapa tes yang telah
diuji mutunya" sehingga dapat diperoleh suatu keputusan seleksi yang
optimal.
Konsep yang pertama yang perlu dikemukakan adalah tentang
"tes" itu sendiri. Secara operational, tes dapat dinyatakan sebagai
himpunan pertanyaan pertanyaan yang harus di jawab, atau pernyataan-pernyataan yang harus dipilih/ ditanggapi,
atau tugas-tugas yang harus dilakukan oleh orang yang dites (testee) dengan
tujuan untuk mengukur suatu aspek perilaku dari orang yang di tes. Contoh
yang sederhana adalah tes prestasi belajar, di mana hal yang hendak diukur
ialah tingkat sejauh mana seorang siswa telah menguasai bahan pelajaran yang
telah diajarkan kepadanya. Di sini, prestasi belajar dapat meliputi aspek
pengetahuan dan ketrampilan seseorang. Dalam istilah psikologi, aspek
intelektual dan pengetahuan disebut aspek kognitif sedangkan aspekketrampilan
disebut aspek motorik. Selain tes untuk aspek intelektual dan ketrampilan, ada
pula tes psikologis yang dimaksudkan untuk mengukur hal-hal yang berkenaan
dengan karakteristik pribadi (watak, motivasi, minat, sikap, konsep diri,
dsb.), yang soring kali disebut sebagai tes kepribadian atau
"personality test". Banyak ahli psikologi tak mau menyebut alat
ukur jenis ini sebagai "tes" tetapi merpka menggunakan sebutan
"inventory", atau "scale". Bahkan banyak dari mereka yang
begitu berhati-hati sehingga tak menamakan pengukuran aspek kepribadian
seseorang ini dengan istilah "measurement" tetapi cukup menggunakan
istilah "assessment".
Tes yang dimaksudkan sebagai alat ukur aspek kognitif biasanya
dibagi menjadi dua jenis, yaitu apa yang disebut "tes kemampuan"
(power test) dan "tes kecepatan" (speed test). Pemahaman tentang
pembagian jenis tes ini amat penting karena sifat-sifat yang harus dimiliki
kedua jenis tes tersebut amat berbeda. Adapun perbedaan sifat tersebut adalah
sebagai berikut:
- Prinsip dari suatu "power test"
adalah tidak diperbolehkannya pembatasan waktu di dalam pengerjaan tes.
Menurut prinsip ini, hanya jika waktunya tak dibatasi, barulah hasil tes
itu akan benar-benar mengungkapkan kemampuan seseorang. Adanya pembatasan
waktu diperkirakan akan menyebabkan orang menjadi tidak dapat menunjukkan
seluruh kemampuan yang dimilikinya, sehingga skor yang dihasilkan tidak
menunjukkan kemampuan yang sebenarnya dari orang tersebut. Namun demikian,
adalah tidak efisien jika orang yang paling lambat pun harus ditunggu
sampai ia menyelesaikan tes yang dihadapinya, terutama pada tes yang
diberikan secara klasikal (kelom-pok). Sebagai kompromi, biasanya para
ahli tes masih menganggap suatu pelaksanaan tes sebagai "tes
kemampuan" (power test) jika sebagian besar orang yang dites dapat
menyelesaikan tes tersebut dalam waktu yang disediakan. Hal ini perlu
untuk diperhatikan oleh orang yang akan menyusun kisi-kisi suatu tes.
- Sebaliknya pada
sebuah "speed test", yang diukur di sini ialah kecepatan di
dalam memikirkan atau mengerjakan sesuatu. Jadi, yang harus dilakukan
hendaknya merupakan pengulangan tugas yang sama dalam suatu periode waktu
yang ditentukan. Tugas tersebut sebaiknya dibuat semudah mungkin sehingga
yang diukur benar-benar kecepatan bekerja/ berpikir dan bukanlah kemampuan
orang tersebut. Tes prestasi belajar yang kita susun umumnya adalah tes
prestasi yang bersifat tes kemampuan (power test).
Tes yang dimaksudkan untuk
mengungkapkan aspek watak/ kepribadian pun terdiri dari duajenis yaitu tes
kepribadian yang bersifat "proyektif" dan yang'bersifat
"non-proyektif". Tes yang bersifat proyektif adalah yang menuntut
orang yang di tes untuk memproyeksikan perasaan maupun pendiriannya melalui
cerita, gambar, tulisan, dan sebagainya. Dalam hal ini, orang yang di tes
biasanya tidak menyadari/ mengetahui aspek apa yang sebenarnya hendak diungkapkan
oleh tes yang dihadapinya. Contoh dari tes seperti ini adalah "Thematic
Apperception Test" di mana orang dihadapkan kepada kartu berisi gambar
kemudian diminta untuk mengarang cerita tentang apa yang terdapat dalam gambar
tersebut. Selanjutnya, tes kepribadian yang bersifat "non-proyektif"
adalah yang berbentuk lebih obyektif dalam arti orang yang di tes diminta
memilih alternatif tanggapan yang telah tersedia terhadap suatu pernyataan atau
situasi yang disajikan. Pada tes jenis ini, pengolahan data dan penafsirannya
adalah seperti halnya pada tes bidang aspek kognitif dan ketrampilan di atas.
Contoh sederhanii dari tes yang bersifat "non-proyektif" adalah
"skala sikap".
Hal lain yang perlu diingat ialah
bahwa tes itu adalah sebuah alat ukur, sebagaimana halnya dengan alat ukur
panjang (misalnya mistar), alat ukur berat (timbangan), alat ukur suhu
(termometer), dan sebagainya. Bedanya ialah bahwa tes dimaksudkan untuk
mengukur aspek perilaku manusia. Oleh sebab itu, segala persyaratan bagi sebuah
alat ukur yang baik, berlaku pula bagi sebuah tes.
Syarat pertama ialah bahwa setiap
alat ukur yang baik hanya mengenai/ mengukur satu dimensi/ aspek saja. Mistar
hanya mengukur jarak/panjang, timbangan hanya mengukur berat, dan sebagainya.
Jadi sebuah tes prestasi belajar di bidang matematika, misalnya, setiap butir
soalnya harus mengukur hanya pengetahuan matematika saja. Pada alat ukur di
bidang fisika, pemenuhan syarat yang pertama ini biasanya lebih mudah. Namun
pada alat ukur perilaku manusia, pemenuhannya lebih sukar. Pada butir soal
matematika, tidak mustahil terdapat unsur bahasa, atau bentuk soal yang belum
biasa dikenal oleh siswa, dsb., sehingga berhasil tidaknya siswa dalam menjawab
soal tersebut akan bergantung pula pada aspek lain selain kemampuannya
di bidang matematika. Dalam hal ini, kemampuan siswa dalam menjawab soal
tersebut dengan benar tidaklah semata-mata ditentukan oleh pengetahuannya di
bidang matematika, melainkan ditentukan pula oleh pemahamannya terhadap hal
bahasa, bentuk soal, dan sebagainya itu. Dengan kata lain, dapat saja terjadi
bahwa di dalam sebuah tes matematika terdapat butir-butir soal yang sebenarnya
tidak sepenuhnya mengukur kemampuan matematika. Tes seperti ini disebut kurang
"valid" (kurang sahih). Ukuran tentang sejauh mana skor yang
dihasilkan oleh sebuah tes men-King terbukti mengukur apa yang diniati
hendak diukur, disebut "validitas" dari sebuah tes. Setiap tes
psikologi yang hendak digunakan, termasuk bagi keperluan seleksi calon
karyawan, harus terlebih dahulu diuji dan diketahui tingkat validitas nya.
Berkenaan dengan hal di atas,
hanya jika sebuah tes (misalnya tes matematika) bersifat "satu
dimensi" (unidimensional), barulah kita boleh menamakan skor total dari
tes tersebut sebagai skor untuk dimensi yang diukur (dalam hal ini "skor
matematika"). Jika ada sebuah dimensi yang sifatnya lebih umum/luas
seperti misalnya "inteligensi" atau "pengetahuan sosial",
maka perlu disusun sub-sub tes yang berdimensi tunggal (unidimensional) yang
hanya mengukur satu aspek saja dari "inteligensi" atau
"pengetahuan sosial" itu. Dalam hal ini disyaratkan bahwa setiap
aspek/sub-tes harus berkorelasi tinggi satu sama lain sehingga dapat dijadikan
bukti bahwa semua aspek tersebut memang merupakan bagian dari suatu yang lebih
umum/ luas itu. Jika tidak, maka sebenarnya kita tak boleh menjumlahkan begitu
saja skor-skor yang dihasilkan, untuk kemudian dinamakan sebagai skor
inteligensi atau skor pengetahuan sosial seseorang.
Syarat yang kedua ialah bahwa
suatu tes harus memiliki sifat "kehandalan" dari suatu alat ukur.
Istilah yang sering digunakan uiituk hal ini ialah "reliabilitas"
dari skor sebuah tes. Kehandalan yang dimaksud disini meliputi
ketepatan/kecermatan (precision) hasil pengukuran, dan keajegan/ kestabilan (consistency)
dari hasil pengukuran. Kecermatan hasil pengukuran ditentukan oleh banyaknya
informasi yang dihasilkan dan amat berkaitan dengan satuan ukuran dan jarak
rentang (range) dari skala yang digunakan. Dalam mengukur berat sebuah cincin
emas. pengukuran dengan timbangan yang bersatuan miligram dan berjarak rentang
antara 0 – 1000 mg, tentu akan menghasilkan ukuran yang lebih teliti dari pada
penggnnaan timbangan dengan satuan kilogram dan berjarak rentang 0 - 100 kg.
Begitu pula halnya dengan tes prestasi belajar, tes inteligansi, tes bakat,
dsb. Sebuah tes dengan jumlah soal yang cukup banyak dan seluruh soalnya
bertaraf kesukaran "sedang" (on-target) bagi orang yang menempuh,
tentu akan menghasilkan informasi yang lebih teliti mengenai orang yang diukur jika
dibandingkan dengan tes yang soalnya sedikit dengan tingkat kesukaran yang
"off-target". Dengan kata lain, soal-soal sebuah tes tidak boleh
terlalu jauh di bawah atau di atas tingkat kemampuan intelektual orang yang
akan mengerjakannya agar tingkat kecermatan hasil pengukuran dapat lebih
tinggi. Dengan demikian, sebuah kisi-kisi tes yang menetapkan prosentase soal
yang mudah, sedang dan sukar, pada prinsipnya adalah salah dan menyimpang
dari teori tentang kehandalan hasil sebuah tes. Jika orang yang hendak di tes sangat
hcterogin tingkat kemampuannya, maka menurut teori keterhandalan pengukuran,
mereka harus dibagi menjadi beberapa kelompok yang relatif homogin, sehingga
untuk setiap kelompok dapat disusun dan diberikan tes yang tingkat kesukarannya
sesuai dengan tingkat kemampuan mereka. Secara teoretis, jika memungkinkan,
maka hendaknya setiap individu hanya dihadapkan pada soal-soal yang tepat bagi
tingkat kemampuan dirinya saja (individualized atau tailored testing). Dengan
bantuan komputer dan bank soal yang soal-soalnya telah dikalibrasi, hal seperti
ini dapat dimungkinkan dan memang telah dipraktekkan di beberapa tempat di
Amerika, Eropa daratan, dan Australia.
Tentang syarat kestabilan/
keajegan (consistency) dari skor suatu tes, ada dua istilah yang perlu dikenal
yaitu keajegan internal dan eksternal. Keajegan internal ialah tingkat sejauh
mana butir-butir soal sebuah tes itu homogin baik dari segi tingkat kesukaran
maupun dari segi bentuk soal/prosedur menjawabnya. Hal ini berkaitan erat
dengan masalah kehormatan/presisi yang telah dibicarakan sebelumnya, di mana
disyaratkan agar tingkat kesukaran semua soal yang ada dalam suatu tes sesuai
dengan tingkal kemampuan orang yang akan di tes. Tingkat kehandalan skor tes
dalam arti (1) homoginitas butir soal dan (2) kehandalan butir-butir soal
tersebut dalam mengungkapkan perbedaan kemamnuan yang terdapat di kalangan
siswa, dapat diukur dengan sebuah indeks yang dikenal dengan sebutan "indeks
alpha dari Cronbach" (Cronbach Alpha). Khusus untuk tes tertulis yang
jawabannya bersifat dichutomis (yaitu benar jika memilih kuncinya
dan salah jika tidak), teknik perhitungan indeks alpha tersebut dapat
disederhanakan sehingga lebih mudah dihitung. Penyederhanaan terhadap teknik
perhitungan (rumus) alpha tersebut dikemukakan oleh dua orang yang
bernama Kuder dan Richardson. Oleh sebab itu, salah satu rumus perhitungan
indeks keterhandalan skor tes yang paling populer dikenal dengan sebutan KR—80,
di mana huruf pertama dari nama kedua orang tersebut dicantumkan. Hal ini perlu
dikemukakan karena setiap buku mengenai tes selalu membicarakan konsep
reliabilitas dengan rumus keterhandalan skor tes yang disebut indeks KR—20 itu.
Kuder dan Richardson bahkan mengajukan pula cara perhitungan yang lebih
sederhanajika butir-butir soal yang ada dalam sebuah tes memang benar-benar
homogin taraf kesukarannya. Rumus yang lebih sederhana tersebut dinamakan
indeks KR—21.
Dalam hal keajegan yang bersifat
eksternal, pokok permasalahannya ialah mengenai tingkat sejauh mana skor yang
dihasilkan dari penyajian sebuah tes kepada sekelompok orang, akan tetap sama
sepanjang kemampuan orang-orang yang diukur tersebut masih belum berubah. Cara
pendekatannya ada dua. Pertama, dengan mcmbayangkan sekelompok orang menempuh
sebuah tes berulang-ulang sampai tak terhingga kali banyaknya dengan asumsi
bahwa (1) kcmampuan orang tersebut tak berubah, dan (2) orang tersebut tak akan
mempelajari isi tes. Kedua, dengan membayangkan sekelompok orang menempuh
perangkat-perangkat tes paralel yang tak terhingga banyaknya (diperlukan tes
paralel karena disadari bahwa jika tesnya tetap sama maka orang tersebut akan
mempelajari isi tes tersebut). Jika dari kedua pendekatan tersebut dapat
dihasilkan skor ya.ng sama pada setiap pengukurannya, inaka berarti alat ukur
(tes) tersebut adalali alat yang memenuhi syarat keajegan hasil ukuran seeara
eksternal. Dalam prakteknya, kedua pendekatan tersebut tak dapat dilaksanakan.
Biasanya cukup disajikan dua tes yang dianggap paralel atau sebuah tes
disajikan dua kali saja. Jarang sekali ada yang sampai tiga kali atau lebih.
Untuk menentukan apakah hasil yang diperoleh adalah sama, pun biasanya hanya
dihitung dengan indeks statistika yang disebut korelasi, yang sebenarnya kurang
memadai untuk dipakai sebagai indeks keajegan. Di dalam cara mendapatkan
perangkai, paralel pun kadang-kadang orang ingin mudahnya saja. Bukannya
menyusun perangkat baru yang paralel, tetapi cukup membagi saja tes yang akan
diuji keajegannya itu menjadi dua buah sub-tes yang masing-masing jumlah
soalnya hanya separuh dari tes semula. Korelasi antara skor dari masing-masing
sub-tes tersebut kemudian dihitung dan dianggap sebagai indeks keajegan
eksternal dari sebuah tes yang jumlah butir soalnya hanya separuh dari tes
samula. Berdasarkan hasil perhitungan ini kemudian dilakukan penaksiran
terhadap indeks keajegan eksternal dari tes yang sama seandainya jumlah soal
tes tersebut dilipatkan dua.
Konsep lain yang perlu diketahui
dalam teori tes ialah mengenai skala hasil pengukuran. Pengukuran yang terbaik
ialah yang menghasilkan ukuran dengan "skala mutlak" (ratio scale).
Artinya, angka nol yang dihasilkan benar-benar menunjukkan absensi (tidak
adanyakuantitas) dari dimensi/aspek yang diukur, dan setiap angka hasil
pengukuran merupakan rasio dari dua obyek pada suatu dimensi yang sama. Sebagai
contoh, pada pengukuran jarak antara dua benda dengan menggunakan mistar yang
ketelitiannya sampai sepersejuta milimeter, angka nol dapat ditafsirkan sebagai
berimpitnya kedua benda tersebut. Coba bandingkan hal tersebut dengan pengukuran
suhu yang menggunakan thermometer, di mana angka nol adalah didasarkan pada
konvensi atau kesepakatan. Meskipun jarak antara empat dan enam Celcius adalah
sama dengan antara delapan dan sepuluh Celcius, tetapi tidak dapat ditafsirkan
bahwa delapan Celsius adalah dua kali lebih panas dari lima Celsius. Skala yang
satuan ukurannya berjarak sama tetapi titik awal (nol) nya tidak miitlak
seperti ini disebut skala interval.
Tes psikologi yang dimaksudkan
untuk mengukur aspek inlelektual, umumnya hanya menghasilkan skor dalam skala
interval tersebut. Itu pun jika semua butir soalnya benar-benar homogin baik
dari segi isi materi, bentuk, maupun taraf kesukarannya. Biasanya, pada sebuah
tes selalu terdapat variasi pada ketiga hal tersebut, sehingga skala yang
dihasilkan tidak sepenuhnya bersifat (equi-) interval. Namun dalam praktek
sehari-hari, orang menganggap skala, seperti itu sebagai skala interval. Hal
seperti ini tentu saja dapat mengakibatkan kesalahan dalam penafsiran iiasil
tes serta dalam berbagai keputusan yang diambil berdasarkan hasil tes tersebut.
Jenis skala lain ialah skala
ordinal. Dalam skala ini yang ada hanyalah informasi tentang tinggi rendahnya
posisi obyek pada dimensi/ aspek yang diukur. Berapa tinggi dan herapa
rendahnya tidak diketahui. Jadi informasi yang diperoleh hanyalah bersifat
penjenjangan kasar (ranking) saja. Misalkan ada tiga siswa yang tinggi badannya
berbeda, masirg-masing 173, 168 dan 145em Jika seorang guru yang belum
mengetahui tinggi badan mereka, dimintai meranking, akan diperoleh ranking
kesatu, dua, dan ketiga. Padahal jarak antara tinggi sibwa yang kesatu dan
kedua sebenarnya amatlah berbeda dengan antara yang kedua dan ketiga. Dengan kata
lain, skala angka 1, 2, dan 3 it" tidak berjarak sama(equiinterval). Hasil
pengumpulan data melalui skala rating, dan skala sikap/ angket biaaanya dalam
tingkatan skala ordinal ini. Jenis skala yang lair ialah skala nomiiial. Ei
sini. skala atau angka yang dihasilkan hanya bersifat klasifikasi/
kategorisasi/ nominasi saja. Contohnya ialah jika ada delapan propinsi diberi
kode dengan angka satu sampai delapan. Di sini angka yang dihasilkan tidak
menunjukkan perbedaan tingkat dalam suatu dimensi apa pun.
Masih banyak konsep-konsep penting
yang berkenaan dengan teori tes yang harus diketahui oleh orang yang hendak
mengembangkan tes ataupun yang hendak mengetahui apakah tes yang akan
digunakannya cukup bermutu atau tidak. Namun dalam waktu yang singkat seperti
ini tak mungkin diliput seluruhnya. Hal-hal tersebut dapat dibicarakan dalam
kesempatan yang lain. Begitu pula halnya dengan pendalaman terhadap hal-hal
yang telah dibicarakan pada kesempatan ini, seperti misalnya mengenai
model-model matematis/statistis dari setiap konsep yang telah dibicarakan di
muka.
Psikometri dan Penggunaan Tes
Tujuan penggunaan tes biasanya banyak sekali
ragamnya, namun selalu berkenaan dengan satu hal, yaitu peiiggunaan skor tes
untuk mengambil suatu keputusan. Dengan deinikian. sifat dasar dari
perinasalaliannya adalah peramalan tentang tepat tidaknya kepntusan yang
diambil berdasarkan hasil dari suatu tes tersebut. Dengan kata lain, skor tes
yang dijadikan dasar pengambilan keputusan selalu nwrupakan variabel peramal
(prediktor), sedangkan bervariasinya hasil yang timbul sebagai akibat dari
diambilnya keputusan berdasarkan prediktor tprsebut adalah variabel akibat
(dependent variable, atau kriterion). Dalam praktek, agar keputusan yang
diambil dapat benar-benar berhasil, maka. variabel yang dija,dikan dasar
pengambilan keputusan itu biasanya terdiri dari beberapa buah (misalnya skor
dari beberapa tes ditambah dengan beberapa hal lain yang juga dijadikan dasar
pertimbangan). Begitu pula halnya dengan variabel kriterion, biasanya terdiri
dari hasil pengukuran terhadap berbagai jenis indikator keberhasilan/kegagalan
dari keputusan yang telah diambil. Dalam situasi penggunaan tes seperti ini,
metoda-metoda psikometri dapat dipergunakan sebagai alat untuk mencapai dua
jenis tujuan:
- untuk mendapatkan
persamaan matematis yang paling handal dalam meramalkan akibat dari suatu
keputusan yang akan diambil berdasarkan skor dari satu atau sehimpunan
tes. Jika persamaan ini dapat ditemukan berdasarkan penelusuran
(eksplorasi) terhadap struktur hubungan antar variabel •yang ada pada
data, maka keputusan-keputusan berdasarkan skor tes tersebut dapat
disempurnakan.
- untuk menguji apakah
suatu model teoretis tentang cara penggunaan skor tes tertentu untuk
tujuan tertentu yang selama ini mungkin telah sering dipakai adalah memang
cukup handal dan dapat dipercaya.
Baik pada tujuan yang pertama maupun yang
kedua, permasalahannya adalah sama, yaitu mengenai tingkat kesahihan
(validitas) dari suatu keputusan yang telah diambil. Sehubungan dengan hal ini,
khususnya pada masalah seleksi calon karyawan, mahasiswa, dsb, validitas
keputusan yang pernah diambil sering kali dikaitkan dengan tes yang digunakan
sehingga ukuran tentang validitas keputusan tersebut sering dinyatakan sebagai
ukuran validitas dari tes tersebut dalam penggunaannya sebagai alat seleksi.
Keputusan seleksi yang menghasilkan tingkat validitas yang tinggi biasanya
didasarkan pada sehimpunan skor tes yang komposisi bobot peranan masing-masing
tes terhadap keputusan yang diambil telah ditetapkan secara empirik melalui
penggunaan metoda-metoda psikometri yang tepat. Upaya menemukan model persamaan
seleksi yang tepat secara empirik ini disebut "selection modeling"
dan dalam bentuk yang canggih biasanya menggunakan model statistik yang di
dalam ilmu psikometri dikenal dengan nama "modeling dengan persamaan struktural".