ساحل علم

ویژگی­های اصلی و فرعی یک آزمون خوب

الف: اعتبار یا پایایی:منظور از این اعتبار این است که اگر یک آزمون دوبار در مورد یک آزمودنی به کار برود نتایج تقریباً یکسانی به دست آید. بنابراین می­توان گفت که اعتبار یک آزمون عبارت است از ثبات و پایایی نتایج آن در اجرای متعدد است.اگرآزمون در هر بار اجرا نتایج متفاوتی بدهد،آن آزمون پایا نخواهد بود و در واقع چیزی را به درستی اندازه نخواهد گرفت و در این حالت آزمون اطلاعات مفیدی را به ما نخواهد داد.بنابراین در این جا انسجام داخلی آزمون مورد نظر است.نتایج یک آزمون می­تواند تحت­تأثیر تغییرات محیط و تمایل لحظه­ای آزمودنی قرار بگیرد.اعتبار آزمون را به شیوه­های زیر اندازه می­گیرند:

1.اجرای مجدد یک آزمون:آزمونی را در مورد یک گروه اجرا می­کنند و بعد از گذشت یک زمان مشخص مثلاً یک هفته، همان آزمون را با همان شرایط در مورد همان گروه تکرار می­کنند.نتایج دو نوبت را با یکدیگر مقایسه می­کنند.اگر بین نتایج دو نوبت همبستگی مثبت قابل قبولی دیده شود،آزمون از اعتبار برخوردار است.

2. اجرای دو فرم موازی: این روش ایجاب می­کند که ما از یک آزمون دو فرم موازی داشته باشیم.دو آزمون را وقتی موازی گویند که از نظر درجه­ی دشواری، قدرت تشخیص و محتوای درونی مثل هم باشند و تنها از نظر شکل ظاهر تفاوت داشته باشند. اگر از یک آزمون دو فرم موازی در دست باشد می­توان هردو فرم را پشت سرهم(بدون فاصله زمانی) یا با فاصله زمانی چند روز اجرا کرد و ضریب همبستگی بین دو سری نمره را به دست آورد.ضریب همبستگی به دست آمده اعتبار آزمون خواهد بود.

3. روش دو نیمه کردن:[1] در این روش آزمون را در یک زمان واحد و در مورد تعدادی از آزمودنی­ها به کار       می­برند. پس از اجرای آزمون،آن را به دو نیمه تقسیم می­کنند.بدین ترتیب که سؤال­های زوج آن را به عنوان یک آزمون و سؤال­های فرد آن را به عنوان آزمون دیگر در نظرمی­گیرند.یعنی برای هر آزمودنی دو نمره به دست می­آورند. بین دو سری نمره ضریب همبستگی محاسبه می­شود.

4. روش کودر-ریچاردسون:[2] در این روش نیز مثل روش دو نیمه کردن،آزمون فقط یک بار اجرا می­شود و میزان همبستگی درونی یا تجانس سؤال­ها مورد بررسی قرار می­گیرد.ضریب همبستگی به دست آمده با این روش بین صفر و یک متغیر خواهد بود.هر اندازه این ضریب به یک نزدیک­تر باشد، تجانس سؤال­های آزمون به همان اندازه بیشتر خواهد بود.

 ب:روایی: روایی یعنی این که آزمون باید چیزی را اندازه بگیرد که برای اندازه­گیری آن ساخته شده است.مثلاً یک آزمون هوش زمانی از روایی برخوردار است که اطلاعات درستی را از آن چه معمولاًهوش نامیده می­شود در اختیار ما بگذارد نه از توانایی­های دیگر.روایی آزمون را به شیوه­های زیر اندازه می­گیرند:

 1.معنی­دار بودن آماری.

  2.محاسبه خطای برآورد.

 3.استفاده از جدول­های انتظار.

 4.استفاده از نرخ­های پایه.

 5.نسبت­های انتخاب.

 6.استفاده از تئوری­های تصمیم.

انواع روایی

روایی ظاهری: یعنی این­که مواد یا سؤالات آزمون از نظر ظاهر شبیه موضوعی باشد که مورد اندازه­گیری است.

روایی محتوا[3]: یعنی این­که آزمون باید ارتباط کامل با کل زمینه مورد نظر داشته باشد.

روایی پیش بینی[4]: یعنی این­که بین نتایج حاصل از اجرای آزمون­ها و نتایجی که بعداً به دست می­آید همبستگی و قرابت وجود داشته باشد.

 روایی همزمان[5]: نتایج آزمون­ها را با نتایجی که همزمان با اجرای آن­ها،با یه فاصله کمی بعد از اجرای آن­ها به دست می­آیدمقایسه می­کنند.مثلاً اگر آزمونی بسازیم و در همان زمان بخواهیم روایی آن را تعیین کنیم،می­توانیم نتایج آن را با نتایج آزمون دیگری که در همان زمینه وجود دارد و درباره همان گروه اجرا می­شود مقایسه کنیم.

 روایی سازه[6] (روایی مفهومی): عبارت است از تطابق نتایج یک آزمون با پیش بینی­هایی که توسط یک نظریه یا سایر واقعیات شناخته شده به عمل آمده است.مثلاًیکی از نظریه­های هوش این است که هوش موجب سازگاری با موقعیت تازه می­شود.بنابراین اگر ما،براساس معیارهای مورد قبول،به یک عدد از نظر سازگاری نمره بدهیم و بعد یک آزمون هوشی اجرا کنیم و دو نتیجه تطابق بالایی را نشان دهند، خواهیم گفت که آزمون ما دارای روایی سازه است(گنجی،1385).

ج:حساسیت یا ظرافت تشخیص: منظور از حساسیت این است که یک آزمون بتواند تفاوت­های افراد را به خوبی نشان دهد.هر اندازه یک آزمون بتواند رفتار­های آزمودنی­ها را به درجات بیشتر تقسیم کند حساسیت آن به همان اندازه بیشتر خواهد بود. هر اندازه وسعت رفتار­هایی که یک آزمون می­تواند اندازه بگیرد، بیشتر باشد، به همان اندازه حساسیت این آزمون کمتر خواهد بود. یعنی هر اندازه پدیده مورد اندازه­گیری محدودتر باشد حساسیت آزمون بهتر خواهد بود.همچنین حساسیت یک آزمون به ساختمان خود آن بستگی دارد.زیرا قدرت تشخیص سؤالات متفاوت است.برخی از سؤالات توانایی بهتری برای طبقه­بندی افراد دارند، در حالی که برخی دیگر این توانایی را ندارند.پیدا کردن سؤالاتی که از قدرت تشخیص(حساسیت) بهتری برخوردار باشند نیاز به تجربه­ی گوناگونی و محاسبات آماری دارد. زیرا حساسیت یا قدرت تشخیص یک سؤال پس از اجرا معلوم می­شود. یعنی اگر پس از اجرای یک آزمون معلوم شد که سؤالات آن توانسته­اند آزمودنی­های خیلی ضعیف، ضعیف، متوسط، قوی و خیلی قوی را از یکدیگر متمایز کنند خواهیم گفت آن آزمون حساسیت دارد(همان،ص،124-115).


ویژگی­های فرعی یک آزمون خوب

در استفاده از آزمون­ها، نه تنها باید ویژگی­های مهم آن­ها (اعتبار، روایی و حساسیت) را در نظر گرفت باید برخی و یژگی­های دیگر را،که اهمیّت کمتری از ویژگی­های اصلی ندارد، به حساب آورد.زیرا معلوم نیست که ما بتوانیم هر آزمونی را که دار ای اعتبار و روایی است در همه جا و همه شرایط مورد استفاده قرار دهیم.ویژگی­های دیگری را که برای یک آزمون در نظر می­گیرند عبارتند از:سهولت اجرا، سهولت          نمره­گذاری، صرفه­جویی در زمان و صرفه­جویی در هزینه.

سهولت اجرای یک آزمون زمانی امکان­پذیر خواهد بود که آزمون یک دستورالعمل کاملاًروشن،کلید تصحیح، شیوه نمره­گذاری دقیق و معیار مقایسه،که آن را نرم یا هنجار می­نامیم، داشته باشد.آزمونی که اجراکننده بارها باید دستورالعمل آن را بخواند تا خوب بفهمد،آزمونی که مدت زیادی برای اجرا لازم دارد، به طور کلی،آزمونی که وقت­گیر است عملاًمورد استفاده قرار نخواهد گرفت.سهولت نمره­گذاری هم زمانی امکان­پذیر خواهد بود که نمره­گذاری کاملاًعینی  باشد.منظور از عینی بودن این است که اگر دو مصحح به یک ورقه نمره بدهند به نتیجه یکسانی برسند.این حالت زمانی اتفّاق می­افتد که پاسخ آشکارا صحیح یا غلط باشد و درستی آن به قضاوت تصحیح کننده نیاز نداشته باشد.

 در مورد این­که یک آزمون، از نظر زمان و هزینه لازم برای برگذاری آن، باید مقرون به صرفه باشد جای هیچ تردیدی وجود ندارد.امروزه بیش از همه وقت طلاست.محدودیت­های زمانی و اقتصادی اجازه نمی­دهند که ما بتوانیم هر آزمونی را با هر نوع صرف وقت و هزینه به کار ببریم. امروزه ما به دنبال آزمون­هایی هستیم که در حداقل زمان بیشترین اطلاعات را در اختیار ما بگذارند. ویژگی دیگری را که می­توانیم برای آزمون­­ها قائل شویم این است که یک آزمون حتماً باید در آزمودنی رغبت ایجاد کند.یعنی مواد آن طوری باید باشد که آزمودنی با علاقه به آن­ها پاسخ دهد(همان،ص،131-130).

2-6-3- نظریه کلاسیک نمره واقعی

بیشتر شیوه های« هنجارشده»ساخت و ارزشیابی آزمون ها بر پایه مجموعه­ای از مفروضات قردارند که معمولاًنظریه کلاسیک(یاضعیف) نمره واقعی نامیده می­شود..نظریه کلاسیک نمره واقعی متضمن یک الگوی جمع­پذیر است.نمره مشاهده شده یک آزمون مساوی مجموع دو جزء است:نمره واقعی Tو نمره خطای تصادفی E. فرض بر این است که نمره خطای یک آزمون با نمره واقعی همان آزمون و با نمره های خطا و واقعی تمام آزمون­ها ناهمبسته هستند.آزمون­های موازی،نمره­های واقعی و واریانس یکسان دارند. در   آزمون­های اساساً  Tمعادل، تفاوت بین نمره­های واقعی در یک مقدار  ثابت اضافی است.مفروضات نظریه کلاسیک نمره واقعی ممکن است بر اثرشرایطی که بر آزمون تأثیر دارند، نقض شوند.به هر حال، چون معمولاً نمی توانیم TوE را تعیین کنیم، قادر نیستیم درستی و نادرستی مفروضات را بررسی کنیم. مناسب بودن آن­ها فقط با حدس زدن امکان­پذیر است.

نمره های واقعی و خطا ساخت نظری و غیر قابل مشاهده­ای دارند.هنگامی که درباره نمره واقعی صحبت               می­کنیم، اساساً باید به خاطر داشته باشیم که یک نمره واقعی(میانگین نمره هایی که در اثر اندازه گیری مستقل و مکرر با یک آزمون به دست می­آید) یک اندیشه نظری است.این نمره وقتی به طور کامل نشان دهنده ویژگی­های مورد نظر است که آزمون دارای اعتبار کامل باشد؛به این معنی که آزمون دقیقاً آنچه را که لازم است، اندازه­گیری کند(آلن،1979).

2-6-4- نظریه خصیصه مکنون

فرض بر این است که مهم­ترین جنبه های عملکرد آزمون می­تواند با تعیین وضعیت فرد در یک خصیصه مکنون­یک ویژگی فرضی و مشاهده نشده یا خصیصه، مثل توانایی کلامی، معلومات تاریخی یا برون گرایی توصیف شود. الگو­های نظریه­های خصیصه مکنون به این منظور طراحی شده­اند تا نحوه­ی تأثیرگذاری خصیصه مکنون را بر عملکرد هر یک از سؤال­های آزمون توصیف کند.برخلاف نمره­های آزمون یا نمره­های واقعی، ویژگی های مکنون می توانند از لحاظ نظری مقدارهای بین ∞- تا ∞+ داشته باشند.گرچه در این نظریه، ارزش مورد انتظار نمره مشاهده شده،همان نمره واقعی است، اما این نمره،یک تابع خطی از خصیصه مکنون نیست، بنابراین ارزش مورد انتظار نمره مشاهده شده مساوی مقدار خصیصه مکنون نیست.برای دستیابی به برآوردهای مقدارهای خصیصه مکنون، برنامه­های کامپیوتری به کار برده می­شوند.نطریه های خصیصه مکنون را، همانند نظریه­های کارآمد نمره واقعی،می­توان برای تعین تناسب آن­ها با مجموعه­ای از داده­ها آزمایش کرد.هنگامی که این نظریه­ها متناسب با مجموعه­ای از داده­ها باشند،آلگوهای خصیصه مکنون مقیاس­های فاصله­ای را به وجود می­آورند.منحنی درصدی طبیعی[1] و الگوه­های منطقی[2]، به عنوان نمونه­هایی از نظریه­های خصیصه مکنون ارائه می­شوند(همان،ص،373)