Руководство к тесту
составляется для его пользователей —
организаций, специальных психологических
служб, профессиональных психологов,
педагогов, психиатров и некоторых
других специалистов. В руководстве,
как правило, излагаются следующие
сведения о тесте:
-
сведения о процедуре
разработки (теоретическое и операционное
определение, сфера применения, данные
о выборке, на которой проводилась
стандартизация, анализ пунктов теста,
валидности и надежности); -
требования к применению
(область распространения теста,
требования к пользователям, описание
процедуры проведения, стандарт тестового
материала); -
данные по обработке и
интерпретации результатов (образцы
регистрационного бланка и ключей,
процедура обработки таблицы для
перевода «сырых» баллов в стандартные
шкалы (нормы), примеры интерпретации
результатов).
А. Общие требования к информации,
содержащейся в руководстве.
Пользователи тестов
нуждаются в информации, которая
помогла бы применить тест стандартным
образом и оценить его в сравнении с
другими тестами, которые можно выбрать
для данной цели. Автор теста должен
представить хотя бы частичную
информацию, в которой нуждается
пользователь при выборе теста или при
его использовании. Практика авторов и
издателей в представлении информации
разнообразна. По некоторым тестам
пользователю представляются только
нечеткие указания к тестированию и
нормы для оценивания результатов, да
и те неизвестного происхождения.
Наоборот, другие тесты имеют руководства,
в которых представлена обширная и
детальная информация о разработке
теста, его валидности и надежности, а
также нормах, видах интерпретации
результатов и возможных областях
его применения.
А.1.
Когда тест становится доступным для
операционного использования, он должен
сопровождаться руководством, для того
чтобы сделать реальными требования,
которые предъявляются к его применению.
(Существенно.)
Комментарий.
Под термином «операционное пользование»
подразумевается принятие практических
решений относительно оценивания
индивидов, групп, учебных предметов,
терапевтической интерпретации и т.
д.
В зависимости от объема
сообщаемой информации, разнообразия
областей применения и пользователей,
термин руководство» может означать
документы монографического характера
или серию отдельных публикаций.
Данный термин может также
распространяться на процедурное
руководство по использованию тестов
или их батарей, например в ситуации
отбора; словесная формулировка и
значение данных о стандартных требованиях
могут быть иными для процедурных
руководств, однако принципы составления
руководства к тестам аналогичны.
А.1.1.
Если некоторая информация, необходимая
для подтверждения интерпретации
результатов, предложенных в руководстве,
не может быть представлена ко времени
публикации руководства, требование
А.1 может быть удовлетворено подчеркиванием
отсутствия и важности такой информации.
(Существенно.)
А.1.2.
Если информация слишком обширна для
сообщения в руководстве, она должна
быть обобщена и сопровождена ссылками
на другие соответствующие источники,
статьи или книги. (Очень
желательно.)
Комментарий.
Некоторые тесты имеют или объемные
технические руководства, или включают
соответствующую информацию в справочники
для пользователей, которые рекомендуются
для консультации. В других случаях
в руководстве дается только
существенная информация и ссылка
на другие полезные источники.
Публикации других лиц, не
связанных с автором теста, часто
выполняют многие функции руководства
к тесту. Если подобная публикация о
тесте предназначена в качестве
руководства, ее автор и издатели
отвечают за тест в той же степени, как
и авторы теста.
А.1.2.1.
Когда информация представлена
автором или издателем в отдельной
публикации, эта публикация должна
соответствовать тем же требованиям,
что и руководство, и не содержать
моментов, ведущих к ошибкам, так же,
как это требуется от руководства.
(Существенно.)
А.1.2.2.
Дополнительный материал к тесту должен
быть точным и полным и не должен давать
повода для ошибочного понимания.
(Существенно.)
Комментарий.
В случае, когда публикатор приводит
обширную и исчерпывающую библиографию
исследований, касающихся теста,
желательно снабдить ее комментариями
аннотациями.
А.1.2.3.
Информационный материал, предназначенный
для пользователя, не являющегося
специалистом в данной области, должен
быть точным, полностью соответствовать
целям его обращения к данному материалу
и написан языком, не допускающим
ошибочного понимания у читателя.
(Существенно.)
Комментарий.
Такая информация часто дается в виде
краткой памятки. При подготовке такого
краткого сообщения может учитываться
психологическая подготовленность
читателя, но это не позволяет
пропускать или искажать существенную
информацию. Если можно надеяться,
что читатель постоянно имеет дело с
такими сообщениями, необходимо приложить
усилия к повышению его способности
понимать детали.
А.2. Тест
и руководство к нему должны периодически
пересматриваться. Время пересмотра
зависит от изменения условий применения
или от исследовательских данных,
ввиду которых некоторые утверждения
в руководстве к тесту оказываются
неправильными или ведущими к ошибкам.
(Очень желательно.)
Комментарий.
Технические характеристики и
полезность теста изменяются с
изменением социальных условий и
установок, определенных видов труда,
условий и содержания обучения и
состава соответствующей популяции.
А.2.1.
Перепроверки теста, проведенные
после его публикации, вне зависимости
от благоприятности или неблагоприятности
для теста, должны быть учтены в
пересмотренных изданиях руководства
или в дополняющих сообщениях. В
руководство должны также включаться
данные не только авторов и публикаторов,
но и других исследователей. (Очень
желательно.)
А.2.2.
Когда тест пересмотрен или издана
его новая форма, руководство к нему
должно быть соответственно пересмотрено
с учетом изменений теста. Кроме того,
должны быть ясно указаны природа и
степень пересмотра, сравнимость
данных, полученных по старому и по
пересмотренному тестам. (Существенно.)
Комментарий.
Целесообразно, чтобы издатели указывали
на пересмотры руководств к тесту в
каталогах и принимали другие меры
для увеличения вероятности того,
что пользователь теста получит
текущую информацию.
А.2.2.1.
Когда на основе хорошо проверенного
теста разработана укороченная форма,
в руководстве должны быть представлены
данные о том, что задания в укороченной
форме адекватны заданиям в полной форме
или что укороченная форма измеряет
те же самые характеристики, что и полная
форма. (Очень
желательно.)
Комментарий.
Если короткая форма теста не была
разработана, но есть основание полагать,
что обычно тест используется в
укороченной форме, в руководстве
должно быть напоминание для читателя,
что данные, отраженные в руководстве,
не могут быть приложим к результатам
использования укороченной формы.
А.2.2.2.
Если укороченная форма разработана
путем сокращения числа заданий или
преобразованием части теста в отдельную
форму, то укороченный тест должен
пройти психометрическую проверку и ее
данные должны быть приведены в
руководстве. (Существенно.)
Комментарий.
В руководстве к тесту, имеющему две
альтернативные формы, необходимо
представить независимые данные для
каждой формы.
А.2.3.
При переводе теста с другого языка и
их адаптации в руководстве еле дует
указать все внесенные в тест изменения
и данные новой психометрической
проверки. (Существенно.)
А.3.
Наименования для публикуемых тестов
и для отдельных частей тестов должны
выбираться так, чтобы обеспечить
минимальный риск ошибок интерпретации
пользователями. (Существенно.)
Комментарий.
Желательно, чтобы наименования не
содержали многозначных терминов в
качестве измерительных характеристик.
Такие наименования как «свободный от
влияния культуры» «интеллект»,
«креативность», «интроверсия», «первичные
умственные способности», «показатель
продуктивности», сомнительны для
опубликованных тестов, не содержащих
необходимых свидетельств их продуктивной
валидности, так как могут предполагать
интерпретации, не вытекающие из
демонстрируемого смысла тестовых
оценок.
А.3.1.
Средства идентификации интересов
и свойств личности путем самоотчета
следует называть не «тесты», а
«опросники», «вопросники», «оценочные
листы», «оценочные шкалы». (Очень
желательно.)
Комментарий.
Когда о таких инструментах говорится
в руководстве, слово «тест» может
использоваться для упрощения языка
даже в том случае, если оно отсутствует
в наименовании.
А.4. Если
тест предназначен только для
исследовательского пользования и не
может быть распространен для широкого
применения, это должно быть ясно
выражено в сопровождающих материалах.
(Существенно.)
Комментарий.
Если психолог, разрабатывающий новый
диагностический тест, например, для
изучения личности, передает свой
инструмент для исследований другим
научным работникам до того, как сочтет
тест готовым для операционного
пользования, на обложке руководства,
а также в каталоге, где он зарегистрирован,
следует печатать «Распространение
только для исследовательского
пользования». Это служит предупреждением
против поспешного использования
инструмента.
А.5. В
руководстве должна быть указана
квалификация пользователя. (Существенно.)
Комментарий.
Обычно на обложке руководства
ставится обозначение, соответствующее
уровню квалификации пользователя: (А)
— тестом может пользоваться любой
человек; (Б) — пользователь должен
пройти полный курс обучения психодиагностике
и иметь законченное высшее гуманитарное
образование; (В) — пользователь
должен иметь опыт в тестировании,
подтвержденный соответствующими
документами, и иметь как минимум
законченное высшее психологическое
образование или быть членом психологической
ассоциации. При покупке тестов группы
(В) обязательно предоставление
квалификационного документа.
Б. Сведения о процедуре разработки
теста.
Ответственность за заключение
о смысле и ограничениях в использовании
тестовых результатов ложится в первую
очередь на пользователя. Однако в этом
случае он частично зависит от доступной
информации о тесте, приводимой его
составителем.
Руководство к тесту не
может полностью подготовить
пользователя к интерпретации данного
теста. Ему приходится делать выводы,
не подтвержденные опубликованными
свидетельствами. Так, профориентатор
не может надеяться на наличие данных
о валидности теста для каждого вида
труда, относительно которых он на основе
тестовых оценок делает наиболее
надежные предсказания. Специалист по
профконсультации или трудоустройству
может иметь дело с испытуемыми, которые
не могут быть отнесены ни к одной из
групп, для которых имеются нормативные
или валидационные данные. Учитель может
оценивать содержание теста достижений
соответственно принятым целям и
особенностям обучения, клиницист
должен соотнести общие данные теории
с собственной интерпретацией данных
по опроснику личности. Степень, с
которой руководство подготовит
пользователя к точной интерпретации
и эффективному использованию теста,
зависит от типа теста и способов его
применения. На составителя теста
возлагается ответственность за
представление информации, необходимой
для правильных суждений. Он должен
приложить все возможные усилия, чтобы
тест не был неправильно употреблен или
неправильно интерпретирован.
Б.1. В
руководстве к тесту должна быть полностью
описана процедура создания теста:
его концептуальная основа, детали
разработки заданий теста и их отбора,
психометрическая проверка надежности
и валидности и другие исследования.
(Существенно.)
Б.2. В
руководстве к тесту должны быть ясно
отражены теоретические положения,
на которых основан тест, и подробно
раскрыта природа характеристик, для
измерения которых тест предназначен.
(Существенно.)
Комментарий.
Ясное описание диагностируемых
переменных, а также характер измерения
позволяют пользователю судить,
насколько тест соответствует его
собственному пониманию, а также насколько
статистические данные характеризуют
его действенность.
Б.2.1.
Диагностический конструкт (концепт)
должен быть сформулирован в теоретических
понятиях и соотнесен на теоретическом
уровне с системой релевантных
конструктов (теоретическое определение).
(Существенно.)
Б.2.2.
Особое внимание должно быть обращено
на операциональное определение
диагностического конструкта.
Операциональное определение — это
определение конструкта в эмпирических
категориях, отражающих ситуацию, в
которых он актуализируется, а также
реакции (поведение, переживания,
представления), в которых данный
конструкт проявляется. (Существенно.)
Комментарий.
Пользователь теста нуждается в
информации, которая позволила бы
ему сравнивать собственную концепцию
конструкта с концепцией автора
теста.
Б.3.
Руководство теста должно указать
диагностические цели и сферы приложения,
для которых тест рекомендован.
(Существенно.)
Комментарий. Ясное указание
целей теста содействует предупреждению
ошибочного истолкования тестовых
оценок. Надо обратить внимание
пользователя на содержание в
руководстве доказательства
предложений, принятых автором.
Например, если тест достижений
рекомендован как тест обследования
знаний учащихся, важно точное описание
его содержания. Если, с другой стороны,
он рекомендован как диагностический
тест или тест для выбора вида деятельности,
требуются данные об его связи с одним
или несколькими критериями.
Б.3.1.
Должна быть четко выделена область
применения, под которой подразумевается
особая социальная среда или сфера
общественной практики (производство,
медицина, семейная жизнь и т. п.),
контингент испытуемых (пол, возраст,
образование, профессиональный опыт,
на производстве, в обществе). (Существенно.)
Б.3.2. В
руководстве должны быть конкретизированы
цели использования результатов: для
прогноза успешности профессиональной
деятельности, психологического
вмешательства, принятия правовых,
судебно-административных решений,
прогноза стабильности коллектива
и т. п. (Очень желательно.)
Б.4.
Руководство к тесту должно отразить
репрезентативность выборки заданий,
процедуру их отбора и психометрические
характеристики заданий. (Существенно.)
Комментарий.
Для тестов, представляющих собой
гомогенную, дискриминативную шкалу
или набор таких шкал, процедура отбора
заданий проводится следующим образом:
каждое задание проходит проверку
на трудность и дискриминативность, на
соответствие заданий нормальному
распределению и их степень отношения
к одному фактору. Выборка для анализа
должна отражать популяцию и в общем
случае для проверки одной формы теста
состоять как минимум из 100 человек.
Б.4.1.
Данные, собранные в ходе разработки
теста (до получения конечной формы),
должны быть отделены от данных,
относящихся к тесту в его конечной
форме. (Существенно.)
Б.5. В
случае если тест не разрабатывается
вновь, а переводится с другого языка,
он должен пройти полную психометрическую
проверку, так же как вновь разрабатываемый
тест. (Существенно.)
Б.5.1.
При переводе руководства к тесту
проверяется эквивалентность
диагностических конструктов и концептов,
лежащих в основе тестовых задач.
(Существенно.)
Стандартные требования
к надежности и валидности. Составитель
теста должен привести в руководстве
сведения о надежности и валидности
теста. Многие пользователи тестов также
выполняют подобные исследования,
опираясь на собственное применение
тестов. Их научные сообщения часто
отличаются от приведенных в руководстве
к тесту как более детальные и более
специфические, описывающие более
узкие сферы использования теста.
Несмотря на эти различия, в обоих случаях
стандартные требования для исследований
и сообщений по ним должны быть в общем
сходными.
В. Надежность и ошибка измерения.
Надежность — характеристика
методики, отражающая точность
психодиагностических измерений, а
также устойчивость результатов
теста к действию посторонних случайных
факторов.
В основе анализа надежности
теста лежит представление об истинных
оценках и ошибках измерения. Распределение
оценок, полученных на генеральной
совокупности при выполнении теста,
измеряющего одну характеристику,
теоретически должно подчиняться
нормальному закону. Поэтому при
разработке теста исследователю
необходимо отбирать задания таким
образом, чтобы распределение реальных
тестовых оценок было по возможности
близко к нормальному.
Для определения ошибки
измерения используются на практике
корреляционные методы, позволяющие
определить надежность через устойчивость
и согласованность результатов.
Классические методы оценки коэффициентов
надежности требуют корреляции по
меньшей мере двух совокупностей сходных
измерений.
Один из методов получения
двух совокупностей измерений — это
ретестирование (повторное обследование
одной и той же выборки испытуемых).
Несмотря на простоту и возможность
определения устойчивости результатов
теста в течение времени, дефект метода
в том, что субъект помнит свои ответы,
и в случае тестов способностей это
может существенно влиять на повторные
ответы.
Если мы желаем исключить
влияние запоминания на результаты
ответов как систематический источник
ошибки и учесть влияние временного
интервала на ответы, то можем использовать
две совокупности заданий, разработанных
или отобранных по одной системе. Это
— параллельные тесты. Недостатком
в данном случае является то, что
очень трудно построить на практике
параллельные формы одного и того же
теста.
Если желательно изучить
только влияние содержания выборки
без влияния запоминания или вариативности
ответов во времени или если практически
нецелесообразно проводить две
параллельные формы в разное время,
надежность может быть оценена проведением
одного теста без ограничения во времени.
В данном случае тест может быть разделен
на две равные части. Полученные показатели
по двум частям теста коррелируются
обычным методом. Но эта корреляция
отражает лишь надежность половины
теста. Для вычисления надежности всего
теста по методу расщепления используют
формулу Спирмена-Брауна.
Оценка надежности на основе однократного
тестирования может быть получена
путем использования формулы, известной
как коэффициент альфа.
Рекомендуется также оценить
надежность теста относительно
экспериментатора как оценщика и как
экспериментатора.
Из предыдущего видно, что
различные методы оценивания надежности
исходят из различных источников ошибок.
Так, на результаты ретестирования
влияет не только случайная вариативность
ответов или изменение субъектов во
времени, но также различия в поведении
(особенно если ретестирует другое
лицо). Коэффициенты надежности,
основанные на однократном тестировании,
исключают вариативность ответов во
времени, т. е. влияние ответов на баллы
не проявляется как ошибка измерения.
Следовательно, «коэффициент
надежности» — обобщенный термин.
Он может основываться на разных типах
свидетельств — каждый тип предполагает
иной смысл. Очень важно, чтобы метод,
использованный для получения коэффициента
надежности, был четко описан.
Автору теста рекомендуется
в руководстве описать значение
любого коэффициента насколько
возможно точно. Например, высказывание:
«Этот коэффициент показывает стабильность
измерения эквивалентных баллов,
основанных на параллельных формах
тестов, проведенных с промежутком в 7
дней, при этом научение испытуемых
исключается» хотя и длинное, но
свободно от двусмысленности.
Коэффициенты надежности
имеют ограниченную практическую
ценность для пользователей теста.
Стандартная ошибка измерения обычно
более полезна, т. к. обладает относительной
независимостью и может быть использована
для установления пределов определенной
вероятности балла. Пользователи
теста могут употребить коэффициент
надежности для сравнения тестов, но
для интерпретации тестовых баллов
используется стандартная ошибка
измерения.
В.1. В
руководстве к тесту должны быть
достаточно подробно описаны процедуры
и выборки, использованные для определения
коэффициентов надежности, сами
коэффициенты и ошибки измерения, что
позволит пользователю судить о том, в
какой степени эти параметры приложимы
к лицам или группам, с которыми он имеет
дело. Если некоторые из необходимых
данных не были получены, то отсутствие
такой информации должно быть отмечено.
(Существенно.)
Комментарий.
Для пользователя важно получить
несколько типов оценки надежности.
Полезным является сообщение
стандартных ошибок измерения, полученных
в разных группах. Следует привести
среднее значение и дисперсию выборки
и информацию о ее составе. Надежность
теста, предназначенного для отбора
работников, проверяется при тестировании
кандидатов на должность, а не школьников
или уже работающих. Если указывается,
что тест пригоден для различных
возрастных групп, следует привести
данные о надежности для каждого класса
или возраста. Авторы и публикаторы
тестов должны избегать необщепринятых
статистических процедур, если применимы
традиционные. Если представлен
необщепринятый статистический анализ,
он должен быть объяснен так, чтобы
свести к минимуму вероятность
ошибочной интерпретации.
В.1.1. В
руководстве к тесту следует представить,
насколько это возможно, количественный
анализ всех факторов, снижающих
надежность измерения: несогласованность
ответов субъекта; несогласованность
или неоднородность внутри выборки
содержания теста (стимульные задания,
вопросы, ситуации и др.); несогласованность
в проведении теста; несогласованность
между оценщиками, экспертами или
единицами математического аппарата;
механические ошибки при выставлении
баллов. (Желательно.)
Комментарий.
Подобный анализ может быть неосуществим,
если результаты теста выражены не в
количественной форме, а в категориальной
или непараметрической.
Для группы тестов школьных
достижений основными источниками
ошибок, подлежащих оценке, являются:
а) несогласованность в содержании
теста; б) несогласованность в
проведении теста; в) нестабильность
ответов испытуемых. Сбор данных
производится для оценки этих трех
факторов. Колебания или несогласованность
ответов субъекта сами по себе могут
быть важной переменной. Они часто
бывают главными источниками подлежащей
оцениванию случайной ошибки. Также
должна быть оценена несогласованность
между оценщиками.
В.1.2.
Стандартные ошибки измерений и
коэффициенты надежности должны
приводиться как для итогового балла,
так и для его частей, комбинаций баллов
(сумм, разниц, производных показателей),
если они рекомендованы в руководстве
к тесту (явно или неявно) для практического
использования, за исключением опытных
и экспериментальных. (Существенно.)
В.1.3. В
руководстве должно быть указано
минимальное различие между двумя
баллами, обычно требуемое для
статистической значимости на
определенном уровне. (Очень
желательно.)
В.1.4. В
руководстве должны быть описаны все
характеристики выборки, которые
могут оказывать влияние на надежность
оценивания. (Существенно.)
Комментарий.
В руководстве следует отразить такую
демографическую информацию, как
распределение субъектов по возрасту,
полу, экономическому и интеллектуальному
уровню, трудовому статусу или прошлой
трудовой деятельности, месту
жительства. Для стандартизированных
тестов при вычислении коэффициентов
надежности выборку следует формировать
случайным образом из генеральной
совокупности.
В.1.5.
Если тест рекомендован или обычно
используется в однородных подгруппах,
для каждой из них независимо должна
быть исследована надежность и ошибка
измерений, и это должно быть сообщено
в руководстве к тесту. (Существенно.)
В.1.6. В
руководстве к тесту должна быть сообщена
стандартная ошибка измерения для
разных уровней баллов. (Желательно.)
Комментарий.
В руководстве к одному тесту способностей
сообщаются стандартные ошибки для трех
уровней баллов: на уровне среднего
балла, на уровне одного стандартного
отклонения выше среднего и на уровне
одного стандартного отклонения ниже
среднего. Так как наиболее существенные
вариации ошибок измерения связаны
с крайними баллами, лучше опираться,
если позволяет количество доступных
случаев, на более широкий диапазон
уровней баллов.
В.1.7.
Неизвестные статистические характеристики
данных должны быть описаны со ссылками
на литературные источники, отражающие
разработку. (Существенно.)
Внутренняя согласованность.
В.2. В
руководстве должны быть представлены
данные о внутренней согласованности
(гомогенности, консистентности тест).
(Очень желательно.)
Комментарий.
Внутренняя согласованность важна,
если задания рассматриваются как
выборка из относительно однородного
общего множества (например, тест сложения
целых чисел, словарный тест для средней
школы, тест, предположительно измеряющий
интроверсию и т. п.). Меры внутренней
согласованности не заменяют иных
мер.
В.2.1.
Оценки внутренней согласованности
определяются соответствующими методами
расщепления пополам, при помощи
коэффициента альфа или других процедур,
которые должны быть адекватны
анализируемым данным. Любая другая
мера внутренней согласованности,
которую автор дополнительно сообщает,
в руководстве к тесту должна быть
подробно объяснена. (Очень
желательно.)
Комментарий.
Коэффициенты парного расщепления
отражают суждения экспертов и обнаруживают
тенденцию быть выше, чем коэффициенты
случайного расщепления. Дисперсионный
анализ обычно дает более низкие оценки
по сравнению с приемами парного
расщепления. Могут быть полезными
специальные коэффициенты: они должны
быть описаны так, чтобы читатель мог
понять их соотношение с общепризнанными
оценками.
В.2.2.
Оценки внутренней согласованности не
следует вычислять для скоростных
тестов. (Существенно.)
В.2.3. Если
тест состоит из отдельно оцениваемых
частей или разделов, в руководстве к
тесту следует сообщить корреляцию
между частями или разделами вместе с
соответствующими оценками надежности,
а также с соответствующими средними и
стандартными отклонениями. (Очень
желательно.)
В.2.3.1.
Если в руководстве сообщается
корреляция между баллом по отдельному
субтесту и общим тестовым баллом,
необходимо подчеркнуть, что коэффициент
неоправданно высок, так как он основан
на совпадении ошибок измерения субтестом
и общим тестовым баллом. (Существенно.)
В.2.4.
Если несколько вопросов внутри теста
экспериментально связаны так, что ответ
на один вопрос влияет на другой вопрос,
предпочтительно относить целую группу
вопросов к одной из двух половин теста,
когда применяются методы случайного
или парного распределения пополам. Тот
факт, что число заданий в этих половинах
не равно, не вызывает затруднений при
соответствующей процедуре анализа.
(Очень желательно.)
Ретестирование.
В.3. В
руководстве к тесту должны быть
представлены результаты ретестиро-вания,
т. е. пользователь должен знать, насколько
оценки стабильны. (Существенно.)
Комментарий.
Ретестовая надежность показывает,
в какой степени результаты теста
можно распространить на различные
случаи его применения. Приводя в
руководстве ретестовую надежность,
всегда необходимо указывать, в каком
интервале времени она измерялась и
какие влияния на испытуемых имели место
в этот период. На практике ретестовая
надежность в ряде случаев бывает
важнее, чем надежность по однородности.
Если нет ретестовой надежности, тест
не может быть валидным. Исключение
составляют тесты, для которых
ретестирование не применяется (тесты
оценки состояний, эмоций).
Считается обоснованным
требовать оценивания стабильности для
проективных техник и других средств
оценки личности, даже если в некоторых
случаях известно, что низкая стабильность
ретестирования за существенный период
отражает только истинное изменение
свойства. Клиническая практика редко
допускает, что выводы из проективных
тестов приложимы к дню исследования.
Реально считается, что на основе
тестовых данных принимаются прагматические
решения, имеющие смысл в течение как
минимум нескольких дней, а обычно —
недель или месяцев терапии. Если
обнаруживается, что результаты некоторого
теста очень нестабильны при интервале
в несколько дней, это свидетельство
вызывает сомнения в пригодности теста
для большинства целей, даже если эта
изменчивость может быть объяснена
гипотезой об изменчивости свойства.
Исследователь может столкнуться с
психологической характеристикой
или результатом обучения, который за
короткое время изменяется. В этом случае
важно не смешивать неустойчивость
свойства с нестабильностью измерения.
В.3.1.
При определении стабильности баллов
повторным тестированием целесообразно
использовать параллельные формы теста,
чтобы свести к минимуму припоминание
отдельных ответов, особенно при небольшом
интервале между тестированиями. (Очень
желательно.)
В.3.2.
При описании исследования согласованности
баллов во времени в руководстве к тесту
необходимо указать, какой промежуток
времени прошел между тестированиями,
и привести средние стандартные отклонения
баллов для каждого тестирования, а
также коэффициент корреляции.
(Существенно.)
В.3.3. Если
есть основание ожидать, что тестовые
баллы за некоторый период существенно
изменяются в соответствии с образовательными
или развивающими воздействиями, в
руководстве следует предупредить
пользователей об этой возможности.
(Очень желательно.)
В.3.4.
При сообщении о стабильности тестовых
баллов в руководстве к тесту необходимо
описать накопление соответствующего
опыта, обучение или лечение испытуемого
за период между тестированиями.
(Существенно.)
Сравнимость форм.
В.4. Если
опубликованы две формы теста,
предназначенные для возможного
применения к тем же испытуемым, в
руководстве к тесту должны быть
сообщены средние и дисперсии двух форм
вместе с коэффициентами корреляции
двух совокупностей баллов. Если в
руководстве не представлены необходимые
данные, пользователь должен быть об
этом предупрежден. (Существенно.)
Комментарий.
Для каждой формы следует представить
обзор таких характеристик заданий,
как частотные распределения
показателей трудности и дискриминативности
заданий. Следует представить также
содержательный анализ каждой формы.
Следовательно, необходимо отразить
как частотные распределения статистических
характеристик заданий, так и таблицы
заданий по группам их содержания,
характеристик поведения и учебных
целей.
Формы должны включать
различные выборки заданий из каждой
категории содержания. Искусственно
близкое сходство между формами может
быть вызвано совпадением заданий
или разработкой второй формы простой
перефразировкой заданий первой формы.
Коэффициент надежности будет
чрезмерно высоким, т. к. не учитывается
ошибка выборки из общего множества
заданий.
Г. Валидность (обоснованность) теста.
Вопросы валидности — это
вопросы о том, какие и насколько
обоснованные выводы могут быть сделаны
на основе тестовых оценок. Вопросы,
относящиеся к валидности, могут быть
сведены к двум: 1) какие выводы можно
сделать о том, что измерялось тестом;
2) какие выводы могут быть сделаны о
реальном поведении человека,
отличающемся от наблюдаемого при
тестировании.
1-й вопрос выясняет внутреннюю
природу самого измерения. Тест, как
измерительный инструмент, является
операционализацией психического
свойства или специфической области
умения или знания. В этом плане
существенной проблемой является
получение заключений о полноте отражения
тестовыми баллами этой области, и в
этом смысле следует говорить о
внутренней (конструктной) валидности.
2-м вопросом выясняется
полезность тестового измерения в
качестве предсказателя поведения.
В этом плане существенной проблемой
является получение заключения о том,
насколько тестовые баллы связаны с
некоторой другой деятельностью, и
в этом смысле следует говорить о
внешней (критериальной) валидности.
Важно отметить, что валидность
не измеряется, о ней только судят. В
руководстве могут быть приведены
коэффициенты валидности, но о
валидности теста для конкретного его
использования судят по набору
коэффициентов. Следовательно, валидность
есть нечто такое, о чем судят как об
удовлетворительном или неудовлетворительном
для вынесения соответствующего
суждения.
Виды валидности зависят
от видов заключений, которые желательно
извлечь из тестовых оценок. Традиционно
описывают три взаимозависимых типа
интерпретации заключений, обобщающих
подавляющее большинство возможностей
применения тестов: валидность по
критерию, содержательная и конструктная.
Валидность по критерию может быть
предсказательной и конкурентной.
Эти аспекты могут
рассматриваться независимо друг от
друга, однако независимость эта
условна. Они связаны операционально и
логически, в конкретной ситуации
редко бывает, чтобы лишь один из них
был важен. Полное исследование теста
часто включает информацию обо всех
видах валидности.
Валидность по критерию
и ее виды. Данная
форма валидности используется, когда
хотят сделать вывод о связи тестовой
оценки индивида с независимыми от
теста внешними параметрами, называемыми
критерием. Предсказательная валидность
отражает степень, с которой будущий
уровень по критерию может быть предсказан
предшествующей деятельностью по
тесту. Конкурентная валидность отражает
степень, с которой тест может быть
использован для оценки у индивида
актуального уровня по критерию. Это
различие важно. Предсказательная
валидность включает отрезок времени,
в течение которого может нечто
случиться (например, люди обучаются,
приобретают опыт, подвергаются лечению).
Конкурентная валидность отражает
только статус индивида в фиксированное
время. При соответствующих условиях
данные о конкурентной валидности
могут быть использованы для оценки
предсказательной валидности теста.
Однако конкурентная валидность не
может использоваться взамен
предсказательной без соответствующего
логического обоснования. Для многих
применений тестов (решение по отбору,
назначению лечения и др.) предсказательная
валидность дает возможность определить
целесообразность использования теста
или батареи тестов в каждом отдельном
случае. Другие формы валидности не
заменяют валидность по критерию. В
руководствах к тестам, разработанным
в предсказательных целях, а также
предназначенным для диагноза, должны
быть отражены исследования валидности
по критерию. В противоположном случае
такие тесты могут рассматриваться
только как исследовательские версии.
О сомнительности отдельного
вычислительного коэффициента
валидности говорят многие факторы.
Условия исследования валидности
никогда точно не повторяются. Быстрое
изменение условий может ограничить
точность и полезность предсказательного
исследования. Логика предсказательной
валидизации предполагает, что
условия, существующие в начале
испытаний, будут существовать и после
завершения исследования.
Логика валидности по
критерию предполагает валидность
самого критерия. Очень часто тесты
валидизируются относительно
доступного критерия вне соответствующего
исследования самого критерия.
Ценность исследования валидности по
критерию зависит от пригодности и
качества измерения по данному
критерию. В прикладных исследованиях
критерий должен выбираться в
соответствии с изучаемой проблемой,
а тест или другое средство оценивания
должны выбираться относительно
данного критерия. Если исследование
предназначено в первую очередь для
улучшения представлений о том, что
измеряется тестом, критерии должны
избираться на основе заключений о
природе конструкта, отражаемого
тестовыми оценками. В любом случае
адекватность исследования зависит
от адекватности критерия.
Логика валидности по
критерию предполагает, что выборка
полностью репрезентативна для
популяции, для которой позднее будут
делаться заключения. На практике выборки
часто не являются репрезентативными,
например, из-за ограниченного объема,
предвзятого отбора или утомления
испытуемых до завершения валидизационного
исследования.
Во многих практических
ситуациях валидизационные исследования
не могут охватить адекватного числа
случаев, и исследователи вынуждены
публиковать лучшее из того, что они
могут при имеющихся данных. Видимо,
лучше попытаться исследовать
валидность по критерию хотя бы каким-то
образом, чем принять совершенно
непроверенную гипотезу — результаты
неадекватного исследования могут
ввести в заблуждение. Особенно
сомнительны результаты валидизационных
исследований при резко ограниченном
ранге или малом количестве испытуемых.
Содержательная валидность.
Свидетельства о
ней требуются, когда пользователь
теста желает оценить, как индивид будет
действовать в ситуации, которую по
предположению будет представлять тест.
Содержательной валидностью обычно
характеризуются тесты умений и
знаний, опросники личности,
поведенческие опросники или средства
измерений различных способностей.
Данное обсуждение относится к
наиболее типичному случаю — тестам
достижения.
Чтобы выразить содержательную
валидность совокупности тестовых
баллов, необходимо показать, что
поведение испытуемых при тестировании
является репрезентативной выборкой
многих видов поведения в желаемой
области деятельности. Любое исследование
содержательной валидности требует,
чтобы составитель или пользователь
теста определил свои цели и исчерпывающе
определил область деятельности в
свете этих целей. Определение обычно
относится к результатам учения, а
не к процессу, в ходе которого достигается
или обнаруживается научение. Оно должно
быть достаточно детальным и четким,
чтобы отразить степень, с которой
компоненты деятельности образуют
целостную область.
Конструктная валидность.
Психологический
конструкт является теоретической
идеей, разработанной для объяснения
и организации некоторых аспектов
существующего знания. Такие термины,
как «тревожность», «способность к
канцелярскому труду» или
«подготовленность по чтению», отражают
конструкт, но конструкт может
обозначать больше, чем его название.
Иногда необходимо постулировать
несколько различных конструктов, чтобы
объяснить дисперсию данной совокупности
тестовых баллов. Более того, могут
потребоваться различные конструкты
для объяснения дисперсии различных
тестов того же типа, или отдельный тест
может отразить данные о нескольких
конструктах. Конструктная валидность
имеет место при оценивании теста
или другой совокупности операций в
свете рассматриваемого конструкта.
Суждения по конструктной валидности
полезны, когда составитель или
пользователь теста желает знать об
измеренном психологическом свойстве
больше, чем позволяет отдельный
коэффициент валидности по критерию,
и особенно когда необходимо
усовершенствовать измерение для
научного изучения конструкта.
Свидетельства о конструктной
валидности нельзя получить в одном
отдельном исследовании — суждения о
ней основаны на совокупности
исследовательских результатов. Вначале
исследователь формулирует гипотезы
о различии между лицами с высокими
и низкими результатами по тесту. Такие
гипотезы в совокупности образуют
предварительную теорию конструкта.
При полном изучении тест выступает
в качестве зависимой переменной в одних
исследованиях и в качестве независимой
— в других. Некоторые гипотезы могут
быть «контргипотезами» конкурирующих
теорий или интерпретаций.
Гипотезы и теоретические
формулировки ведут к некоторым
предсказаниям о том, как люди с различными
баллами по тесту будут выполнять тест
или проявлять себя в некоторых
определенных ситуациях. Если теория
исследователя верна, большинство
предсказаний должно подтвердиться.
Если этого не случится, исследователь
может пересмотреть определение
конструкта или перестроить тест так,
чтобы он стал лучшей мерой подразумеваемого
конструкта. Путем последовательной
верификации, модификации или отклонения
гипотез исследователь все глубже
проникает в сущность измеряемого
тестом свойства.
Доказательства конструктной
валидности можно получить в ходе
разработки самого теста. Хотя
доказательства конструктной
валидности могут быть получены на
основе серии исследований по внешним
критериям, важно отметить, что они
неадекватны доказательствам
пригодности конструкта для других
гипотез.
Составитель теста или любое
лицо, исследующее валидность, должны
представить по мере возможности
максимум информации о валидности, чтобы
пользователь мог оценить тест по
отношению к собственным целям. В
руководстве к тесту необходимо
отразить данные, позволяющие
пользователю оценить пригодность
содержания заданий, установить, является
ли тест приемлемой мерой рассматриваемого
конструкта, и решить, характеризуется
ли тест предсказательной валидностью
в других подобных ситуациях.
Г.1. В
руководстве должна быть указана
валидность теста для всех видов
заключений, для которых он рекомендуется.
Если его валидность для некоторой
предполагаемой интерпретации не
была изучена, этот факт должен быть
указан. (Существенно.)
Комментарий.
Исследование валидности является
частью разработки теста; пользователь
нуждается в том, чтобы составитель
сообщил об этом подробно в руководстве
к тесту. По меньшей мере, в руководстве
должны быть отражены исследования
самого составителя или других
исследователей, опубликованные в других
изданиях. Предпочтительно, чтобы в
руководстве были отражены отдельные
исследования и представлены обобщенные
данные о валидности для различных видов
интерпретаций или выводов.
Г.1.1.
Данные о валидности должны быть сделаны
на основании всех типов тестовой
валидности. (Существенно.)
Комментарий.
Неправильно использовать выражение
«валидность теста», не указывая вид
валидности. Не существует тестов,
валидных для всех целей или во всех
ситуациях, а также для всех групп
индивидов. Любое исследование валидности
относится к некоторым из возможных
применений или видов теста, получаемых
на основе баллов.
Если тест может быть неправильно
использован в некоторых областях
применения, в руководстве должны
быть специальные предостережения.
Г.1.2.
Если предполагается интерпретация
не только баллов субтеста, но и различных
индексов, в руководстве должны быть
помещены свидетельства, подтверждающие
правомерность такой интерпретации.
(Существенно.)
Г.1.2.1.
Разработчик должен предупредить
пользователя о невозможности
рассматривать ответы на отдельные
задания теста в качестве основы для
составления заключений об испытуемом.
Если подобная оценка заложена в
структуре теста, то в руководстве должно
быть приведено подробное обоснование
такого применения.
Г.1.3.
Чтобы обеспечить правильную интерпретацию
баллов в течение длительного времени,
валидность предполагаемых интерпретаций
должна периодически перепроверяться
и результаты сообщаться в последующем
руководстве. (Очень
желательно.)
Комментарий.
Требования к труду, условиям работы
и людям, работающим по данной
профессии, с течением времени часто
существенно изменяются. Подобным
образом изменяется смысл клинических
категорий, типы медикаментозного
лечения, цели и содержание обучения.
Следовательно, пользователь должен
быть в состоянии судить о том, устарел
тест или нет.
Г.1.3.1.
При изменении факторов, которые
могли повлиять на результаты выполнения
или на валидность предполагаемой
интерпретации теста, в случае если для
изменившихся условий не произведена
ревалидизация, тест должен быть исключен
из общего употребления и распространяться
среди лиц, которые будут производить
изучение его валидности. (Очень
желательно.)
Г.1.4.
Корреляции баллов заданий с общим
тестовым баллом могут рассматриваться
только как показатели дискриминативности
заданий, не могут рассматриваться
или использоваться в качестве
коэффициентов их валидности.
(Существенно.)
Комментарий.
Коэффициенты дискриминативности
заданий полезны при суждении о
конструктной валидности, и эту информацию
следует включать в руководство к
тесту. Однако такие коэффициенты
являются не показателями валидности
теста, а только мерой внутренней
согласованности.
Г.2.
Выборка, использованная в исследовании
валидности, и условия, при которых
проводилось тестирование, должны быть
подробно описаны, чтобы пользователь
мог судить, распространима ли сообщенная
валидность на его ситуацию. (Существенно.)
Г.2.1. В
руководстве к тесту следует указать
все параметры, определяющие состав
валидационной выборки. Выборка должна
быть описана по тем переменным, о которых
известно, что они влияют на валидность:
возраст, пол, социоэкономический статус,
национальное происхождение, также
другие демографические и психологические
характеристики. (Существенно.)
Комментарий.
Если валидационные исследования
используют пациентов в качестве
испытуемых, то важно указать диагнозы.
Если возможно, то необходимо показать
обоснованность диагностики (строгость
условий диагностики). Для тестов,
используемых в индустрии, должен быть
описан трудовой статус, профессиональный
опыт, пол и национальный состав выборки.
Для школьных тестов уместной является
информация о характеристиках популяции
или принципах отбора.
Г.2.2.
Доказательства валидности тестов
должны быть получены для субъектов,
которые по возрасту, образованию или
профессиональной подготовленности
соответствуют лицам, для которых
тест рекомендуется. В руководстве
должны быть отражены отклонения от
этого требования. (Существенно.)
Комментарий.
Информация о валидности тестов,
предназначенных для профориентации,
должна в общем определяться на субъектах,
тестированных незадолго до
образовательного или профессионального
выбора или сразу после него.
Вопросник интересов,
стандартизированный на мужчинах,
работающих по исследуемой профессии,
не обеспечивает использование вопросника
в профориентации учащихся средней
школы, поскольку полученные шкалы
не дифференцируют группы учащихся.
Лучшее доказательство было получено
после проверки вопросника на учащихся
с определением характера из последующей
работы и установлением связи между
данными вопросника и последующей
профессией.
Если вопросник интересов
использует критерий приобретения или
неприобретения некоторой профессии,
в выборке, использованной для его
валидизации, должны быть только лица
со способностями, соответствующими
данной группе профессий.
Г.2.3.
При описании выборки должны быть
приведены основные статистические
данные, включая число наблюдений (и
обоснование наблюдений), меры центральной
тенденции вариативности. Следует
также отразить особенности распределения,
возможно, с мерами асимметрии и эксцесса.
(Очень желательно.)
Комментарий.
Чем меньше объем валидационной выборки,
тем менее надежны статистические
данные. Когда число наблюдений очень
мало, нулевой коэффициент корреляции
может привести к ошибочному отклонению
валидного теста.
Г.2.4. Если
тестовые баллы в валидационной
выборке имеют распределение, существенно
отличающееся от распределения баллов
в группе, для которой он будет обычно
использоваться, то данные, основанные
на этих баллах, включая оценки
параметров популяции, следует
интерпретировать с большой
осторожностью. При сообщении оценок
параметра необходимо привести
исходные статистические данные, а также
характеристики распределения,
использованные при введении новой
оценки, и использованные статистические
процедуры. (Существенно.)
Комментарий.
Пользователю руководства следует
предоставить возможность оценить
любое искажение, возникающее
вследствие нетипичности характера
выборки. Предположения, обусловливающие
причины такого искажения, часто
игнорируются, вследствие этого
невозможно определить степень и
направление ошибок. Несмотря на эти
трудности, часто необходима оценка
подходящей статистики. Например,
коэффициент валидности должен
отразить предсказательную способность
в группе, к которой тест будет применяться.
Г.2.5.
Если тест способностей предназначен
для учебного или профессионального
отбора, его валидность должна
устанавливаться на субъектах,
заинтересованных в хорошем выполнении
заданий. Если же они являются добровольцами
или пришли к выводу, что результаты
выполнения теста не будут использованы
в принятии решений о них, этот факт
должен быть ясно указан (экологическая
валидность). (Очень
желательно.)
Комментарий.
В промышленном отборе для валидности
широко используется метод «наличных
кандидатов на работу». Обычно он
включает тестирование реальных
кандидатов, которым указывается,
что выполнение теста не влияет на их
прием на работу. Мотивационные различия
могут повлиять на характер выборки,
так как вводят в ситуацию тестирования
новую переменную.
Г.2.6.
Если валидационная выборка образована
на случайно полученных или произвольно
присланных пользователями результатах
тестирования, этот факт должен быть
отражен в руководстве к тесту. Пользователь
должен быть предупрежден, что группа
не является систематической или
случайной выборкой из определенной
популяции. Должны быть также указаны
возможные отборочные факторы и их
предполагаемое влияние на переменные
места. (Существенно.)
Комментарий.
Хотя вполне целесообразно включать
в руководство такие фразы, как «автор
и издатель теста будут приветствовать
дополнительные данные, полученные при
его использовании», крайне трудно
адекватно судить о качестве и
представительности большинства
сообщений о результатах валидизации,
основанной на подобных данных.
Г.2.7.
Пользователю теста должна быть известна
возможность смещения оценок в тестах
или тестовых заданиях. По возможности
следует изучить вероятные различия
валидности по критерию для частных
выборок, различающихся по полу,
этническому составу или другим признакам,
которые могут быть выявлены при
тестировании. В руководстве следует
сообщить результаты для каждой частной
выборки в отдельности или о том, что
различия не обнаружены. (Существенно.)
Комментарий.
Во многих случаях опубликованные
правила требуют, когда это возможно,
проводить определение валидности для
выборок, отличающихся по национальности,
полу и другим демографическим
показателям.
Возможны и другие источники
различий оценок теста в разных
валидационных выборках. Например,
расположение теста по изучению ловкости
рук на низком столе может вызвать
смещение результатов у высоких людей.
Необходимы и другие
предосторожности при оценке
возможности смещения. Простые различия
групповых средних сами по себе не
указывают на контаминацию теста.
Доказательство дифференциации
смещённости тестовых оценок основывается
на сравнении коэффициентов корреляции,
уравнений регрессий, средних значений
и дисперсий каждой переменной.
Пригодными статистическими
критериями таких различий являются
для любого параметра проверки гипотез
об отсутствии различий между группами,
например отсутствие различий между
коэффициентами корреляций, показателями
наклона или пересечения. Другими
способами — тем, что один коэффициент
корреляции значимо отличается от
нуля, а другой не отличается, невозможно
доказать предполагаемые различия.
Необходимо учесть, что
существуют различные определения
чистоты и от принятого определения
может зависеть, является ли данная
процедура чистой. Более того, имеются
статистические и психологические
неопределенности относительно некоторых
источников наблюдаемых различий в
валидности или регрессии. До тех пор
пока различия не наблюдаются в достаточно
больших выборках и пока отсутствует
достаточное теоретическое (психологическое
или социологическое) объяснение
наблюдаемых различий, любое различие
принимается осторожно. Смещение
обнаруживается не обязательно для
валидности по критерию.
Г.3.
Пользователь теста ответственен за
изучение данных, подтверждающих его
валидность и надежность. Применение
тестовых баллов при принятии решений
должно опираться на достаточные
доказательства. (Существенно.)
Комментарий.
Пользователь теста ответственен за
понимание и оценивание возможности
применения теста в своем исследовании.
В случае, если условия стандартизации
и проверки на валидность и надежность
теста отличаются от тех условий, в
которых работает пользователь, на
пользователя ложится обязанность
провести дополнительные исследования
валидности теста для собственного
исследования. Свидетельства о
валидности необходимы для любого
обоснованного принятия решений, а
не только тогда, когда их легко получить.
Г.3.1.
Пользователи теста ответственны за
сбор данных о валидности и надежности
используемых методик. (Очень
желательно.)
Г.3.2.
Если пользователь желает применить
тест в ситуации, для которой такое
применение ранее не проверено на
валидность или для которой не
существует подтвержденных доказательств
валидности, он несет полную
ответственность за валидизацию.
(Существенно.)
Комментарий.
Тот, кто публикует данные о валидности,
должен обеспечить ее доказательства.
Зачастую данные о валидности, достаточные
для применения тестов, имеются в
руководстве к тесту. Если пользователь
желает заявить, что валидность является
более общей, чем это отражено в
руководстве, он несет ответственность
за доказательность своего утверждения.
Если пользователь теста
существенно изменяет инструкцию, язык,
на котором тест написан, или содержание,
он должен провести повторную валидизацию
применения теста в измененных
условиях.
Валидность по критерию.
Г.4. Все
меры валидизации по критерию должны
быть описаны полно и точно. Критерии
должны быть оценены с точки зрения
их адекватности, надежности и
загрязненности (контаминированности),
что следует убедительно подтвердить.
Необходимо обратить внимание на значимые
аспекты деятельности, которые
критериальные меры не отражают, и на
посторонние факторы, которые могут
оказывать влияние на эти меры.
(Существенно.)
Комментарий.
Критерии являются формами оценивания
и должны соответствовать тем же
требованиям, что и разработка любой
оценочной техники. При диагностике в
области труда и образования критерием
может быть тест достижений или
перечень трудовых действий, достаточно
валидных по содержанию. Оценочные
суждения руководителей и педагогов
являются критерием более общим, но
и более сомнительным по конструктной
валидности. Выводы о конструктной
валидности оценочных суждений могут
быть основаны на высокой их корреляции
с результатами деятельности и максимально
не зависеть от трудового стажа. При
изучении интересов иногда не выясняется,
что показывает критерий: удовлетворенность,
успешность или длительность изучаемой
деятельности. Когда группы по критерию
включают лиц данной профессии и
когда эти группы сравниваются с людьми
вообще, в руководстве должно быть
подчеркнуто различие между работой по
профессии и успехом или удовлетворенностью
ею.
Г.4.1.
Особое внимание должно быть обращено
на потенциальные источники контаминации
критерия; необходимо сообщить о
результатах исследования контаминации.
(Существенно.)
Комментарий.
Результаты таких исследований могут
быть неоднозначны, и пользователя надо
об этом предупредить. Например, при
изучении влияния половых различий на
оценку по критерию может обнаруживаться
существенная разница между мужчинами
и женщинами. Однако этот факт сам по
себе не является достаточным
свидетельством контаминации критерия:
он может отразить фактические половые
различия деятельности.
Г.4.2.
Когда сообщается валидность теста для
предсказаний в сфере профессиональной
деятельности, в руководстве должны
быть описаны служебные обязанности
работников наряду с наименованием
выполняемых ими действий. (Очень
желательно.)
Комментарий.
Принцип заключается в том, что должна
даваться информация, на основе
которой пользователь мог бы судить о
состоятельности критерия. При
отсутствии такой информации описание
критерия часто является неполным.
Г.4.3.
При валидизации по критерию обычно
следует рассматривать не один, более
общий критерий, а несколько частных,
составляющих общий.
Комментарий.
В большинстве видов деятельности по
выполнению теста деятельность выражается
во многих параметрах, которые могут
быть независимы. При объединении
несвязанных аспектов поведения в единый
сложный критерий возможно игнорирование
важных зависимостей и тем самым
уменьшение способностей пользователей
идентифицировать и понимать валидные
интерпретации теста.
Отдельные решения часто
должны быть приняты на многомерной
основе. Тем не менее предпочтительнее
найти правило принятия решений для
объединенных предсказаний.
Г.4.4.
Если валидность теста оценивается
по его соответствию психиатрическим
суждениям, следует указать квалификацию,
опыт и профессиональный статус экспертов,
также природу и степень их контактов
с пациентами и другие потенциально
влияющие факторы. (Очень
желательно.)
Комментарий.
Например, «параноидная шизофрения,
хроническая» лучше, чем просто
«шизофрения». Так как типы пациентов,
подвергаемых специально диагностической
классификации, в некоторой степени
зависят от выбора психиатра, должно
быть предоставлено развернутое
описание каждой диагностической
категории, использованной в исследовании
валидности.
Г.4.6.
Коэффициенты валидности специфичны
для ситуаций, в которых они получены.
Если в руководстве дано сообщение
о валидности для предсказания данного
вида конструкта (критерия), необходимо
представить материалы, предполагающие
границы этого обобщения относительно
характеристик популяции или выборки,
ситуационных переменных или вариации
изменения по критерию. (Очень
желательно.)
Г.4.7.
Так как критерий является выборочным
из всевозможных критериев того же
конструкта, валидность должна быть по
возможности определена как соответствие
этой выборки другим похожим выборкам.
Если доказательства по этому вопросу
представлены быть не могут, автор
на основе суждения по косвенным
данным должен это указать и обсудить
вероятную степень соответствия выборки
другим выборкам. (Очень
желательно.)
Комментарий. Если валидность
измерена, например, по соответствию
теста суждениям психиатров, то должна
быть описана степень согласованности
между экспертами. Если в качестве
критерия использован опубликованный
тест достижений, то его соответствие
параллельным формам или надежность,
сообщенные автором теста, могут быть
использованы как основа для оценивания
критерия при учете влияния различия
между взятой выборкой лиц и исходной
выборкой.
Г.4.8. В
руководстве должны быть отражены
данные о степени полноты и обобщенности
информации о валидности. (Очень
желательно.)
Г.4.8.1.
В руководстве к тесту должны быть
сообщены данные о валидности теста
относительно каждого критерия, для
которого даются рекомендации. Если для
некоторой интерпретации валидность
не выявлялась, этот факт должен быть
ясно указан. (Существенно.)
Комментарий.
Если с данным наименованием профессии
соотнесен широкий круг обязанностей,
пользователей теста следует предупредить
о несостоятельности предположения,
что только одно сочетание интересов и
способностей соотносимо с данной
профессией.
Г.4.9.
Локальный сбор доказательств валидности
по критерию часто более полезен, чем
опубликованные данные. В таких
случаях в руководстве должен делаться
упор на локальные исследования
валидности, а пользователи теста должны
по возможности проводить такие
исследования. (Желательно.)
Г.5. В
валидизационном исследовании при сборе
данных необходимо использовать
процедуры, соответствующие целям
исследования. (Существенно.)
Г.5.1.
При сборе данных для валидизации
исследователь, интерпретирующий
результаты теста, должен располагать
только той информацией об испытуемых,
которая обычно будет доступна при
практическом использовании тестов.
Если существует некоторая возможная
контаминация, связанная с априорным
представлением об испытуемых, в
руководстве должно быть обсуждено
влияние этого фактора на результаты
исследования. (Существенно.)
Г.6.
Любой статистический анализ валидности
по критерию в руководстве должен
даваться в форме, по которой пользователь
мог бы определить, с какой степенью
доверительности можно принять утверждения
или предсказания относительно
индивида. (Существенно.)
Г.6.1. В
докладе о валидности по критерию
должна быть отражена полная информация
о выполненном статистическом анализе.
Следует включить, кроме основных
описательных статистик (средних и
стандартных отклонений), еще один или
несколько показателей: а) один или более
коэффициент корреляции известного
вида; б) описание эффективности, с
которой тест различает группы по
критерию; в) таблицы ожиданий; г) графики
зависимости между тестом и критерием.
(Существенно.)
Комментарий.
Полная информация включает данные
о надежности, тесноте и характере
зависимости. В корреляционное понятие
включается информация о статистической
значимости и величине коэффициента
корреляции, а также о регрессионном
уравнении.
Сообщение о различии между
средними групп само по себе не дает
адекватной информации о валидности:
если дисперсия большая, классификация
может быть неточной, даже если средние
различаются существенно. Теснота связи
может быть представлена описанием
количества ошибочной классификации
или совмещений групп. Таблицы ожиданий
могут дать информацию о характере
предсказания.
В общем, так как руководство
часто предназначено для пользователей,
имеющих слабую статистическую подготовку,
должны быть приняты все меры для
ясного сообщения валидности.
Г.6.1.1.
Коэффициент валидности должен быть
дополнен сообщением о параметрах
уравнения регрессий и стандартной
ошибкой оценки. (Очень
желательно.)
Комментарий.
Необходимая информация может быть
представлена в таблице ожиданий,
показывающей величину возможных оценок
по критерию для каждого балла (или
группы баллов) по тестам. Очень полезна
стандартная ошибка оценки для
различных точек шкалы предсказаний.
Г.6.2.
Если валидность теста выявляется
сравнением групп, различающихся по
критерию, то в руководстве к тесту
необходимо сообщить, различаются
ли группы, и насколько различаются, по
другим переменным. (Очень
желательно.)
Комментарий.
Так как группы, различающиеся по
критерию, могут также резко различаться
и в других отношениях, то тест может
различать качества, отличающиеся
от подразумеваемых. Например, типы
умственного расстройства связаны с
возрастом, образованием и длительностью
госпитализации. Это всегда должно быть
учтено при оценке полезности теста
для диагностики.
Г.6.2.1.
Если тест предназначен для дифференциального
анализа, то в руководстве должны
быть приведены доказательства
способности теста отнести индивидов
в диагностические группы, а не только
отделять диагностируемые группы от
популяции нормальных. (Существенно.)
Комментарий.
Когда тест рекомендован для отнесения
индивидов в дискретные категории,
то φ-коэффициенты или дискриминативные
функции должны быть дополнены таблицами
оценок ошибочных решений. Например,
для каждой категории должен быть
определен процент лиц, ошибочно
исключаемых из нее. Такие проценты
должны сравниваться с базовыми оценками,
т. е. с процентами правильной классификации,
установленными при максимальном
знании объема диагностируемых категорий.
Г.6.3.
Метод статистического анализа должен
выбираться с учетом характеристик
полученных данных и выдвинутых гипотез.
(Существенно.)
Комментарий.
Полученные данные могут очень
незначительно отличаться от
первоначально предполагаемых
характеристик. Однако даже небольшие
отклонения от выдвинутых гипотез
могут приводить к серьезным ошибкам.
Например, при использовании
предсказаний, основанных на
предположении о двумерном нормальном
распределении, возможна серьезная
переоценка средней деятельности
кандидатов с высокими баллами, если
данные заметно несимметричны.
В подобных случаях валидность более
точно определяется методом, не основанным
на предположении о двумерном
распределении.
Г.6.4.
Если коэффициенты корреляции
скорректированы с учетом ограниченности
в ранге или ослабления, то должна быть
представлена полная информация о таких
поправках. При этом проверка значимости
должна быть проведена для коэффициентов
корреляции без поправок. (Существенно.)
Комментарий.
Поправки должны вноситься только к
вычисленным коэффициентам. Обычно
не следует делать последовательных
поправок, например поправки на
ослабление к коэффициенту, уже
скорректированному с учетом ограничения
в ранге. Цепочки поправок могут быть
полезны при рассмотрении возможностей
дальнейших исследований, но эти
результаты не должны представляться
как оценки корреляций в популяции.
Г.6.5.
Если валидизации подвергается батарея
тестов, в руководстве необходимо
отразить валидность суммарной оценки,
а также следует вычислить «вес» каждого
теста в итоговой оценке. (Существенно.)
Г.6.6.
Если весовое объединение тестов в
батареи основано на регрессионных
коэффициентах, отрицательные веса
следует использовать только после
проверки на перекрестную валидность
в больших выборках и только в том случае,
когда их использование не скажется
отрицательно (и, следовательно, не будет
несправедливым) на одной или нескольких
подгруппах тестируемой популяции.
(Существенно.)
Г.6.7.
Если предположено, что решение должно
быть основано на сложном нелинейном
объединении баллов, необходимо
показать, что такое объединение имеет
большую валидность, чем простое линейное
объединение, что уравнения могут быть
логически объяснены и процедуры
объединения баллов подвергались
перекрестной валидизации. (Существенно.)
Г.6.8. По
мере возможности пользователю теста,
продолжительное время работающему
с ним, следует разработать процедуры
отбора данных для дальнейшего
исследования. (Желательно.)
Комментарий.
Данные о валидности могут устареть,
на зависимость между выполнением теста
и реальной деятельностью могут
повлиять многие факторы: изменение
характеристик популяции, источники
ее пополнения, экономические и
организационные характеристики.
Более того, исследования валидности
часто основаны на относительном малом
количестве случаев. План систематического
сбора данных уже после передачи теста
в пользование может быть полезным как
для разработки более надежной
статистической основы, так и для
информации об изменениях тенденций
зависимости с течением времени.
Продолжение исследования менее
необходимо, если исходные данные
получены в относительно большой выборке,
если хорошо определена основа обобщающей
валидности. В этом случае возможно
планировать время от времени небольшие
повторные исследования вместо
продолжительной исследовательской
программы.
Г.7. В
руководстве должна быть указана
разница во времени между проведением
теста и сбором данных по критерию. Если
данные по критерию собирались в течение
некоторого времени, должны указываться
даты начала и окончания. (Существенно.)
Комментарий.
Валидность может со временем
уменьшаться. В профо-риентационном
тестировании изменения содержания и
средств труда, уровня способностей
популяции ориентируемых могут
изменять показатели, для которых
получена информация о валидности.
Г.7.1.
Пользователя теста следует предупредить
о необоснованности составления
долговременных прогнозов. (Существенно.)
Комментарий.
Кратковременные прогнозы намного более
валидны, так как менее подвержены
влиянию разных факторов.
Г.7.2.
Если тест предназначен для долговременных,
отстоящих во времени прогнозов, но
представлены сравнения только по
конкурентному критерию, в руководстве
должно быть подчеркнуто, что валидность
долговременных предсказаний осталась
неопределенной. (Существенно.)
Г.7.3.
Если сообщается валидность теста
для предсказания оценки по учебному
предмету, то должна быть достаточно
ясная информация о видах деятельности,
необходимой при изучении данных
предметов, характере метода обучения
и способе измерения деятельности. Если
тест был проведен после начала изучения
предмета, этот факт должен быть
отмечен. (Очень
желательно.)
Содержательная валидность.
Г.8. Если
деятельность по выполнению теста
интерпретируется как репрезентативная
выборка из видов деятельности в общем
множестве ситуаций, в руководстве
необходимо дать четкое определение
учитываемого общего множества и описать
критерии отбора выборки из него.
(Существенно.)
Комментарий.
В определение не должны включаться
предположения о детерминирующих
деятельность психических процессах,
т. к. это объект не содержательной,
а конструктной валидности.
Г.8.1.
Если вопрос о соответствии выборки
заданий их общему множеству или о
точности выставления оценок решали
эксперты, в руководстве должен быть
описан соответствующий профессиональный
опыт и квалификация экспертов, а также
инструкции, на основании которых
проводилась экспертная оценка.
(Очень желательно.)
Г.8.1.1.
Если задания отобраны экспертами,
то должна быть обобщена степень
согласованности между их суждениями.
(Желательно.)
Г.8.1.2.
Содержание теста должно быть проверено
относительно возможности смещения.
(Желательно.)
Комментарий.
Смещение может иметь место, если задания
не представляют сравнимых видов
деятельности и поэтому не являются
выборкой из области деятельности, общей
для различных подгрупп. Такое смещение
следует выявлять с помощью достаточно
полных суждений экспертов. Изучение
установок или интерпретаций заданий
в различных подгруппах также дает
полезную информацию. Суждения о
смещении могут быть сами смещены —
следует придерживаться принципа, что
по возможности суждения должны
подтверждаться статистическими
данными.
Г.8.2. В
руководствах к тестам достижений
учебных результатов должна быть сообщена
система классификации, использованная
для отбора заданий. (Желательно.)
Г.8.2.1.
Если тест достижений был разработан в
соответствии с двумерной схемой
«темы—процессы», в руководстве должна
быть представлена эта схема с
перечислением заданий, относимых к
каждой клетке схемы. (Очень
желательно.)
Г.8.3.
Для любого утверждения о связи
заданий с изучаемым предметом (или
другими источниками содержания) в
руководстве должна быть указана
дата, когда изучаемый предмет был
разработан. (Существенно.)
Г.8.4.
Если тест описан как валидный по
содержанию труда или видов трудовой
деятельности, в свидетельствах о
валидности должно быть полное
описание трудовых обязанностей,
относительная частота, важность, а
также уровень умений, требующихся
при их выполнении. (Существенно.)
Конструктная валидность.
Г.9. Если
автор интерпретирует тест как меру
диагностируемого конструкта (способности,
черты установки), то должна быть
полностью изложена предполагаемая
интерпретация. Этот конструкт должен
быть полностью ограничен от интерпретаций,
вытекающих из других теорий.
(Существенно.)
Комментарий.
Например, если тест предназначен для
измерения конструкта «тревожность»,
автор теста должен отразить отличия
самого определения данного конструкта
от некоторого другого возможного
значения термина, которое подразумевается,
и должен соотнести свою концепцию с
мерами тревожности, рассмотренными в
литературе.
Описание конструкта может
быть простым, например определение
«креативности» как «совершения
многих оригинальных действий». Все
подобные характеристики или гипотезы
являются частью авторской концепции.
Г.9.1. В
руководстве должна быть отражена
степень случайности предложенной
интерпретации и обобщены исследования
гипотез, вытекающих из данной теории.
(Существенно.)
Г.9.1.1.
Каждое исследование, содержащее
теоретические выводы о тесте, должно
быть отражено так, чтобы были раскрыты
и операциональные процедуры исследования,
и соотнесение результатов с теорией.
(Очень желательно.)
Г.9.1.2.
В руководстве должны быть сообщены
корреляции между тестом и другими
тестами, для которых интерпретация
относительно ясна. (Очень
желательно.)
Г.9.2. В
руководстве необходимо привести
доказательства степени, с которой
другие конструкты, отличающиеся от
предполагаемого автором, объясняют
дисперсию баллов теста. (Очень
желательно.)
Комментарий.
Хотя неразумно требовать от автора
теста предвосхищения или включения
в руководство каждой противоположной
интерпретации, он все же должен
представить достаточные данные о
противоположных гипотезах, наиболее
вероятно объясняющих дисперсию тестовых
баллов.
Г.9.2.1.
В руководстве к любому специализированному
тесту или вопроснику, используемому в
образовательном отборе, профориентации,
необходимо приводить корреляцию его
баллов с общепринятыми мерами вербальной
и вычислительной способности в
соответствующей популяции. (Очень
желательно.)
Г.9.2.2.
В руководстве должна быть представлена
информация о факторных исследованиях
(если тест подвергался им), показывающих
процент тестовой дисперсии, выявляемой
хорошо известными факторами. (Желательно.)
Г.9.2.3.
Для опросников, являющихся мерами
личности, интересов или установок,
должны быть представлены доказательства
степени, с которой оценки чувствительны
к попыткам испытуемых представить
социально желаемую (конформную)
картину своей личности или с которой
баллы могут отражать другие искажающие
особенности ответов. Такие виды ответов
должны изучаться в первую очередь для
определенных выборок, а не для более
общей генеральной выборки. Могут быть
представлены корреляционные или
экспериментальные исследования.
(Очень желательно.)
Г.9.2.4.
Если тест, проводимый с ограничением
во времени, интерпретируется в качестве
измеряющего гипотетическое психологическое
свойство, не связанное специально с
быстротой выполнения теста, то должны
быть представлены свидетельства о
влиянии скорости на тестовые баллы и
об их корреляции с другими переменными.
(Существенно.)
Комментарий.
Наиболее полным доказательством влияния
скорости выполнения может быть
сравнение баллов по двум формам с
обычным ограничением при неограниченном
времени. Корреляция баллов этих вариантов
имеет ограниченный смысл, т. к. эти
два балла не являются независимыми.
Менее исчерпывающим доказательством
является процент испытуемых,
ответивших на последнее задание или
некоторое задание, близкое к концу
теста, за время, отведенное на выполнение
теста. Если этот процент ниже 90,
необходимо более глубокое исследование,
чтобы показать, что индивидуальные
различия по тесту существенно не
отражают скорости.
Г.9.2.5.
Если различия в стратегии выполнения
теста влияют на интерпретацию баллов,
связанных с определенными характеристиками
подгрупп, об этом должна быть дана
ясная информация или ясно указано на
отсутствие ее. (Очень
желательно.)
Г.9.2.6.
Если свидетельство против противоположной
интерпретации основано на низкой
корреляции при малом различии между
группами, в руководстве необходимо
сообщить доверительность поправки
или обсудить ошибки измерения, которые
могли снизить соответствующую
зависимость. (Желательно.)
Д. Сведения о процедуре применения
теста.
Интерпретация тестов и
средств измерения, так же как и
результатов эксперимента, наиболее
надежна, когда измерения ведутся в
стандартизированных и контролируемых
условиях. Конечно, в тестировании
существуют ситуации, когда важно
систематически менять обстоятельства
для максимального понимания деятельности
индивида. Например, исследователь может
систематически менять процедуры в
последовательных повторениях теста,
чтобы выяснить пределы умения ребенка
в определенной содержательной области.
Тем не менее, составитель теста должен
сам предусмотреть стандартные процедуры,
в которых возможна подобная модификация.
Вне стандартизации качество интерпретации
может ухудшиться в степени, с которой
различия в процедуре влияют на результаты
тестирования.
Для большинства целей
наибольший упор делается на строгую
стандартизацию процедур проведения
тестов и инструкций к нему. Если тест
предназначен для разнообразных
популяций, эти процедуры должны быть
полностью доступны для всех испытуемых
из каждой популяции.
Д.1. В
руководстве к тесту должна быть указана
квалификация и специализация, необходимая
для проведения теста и его интерпретации.
(Существенно.)
Комментарий.
Однако из руководств в определении
квалификации, необходимой для
индивидуального тестирования детей
данным тестом, различают психологов,
которые работают с детьми, и тех, кто
работает только со взрослыми. Другое
руководство указывает на специфичность
тестирования учащихся, родной язык
которых отличается от языка теста.
Квалификация пользователя может быть
описана путем указания на профиль
специального обучения, которое в общем
считается необходимым для достижения
компетентности. В некоторых руководствах
к тестам могут выделяться наиболее
частые источники ошибок применения
теста и указываться виды обучения
пользователей, дающие возможность
устранить эти ошибки.
Д.1.1.
Если тест рекомендован для нескольких
целей и типов заключений, в руководстве
следует указать степень обученности
пользователей, необходимую для каждого
применения. (Существенно.)
Д.1.2.
Если авторы предполагают, что тест
может использоваться неспециалистами,
то руководство должно быть написано
в форме, доступной их пониманию.
(Существенно.)
Комментарий.
С тестом могут иметь дело не только
лица, специально обученные этому.
Испытуемые, члены педагогических и
общественных комиссий, родители имеют
также основание для суждений по
тесту. Это их право не вступит в
противоречие с необходимостью сохранять
тайну, если им доступны описательные
и объясняющие материалы.
Д.1.3.
Руководство не должно допустить,
чтобы тест понимался как
«самоинтерпретирующийся». В нем
должно быть указано, какую информацию
о результатах тестирования возможно
представить лицам, не имеющим необходимой
для интерпретации подготовки.
(Существенно.)
Комментарий.
Обычно желательно получать
интерпретацию оценок подготовленным
лицам. Конечно, существуют тесты,
результаты которых могут быть оценены
испытуемыми; часто полезно сообщать
тестовые баллы учащимся и родителям.
Если это практикуется, смысл данного
требования в том, что должны даваться
необходимые сведения по интерпретации
этих баллов.
В руководстве должно быть
указано, что может выполняться необученным
лицом и что не может выполняться.
Например, в одном руководстве к
широко известному тесту интересов
указывается, что испытуемые могут
усвоить способы оценивания результатов
собственных ответов, но подчеркивается,
что они нуждаются в помощи
квалифицированного учителя или
консультанта при интерпретации
результатов и построении планов на
будущее.
Д.2. В
руководстве к тесту следует указать
степень необходимого для теста
сохранения тайны его содержания в
ходе предварительной тренировки. (Очень
желательно.)
Комментарий.
Тест числового ряда предполагает
тренировочную практику, для того
чтобы испытуемые лучше поняли
инструкцию. Данная тренировочная
практика не дублирует заданий теста
и, следовательно, сохраняет содержание
самого теста в тайне.
Д.2.1. В
руководстве должны быть описаны
примеры неприемлемой практики. (Очень
желательно.)
Д.3. В
руководстве к тесту необходимо
отразить основные этапы процедуры его
проведения. (Существенно.)
Комментарий. Обычно последовательность
проведения теста такова:
1) объяснить испытуемым цель проведения
теста;
-
гарантировать сохранение тайны
индивидуальных ответов; -
в соответствии с требованиями
руководства прочитать инструкцию и
провести тренировку; -
попросить испытуемого или
самому заполнить (если требуется)
паспортные и биографические данные в
регистрационных бланках; -
ответить на имеющиеся вопросы;
-
обработать результаты
теста в соответствии с требованиями
руководства.
Д.4.
Инструкции по проведению должны быть
отражены в руководстве к тесту максимально
подробно, с подчеркиванием, что
пользователь теста может и должен
воспроизвести те условия тестирования,
при которых разработаны нормы и получены
данные о надежности и валидности.
(Существенно.)
Комментарий.
Так как лица, проводящие тесты в
школах и на производстве, иногда
могут не поступать строго по инструкциям
и не понимать необходимости их
соблюдения, важно, чтобы руководство
в этом отношении было очень убедительным.
Для обеспечения стандартности
процедуры некоторые тесты проводятся
полностью механизированным способом.
Д.4.1.
Инструкции, опубликованные в руководстве
к тесту, должны быть достаточно
полными, чтобы тестируемые понимали
необходимость действовать так, как
подразумевал автор теста. (Существенно.)
Комментарий.
Например, при заполнении опросника
личности субъект иногда может давать
первый встретившийся ему ответ.
Следовательно, подобная возможность
должна быть указана в инструкции,
которую субъект читает или которая ему
зачитывается. Инструкция для вопросников
интересов должна определить, следует
ли испытуемому отмечать то, что ему
нравится в идеале, или также следует
предусмотреть возможность того, что
ему необходимо иметь благоприятные
условия и способности этого достигнуть.
Подобным образом в инструкции необходимо
определить, следует ли испытуемому
отмечать то, что ему нравится, но
встречается иногда, или только то, что
ему нравится и встречается постоянно.
Д.4.1.1.
Инструкция должна четко подчеркнуть
такие критические моменты, как указания
об угадывании, лимиты времени и способ
ответов. (Существенно.)
Д.4.1.2.
Инструкция для тестирующего должна
содержать указания по поводу вопросов
со стороны испытуемых. (Очень
желательно.)
Д.4.2.
Если предусматривается возможность
изменения и совершенствования
инструкций, описанных в руководстве к
тесту, то должны быть ясно указаны
условия, при которых позволительно
это делать; эти условия приводятся
или в форме общих правил, или на
основе значительного числа примеров,
или тем и другим способом. (Существенно.)
Д.5.
Инструктаж должен подготовить испытуемого
к обследованию: необходимо предусмотреть
подборки необходимых видов стимульного
материала, листы ответов, карандаши,
ручки и т. п. (Желательно.)
Д.6.
Процедуры выставления баллов по тестовым
заданиям должны быть изложены в
руководстве с максимальной детализацией
и ясностью, чтобы уменьшить вероятность
ошибки при оценивании. (Существенно.)
Д.6.1. В
руководстве к тесту должны быть
представлены инструкции по оцениванию
результатов выполнения задания и
указаны процедуры предотвращения
ошибок подсчета и вычисления. (Очень
желательно.)
Д.6.2.
Если оценивание результатов теста
содержит субъективные процедуры, в
руководстве должны быть представлены
данные степени согласованности
независимых оценщиков в операциональных
условиях. Если таких свидетельств
не имеется, в руководстве должно
быть обращено внимание на вариации
оценивания как возможный значимый
источник ошибок измерения. (Очень
желательно.)
Д.6.3.
Если в тесте используется более чем
один метод выражения ответов испытуемыми,
руководство к тесту должно сообщить
данные о степени, с которой результаты,
полученные при использовании различных
методов, взаимозаменяемы. (Существенно.)
Комментарий.
Разное количество времени, необходимого
для ответа на задания в формах,
приспособленных к разным методам
выставления баллов, может влиять на
надежность или валидность теста, на
применимость тестовых норм.
Д.6.4.
Если использована необычная или сложная
система выставления балов, в руководстве
к тесту необходимо указать приблизительное
количество времени, необходимое для
выставления баллов по заданиям теста.
(Желательно.)
Д.6.5.
«Формулы поправки на угадывание»
должны использоваться при заданиях
с множественным выбором или при ответах
вида «истинно – ложно» теста на скорость
выполнения заданий. (Желательно.)
Е.
Сведения о
процедуре обработки и интерпретации
тестовых результатов.
По традиции интерпретация
тестовых баллов является
нормированно-референ-тной, т. е.
индивидуальная оценка интерпретируется
в сравнении с оценками других
индивидов. Однако возможны и другие
интерпретации. Содержательно-референтная
интерпретация имеет место, если балл
интерпретируется непосредственно,
соответственно деятельности на каждой
точке измеренного континуума достижений.
Критериально-референтная интерпретация
отражает непосредственно интерпретацию
баллов в соответствии с деятельностью
в любой данной точке континуума
внешней переменной. Переменной
внешнего критерия могут быть средние
оценки или уровни трудовой деятельности.
Стандартные требования параграфа
в принципе относятся больше к
нормированно-референтным интерпретациям
тестов и в меньшей степени к
содержательно-референтным.
Е.1.
Нормы должны публиковаться в руководстве
к тесту одновременно с публикацией
теста (для операционального использования).
(Существенно.)
Е.1.1.
Нормы должны быть определены также
к тесту, разработанному только для
локального применения или только для
целей предсказания. (Желательно.)
Комментарий. Иногда
забывают, что таблицы норм дают
информацию, полезную не только для
сравнения индивида с групповыми данными.
Например, пользователь теста из
таблицы норм может извлечь информацию
относительно уровня баллов, на котором
различительная сила измерения хороша
или плоха.
Е.1.2.
Даже если предполагается, что тест в
первую очередь будет использоваться
с локальными нормами, в руководстве к
тесту следует предусмотреть нормировочные
данные, чтобы помочь интерпретатору,
не имеющему локальных норм. (Очень
желательно.)
Е.2.
Нормы, представленные в руководстве
к тесту, должны относиться к определенным
и ясно описанным популяциям. Этими
популяциями должны быть группы, с
которыми пользователи теста обычно
желают сравнивать тестируемых лиц.
(Существенно.)
Комментарий.
Почти во всех случаях, когда тесты
разработаны не только для локальных
целей, пользователь хочет знать,
насколько они применимы для различных
групп. Для тестов, разработанных с
целью широкого использования в школах
или в промышленности, необходима
информация о различиях и сходствах
нормативных данных для таких групп,
как группы по полу, национальности,
образованию или возрасту. В руководстве
должны быть описаны случаи, когда
нормы для одних групп также подходят
и для других групп.
Например, руководство к
вопроснику профессиональных интересов
или к тестам способностей, важных
для некоторых профессий, должно
подчеркивать, что лицо, получающее
высокую оценку интересов или
способностей к учебному предмету
или профессии при сравнении со «средним»
человеком, получает более низкую
оценку интересов при сравнении с
лицами, фактически занимающимися в
этой области. Так, высокий процентильный
балл по шкале музыкальных интересов,
в которой испытуемый сравнивается со
«средним» человеком, может быть
эквивалентен низкому процентильному
баллу при сравнении испытуемого с
профессиональным музыкантом.
Е.2.1.
Необходимо предотвращение ошибочного
впечатления о генерализованности
нормативных данных. (Существенно.)
Комментарий.
Нормативные данные, полученные для
выборки людей или школ со специфическими
чертами, часто используются так, как
будто они получены по репрезентативным
общегосударственным группам. Так,
имеются пользователи тестов, которые
могут сказать, что испытуемый читает
на уровне десятиклассника, вне учета
того, что нормы фактически получены на
основе лучших школ, добровольно принявших
участие в исследовании по разработке
теста. Ошибкой интерпретации является
предположение, что нормы добровольных
групп учащихся приложимы к школам
вообще. Сфера действия таких ошибок
может быть сокращена, если в руководстве
к тесту четко определены характеристики
нормативной популяции.
Е.2.1.1.
В руководстве к тесту необходимо
сообщить метод отбора выборки из
популяции испытуемых и обсудить
вероятное смещение в выборочной
процедуре. (Существенно.)
Е.2.1.2.
Нормы, сообщенные в руководстве к
тесту, должны быть основаны на хорошо
спланированной выборке, а не на данных,
собранных в основном из-за их относительной
доступности. Любое отклонение от
намеченного плана должно быть отражено
одновременно с описанием действий,
предпринятых или не предпринятых в
связи с этим. (Существенно.)
Комментарий.
Нормы профессиональных и педагогических
тестов иногда основаны на разрозненных
выборках тестируемых, так как авторы
иногда просят пользователей тестов
прислать результаты тестирования
для использования их в последующих
сообщениях о тестовых нормах.
Полученные таким образом распределения
подвержены смещениям неизвестного
типа и степени. Следовательно, методы
получения выборок должны быть ясно
описаны.
Е.2.1.3.
Наряду с сообщением числа индивидов,
результаты тестирования которых
были использованы при разработке
нормативных данных, руководство должно
также сообщить число выборочных единиц
(например, классов), из которых были
взяты эти индивиды, а также число
индивидов в каждой единице.
(Существенно.)
Е.2.2. В
руководстве к тесту описание нормативной
группы должно быть достаточно полным,
чтобы пользователь мог судить о
пригодности для собственного применения.
В описании должно быть указано число
случаев, классифицированных по одной
или более таких переменных, как возраст,
пол, социоэкономический статус,
образовательный уровень. Если взята
обобщенная выборка, в описании
нормативной группы должно быть
указано число отдельных тестированных
групп. (Существенно.)
Комментарий.
Для описания нормативных данных в
руководствах часто используются
классификационные системы в целом.
Например, в руководстве к одной методике
даны сведения для многих профессиональных
и образовательных групп. Однако
отсутствие информации о таких признаках,
как пол, возраст, образование и
уровень опыта, внутри этих групп
существенно уменьшает полезность норм.
Е.2.2.1.
В руководстве должны быть ясно и рельефно
описаны популяции, на основе которых
определены психометрические свойства
теста и для которых применимы
нормативные данные. В любом сообщении
о доработке теста должны отразиться
характеристики нормативных групп,
использованных в интерпретации
результатов. (Существенно.)
Комментарий.
Назначение этого стандартного требования
— предупредить пользователей и
испытуемых относительно необоснованных
интерпретаций. Если сообщение о
стандартизации представляет
результаты в интерпретации процен-тильных
рангов или стандартных баллов при
последовательном использовании той
же нормативной популяции, будет
достаточным определение этой
популяции с указанием времени сбора
данных.
Е.2.3.
Если выборка, на основе которой
установлены нормы, мала или, по другим
причинам, ненадежна, в руководстве к
тесту необходимо ясно предупредить
пользователя относительно возможности
величины ошибок при интерпретации
баллов. (Существенно.)
Е.2.4. В
руководстве к тесту нормы по субтестам
или группам заданий сообщаются
только в том случае, если указана
валидность и надежность таких субтестов
или групп заданий. (Существенно.)
Комментарий.
Пользователь теста уверен, что, когда
даны нормы для части теста, автор
считает их пригодными для интерпретации.
Должна сообщаться также надежность и
валидность таких баллов.
Е.2.5. В
руководстве к тесту должны быть описаны
условия, при которых получены
нормативные данные. (Существенно.)
Комментарий.
В случае, когда некоторые аспекты
стандартизированы на группах кандидатов
на работу, другие — на группах,
обратившихся за профконсультацией, а
третьи — на группах, осознающих себя
как испытуемые, то между такими группами
и внутри них индивиды часто различаются
по мотивации выполнения теста,
установке к его выполнению, способностям
и личностным характеристикам, хотя
точное описание этих различий не
всегда возможно.
Е.3. При
сообщении норм в руководстве к тесту
следует пользоваться процен-тилями
для одной или нескольких подходящих
референтных групп или стандартными
баллами, для которых ясно определено
основание. В руководстве к тесту должны
быть даны меры центральной тенденции
и рассеивания. (Существенно.)
Е.3.1.
Если тест используется для предсказания,
должны быть приведены, насколько это
возможно, таблицы ожиданий или
эмпирические таблицы перевода баллов
в уровни вероятности успеха или умения.
(Желательно.)
Е.4.
Для многих применений
теста локальные нормы более важны,
чем опубликованные. В таких случаях
руководство к тесту должно давать
возможность использования локальных
норм. (Очень желательно.)
Е.5. В
руководстве к тесту должны быть полностью
описаны производные шкал, использованные
для стандартизированных баллов,
чтобы увеличить вероятность точной
интерпретации и понимания баллов
интерпретатором теста и испытуемым.
(Существенно.)
Комментарий.
Целесообразно сократить число производных
шкал до нескольких, с которыми
пользователи были бы знакомы. Существующее
разнообразие ведет к необходимости
описания таких шкал в каждом руководстве.
Проблема, в частности, в том, что теперь
используются многие различные
системы, не имеющие логических
преимуществ по сравнению друг с
другом. Для преодоления недостатков
старых методов шкалирования могут быть
предложены новые. Разнообразие шкал
для окончательных тестовых оценок
может привести к недоразумениям и
ошибочным интерпретациям, если шкалы,
рекомендованные для данного теста, не
описаны в руководстве ясно и полно.
Е.5.1.
Построение шкалы на основе нормативных
данных должно быть ясно и недвусмысленно
описано в терминах, предотвращающих
нарушения и интерпретации или
неправильные обобщения. (Существенно.)
Комментарий.
Производные оценки могут быть очень
полезны для выводов. Однако очень
часто они рассматриваются как имеющие
абсолютный смысл независимо от отдельного
теста и нормативной популяции.
Примером является коэффициент интеллекта,
который зачастую понимается как
просто стандартный балл, который часто
видоизменяется и интерпретируется
так, словно он отражает неизменную и
независимую характеристику
испытуемого. Оценки эквивалентности
классу обучения или даже процентильные
ранги также могут интерпретироваться
неправильно, как некие абсолютные
величины, если в руководстве к тесту
не приведены характеристики групп,
на которых эти оценки построены.
Е.5.2. В
руководстве необходимо указать,
являются ли стандартные баллы результатом
линейной или нелинейной трансформации
суммарных баллов. (Существенно.)
Е.5.2.1.
Интерпретационных баллов, которые сами
по себе включают существенную
ошибочность интерпретации (оценки
умственного возраста, эквивалентности
классу обучения и др.) надо избегать.
(Очень желательно.)
Комментарий.
Если, несмотря на эту рекомендацию, в
руководство включены подобные
оценки, необходимо предусматривать
в табличной форме также их связь со
стандартными баллами или процентильными
рангами внутри каждой категории и
внутри соответствующей нормировочной
группы. Например, таблица может отразить
вдобавок к баллу эквивалентности
классу обучения соответствующий
процентильный ранг внутри собственного
возраста или класса испытуемых для
каждого суммарного балла. Для старших
классов больше подходят нормы внутри
предметов, чем внутри классов.
Е.5.3.
Если в руководстве к тесту предполагается,
что процентильные ранги будут
выражаться графически профильной
звездочкой, график должен основываться
на нормальной вероятностной шкале или
на некоторой другой приемлемой
нелинейной трансформации. (Очень
желательно.)
Е.6. Если
шкалы пересмотрены, добавлены новые
формы или сделаны другие изменения, в
пересмотренном руководстве к тесту
должны быть помещены таблицы
эквивалентности старой и новой форм.
(Желательно.)
Комментарий.
Новые формы теста должны быть
приравнены к недавно определенным
шкалам стандартных баллов других
форм, чтобы пользователь мог быть
уверен, что баллы, предложенные по новым
формам, сравнимы с баллами предыдущих
форм.
Е.6.1.
Если новая форма теста приравнена
к старой, в пересмотренном руководстве
должно быть описано содержание и старой
и новой форм, а также характер нормативных
групп для них. (Существенно.)
Комментарий.
Изменения в знаниях, технологии или
учебном материале могут потребовать,
чтобы новое издание тестов существенно
отличалось от прежних, а потребность
преемственности требует приравнивания
окончательных шкал друг к другу.
Пользователь должен иметь возможность
оценить эквивалентность в соответствии
с изменениями содержания, поскольку
у него возникают сомнения, возможно ли
значимое сравнение баллов при
изменении содержания.
Е.6.2. В
руководстве должен быть описан метод
установления эквивалентности или
сравнимости оценок и должна быть дана
оценка точности процедуры приравнивания.
(Очень желательно.)
Е.7. Если
предполагается, что тест будет
использоваться не столько для оценки
индивидов, сколько групп (например, для
школ или программ), должны быть
представлены нормативные данные,
основанные на суммарных групповых
статистиках. (Существенно.)
Комментарий.
Например, нецелесообразно оценивать
школы применением норм, разработанных
для оценки индивидов. Также нельзя
вычислять групповые средние по нелинейным
шкалам, например по процентильным
рангам, выведенным для индивидуальных
норм.
Е.8.
Тест, руководство, формы записи ответов
и другие сопровождающие материалы
должны помогать пользователю правильно
интерпретировать результаты теста и
предупреждать неправильное его
употребление. (Существенно.)
Комментарий.
Многие руководства к тестам
подчеркивают переменные, которые
следует учитывать при интерпретации
тестовых оценок. Это может быть информация
об учебных достижениях, рекомендации
или соответствующие анамнестические
данные.
Е.8.1.
Руководство к средству оценивания
личности может включать данные,
показывающие, что психолог должен
учитывать такие факторы, как пол и
возраст субъекта, женаты или разведены
его родители, возраст и пол его детей,
его профессиональный и супружеский
статус и т. д.
Е.8.2.
Руководство к тесту должно подчеркнуть
те существенные влияния на тестовую
оценку, которые связаны с регионом,
социоэкономическим статусом,
национальностью или полом.
(Существенно.)
Е.9.
Руководство должно обратить внимание
пользователя на публикации, с которыми
он должен ознакомиться до тестирования
для более точной интерпретации
результатов теста. (Очень
желательно.)
Комментарий.
Публикациями могут быть книги или
статьи, относящиеся к смежным
психологическим теориям или к самому
тесту, о котором идет речь.
Е.10.
Изложение описываемых в руководстве
зависимостей по смыслу является
количественным и должно быть приведено
с точностью, которую позволяют данные.
Если данные в поддержку таких утверждений
не были собраны, этот факт должен быть
ясно указан. (Существенно.)
Комментарий.
Авторы, например, иногда пишут: «Для
инженера-архитектора требуется
способность пространственного
мышления» или «Необычные ответы могут
указывать на наличие шизофрении».
Такие утверждения сами по себе
количественно неадекватны. Какая
частота эксцентрических ответов
указывает на уже развившуюся
шизофрению? Насколько успех в архитектуре
зависит от пространственной способности?
Количественные данные, связывающие
тестовые оценки с определенными
критериями, должны помочь получить
ответы.
Е.10.1.
Для сообщения количественной
информации предпочитаются хорошо
известные и легко интерпретируемые
статистические процедуры. Любая
необщепринятая статистическая
техника должна быть объяснена, и должны
быть приведены ссылки на источники.
(Существенно.)
Комментарий.
Издатели не обязательно должны
однообразно придерживаться процедур,
широко используемых для сообщения
данных, но технологии и процедуры должны
быть довольно известными на практике,
чтобы компетентные пользователи могли
адекватно судить о результатах.
Это стандартное требование
является конкретизацией принципа, что
представленные в руководстве данные
не должны вводить в заблуждение.
Например, ошибочно показывать
ценность объединенных в батарею тестов
в уравнении регрессии путем использования
данных с интеркорреляцией более
низкой, чем о ней сообщалось в другом
месте руководства.
Е.10.2.
Когда сообщается статистическая
значимость, сообщение должно быть в
форме, которая делает ясным чувствительность
или мощность критерия значимости.
(Существенно.)
Комментарий.
Статистическая значимость, не имеющая
практической полезности, часто может
быть получена использованием очень
большого числа случаев. Наоборот, тот,
кто использует нечувствительный
статистический критерий, может
сделать ошибочный вывод об отсутствии
важного в практическом смысле
различия. В общем, при сообщении тестовых
данных более приемлемо определить
доверительный интервал или функцию
правдоподобия интересующего параметра,
а не просто сообщить, что нулевая
гипотеза может или не может быть
отклонена.
Е.10.3. В
руководстве должны ясно различаться
интерпретация, которая приложима только
к средней тенденции группы, и
интерпретация, приложимая к любому
индивиду внутри группы. (Существенно.)
Комментарий.
Некоторые тесты достаточно надежны
для обеспечения относительно
стабильного среднего балла группы, но
недостаточно надежны, чтобы обеспечить
использование индивидуальных баллов
или позволить сравнение индивидов.
Е.10.4. В
руководстве должно быть ясно указано,
какая интерпретация относится к
каждому баллу субтеста в той же степени,
как и для всего теста. (Существенно.)
Комментарий.
В руководстве должно быть четко указано,
когда баллы субтестов получены только
для простоты вычисления балла всего
теста и не предлагают самостоятельного
использования, когда они могут иметь
исследовательское применение, и
предусматривается ли при этом их
интерпретация.
Е.11.
Составители тестов или другие лица,
использующие ЭВМ для интерпретации
тестов, должны предусмотреть руководство,
отражающее алгоритм и свидетельства
в поддержку интерпретации баллов
на основе ЭВМ. (Существенно.)
Комментарий.
Вычислительная машина позволяет
накопить и воспроизвести большое
количество данных. Интерпретация
теста может быть очень облегчена
использованием банка данных, накопленных
в ЭВМ на основе совокупности
индивидуальных оценок по батарее
тестов или вопроснику личности.
Пользователь таких массивов
должен знать обоснование и свидетельства
в пользу предполагаемой интерпретации,
так как она подвержена ошибкам в той
же степени, как и другие субъективные
интерпретации.
Данный пункт относится только к хранению
и обработке информации, введенной
в ЭВМ.
Проведение тестов
неавтоматизировано и осуществляется
обычным способом. В том случае, когда
пользователь хочет автоматизировать
и проведение теста, тест должен пройти
полную психометрическую проверку.
Наверняка вы сами хоть раз в жизни составляли тесты и уж точно неоднократно проходили разнообразное тестирование – от серьезного до совсем шуточного из серии «Какой ты овощ во время карантина?».
Очень часто, за неимением нужных знаний и подготовки, разработчики придумывают тесты, опираясь исключительно на свой опыт, интуицию и здравый смысл (за исключением «овоща на карантине»). Многие, приступая к разработке собственных тестов, поначалу думают: что тут может быть сложного? Составить вопросы, придумать к ним ответы — вот и вся недолга! Это очень глубокое заблуждение. Создание хорошего задания в тестовой форме – настоящее искусство.
Существуют разработанные учеными методики составления тестовых заданий. В этой статье я хочу рассказать об одной из таких методик, которую используют в системе общего и профессионального образования. В частности, ее нередко применяем и мы в учебном центре «Сетевая Академия ЛАНИТ» для разработки проверочных тестов и систем аттестации сотрудников.
Источник
Вместо предисловия
Почему я решила, что вам это может пригодиться? Во-первых, потому что многим из вас – людям, совсем далеким от педагогики, приходится проводить разнообразные обучающие мероприятия, разрабатывать учебные курсы и т.п., а все это требует проверки усвоения учебного материала. А какой еще способ, кроме тестирования, способен проверить знания быстро, надежно и объективно?
Во-вторых, потому что использование педагогических тестов актуально не только для образования, но и для областей, весьма далеких от него. Тесты – очень полезный инструмент для решения многих задач: и для аттестации сотрудников, и для первичной проверки соответствия знаний и навыков соискателей вакансии, и для оценки степени информированности аудитории о какой-либо проблеме, и много для чего еще.
Сразу оговорюсь, что эта статья в первую очередь рассчитана на людей, не имеющих большого опыта в составлении тестовых заданий. Ее цель – предоставить новичкам достаточный объем материала, который помог бы им научиться составлять качественные педагогические тесты разных видов.
Да простят меня «продвинутые» в вопросах тестовой теории читатели, речь пойдет о базовых сведениях. Хотя, как показывает практика, вспомнить основы тоже никогда не вредно.
Методику, о которой пойдет речь, разработали ведущие отечественные специалисты в области тестологии: В. С. Аванесов, М. Б. Челышкова, А.Н. Майоров и другие.
В качестве примеров приводятся тестовые задания из открытого банка заданий ЕГЭ, размещенного на официальном сайте ФГБНУ «Федеральный институт педагогических измерений», из книги М. Б. Челышковой «Теория и практика конструирования педагогических тестов», из книги В. С. Аванесова «Композиция тестовых заданий», а также задания, составленные автором статьи и преподавателями разных образовательных организаций.
Сначала немного теории
Говоря о тестах в разных сферах деятельности, подразумевают разное. Например, в вычислительной технике тест – это задача с известным решением, с помощью которой проверяется правильность работы системы, а в медицине тестом будет называться метод исследования, заключающийся в пробном воздействии на организм. В общем понимании, тест – это объективное и стандартизированное измерение, которое легко поддается количественной оценке, статистической обработке и анализу.
В рамках наших целей нас интересует педагогический тест со своей спецификой. Это система тестовых заданий различной трудности, созданная для качественного и эффективного измерения структуры и качества подготовленности испытуемых. Тестовое задание является одним из элементов педагогического теста, включает в себя инструкцию, тестовую задачу и эталон ответа.
Преподаватели используют тесты, чтобы:
- оценить исходные знания учащихся перед началом обучения и скорректировать план и содержание занятия;
- сделать срез знаний во время курса, чтобы вовремя внести изменения в процесс обучения, если слушатели недостаточно хорошо усваивают учебный материал;
- проверить финальный результат обучения.
Наиболее часто используются закрытые тесты, в которых ответы уже есть, как в игре «Кто хочет стать миллионером?». Но встречаются и открытые тестовые задания, требующие самостоятельно сконструировать или дополнить ответ.
Итак, выполняя закрытые тесты, обычно надо:
- выбрать один или несколько ответов среди заданных вариантов;
- установить соответствие между элементами двух множеств;
- установить правильный порядок действий или процессов, перечисленных автором теста.
Открытые тесты требуют:
- дополнить имеющийся ответ;
- полностью сконструировать ответ самостоятельно.
Какой материал следует включить в тест
Содержание теста зависит от того, какие цели вы перед собой ставите и зачем вам вообще нужен этот тест. Прежде всего, нужно самому себе ответить на вопрос, можно ли с помощью составленных вами заданий проверить подготовленность аудитории.
Вот такое тестовое задание предложил своим ученикам преподаватель анатомии по теме «Скелет грудной клетки». Одна из целей занятия – знать количество ребер у человека.
Инструкция
: Выберите один правильный ответ.
Количество ребер
- у мужчин больше, чем у женщин
- у женщин больше, чем у мужчин
- индивидуально у каждого человека
- зависит от жизненных обстоятельств
Как вы понимаете, при помощи этого задания невозможно проверить, знают испытуемые, сколько у человека ребер или нет. Поэтому, строго говоря, нет смысла включать такой тест в материалы контроля. Отдельный разговор о качестве подобранных автором вариантов ответа. Особенно интересно влияние жизненных обстоятельств на количество ребер. Но правила подбора неправильных ответов (дистракторов) к тестовым заданиям мы рассмотрим позже.
Основные правила подбора материала для теста следующие:
- Материал, заложенный в тест, должен соответствовать содержанию темы тестирования и программы учебного курса.
- В тест включается только то содержание темы, которое является признанным, объективно истинным и поддается рациональной аргументации. Спорные точки зрения в тестовые задания включать не рекомендуется. Суть тестовых заданий заключается как раз в том, что они требуют четкого, заранее известного преподавателям ответа, признанного ими в процессе разработки заданий объективно истинным.
- Уровень детализации содержания теста зависит от целей тестирования. Если вы планируете использовать тесты для сравнения уровня подготовки тестируемых в какой-то области (например, для конкурсного отбора соискателей вакансии или кандидатов на обучение), то уровень детализации материала должен быть низким. В заданиях такого теста достаточно отобразить только наиболее значимые элементы содержания.
- Если же тесты предназначены для выяснения, насколько успешно испытуемый освоил учебный материал (курс, раздел, тему) и освоил ли он его вообще, то уровень детализации области содержания должен быть довольно подробным. Это позволит сделать вывод о знаниях каждого испытуемого, при необходимости аттестовать его, а также проанализировать, какой материал лучше или хуже освоили испытуемые.
- Вместе с тем в тест необходимо включать те элементы содержания, которые можно отнести к наиболее важным, без которых знания по заявленной теме становятся несущественными. Нет смысла перегружать тест второстепенными деталями, не имеющими большого значения.
- Если с помощью тестовых заданий планируется оценивать знания по всему учебному курсу, следует равномерно включить в итоговый тест задания по всем изучаемым темам курса, убедившись в том, что они охватывают все самые важные аспекты предметной области и в правильной пропорции.
Например, если вы составляете тесты по курсу «Microsoft Excel» и включаете в него задания, посвященные исключительно созданию сводных таблиц и диаграмм, то при помощи этих тестов вы явно не сможете полноценно оценить уровень знаний по всему курсу в целом.
- Не всякое содержание можно выразить в форме тестового задания, то есть тесты – не универсальная форма для проверки знаний.
Сколько времени нужно выделить для тестирования
Сидеть над тестом невозможно бесконечно долго: начало и завершение тестирования должны быть фиксированными. К сожалению, довольно часто временной интервал для этого процесса выбирается спонтанно. И если ошибиться – дать слишком мало времени или слишком много, эффективность теста снизится.
Тестирование в спешке приведет к тому, что как «слабые», так и «сильные» испытуемые не успеют выполнить все задания, и мы не поймем – тестируемый не выполнил задание, поскольку не знал ответа, или вообще не успел к нему обратиться.
Если времени вагон и маленькая тележка, «сильные» испытуемые, успевшие быстро пройти тестирование, начинают отвлекать других, подсказывать ответы, что нарушает процедуру тестирования (мы не соблюдаем правило равных условий для всех испытуемых).
Если человек проходит тестирование в одиночестве или тестируется онлайн, при избытке времени он будет долго сидеть над заданиями, не решаясь выбрать ответ. Это вызовет утомление, снижение концентрации внимания, расслабление, что также снижает точность тестирования.
Всегда нужно иметь в виду, что испытуемые устают. А значит, тестирование не должно занимать слишком много времени, что напрямую связано с объемом самого теста. Практика показывает, что объем осознанно воспринимаемой информации начинает существенно снижаться примерно через 40-45 минут с начала тестирования (Ким В. С. Тестирование учебных достижений. – Уссурийск, 2007, стр. 29-35).
Общее время тестирования определяется количеством и сложностью заданий. Некоторые преподаватели используют, например, такие методики расчета времени тестирования:
- Время, затраченное преподавателем на выполнение составленного им теста, умножить на 3.
- Суммировать время, необходимое для выполнения каждого задания:
• задание закрытой формы с выбором одного правильного ответа – примерно 10 секунд;
• задание более сложных форм – в среднем от 30 секунд до 1 минуты.
Однако бывает, что теоретически рассчитать время тестирования невозможно, поэтому рекомендуется использовать эмпирические данные по результатам первичной апробации теста.
Составление тестовых заданий закрытой формы
А теперь давайте рассмотрим конкретные примеры и поймем, как составлять свои тесты. В фокусе нашего внимания – тестовые задания закрытой формы.
В таких тестовых заданиях выделяют следующие элементы:
- инструкцию (содержит общие требования к выполнению задания – рис. 1);
- основную часть (задание, постановка проблемы – рис. 2);
- варианты ответа (верный ответ(ы) и ответы-обманки – рис. 3).
Рекомендуется, чтобы задания в тесте представляли собой не вопросы, а утверждения, которые в зависимости от ответов могут превращаться в истинные или ложные высказывания.
Среди готовых ответов правильным чаще всего бывает только один, хотя не исключаются и варианты с выбором нескольких правильных ответов.
Неправильные, но похожие на правильные (и поэтому правдоподобные) ответы называются дистракторами (от англ. distract – отвлекать). Они используются для отвлечения внимания от правильного ответа тех, кто либо совсем не знает правильный ответ, либо пытается угадать его во время тестирования. Сделать неправильные ответы правдоподобными – одна из самых сложных задач разработчика теста.
Отдельно от тестовых заданий в программу тестирования вводится эталон выполнения заданий и разрабатываются критерии оценки.
Если вы проводите тестирование по старинке, в письменном виде, то вам потребуется ответник, трафарет для проверки ответника и эталон выполнения тестового задания.
Как оформить тестовые задания
Тестовое задание должно быть оформлено таким образом, чтобы облегчить тестируемому работу над ним.
Существует несколько вариантов дизайна тестовых заданий закрытой формы, но все сходятся в одном: все элементы тестового задания тем или иным образом должны быть графически выделены.
Подробнее о том, как принято оформлять задания
Рекомендован следующий вариант оформления.
- Инструкция не является частью задания. Она пишется отдельно от текста задания и выделяется графически, например, курсивом (пример выше – рис. 1).
- Инструкция может быть записана однократно, если в тесте используются задания одной формы. Каждая новая форма тестового задания требует своей инструкции.
Рекомендуется менять инструкцию как можно реже – ровно столько раз, сколько это оправдано стратегией тестирования. Слишком частая смена инструкции путает испытуемых.
- Текст задания выделяется полужирным шрифтом (рис. 2). Иногда текст задания пишут прописными буквами, но это
too muchвыглядит слишком громоздко и сильно снижает скорость чтения. - Задания нумеруются арабскими цифрами.
- Во избежание путаницы варианты ответов рекомендуется индексировать буквами кириллического или латинского алфавитов (рис. 3).
- Варианты ответа пишутся с маленькой буквы (если не представляют собой имена собственные), поскольку являются продолжением тестового задания, сформулированного в виде утверждения. Если задание сформулировано в вопросительной форме, варианты ответа пишутся так же.
- Варианты ответа располагают в столбик, причем желательно, чтобы все они были немного сдвинуты вправо относительно текста задания.
- Между вариантами ответа и по завершении задания знаки препинания, как правило, не ставятся. Это нарушает правила русской пунктуации, если рассматривать задание как текст, но тестологи мотивируют отсутствие знаков препинания тем, что и без них все части тестового задания графически выделены. Обилие запятых или точек с запятой между вариантами ответов способны помешать восприятию текста задания.
- Не рекомендуется перегружать задания вспомогательными словами: «Вопрос», «Варианты ответов» и пр.
- В печатном варианте теста каждое задание должно быть расположено целиком на одной странице.
- И, конечно же, стиль оформления заданий должен быть единым по всему тесту.
Как написать инструкцию к тестам
Инструкция – это общие требования к выполнению тестового задания. Она должна устранить все вопросы испытуемых об оформлении своих ответов. Кроме того, в тексте инструкции оговаривают специфику задания, например, указывают количество правильных ответов в тесте (один/несколько).
При написании инструкции используют стандартные формулировки. Формулировка инструкции зависит от формы тестового задания, количества правильных ответов и пр.
Для тестовых заданий с выбором одного правильного ответа в зависимости от способа проведения тестирования можно предложить следующие варианты инструкций.
- Выберите один правильный ответ.
- Внимательно прочитайте текст задания и выберите верный ответ из списка.
- Выпишите номер тестового задания и индекс правильного ответа.
- Обведите кружком букву (номер) правильного ответа.
- Для ответа нажмите клавишу с буквой (номером) правильного ответа.
Иногда, по замыслу автора, при разработке задания закладываются несколько правильных ответов, среди которых есть более и менее предпочтительные. В этом случае задание может сопровождаться следующей инструкцией: «Выберите наиболее правильный ответ».
Для тестовых заданий с выбором нескольких правильных ответов в зависимости от способа проведения тестирования можно предложить следующие варианты инструкций.
- Выберите несколько правильных ответов.
- Выберите все правильные ответы.
- Отвечая на задание теста, нажимайте на клавиши с буквами (номерами) всех правильных ответов.
Для тестовых заданий на выбор неправильного ответа инструкция может быть такой: «Выберите неправильный ответ».
Для группы однотипных заданий допускается делать одну инструкцию, которая помещается в начале теста или данной группы заданий в тесте.
Как правильно сформулировать основную часть задания
Эффективность и технологичность теста во многом зависят от того, насколько грамотно сформулированы задания. Если тестируемый не поймет смысл вопроса, ему придется отвечать наугад. А это уже минус к объективности конечного результата. Потому важно тщательно проработать каждое задание. Вот несколько рекомендаций.
1. Рекомендуется, чтобы задания в тесте были формулированы в форме утверждений, которые после ответов испытуемых естественным образом превратятся в истинные или ложные высказывания (рис. 1).
Если продолжить утверждение из основной части этого задания правильным ответом (в данном случае это вариант Б), получится истинное высказывание: Признаком протекания химической реакции между оксидом меди и водородом является изменение цвета. При «подстановке» неправильного ответа высказывание получится ложным.
По мнению многих отечественных тестологов (В.С. Аванесова, М.Б. Челышковой, В.С. Кима и др.), смысл тестового утверждения улавливается всегда лучше, чем смысл вопроса, потому что в тестовых утверждениях нет ни одного лишнего слова и даже знака, в то время как вопрос требует ряда дополнительных слов и знаков для выражения требуемого смысла, значения и интонации. Вопросы и ответы на них иногда бывают столь неопределенными и многословными, что для выявления их истинности требуются большие затраты времени и сил, в то время как технологичная методика тестирования предполагает четкую и быструю дифференцируемость ответов.
Действительно, если трансформировать задание, составленное в форме вопроса, в логическое утверждение, мы увидим, что задание уж точно не стало хуже, а даже выиграло – стало более кратким, понятным, лаконичным. После выбора ответа такое утверждение превратится в законченное высказывание, истинность или ложность которого легко поддается пониманию и оценке.
Пример 1. Задание в вопросительной форме:
Инструкция
: Выберите один правильный ответ.
С каким из названных событий связано окончание периода разрядки международной напряженности в 1970-е гг.?
- начало Корейской войны
- разрыв отношений с Югославией
- конфликт с Китаем
- ввод советских войск в Афганистан
То же задание в виде логического утверждения:
Окончание периода разрядки международной напряженности в 1970-е гг. связано c
- началом Корейской войны
- разрывом отношений с Югославией
- конфликтом с Китаем
- вводом советских войск в Афганистан
Пример 2. Задание в вопросительной форме:
Инструкция
: Выберите несколько правильных ответов.
Какие из перечисленных примеров относят к ароморфозам?
- возникновение теплокровности у позвоночных
- развитие трехкамерного сердца у земноводных
- формирование торпедообразного тела у акул
- развитие зародыша внутри матки
- появление рогов у копытных
- формирование крыльев у летучих мышей
То же задание в виде логического утверждения:
К ароморфозам относят
- возникновение теплокровности у позвоночных
- развитие трехкамерного сердца у земноводных
- формирование торпедообразного тела у акул
- развитие зародыша внутри матки
- появление рогов у копытных
- формирование крыльев у летучих мышей
Подобной трансформации легко поддается большинство заданий, сформулированных в вопросительной форме. Иногда возникают ситуации, когда, казалось бы, задание формулируется только в виде вопроса. Однако после тщательного анализа цели задания и его содержания все же удается подобрать утвердительную форму задания.
Конечно, утверждение об использовании в заданиях исключительно утвердительной формы не категорично. К тому же иногда встречаются задания, в которых вопросительная форма выглядит удобнее и короче.
Вопросительная форма заданий по-прежнему используется при составлении тестов и в России, и за рубежом, и имеет много сторонников. Выбор остается за вами. Главное – не забывать, что выбранная вами форма задания должна быть максимально понятна для испытуемых.
Лично я являюсь сторонником формулировки заданий в виде утверждений, считаю эту форму наиболее удачной, использую только ее и ничего с собой поделать не могу.
2. Текст задания должен содержать достаточную, недвусмысленную и релевантную информацию для ответа.
3. Формулировка задания должна быть грамотной, согласованной с формой вариантов ответа (простите за капитанство).
4. Формулировка задания должна быть предельно лаконичной, но не в ущерб пониманию сути задания. Необходимо исключить повторы слов и, тем более, целых фраз. Чем лаконичнее задание, тем лучше оно воспринимается.
5. Рекомендуется, чтобы основная часть задания состояла из одного предложения (не более 7-8 слов), а во всем задании было не более одного придаточного предложения. Эта рекомендация подходит, конечно, не ко всем случаям. Например, тестовое задание может представлять собой кейс/ситуационную задачу, тогда одним предложением точно не обойтись.
6. Если задание сформулировано в вопросительной форме, предпочтительнее применять прямые вопросы, представляющие собой полное предложение с вопросительным знаком в конце.
7. В основной части задания не должна присутствовать дополнительная информация, не существенная для поставленной проблемы.
8. Из текста задания нужно исключить все вербальные ассоциации, по которым можно догадаться о правильном ответе.
9. Стоит исключить из формулировки задания частицу «не». А если НЕ получается, ее надо выделить прописными буквами (как в этом предложении).
10. Исключаются задания, содержащие оценочные суждения тестируемого: «на ваш взгляд», «по вашему мнению», «что вы думаете…», «согласны ли вы с …», «как бы вы сформулировали…» и т.п.
11. Рисунки, графики, схемы, используемые в задании, должны соответствовать тексту (рис. 2). И, конечно же, присутствие графических объектов в задании должно быть оправдано. Не стоит «добавлять картинку» просто для красоты.
12. Элементы рисунка, графика, схемы рекомендуется обозначать по часовой стрелке (рис. 3).
13. В большинстве случаев варианты ответов замыкают задания (так было и в примерах выше), образуя завершенное истинное или ложное высказывание. Но иногда ответы приходится ставить в середине или за одно-два слова от конца содержательной основы задания теста. Тогда можно использовать такой вариант:
Инструкция
: Выберите один правильный ответ.
Невская битва произошла в … году.
- 1198
- 1240
- 1242
- 1245
14. Ответ на одно тестовое задание не должен служить ключом к правильным ответам на другие задания теста. Это нарушает условие локальной независимости заданий. В этом случае невозможно сделать корректный вывод о том, знает ли испытуемый ответ на второе и последующие задания, или он не справился с ними потому что неправильно ответил на первый вопрос.
Как подобрать дистракторы
К каждому тестовому заданию нужно подобрать правдоподобные неправильные варианты ответа (дистракторы). Это одна из самых сложных задач, стоящих перед составителем тестов. Перед вами основные рекомендации по подбору дистракторов:
1. Все предложенные в задании дистракторы должны быть правдоподобными, теоретически вероятными.
Наиболее хороши дистракторы, подобранные на основе типичных ошибок, которые допускают тестируемые, или на основе распространенных заблуждений.
2. Все дистракторы к заданию должны быть одинаково привлекательными для тестируемых, не знающих правильного ответа.
Дистрактор, который никто не выбирает в качестве правильного ответа, обычно называют неработающим. Если в задании имеется хотя бы один неработающий дистрактор, удалите его, и вы сразу увидите реальное, а не формальное число ответов к заданию теста.
Если все дистракторы в задании не работают, все испытуемые выполнят даже сложное задание верно, выбрав единственный правдоподобный ответ. Например, такое задание:
Инструкция
: Выберите один правильный ответ.
Во вращении предплечья наружу участвует
- двуглавая мышца плеча
- двуглавая мышца бедра
- икроножная мышца
- прямая мышца живота
- собственно жевательная мышца
Даже не будучи знатоком данной предметной области, нетрудно догадаться, что мышцы, расположенные на нижней конечности, животе или черепе, не могут приводить в движение предплечье. Получается, что в тесте нет ни одного работающего дистрактора. Имеется всего один работающий вариант ответа, его и выберут испытуемые как единственно правильный.
Вы спросите: «А что же здесь плохого»? Как мы писали выше, педагогические тесты создаются для объективной оценки структуры и качества знаний. А о какой объективной оценке можно говорить, если правильный ответ можно просто угадать, не имея совсем никакого представления о предмете? Конечно, если целью тестирования было узнать, отличает ли испытуемый живот или бедро от предплечья, то можно сказать, что все прошло успешно. Но все же перед тестами обычно ставятся более серьезные задачи.
Если в предложенном задании мы заменим неработающие дистракторы на правдоподобные, теоретически вероятные (все перечисленные мышцы тем или иным образом двигают предплечье), справиться с ним так просто будет нельзя:
Во вращении предплечья наружу участвует
- плечевая мышца
- двуглавая мышца плеча
- трехглавая мышца плеча
- локтевая мышца
- круглый пронатор
3. Дистракторы должны быть однородными, подобранными по общему (единому) основанию.
Пример 1: Задание с однородными дистракторами
Инструкция
: Выберите один правильный ответ.
Телиоспоры возникают из
- урединиоспор
- эциоспор
- базидиоспор
- пикниоспор
Здесь все дистракторы подобраны по одному основанию, т.к. все они отвечают на вопрос «из чего?» и характеризуют то, из чего могут возникнуть телиоспоры.
А в следующем задании дистракторы подобраны неудачно.
Пример 2: Задание с неоднородными дистракторами
Инструкция
: Выберите несколько правильных ответов.
Телиоспоры возникают
- из урединиоспор
- из эциоспор
- поздней осенью на том же мицелии, на котором летом формировались урединиоспоры
- весной в результате слияния дикариона и последующего мейоза
В этом задании два первых ответа выбраны по одному основанию т.к. все они отвечают на вопрос «из чего?». Третий ответ подобран по другому основанию, поскольку соответствует вопросам «когда?» и «где?».
Последний ответ не совпадает по основанию выбора ни с одним из предыдущих, он отвечает на вопросы «когда?» и «в результате чего?».
Самая частая причина появления в заданиях неоднородных дистракторов понятна – при невозможности подобрать нужное число дистракторов по одному основанию автор теста увеличивает их число, включая дополнительные, выбранные по другому основанию ответы.
Иногда причиной является желание автора проверить с помощью одного задания как можно больше знаний испытуемых. Возможно, это оправдано спецификой предмета, однако некорректно с точки зрения требований тестовой технологии.
Тестовое задание должно проверять один элемент знания. Если это не так, то становится неясным, с каким именно элементом знания тестируемый не справляется, в чем заключена причина невыполнения задания.
4. Все ответы должны быть параллельными по конструкции и грамматически согласованными с основной частью задания теста.
5. Все повторяющиеся в вариантах ответа слова (как в примере ниже) следует перенести в формулировку заданий.
Инструкция
: Выберите один правильный ответ.
Заштрихованная территория на карте России показывает районы
- газовых месторождений
- нефтяных месторождений
- месторождений каменного угля
- месторождений калийной соли
Вот что получится после небольшой правки этого примера:
Инструкция
: Выберите один правильный ответ.
Заштрихованная территория на карте России показывает районы месторождений
- газовых
- нефтяных
- каменного угля
- калийной соли
6. Рекомендуется использовать длинные задания и короткие ответы. В противоположном случае на прочтение и анализ ответов тратится слишком много времени.
7. Из числа неправильных исключаются ответы, вытекающие один из другого.
8. Ни один из дистракторов не должен быть частично правильным ответом, который при определенных условиях превратится в правильный ответ.
9. Ответы не должны отрицать смысл самого задания. «Почему? – спросите вы, – ведь так часто делают». Давайте разберемся на примере следующего задания:
Инструкция
: Выберите один правильный ответ.
PDF-файл можно преобразовать в документ Word, если на вкладке «Файл» выбрать команду
- Открыть
- Сохранить как
- Экспорт
- PDF-файл нельзя преобразовать в документ Word
В этом примере четвертый ответ прямо противоречит основной части, утверждающей существование возможности преобразовать PDF-файл в документ Word. Налицо явная логическая ошибка. В задании же не спрашивается, можно ли преобразовать, а утверждается, что можно, а варианты ответов представляют собой перечисление способов преобразования.
Если четвертый ответ – дистрактор, то в качестве правдоподобного ответа его вряд ли выберет хотя бы один тестируемый. Тогда этот ответ как неработающий дистрактор необходимо удалить из теста.
Если именно четвертый ответ является верным, все задание будет нерабочим, т.к. большинство тестируемых увидят логическую несообразность формулировок и пропустят задание, посчитав его ошибкой разработчика теста.
Если цель задания – выяснить, знает ли испытуемый, можно ли вообще преобразовать PDF-файл в документ Word или нет, лучше сформулировать вопрос по-другому, без нарушения логики:
Преобразовать PDF-файл в документ Word
- можно
- нельзя
10. Не следует использовать в заданиях ответы типа «все вышеперечисленные», «ни один из вышеперечисленных» или, того хуже, – «все ответы неправильные» и «правильного ответа нет». Эта рекомендация, кстати, так же часто вызывает вопросы и несогласие аудитории, как и предыдущая.
С точки зрения большинства тестологов, применение подобных ответов не оправдано по следующим причинам:
- повышение вероятности угадывания правильного ответа, так как чаще всего это будет неработающий дистрактор, добавленный составителем «для количества» при трудностях с подбором качественных дистракторов;
- нарушение логического закона исключенного третьего – если инструкция предписывает выбрать один верный ответ, то в задании он должен быть. Это придает однозначность замыслу самого задания и не допускает противоречивых толкований у испытуемых.
11. Не рекомендуется использовать слова «всегда», «никогда», «ни одного» и т.п., так как в отдельных случаях они способствуют угадыванию.
12. Частота выбора одного и того же номера места для правильного ответа в различных заданиях теста должна быть примерно одинакова или номер места для правильного ответа выбирается в случайном порядке.
13. Дистракторы из одного задания не используются в качестве ответов к другим заданиям теста.
14. Все ответы к одному заданию должны быть примерно одной длины. Если это трудновыполнимо, возможен вариант, когда в задании половина длинных ответов, половина коротких. Это нужно для того, чтобы исключить вероятность угадывания правильного ответа по признаку его полноты или краткости. Многие разработчики тестов грешат тем, что в их заданиях правильные ответы почти всегда или длиннее, или короче неправильных. Эта тенденция очень быстро «считывается» испытуемыми и делает общий результат теста необъективным. Следующая рекомендация имеет такое же обоснование.
15. Правильный ответ не должен быть длиннее других.
16. Дистракторы располагаются в логической последовательности: числа – по возрастанию, буквы – по алфавиту. Это удобнее при поиске тестируемым правильного ответа.
17. Количество дистракторов к заданию подбирается таким образом, чтобы задание не было слишком громоздким, но и чтобы исключить большую вероятность угадывания правильного ответа. Поэтому чаще всего в заданиях бывает три или четыре дистрактора и один правильный ответ.
В отдельных случаях, например, в заданиях с выбором нескольких правильных ответов, количество дистракторов может достигать шести–семи.
18. Число дистракторов и правильных ответов в разных заданиях может быть разным. Оно не должно быть одинаковым во всех заданиях теста.
Источник
По какому принципу придумывают тестовые задания
Из десяти принципов разработки тестовых заданий закрытой формы, которые выделяет В. С. Аванесов, предлагаю рассмотреть основные. Для наглядности будем это делать на примерах.
1. Принцип противоречия применяется при создании заданий с двумя вариантами ответов. Здесь один ответ отрицает другой. Например:
Инструкция
: Выберите один правильный ответ.
Поощрения в трудовую книжку
- записываются
- не записываются
2. Принцип противоположности ответов близок по смыслу к принципу противоречия, но при противоречии используется отрицание, а при противоположности один ответ заменяется другим, антонимичным по смыслу. Например:
Инструкция
: Выберите один правильный ответ.
С увеличением заряда ядра активность щелочных металлов
- возрастает
- убывает
Возможность промежуточных состояний при использовании принципа противоречия позволяет увеличить число ответов, например, до трех. Например:
Инструкция
: Выберите один правильный ответ.
При движении тягового органа конвейера реле скорости
- включено
- выключено
- заблокировано
3. Тесты, основанные на принципе однородности, содержат ответы, относящиеся к одному роду, виду, или отображают основные стороны, грани явления. Например:
Инструкция
: Выберите один правильный ответ.
Основателем андрагогики как науки является
- Ноулз
- Джарвис
- Холтон
- Ушинский
Инструкция
: выберите несколько правильных ответов.
Буква «о» пишется в словах
- пл_вец
- пок_рить вершину
- распол_гать
- осн_щенный
- ум_лять значение
4. Принцип кумуляции означает, что второй ответ вбирает в себя (аккумулирует) содержание первого, третий – содержание второго и т.д.
Пример:
Инструкция
: Выберите один правильный ответ.
Чтобы задать движение точки естественным способом, надо знать
- траекторию
- траекторию и закон движения
- траекторию, закон движения, начало отсчета
- траекторию, закон движения, начало отсчета, скорость
Тестируемые, привыкшие давать полные и правильные ответы, выбирают обычно последний ответ в таких заданиях, ошибочно полагая, что он всегда самый правильный. Поэтому при разработке заданий по принципу кумуляции полезно иметь большую часть правильных ответов не на последнем месте.
5. Принцип сочетания. Используется сочетание слов (знаков) по два или по три, реже четыре, в каждом ответе.
Пример 1: сочетание более или менее однородных и правдоподобных пар ответов
Инструкция
: Выберите один правильный ответ.
Ф. Шопен писал
- оперы и симфонии
- балеты и оратории
- мазурки и ноктюрны
Пример 2: сочетание одного слова (понятия) с несколькими другими
Инструкция
: Выберите один правильный ответ.
НЕ имеют ядра клетки крови
- эритроциты и лейкоциты
- эритроциты и тромбоциты
- эритроциты и лимфоциты
- эритроциты и базофилы
Пример 3: сочетание ответов по правилу цепочки, когда последнее слово в первом ответе становится первым во втором ответе, последнее во втором – первым в третьем и т.д.)
Инструкция
: Выберите один правильный ответ.
Служебными частями речи являются
- предлоги, союзы, частицы
- частицы, союзы, местоимения
- местоимения, частицы, предлоги
6. При использовании принципа градуирования ответы располагаются по возрастанию (увеличению) или по убыванию (уменьшению). Этот принцип применим для заданий с тремя и большим числом ответов. Например:
Инструкция
: Выберите один правильный ответ.
Растворимость газов при повышении температуры
- увеличивается
- остается без изменений
- уменьшается
Согласно ч. 3 ст. 5.63 КоАП РФ, нарушение должностным лицом порядка или сроков рассмотрения жалобы влечет наложение административного штрафа в размере … рублей.
- от трех тысяч до пяти тысяч
- от пяти тысяч до десяти тысяч
- от десяти тысяч до пятнадцати тысяч
- от двадцати тысяч до тридцати тысяч
7. Принцип формулирования заданий с ответами, правильными в различной мере, требует изменения инструкции, содержания задания и логики подбора ответов.
Инструкция, как мы уже говорили, обычно пишется так: Выберите наиболее правильный ответ.
Задача таких заданий – проверить сопоставительные знания, а ответы формулируются так, чтобы был реальный выбор между ответами, правильными в разной степени. Например:
Инструкция
: Выберите наиболее правильный ответ.
Зигота – это
- одна яйцеклетка
- оплодотворенная яйцеклетка
- диплоидная клетка, образующаяся в результате оплодотворения
- одноклеточная стадия развития многоклеточного организма млекопитающих
В этом задании наиболее правильным считается третий ответ (он наиболее емко и точно описывает все характеристики зиготы), следующий по степени правильности – второй ответ (он содержит совершенно правильное, но менее полное определение зиготы), затем четвертый (потому что зиготы образуются не только у млекопитающих). На последнем месте по степени правильности находится первый ответ – он самый неполный, ведь одной яйцеклетки для образования зиготы явно недостаточно.
Задания на выбор наиболее правильного ответа разрабатывать довольно сложно: наиболее правильный ответ далеко не всегда должен быть самым полным. В противном случае тестируемый при выполнении задания будет выбирать правильный ответ только по признаку полноты.
Составили тест? Не поленитесь и пройдите по этому чек-листу.
Проверка качества тестовых заданий
- Соответствует ли задание целям тестирования?
- Все высказывания логичны?
- Все формулировки однозначны и лаконичны?
- Технологичен ли тест? (Задания становятся технологичными, если их содержание точно и быстро понимается испытуемыми, и если форма заданий способствует процессу компьютеризации тестирования)
- Правильно ли выбрана форма задания?
- Содержание корректно?
- Правила оценки ответов разработаны заранее и соответствуют форме теста?
- Правильно ли расположены элементы задания?
- Инструкции одинаковы для всех тестируемых?
- Инструкция соответствует форме и содержанию задания?
В этой статье мы обсудили основные аспекты составления тестовых заданий закрытой формы с одним или несколькими правильными ответами. Благодарю вас за внимание и терпение и надеюсь, что эта статья будет полезной для вас.
Если вы считаете, что стоит продолжить цикл подобных статей и поговорить о методике составления тестовых заданий других видов, напишите, пожалуйста, об этом в комментариях. А если вам нужны готовые инструменты оценки качества обучения, обращайтесь к нам в «Сетевую Академию ЛАНИТ». Будем рады помочь.
ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ
ГБПОУ ПК им. Н.Н. Годовикова
УТВЕРЖДАЮ
Заместитель директора по учебно-методической работе
____________ И.В. Бойцова
«___» __________20__ года
аТТЕСтационные педагогические измерительные материалы
по дисциплине цикла МДК 04.01
Теоретические основы разработки и моделирования несложных систем автоматизации с учетом специфики технологических процессов
для специальности 220703 Автоматизация технологических процессов и производств
(наименование специальности)
Автор: | Рассмотрены и одобрены |
Елисеева Е.В. (Ф.И.О.)
(подпись) |
на заседании цикловой комиссии от 30 января 2017г
протокол № 6 председатель цикловой комиссии Елисеева Е.В. (Ф.И.О.) (подпись) |
«___» ____________ 2017 г. |
Содержание
- Инструкция по проведению теста………………………..3
- Тестовые задания………………………………………….4
- Ответы……………………………………………………..16
- Критерии оценки………………………………………….17
Инструкция по проведению тестирования
Перед началом тестирования студенты должны быть ознакомлены с целью, особенностями (количество заданий, время выполнения, типы вопросов и правила ответов и т.д.), правилами и временными рамками проведения тестирования.
Студентам не разрешается перемещаться по аудитории, разговаривать; если у студента возник вопрос, ему необходимо поднять руку и дождаться, когда подойдет преподаватель.
Студенту разрешается пользоваться листами для черновиков, справочными материалами, калькулятором, если они необходимы по условиям тестирования.
Перед проведением тестирования подписываются бланки ответов и дается краткая инструкция по выполнению задания для тестируемых:
- внимательно прочитайте тестовые задания;
- в процессе работы общаться друг с другом не разрешается;
- ответы пишутся четко и разборчиво;
- в бланке вписываются фамилия тестируемого, факультет, курс, группа.
После краткой инструкции тестируемым студентам раздаются бланки, фиксируется время начала работы.
По истечении времени работа прекращается и сдаётся для проверки.
Комплексный тест по дисциплинам цикла ОП «МДК 04.01» специальностей среднего профессионального образования
1 вариант
Выберете один вариант правильного ответа
1. Датчики бывают следующих типов:
А) генераторные
Б) синусоидальные
В) положительные
Г) отрицательные
2. Электрические схемы делятся на следующие типы:
А) мостовые
Б) последовательные
В) индуктивные
Г) фазовые
3. Тензоэффект преобразует:
А) механические деформации в напряжение
Б) механические деформации в изменение сопротивления проводника
В) механические деформации в силу тока
Г) механические деформации в крутящий момент
4. Тензодатчики бывают следующих типов:
А) фольговые
Б) емкостные
В) электролитические
Г) инерционные
5. Пьезодатчики производятся из следующих материалов:
А) манганин
Б) серебро
В) кварц
Г) константан
6. Прямой пьезоэффект это:
А) при механической деформации происходит электролизация кристалла
Б) изменение R кристалла
В) изменение структуры кристаллической решетки
Г) изменение сопротивления датчика
7. Реостатный датчик применяется для:
А) изменение механического напряжения
Б) изменение I в цепи
В) изменение фазового сдвига
Г) измерения деформации
8. Ёмкость в емкостном датчике уменьшается при…
А) изменении сопротивления
Б) увеличении расстояния между пластинами
В) увеличении температуры
Г) увеличении корпуса датчика
9. Профилометр это…
А) тензодатчик
Б) пьезодатчик для измерения шероховатостей поверхностей
В) реостатный датчик
Г) контактный датчик
10. Укажите тип выходной величины после контактного датчика.
А) ступенчатая
Б) не ступенчатая
В) в зависимости от входной величины
Г) в зависимости от материала контактов
11. Прямой термооэффект это…
А) наведение термо ЭДС при разной t◦ сплавов
Б) нагрев спая при прохождении тока
В) изменение сопротивления датчика при нагреве
Г) деформации датчика при нагреве
12. Термосопротивление бывает…
А) платиновое
Б) константановое
В) электролитическое
Г) манганитовое
13. Тензодатчики включаются в следующую схему…
А) мостовая
Б) четырехпроводная
В) последовательная
Г) трехпроводная
14. Модуляция это…
А) передача сигнала на расстояние
Б) способ измерения механической величины
В) способ измерения электрической величины
Г) визуализация изображения
15. Видеоизображение передаётся с помощью…
А) АМ (амплитудной модуляции)
Б) ЧМ (частотной модуляции)
В) ШИМ (широтно-импульсная модуляция)
Г) АКМ (амплитудно-кодовая модуляция)
16. В частотной модуляции изменяется:
А) амплитуда
Б) частота
В) угол сдвига фаз
Г) длительность импульсов
17. При амплитудно-кодовой модуляции сигнал передаётся…
А) с помощью беспроводной связи
Б) с помощью кодов
Г) с помощью девиации частоты
Д) длительность импульсов
18. Механические перемещения измеряют следующие датчики:
А) оптических датчиков
Б) фотодатчиков
В) термодатчики
Г) емкостные датчики с переменной площадью пластин
19. Изменение уровня жидкости можно измерить с помощью датчиков:
А) емкостного
Б) терморезистора
В) фотопреобразователя
Г) тензодатчика
20. Высокие температуры измеряют с помощью…
А) биметаллических пластин
Б) термопары
В) корреляционного метода
Г) радиационного метода
2 вариант
Выберете один вариант правильного ответа
1. Генераторные датчики это:
А) термопара
Б) емкостной
В) контактный
Г) реостатный
2. Мостовые схемы имеют:
А) 1 плечо
Б) 2 плеча
В) 3 плеча
Г) 4 плеча
3. Тензоэффект бывает:
А) прямой
Б) постоянный
В) механический
Г) динамический
4. Тензодатчик конструктивно состоит из…
А) диэлектрика
Б) проволоки
В) кварца
Г) термоэлемента
5. Реостатный датчик меняет:
А) сопротивление
Б) емкость
В) индуктивность
Г) частоту
6. Укажите датчик, в котором происходит замыкание контактов.
А) индуктивный
Б) мостовом
В) контактном
Г) реостатном
7. Термопара относится к категории датчиков:
А) пъезодатчики
Б) тензодатчики
В) термодатчики
Г) электродинамические датчики
8. Модуляция применяется для…
А) коммутации цепей
Б) передачи информационного сигнала на расстояние
В) измерения давления, силы
Г) преобразования перемещения в сопротивления
9. Датчик это:
А) логический элемент
Б) индикатор
В) элемент автоматики
Г) усилитель
10. Укажите тип выходной величины после контактного датчика.
А) ступенчатая
Б) не ступенчатая
В) в зависимости от входной величины
Г) в зависимости от материала контактов
11. Прямой термооэффект это…
А) наведение термо ЭДС при разной t◦ сплавов
Б) нагрев спая при прохождении тока
В) изменение сопротивления датчика при нагреве
Г) деформации датчика при нагреве
12. Термосопротивление бывает…
А) платиновое
Б) константановое
В) электростатическое
Г) манганиновое
13. Тензодатчики включаются в следующую схему…
А) мостовая
Б) четырехпроводная
В) последовательная
Г) трехпроводная
14. Модуляция это…
А) передача информационного сигнала на расстояние
Б) способ измерения механической величины
В) способ измерения электрической величины
Г) визуализация изображения
15. Видеоизображение передаётся с помощью…
А) АМ (амплитудной модуляции)
Б) ЧМ (частотной модуляции)
В) ШИМ (широтно-импульсная модуляция)
Г) АКМ (амплитудно-кодовая модуляция)
16. В частотной модуляции изменяется:
А) амплитуда
Б) частота
В) угол сдвига фаз
Г) длительность импульсов
17. При амплитудно-кодовой модуляции сигнал передаётся…
А) с помощью беспроводной связи
Б) с помощью кодов
Г) с помощью девиации частоты
Д) длительность импульсов
18. Механические перемещения измеряют следующие датчики:
А) фотодатчик
Б) светодиод
В) термодатчики
Г) емкостные датчики
19. Изменение уровня жидкости можно измерить с помощью датчиков:
А) емкостного
Б) терморезистора
В) фотопреобразователя
Г) тензодатчика
20. Высокие температуры измеряют с помощью…
А) биметаллических пластин
Б) термопары
В) корреляционного метода
Г) радиационного метода
3 вариант
Выберете один вариант правильного ответа
1. Измерение t◦ производится с помощью следующих датчиков:
А) пьезодатчик
Б) профилометр
В) термопара
Г) тензодатчик
2. Низкие температуры имеют следующий предел:
А) 10К до 80К
Б) 2500С◦ до ∞
В) 1600С◦ до 2500С◦
Г) 2500С◦ до 30.000К
3. Для защиты термопар используется:
А) короба
Б) защитные чехлы и арматура нерабочего спая
В) корпуса
Г) экранировка
4. Датчик преобразует:
А) неэлектрическую величину в электрическую для дальнейшего масштабирования
Б) меняет предел измерений
В) расширяет шкалу
Г) электрическую величину в неэлектрическую
5. Изменение активного сопротивления при деформации это:
А) термоэффект
Б) пьезоэффект
В) тензоэффект
Г) ничего из вышеперечисленного
6. Материал кварц используется в следующих датчиках:
А) термопара
Б) тензодатчик
В) пьезодатчик
Г) терморезистор
7. Два спаянных между собой проводника или полупроводника это…
А) модулятор
Б) термопара
В) резистивный датчик
Г) электролитический тензодатчик
8. Амплитуда несущей меняется в следующей модуляции:
А) частотной
Б) амплитудной
В) фазовой
Г) импульсной
9. Профилометр это…
А) тензодатчик
Б) пьезодатчик для измерения шероховатостей поверхностей
В) реостатный датчик
Г) контактный датчик
10. Укажите тип выходной величины после контактного датчика.
А) ступенчатая
Б) не ступенчатая
В) в зависимости от входной величины
Г) в зависимости от материала контактов
11. Прямой термооэффект это…
А) наведение термо ЭДС при разной t◦ сплавов
Б) нагрев спая при прохождении тока
В) изменение сопротивления датчика при нагреве
Г) деформации датчика при нагреве
12. Термосопривление бывает…
А) платиновое
Б) константановое
В) электростатическое
Г) манганитовое
13. Тензодатчики включаются в следующую схему…
А) мостовое
Б) четырехпроводная
В) последовательное
Г) трехпроводная
14. Модуляция это…
А) передача сигнала на расстояние
Б) способ измерения механической величины
В) способ измерения электрической величины
Г) визуализация изображения
15. Видеоизображение передаётся с помощью…
А) АМ (амплитудной модуляции)
Б) ЧМ (частотной модуляции)
В) ШИМ (широтно-импульсная модуляция)
Г) АКМ (амплитудно-кодовая модуляция)
16. В частотной модуляции изменяется:
А) амплитуда
Б) частота
В) угол сдвига фаз
Г) длительность импульсов
17. При амплитудно-кодовой модуляции сигнал передаётся…
А) с помощью беспроводной связи
Б) с помощью кодов
Г) с помощью девиации частоты
Д) длительность импульсов
18. Механические перемещения измеряют следующие датчики:
А) фотодатчик
Б) светодиод
В) термодатчики
Г) емкостные датчики
19. Изменение уровня жидкости можно измерить с помощью датчиков:
А) емкостного
Б) терморезистора
В) фотопреобразователя
Г) тензодатчика
20. Высокие температуры измеряют с помощью…
А) биметаллических пластин
Б) термопары
В) корреляционного метода
Г) радиационного метода
4 вариант
Выберете один вариант правильного ответа
1. Механическую деформацию в заряды на гранях преобразует следующий датчик:
А) пьезодатчик
Б) термопара
В) терморезистор
Г) влагомер
2. Частота несущей изменяется при следующей модуляции:
А) амплитудная
Б) частотная
В) фазовая
Г) импульсная
3. Радиовысотомер и эхолот измеряют расстояние электромагнитным сигналом следующего типа:
А) γ излучение
Б) ультразвуковое излучение
В) β излучение
Г) α излучение
4. В автоматизированных системах не применяются следующие датчики:
А) тензодатчики
Б) пьезодатчики
В) индуктивные датчики
Г) измерительные генераторы
5. Преобразование температуры рабочего спая в термоЭДС это…
А) тензоэффект
Б) эффект термопары
В) парниковый эффект
Г) эффект Холла
6. Для измерения t◦ расплавленных металлов применяются термопары с…
А) удлинительными термоэлектродами
Б) модулятором
В) аттенюатором
Г) тензоэффектом
7. Следующие приборы являются датчиками
А) вольтметр
Б) амперметр
В) терморезистор
Г) осциллограф
8. Ёмкость в емкостном датчике уменьшается при…
А) увеличении индуктивности
Б) увеличении расстояния между пластинами
В) увеличении сопротивления
Г) увеличении корпуса датчика
9. Профилометр это…
А) тензодатчик
Б) пьезодатчик для измерения шероховатостей поверхностей
В) реостатный датчик
Г) контактный датчик
10. Укажите тип выходной величины после контактного датчика.
А) ступенчатая
Б) не ступенчатая
В) генераторная
Г) электролитическая
11. Прямой термооэффект это…
А) наведение термо ЭДС при разной t◦ сплавов
Б) нагрев спая при прохождении тока
В) изменение сопротивления датчика при нагреве
Г) деформации датчика при нагреве
12. Термосопротивление бывает…
А) платиновое
Б) константановое
В) электростатическое
Г) манганитовое
13. Тензодатчики включаются в следующую схему…
А) мостовое
Б) четырехпроводная
В) последовательное
Г) трехпроводная
14. Модуляция это…
А) передача сигнала на расстояние
Б) способ измерения механической величины
В) способ измерения электрической величины
Г) визуализация изображения
15. Видеоизображение передаётся с помощью…
А) АМ (амплитудной модуляции)
Б) ЧМ (частотной модуляции)
В) ШИМ (широтно-импульсная модуляция)
Г) АКМ (амплитудно-кодовая модуляция)
16. В частотной модуляции изменяется:
А) амплитуда
Б) частота
В) угол сдвига фаз
Г) длительность импульсов
17. При амплитудно-кодовой модуляции сигнал передаётся…
А) с помощью беспроводной связи
Б) с помощью кодов
Г) с помощью девиации частоты
Д) длительность импульсов
18. Механические перемещения измеряют следующие датчики:
А) фотодатчик
Б) светодиод
В) термодатчики
Г) емкостные датчики
19. Изменение уровня жидкости можно измерить с помощью датчиков:
А) емкостного
Б) терморезистора
В) фотопреобразователя
Г) тензодатчика
20. Высокие температуры измеряют с помощью…
А) биметаллических пластин
Б) термопары
В) корреляционного метода
Г) радиационного метода
Ответы к комплексному тесту по дисциплинам цикла ОП «МДК 04.01» специальности СПО
№ п/п | 1 вариант | 2 вариант | 3 вариант | 4 вариант |
|
А | А | В | А |
|
Б | Г | А | Б |
|
Б | А | Б | Б |
|
А | Б | А | Г |
|
В | А | В | Б |
|
А | В | В | А |
|
Б | В | Б | В |
|
Б | Б | Б | Б |
|
Б | В | Б | Б |
|
А | А | А | А |
|
А | А | А | А |
|
А | А | А | А |
|
А | А | А | А |
|
А | А | А | А |
|
А | А | А | А |
|
Б | Б | Б | Б |
|
Б | Б | Б | Б |
|
Г | Г | Г | Г |
|
А | А | А | А |
|
Б | Б | Б | Б |
Критерии оценки
Для оценки результатов тестирования предусмотрена следующая система оценивания учебных достижений студентов:
За каждый правильный ответ ставится 1 балл,
За неправильный ответ – 0 баллов.
Тестовые оценки можно соотнести с общепринятой пятибалльной системой. Оценивание осуществляется по следующей схеме:
— оценка «5» (отлично) выставляется студентам за верные ответы, которые составляют 91 % и более от общего количества вопросов. Это 18 – 20 вопросов;
— оценка «4» (хорошо) соответствует результатам тестирования, которые содержат от 71 % до 90 % правильных ответов. Это 14 – 17 вопросов;
— оценка «3» (удовлетворительно) от 70 % до 50 % правильных ответов. Это 10 – 13 вопросов;
— оценка «2» (неудовлетворительно) соответствует результатам тестирования, содержащие менее 50 % правильных ответов. Это 9 вопросов и менее.
ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ
ГБПОУ ПК им. Н.Н. Годовикова
БЛАНК ОТВЕТОВ
Дата тестирования____________________ Дата проверки ____________________
Ф.И.О. студента ______________________ Ф.И.О. проверяющего ______________
Группа______________________________ Кол-во правильных ответов _________
Дисциплина Кол-во неправильных ответов ________
Подпись студента_____________________ Оценка ___________________________
Вариант №___________________________ Подпись проверяющего _____________
№
п-п |
ВАРИАНТЫ ОТВЕТОВ | №
п-п |
ВАРИАНТЫ ОТВЕТОВ | |
|
16 | |||
|
17 | |||
|
18 | |||
|
19 | |||
|
20 | |||
|
21 | |||
|
22 | |||
|
23 | |||
|
24 | |||
|
25 | |||
|
26 | |||
|
27 | |||
|
28 | |||
|
29 | |||
|
30 |
МЕТОДИЧЕСКИЕ
РЕКОМЕНДАЦИИ
по
составлению и оформлению тестовых заданий
ВВЕДЕНИЕ
Один из
элементов системы оценки качества – тестирование учебных достижений обучающихся.
Система тестирования – универсальный инструмент определения уровня обученности обучающихся
на всех этапах образовательного процесса, в том числе для оценки уровня
остаточных знаний.
Тест обладает
способностью сравнивать индивидуальный уровень знания каждого обучающегося с
некими эталонами, уровень знания отражается в тестовом балле испытуемого.
Индивидуальные результаты тестирования можно сравнить с результатами других обучающихся
этой же группы и проранжировать их, можно сравнить результаты тестирования
нескольких групп и т.д.
С помощью теста можно
оценить структуру знаний, то есть установить наличие последовательности
в усвоенных обучающимися знаниях, отсутствие пробелов.
Методические
рекомендации по составлению и оформлению тестовых заданий имеют целью
определить единые требования к составлению тестов по учебным дисциплинам/МДК,
предназначенных для проверки уровня и структуры знаний обучающихся техникума.
Объективность
результатов тестирования, в первую очередь, зависит от качества тестовых материалов,
поэтому при разработке необходимо учитывать комплекс требований, диктуемых
положениями теории и практики тестирования.
Методические
рекомендации помогут унифицировать тестовые материалы. Тестирование —
лишь один из способов оценки качества подготовки обучающихся. Тестирование
не заменяет, а дополняет другие формы диагностики, контроля и оценки уровня
обученности.
Методические
рекомендации призваны способствовать:
— формированию культуры тестирования в
системе оценки качества обученности обучающихся;
— повышению объективности процессов и
результатов оценки учебных достижений обучающихся;
— созданию необходимых предпосылок и
условий для совершенствования содержания и структуры образовательного процесса;
—
повышению уровня квалификации педагогов, непосредственно разрабатывающих и
применяющих тестовые материалы.
- СЛОВАРЬ ТЕРМИНОВ
Тестирование —
один из наиболее эффективных методов выявления и оценки уровня учебных
достижений обучающихся, осуществляемый посредством стандартизированных
материалов — тестовых заданий; технологический процесс, реализуемый в форме
алгоритмически упорядоченного взаимодействия студента с системой тестовых
заданий и завершающийся оцениванием результатов.
Тестовое задание (ТЗ)
— варьирующаяся по элементам содержания и по трудности единица контрольного
материала, сформулированная в утвердительной форме предложения с неизвестным.
Подстановка правильного ответа вместо неизвестного компонента превращает
задание в истинное высказывание, подстановка неправильного ответа приводит к
образованию ложного высказывания, что свидетельствует о незнании студентом
данного учебного материала.
Тест —
система заданий возрастающей трудности специфической формы, позволяющая
качественно и эффективно определить уровень и оценить структуру
подготовленности тестируемого.
Контролирующий тест
— тест, выступающий в качестве метода или способа измерения уровня и структуры
знаний обучающихся.
Банк тестовых заданий
– логически упорядоченный набор тестовых заданий, позволяющих генерировать
множество тестов.
Спецификация теста
— система характеристик теста, отражающая его содержание и структуру.
Надежность теста –
характеристика теста, свидетельствующая о постоянстве эмпирических измерений,
то есть многократном повторении.
Валидность теста —
действительная способность теста измерять ту характеристику, для диагностики
которой он заявлен.
Дистрактор —
близкий искомому по своему смыслу вариант ответа, но не являющийся таковым.
Эталон – это
правильный и полный ответ или метод выполнения заданной деятельности.
II. ФОРМЫ
ТЕСТОВЫХ ЗАДАНИЙ
По
классификации тестов, предложенной Аванесовым В.С., можно выделить тестовые
задания четырех основных форм:
·
задания
закрытой формы, в которых испытуемый выбирает один или несколько
вариантов ответов из списка предложенных;
·
задания
открытой формы, требующие от испытуемого самостоятельного ответа (в
текст задания вписывается слово, вставляется формула и т.д.);
·
задания
на установление соответствия, выполнение которых связано с выявлением
соответствия между элементами двух множеств;
·
задания
на установление правильной последовательности, в которых требуется
указать правильный порядок действий или процессов.
Задания закрытой
формы:
— задания с
выбором одного правильного ответа (предлагается
несколько ответных альтернатив, но только один ответ – правильный);
— задания с
выбором наиболее правильного ответа (предлагается несколько
ответных альтернатив, в числе которых могут быть и неправильные, и правильные,
но в разной степени. От испытуемого требуется выбрать наиболее правильный
ответ);
— задания с
выбором всех правильных ответов (предлагается несколько ответных
альтернатив, в числе которых может быть несколько правильных. Испытуемый должен
выбрать все правильные ответы).
Задания закрытой формы
сопровождаются инструкцией: «Запишите номер/-а (цифру/-ы, букву/-ы)
правильного/-ых ответа/-ов».
Задания
открытой формы
В
заданиях открытой формы готовые ответы не даются, их должен получить или
придумать сам испытуемый. Задания открытой формы бывают двух типов:
— задания на
дополнение;
— задания со
свободно конструируемым ответом.
Для
задания открытой формы рекомендуется использовать инструкцию, состоящую из
слов: «Дополните фразу», «Дайте определение..» и т.п..
Задания
на установление соответствия
Они могут быть
двух типов:
— Соответствия
взаимно-однозначные: любому элементу из левого столбца соответствует только
один элемент из правого столбца и наоборот;
— Соответствия
не взаимно-однозначные: различным элементам из левого столбца может
соответствовать один и тот же элемент из правого столбца.
К
заданиям предлагается стандартная инструкция, состоящая из двух слов:
«Установите соответствие».
Задания
на установление правильной последовательности
Эта
форма заданий проверяет определенные знания: алгоритмические, процессуальные,
процедурные, технологические.
Стандартная инструкция к заданиям этой формы имеет вид
«Установите правильную последовательность».
Сопоставительный
анализ характеристик тестовых заданий
Характеристики |
Задания закрытой формы |
Задания открытой формы |
Задания на установление соответствия |
Задания на установление |
Проверка знания фактов |
Годны |
Годны |
Годны |
Годны |
Применение знаний по образцу |
Годны |
Годны |
Годны |
Годны |
Применение знаний в нестандартных ситуациях |
Негодны |
Годны |
Негодны |
Годны |
Простота конструирования |
Есть |
Есть |
Нет |
Нет |
Исключение угадывания |
Не исключено |
Исключено |
Не исключено |
Не исключено |
Объективность оценки |
Да |
Нет |
Да |
Да |
Исключение описок |
Нет |
Да |
Нет |
Нет |
Возможность оригинального ответа |
Нет |
Да |
Да/Нет |
Нет |
III. Уровни сложности тестовых заданий
ТЗ должны быть различного уровня сложности
(классификация тестов по В.С. Беспалько).
Первый
уровень
– ознакомительный (узнавание ранее изученных объектов, свойств): тесты
на узнавание, т.е. отождествление объекта и его обозначения (задания на
опознание, различение или классификацию объектов, явлений и понятий,
соотнесение). Вопросы задаются в открытой и закрытой формах по основным дидактическим
единицам дисциплины («да» — «нет», «выбрать один или несколько правильных
ответов», «соотнести объекты и их характеристики, свойства»).
Второй
уровень
— репродуктивный (выполнение деятельности по образцу, инструкции):
тесты-подстановки, в которых намеренно пропущено слово, фраза,
формула или другой какой-либо существенный элемент текста, и конструктивные
тесты, в которых обучающимся в отличие от теста-подстановки не
содержится никакой помощи даже в виде намеков и требуется дать определение
какому-либо понятию, указать случай действия какой-либо закономерности и т.д. В
качестве тестов второго уровня могут использоваться и типовые задачи,
условия которых позволяют «с места» применять известную разрешающую их
процедуру (правило, формулу, алгоритм) и получать необходимый ответ на
поставленный в задаче вопрос.
Третий
уровень
– продуктивный (планирование и самостоятельное выполнение
деятельности, решение проблемных задач): нетиповые задачи на
применение знаний в реальной практической деятельности и тест «Черный
ящик».
Условия нетиповой задачи формулируются близкими к тем,
которые имели место в реальной жизненной обстановке. Решение такой задачи
состоит в сведении ее к типовой путем преобразования известных формул или
нахождения алгоритма решения. Проверяется деятельность в нестандартной ситуации
по аналогии, сходству между изученными и не изучавшимися ранее элементами.
Тест «Черный ящик»
представляет собой проблемную ситуацию, решение которой содержится в известных
обучающимся знаниях и умениях. Опираясь на них, обучающиеся
решают предложенное задание. («Определите то, что находится в чёрном ящике:
Через него пропускают переменный ток. Чем меньше его частота, тем меньше
сопротивление того. Что в чёрном ящике?» Эталон: конденсатор).
Рекомендуемое распределение
заданий в одном тесте по уровням:
заданий
I уровня –
не более 30% (20-25% заданий разных форм),
заданий
II уровня –
60-70%;
заданий
III уровня –
5-10%.
IV.
ТРЕБОВАНИЯ К ТЕСТОВЫМ ЗАДАНИЯМ
Общие требования
1. Соответствие
ФГОС и рабочей программе учебной дисциплины.
2. Содержание
ТЗ должно отражать знания, умения, практический опыт, которые необходимо
проверить.
3. Содержание
каждого ТЗ должно охватывать какую-либо одну смысловую единицу, то есть должно
оценивать что-то одно.
4. Наличие
ТЗ различной формы и уровня сложности.
5. Формулировка
задания должна быть не в форме вопроса, а в форме утверждения. Предложение
должно быть сформулировано грамотно, коротко, четко, ясно, без повторов,
малопонятных слов и символов, без использования отрицательных частиц. Не
рекомендуется начинать ТЗ с предлога, союза, частицы.
6. Наличие
правильного ответа к разработанному заданию.
7. Среднее время,
отводимое на выполнение одной задачи (вопроса) теста обучающимся, должно быть
минимум 1 минута, а максимум – 3-5 минут.
8. Соблюдение
единого стиля оформления заданий, входящих в один тест.
В дополнение к
общим требованиям существует еще ряд других, обусловленных спецификой
выбранной тестовой формы.
Требования к заданиям закрытой формы:
— Основная
часть задания формулируется в форме утверждения, которое обращается в истинное
или ложное высказывание после подстановки одного из вариантов ответа.
— Задание
формулируется предельно кратко, как правило, в форме предложения, состоящего из
7-8 слов. В основную часть задания следует включать как можно больше слов,
оставляя для ответа не более 2-3 наиболее важных, ключевых для данной проблемы
понятий.
— Из текста
задания необходимо исключать все ассоциации, способствующие выбору правильного
ответа с помощью догадки.
— ТЗ
закрытой формы должны содержать не более пяти вариантов ответов на каждый
вопрос (оптимально – 4 варианта).
— Среди
предложенных вариантов ответа может быть как один, так и несколько верных.
— В ответах
не рекомендуется использовать слова «все», «ни одного», «никогда», «всегда» и
т.п., так как в отдельных случаях они способствуют угадыванию правильного
ответа.
Примеры (уровень
сложности — 1):
1. Преобразование
электрических колебаний в звуковые происходит в …
а) микрофоне;
б) динамике;
в) детекторе
радиоприёмника;
г) приёмной
антенне.
2.
В данном списке найдите два региона России, в которых нет
городов-миллионеров:
Требования
к тестовым заданиям открытой формы:
—
Текст
задания должен обладать предельно простой синтаксической конструкцией. В тексте
задания не должно быть повторов и двойного отрицания.
—
Место
пропущенного понятия обозначается точками или нижним подчеркиванием. Точки/подчеркивание
ставятся на месте ключевого элемента, знание которого является наиболее
существенным для контролируемого материала. Если это возможно, то после точек/подчеркивания
указываются единицы измерения. Все точки/подчеркивания
в заданиях для одного теста рекомендуется делать равной длины.
—
Обычно
ответом служит одно слово или словосочетание, состоящее не более чем из двух
слов.
—
При
указании составителем теста правильного ответа должны быть перечислены все
возможные варианты написания слова-ответа.
Примеры (уровень
сложности 2):
1. Конституцией
определено, что забастовка – это временный … отказ работников от выполнения
обязанностей в целях разрешения спора.
Ответ:
добровольный.
2.
Низменность – это вид ______, с ____ высотой до __ метров.
Ответ:
равнины, абсолютной, 2000.
Требования
к тестовым заданиям на установление соответствия
—
Группы
объектов, между которыми устанавливается соответствие, могут быть одинакового
размера, но предпочтительнее, чтобы одна была больше другой (допускается одна
лишняя позиция).
—
Соответствие
между объектами групп должно быть однозначным, одному элементу первого
множества должен соответствовать один элемент второго множества.
— К
заданиям предлагается стандартная инструкция, состоящая из слов: «Установите
соответствие».
Пример
(уровень сложности 1):
Установите
соответствие между видами конфликтов и их характеристикой.
Столкновение |
Внутригрупповой |
Внутреннее |
Внутриличностный |
Столкновение |
Межгрупповой |
Столкновение |
Межличностный |
Требования
к тестовым заданиям на установление правильной последовательности
—
Последовательность
устанавливаемых объектов должна быть однозначной, не рекомендуется составлять
последовательность, требующую повторения одного из объектов.
—
В
основном тексте задания должно быть указание на направление последовательности.
— Стандартная
инструкция к заданиям четвертой формы имеет вид «Установите правильную
последовательность».
Пример
(уровень сложности 2):
Установите
последовательность этапов переговорного процесса:
o Подготовительный
этап
o Взаимное
уточнение позиций участников
o Выдвижение
аргументов и обоснование своих взглядов
o Согласование
позиций и выработка договоренностей
o Анализ
результатов переговоров
Примеры заданий 3 уровня сложности:
1.
Составьте алгоритм трудовых действий продавца по продаже сыра в молочном
отделе.
2.
Группа обучающихся выполняла облицовку стен в столовой керамической плиткой.
После окончания работы оказалось, что ширина швов на облицованной поверхности —
неодинаковая. Раствор был качественный, поверхность была подготовлена
правильно. Отчего это произошло?
V. Структура теста
Основными структурными
компонентами теста являются:
·
Спецификация
теста
·
Инструкция
для тестируемых
·
Основной
текст
·
Эталон ответов и критерии оценки
Спецификация
теста
В
спецификации теста описываются основные характеристики теста. К характеристикам
теста относятся: название дисциплины, по которой составлен тест; название темы,
по которой составлен тест; цель теста; содержание теста, критерии оценки.
Возможные цели тестов: для контролирующих тестов
основной целью является проверка (контроль) усвоенных обучающимися знаний и
навыков по конкретной учебной дисциплине.
Целью текущего контроля является проверка знаний и навыков по
одной или нескольким темам учебной дисциплины, по одному разделу.
Целью итогового контроля является проверка знаний и навыков по
всей учебной дисциплине в целом.
Целью может быть проверка уровня остаточных знаний по дисциплине.
Инструкция
для тестируемых
Инструкция должна содержать указания на то, что и как обучающийся
должен сделать, какое количество времени дается на его выполнение, какой
стратегии должен придерживаться испытуемый (например, если не знаете ответ на
задание, приступайте к выполнению следующего), что надо сделать, чтобы записать
правильный ответ.
Перед группой однотипных заданий можно поместить общую инструкцию.
Очень важно указать, каким образом нужно делать отметки при выполнении заданий:
например, для тестовых заданий открытой формы – вписать ответ в отведенное
место.
Если тест включает различные формы заданий, то при смене форм,
перед каждой частью теста можно дать дополнительную инструкцию по выполнению
данной формы задания.
Эталон ответов и
критерии оценки
Данный
компонент является обязательной составной частью теста, который предназначен
преподавателям, которые должны проверить тест.
VI. Этапы составления тестов
Для облегчения процедуры
составления тестов учебный материал должен быть достаточно формализован, т.е.
каждый раздел, тему учебной дисциплины (МДК) необходимо представить в виде
таких задач и (или) вопросов, которые наиболее полно отображают содержание дисциплины
(МДК). При этом важно выделить главные (проблемные) вопросы, не увлекаясь
второстепенными.
На втором этапе, в зависимости
от цели тестирования (текущий контроль знаний, итоговый контроль знаний, оценка
остаточных знаний и др.) и формы теста, разрабатывается план раскладки задач и
вопросов в тестовые задания. Формализация учебного материала и составление
тестовых заданий — наиболее ответственные и сложные этапы составления тестов.
Рекомендуемое время
тестирования и количество вопросов (из расчёта 1-3 минуты — на выполнение
одного тестового задания):
—
тест для текущего контроля на 12-15 мин может содержать 6-7
тестовых заданий,
—
тесты для промежуточной аттестации на 90 мин должны включать не
менее 30 тестовых заданий,
—
тесты для промежуточной аттестации на 45 мин – не менее 15
тестовых заданий.
После составления тестовых
заданий педагог оформляет эталон ответов (Приложение 2), инструкцию для
тестируемых, определяет критерии оценки.
VII. методика оценивания ответов
Методика
оценивания ответов обучающихся должна быть проста, объективна и удобна для
обработки результатов тестирования.
Пример системы оценивания для разноуровневых заданий:
— ТЗ
1 уровня: правильный ответ – 1 балл; неправильный ответ – 0 баллов.
— ТЗ
2 уровня: правильный ответ – 2 балла; частично правильный ответ – 1 балл;
неправильный ответ – 0 баллов.
— ТЗ
3 уровня: правильный ответ – 3 балла; правильный ответ, но сопровождающие
записи с ошибками, или неправильный ответ, но записи свидетельствуют о
правильности хода размышлений – 2 балла; частичное решение или частичный ответ,
который не доведен до логического завершения – 1 балл; в остальных случаях – 0
баллов.
Суммируя
количество баллов за каждое задание, получаем максимальное количество баллов –
100%. Затем рассчитываем количество баллов на «4» и «3».
Рекомендуемая шкала оценки текста:
«3» — от 50% до 70% правильных ответов
«4» — от 71% до 90%
«5» — от 91% до 100%
ЗАКЛЮЧЕНИЕ
Рассмотрим достоинства и недостатки тестовой
проверки знаний.
Достоинства
От традиционных оценок
контроля знаний обучающихся тесты отличаются объективностью измерения
результатов обучения, поскольку они ориентируются не на субъективное мнение преподавателя,
а на объективные эмпирические критерии; быстротой получения результата, установления
связи с обучающимся и обсуждения результатов. Тест позволяет охватить большее
число обучающихся на уроке, экономя время на контроле. Эта форма контроля дисциплинирует
обучающихся, приучая их постоянно готовиться к систематическому тестовому
контролю, а так же улучшает психологическую атмосферу учебного процесса, преподаватель
перестаёт быть источником отрицательных эмоций при оценивании знаний.
Недостатки
Одним из недостатков тестовой формы
является возможность угадывания в заданиях закрытого типа. Если тестовое
задание содержит всего два варианта ответа, то половину ответов на такое
тестовое задание можно угадать. Так же существует возможность списать ответы на
тесты закрытого типа. Преподаватель не видит хода решения (хода мыслительной
деятельности обучающегося), если результаты своей работы обучающийся
представляет только в виде номера ответа, гарантии наличия знаний у обучающегося
нет. В тестах трудно выявить степень овладения умениями проводить наблюдения,
опыты, определять объекты, не развивается речь обучающегося.
На основании сказанного, можно
сделать вывод о преимуществе тестовой проверки знаний по сравнению с
традиционными формами контроля. Тестовые задания удобно использовать при организации
самоконтроля, при повторении учебного материала, при подготовке к уроку. Тесты
с успехом можно использовать наряду с другими формами контроля. Главное
достоинство тестовой проверки – в ее скорости, а традиционной проверки – в её
основательности.
Требования к составлению тестов
При составлении тестовых заданий следует учитывать следующие правила:
1.Содержание заданий должно отвечать программным требованиям и отражать содержание обучения.
2.Формулирование вопроса начинать с подбора правильного ответа, чтобы избежать двух часто встречающихся проблем: наличие более одного правильного ответа, наличие только неправильных ответов. Основное требование – тестовое задание должно иметь однозначный правильный ответ.
3. Вопрос должен содержать одну законченную мысль (тестовое задание должно проверять один элемент знания). Если это не так, то становится неясным, с каким элементом знаний ученик не справляется, в чём заключена причина невыполнения задания.
4.Вопрос должен быть чётко сформулирован. Особенно внимательно использовать слова “иногда”, “часто”, “всегда”, “никогда”. Они, с одной стороны, сами по себе содержат неопределённость, а с другой стороны – дают возможность учащимся догадаться о правильном ответе. Исключать по возможности слова “большой”, “небольшой”, “малый”, “много”, “мало”, “больше”, “меньше” и т. п.
5.Правильные ответы должны быть разумны, умело подобраны, не должно быть явных неточностей и подсказок.
6.Все варианты ответов должны быть грамматически согласованы с основной частью задания; следует использовать короткие, простые предложения.
7.Правильные и неправильные ответы должны быть однозначны по содержанию, структуре и общему количеству слов. Применять правдоподобные ошибочные варианты, взятые из опыта.
8.Место правильного ответа должно быть определено таким образом, чтобы оно не повторялось от вопроса к вопросу, не было закономерностей, а давалось в случайном порядке.
9.Лучше использовать длинный вопрос и короткий ответ. В противоположном случае на прочтение ответов уходит больше времени и тратится больше сил на анализ высказывания.
10.Дополнения лучше ставить в конце предложения.
Правила расположения заданий на листе.
1.Все задания должны быть на одной странице и под номерами.
2.У учеников должно быть достаточно места для записей (в заданиях открытого типа).
3.Размер шрифта должен соответствовать возрасту детей.
4.Варианты ответов располагать в один столбик.
Тестовые задания обязательно содержат систему проверки, обработки и анализа результатов. Проверка может осуществляться самими учениками в ходе урока (самопроверка, проверка в парах) или учителем после уроков. За правильно выполненное задание ученик получает определённое количество баллов. Все баллы суммируются, и по выбранной шкале ставится оценка.
Оценка “5” ставится за 95-100 % правильных ответов.
Оценка “4” ставится за 80-95 % правильных ответов.
Оценка “3” ставится за 65-80 % правильных ответов.
Оценка “2” ставится за 50-65 % правильных ответов.
Очень важно при проведении тестирования указывать время, необходимое для работы учащимся. Время является фактором, который определяет качество получаемых в процессе тестирования результатов. Увеличение времени приводит к утомлению учащихся, что в свою очередь повлияет на результаты тестирования. В начальной школе тестирование не должно занимать более 20-30 минут, в это время внимание поддерживается мотивацией. Я чаще всего использую тестовые задания для текущей проверки и включаю в них небольшое количество вопросов (5-7). Выполнение таких заданий занимает не более 7 минут. Снижает затраченное время и бланковая форма заданий. Учащимся выдаются заранее заготовленные бланки или индивидуальные листы с вопросами и вариантами ответов (для заданий закрытого типа). В 1-2 классах вопросы я читаю сама, что тоже приводит к уменьшению потраченного на эту работу времени. А также помогает всем детям, независимо от скорости чтения и темперамента, закончить работу в одно время.
Таким образом, неоспоримые преимущества для учителя тестовых заданий следующие:
• выявление знаний и умений каждого ученика;
• своевременное обнаружение пробелов в знаниях;
• быстрота проведения;
• простота проверки.
А для ученика следующие:
• этот вид работы не утомляет детей;
• не нужно формулировать ответ и думать, как его грамматически правильно написать;
• обладает самопроверкой.