ITEM RESPONSE ANALYSIS 1. Понятие латентной переменной. 2. Item Response Theory. 3. Вычисление логита трудности и логита подготовленности. 4. Модели IRT. 5. Основные принципы моделирования теста. Латентные переменные Свойство личности, измеряемое косвенным образом, посредством индикаторов, называется латентным (скрытым). Специалисты такую переменную могут описать, перечислив признаки, характеризующие проявление интересующего свойства. Например, «интеллект» непосредственно не измеряется, однако по проявляемым признакам можно оценить уровень интеллекта индивида; «подготовленность студентов», «знание учебной дисциплины», «способность понимать». Латентные переменные Чтобы измерить способность студента, необходимо разработать шкалу измерения, то есть сконструировать «линейку», позволяющую получить количественное значение способности студента. Это даст возможность сравнения нескольких индивидов. Теоретический диапазон изменения значений способности личности – от минус бесконечности до плюс бесконечности, со средним значением в области 0. На практике, при измерении способности, ограничиваются интервалом от -5 до +5, хотя надо иметь в виду, что возможны значения и за пределами выбранного диапазона. Item Response Theory Теория ответов на задания Современная теория тестов Теория латентных черт Теория характеристических кривых заданий Современная теория параметризации и моделирования тестов Item Response Theory Классическая теория – Уровень подготовленности зависит от трудности заданий, включенных в тест Трудность задания зависит от уровня подготовленности студентов, выполнивших тест (Hambleton и Swamination, 1985). Поэтому при использовании различных тестов характеристики задания и уровень подготовленности студентов измерены в различных шкалах, и, как следствие, несопоставимы (Wright & Stone, 1979). Item Response Theory IRT базируется на двух постулатах: 1. Результат выполнения студентом тестового задания может быть предсказан набором факторов, представленных скрытыми способностями. 2. Отношение между результатом выполнения студентом тестового задания и набором черт, лежащих в основе выполнения данного задания могут быть определены характеристической кривой задания (Hambleton & Swaminathan, 1985). Item Response Theory В IRT рассматривается три основных модели: 1) Трехпараметрическая модель, 2) Двухпараметрическая модель, 3) Однопараметрическая модель. Трехпараметрическая модель (Warm, 1978) – форма характеристической кривой определяется тремя параметрами: a – параметр дифференцирующей способности задания – задает крутизну характеристической кривой. b – параметр трудности тестового задания – указывает местоположение на оси уровня подготовленности (θ), где вероятность правильного ответа составляет 50%, Р(θ)=0,5. с – параметр угадывания – вероятность угадывания правильного ответа на задание. Трехпараметрическая модель Характеристические кривые заданий Двухпараметрическая модель Характеристические кривые заданий Однопараметрическая модель Характеристические кривые заданий Item Response Theory В IRT принимаются во внимание несколько мер трудности заданий: 1. 2. 3. 4. Доля неправильных ответов испытуемых на каждое задание проектируемого теста (qj); Отношение qj/pj , предложена Г. Рашем, ее можно условно назвать потенциалом трудности задания; Значение натурального логарифма отношения qj/pj; Корректированные в процессе шкалирования значения ln qj/p. В качестве окончательной меры трудности заданий принимается именно эта мера. В IRT она называется параметром трудности задания. Скорректированные значения ln pi/qi называются параметром подготовленности испытуемого. Item Response Theory Основная цель IRT-моделей Анализ различий в тестовых оценках, которые первоначально не линейны (Wright & Stone, 1973). Преобразование вероятностей в логиты позволяет исследователям сравнивать трудности заданий и уровень подготовленности студента независимо от используемого теста (Warm, 1978). График вероятностей доли правильных ответов и график логит-преобразованных вероятностей Первичные баллы. Нелинейность. Теория утверждает, а практика подтверждает, что даже небольшое изменение состава теста (в рамках той же учебной программы) приводит к другому ранжированию. При этом вполне возможна инверсия, то есть вполне может случиться так, что после этого изменения уже студент B окажется лучше студента A. Понятно, что ни о какой объективности и точности баллов здесь говорить не приходится. Увеличение такого балла на единицу дает различный вклад в реальный уровень подготовленности испытуемого в зависимости от того, к какому количеству баллов эта единица добавляется. Поэтому подобные баллы не являются взаимозаменяемыми, а соответствующая шкала не линейна, что недопустимо для объективных измерений. Первичные баллы. Линеаризация. Необходимая линеаризация состоит в выражении имеющейся в первичных баллах информации в терминах такой новой единицы, которая является неизменной на всем используемом диапазоне соответствующей метрической шкалы. Такой единицей является логит. Первичные баллы – исходные данные, а не результаты. Кстати, термин "балл" часто смущает и приводит к спорам о том, сколько баллов приписать верному выполнению того или иного задания. Споры эти беспочвенны, так как речь должна идти только о подсчете количества положительных исходов. Так что первичный балл - это, по существу, вовсе и не балл! Это не конечные результаты, а, наоборот, исходные данные. Если же пользоваться ими как результатом, то ни о какой объективности говорить не приходится. Невозможно всерьез говорить и о точности первичных баллов. По образному выражению одного из классиков тестологии, первичные баллы - это кривое зеркало, способное исказить реальную ситуацию причудливым образом и сделать серьезное дело смешным. Графическая интерпретация инвариантности оценок учебных достижений Графическая интерпретация неинвариантности первичных баллов. Разница в первичных баллах В случае инвариантности оценок учебных достижений разность между баллами двух испытуемых по результатам выполнения разных тестов должна остаться неизменной. При отсутствии инвариантности разности между баллами двух испытуемых по результатам выполнения обоих тестов различны, например, как на предыдущих слайдах. Таким образом, первичные баллы определяют собой конкретные факты и являются важными исходными данными, но не конечными результатами. Для того чтобы из фактов извлечь нужную информацию об уровне подготовленности испытуемых, необходима специальная теория, обеспечивающая, в частности, линеаризацию первичных баллов. Графическая иллюстрация линеаризации первичных баллов Логит трудности Вычисляются: 1. 2. 3. Начальные значения логита трудности тестовых заданий; Среднее значение для логита трудности, где р – количество заданий: p j сред. j 1 p Вариация для логита трудности, где р – количество заданий: p U ( ) i 1 i 2 2 p сред . p 1 Пример. Логит подготовленности: Вычисляются: 1. 2. Начальные значения логита подготовленности; Среднее значение для логита подготовленности, где n – количество тестируемых: n сред. 3. i 1 i n Вариация для логита подготовленности, где n – количество тестируемых: n V 2 2 ( ) n i сред. i 1 n 1 Пример. Выравнивание логитов: Цель: Устранение зависимости логита трудности тестовых заданий и логита подготовленности тестируемого от выборки тестируемых и используемого теста. Поправочные коэффициенты: Ошибка измерения: Для логита трудности: Для логита трудности: 1 V / 2.89 Y 1 U V / 8.35 Для логита подготовленности: 1 U / 2.89 X 1 U V / 8.35 S ( *j ) Y n pj qj Для логита подготовленности: S ( i* ) X n pi qi Скорректированные значения логита Возможный балл Частота, f логит подготовленност и, θi Скорректирован ный логит подготовленност и, θi*X 1 0 -2,565 -5,503 2 2 -1,792 -3,844 Количеств о правильн ых ответов на задание логит трудности, δj 4, 5 32 -2,997 -4,395 3 2 -1,299 -2,787 7 30 -2,240 -3,284 4 1 -0,916 -1,966 6, 9 26 -1,403 -2,058 5 4 -0,588 -1,261 8 25 -1,246 -1,828 6 7 -0,288 -0,617 10 23 -0,962 -1,411 7 9 0,000 0,000 11 13 0,255 0,374 8 1 0,288 0,617 13 9 0,797 1,169 9 2 0,588 1,261 12 6 1,316 1,930 10 3 0,916 1,966 14 4 1,790 2,625 11 1 1,299 2,787 15 2 2,548 3,736 12 2 1,792 3,844 16, 17 1 3,272 4,798 13 0 2,565 5,503 U= 4,841 U= 4,841 V= 0,722 V= 0,722 Y= 1,466 X= 2,145 Номер задания Скорректирован ный логит трудности, δj*Y Однопараметрическая модель Первая модель появилась в 1958 году, когда у Г. Раша возникла идея выразить вероятность правильного ответа на задание j посредством функции вида 1 1 p e 1 e 1 e ( ) e e θ - уровень подготовленности (знаний), латентная переменная; δ - уровень трудности конкретного, латентная переменная; e – константа, иррациональное число, равное округлённо 2,72. Однопараметрическая модель педагогического измерения В начале 50-х годов прошлого столетия датский математик G.Rasch стал рассматривать матрицу тестовых данных как результат взаимодействия множества испытуемых с множеством заданий. При этом естественным образом принималась аксиома - чем труднее задание для данного испытуемого, тем ниже вероятность правильного ответа. Из этой аксиомы следует свойство функциональности модели: вероятность правильного ответа испытуемых на задание j есть функция от взаимодействия двух параметров – от уровня подготовленности испытуемых θ и от уровня трудности задания δ. Формально это условие можно записать P(θ) = f(θ - δ), что позволяет говорить, что эта функция от одной переменной величины, от разности значений θ-δ. Графический образ функции Двухпараметрическая модель Вероятность правильного ответа на задание j вычисляется посредством функции вида p 1 e a j ( ) 1 θ – уровень подготовленности (знаний), латентная переменная; δ – уровень трудности конкретного, латентная переменная; e – константа, иррациональное число, равное округлённо 2,72; aj – дифференцирующая способность задания j. Трехпараметрическая модель Вероятность правильного ответа на задание j вычисляется посредством функции вида p с j (1 c j ) e a j ( ) 1 θ – уровень подготовленности (знаний), латентная переменная; δ – уровень трудности конкретного, латентная переменная; e – константа, иррациональное число, равное округлённо 2,72; aj – дифференцирующая способность задания j; cj – коэффициент угадывания. Взаимное расположение заданий и уровней подготовленности на шкале логитов Взаимное расположение заданий и уровней подготовленности на шкале логитов План апробации тестовых заданий 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Спасибо за внимание!