Некоторые системные дефекты ЕГЭ Г.Г.Малинецкий, А.В.Подлазов Институт прикладной математики им. М.В. Келдыша РАН РАЗЛИЧИЯ МЕЖДУ РАЗНЫМИ ВИДАМИ ЭКЗАМЕНА Фундаментальный порок единого государственного экзамена связан с тем, что его пытались приспособить для достижения одновременно целого ряда совершенно различных целей. Он был призван стать и итоговой аттестацией для выпускников, и вступительным испытанием для абитуриентов, и инструментом мониторинга системы образования, и средством контроля объективности школьных оценок. Однако при решении любой конкретной задачи универсальный инструмент неизбежно проигрывает специализированным (так, гусь летает, но значительно хуже орла, поет, но значительно хуже соловья, плавает, но значительно хуже пингвина, и бегает, но значительно хуже страуса). В частности, итоговая аттестация и вступительное испытание оказываются несовместимы по целому ряду причин, перечисленных в таблице. Тип испытания Цель испытания Участие в экзамене Оценка подготовленности Тип теста (по решаемой задаче) Содержательный смысл балла Необходимая шкала оценок Итоговая аттестация Тест достижений (взгляд в прошлое) Выявление худших Обязательное Абсолютная (сравнение с некоторым стандартом) Критериально-ориентированный (проверка усвоения учебного материала) Доля усвоенных знаний, умений и навыков из обязательного набора Нормированная (определено начало отсчета) Вступительное испытание Тест способностей (взгляд в будущее) Выявление лучших Добровольное Относительная (сравнение с другими экзаменуемыми) Нормативно-ориентированный (ранжировка испытуемых) Доля конкурентов, хуже освоивших предмет Метрическая (определена цена каждого балла, но не начало отсчета) Данная несовместимость вылилась в целый ряд вторичных дефектов. Остановимся на них подробнее. ИТОГОВАЯ АТТЕСТАЦИЯ Функция единого государственного экзамена как итоговой аттестации постепенно сходит на нет. Еще недавно как одно из важнейших достоинств ЕГЭ превозносилась его дифференцирующая способность, значительно более высокая, чем у оценок среднестатистического учителя. Сейчас же выпускной экзамен свелся к недифференцированному зачету, который обязателен всего по двум предметам – по русскому языку и математике. Попробуем понять, что же означает подтверждение освоения «основных общеобразовательных программ среднего (полного) общего образования в 2009 году» по этим предметам, без которого нельзя получить аттестат. Контрольно-измерительные материалы ЕГЭ по математике содержат 10 заданий части A с выбором ответа из четырех предложенных вариантов. При этом необходимо дать всего 4 верных ответа, чтобы избежать двойки. Если не знать совсем ничего и расставлять крестики наугад, то пройти итоговую аттестацию удается примерно в 2 случаях из 9. Однако, опираясь даже на фрагментарные знания или хотя бы на здравый смысл, вероятность успеха можно существенно повысить. Определим владение предметом как долю тех простых заданий, с которыми испытуемый может справиться, и будем считать, что в остальных случаях он просто гада- ет. В реальности не всегда имеет место четкое разделение на «знаю» или «гадаю», а часто происходит отбрасывание некоторых неверных вариантов ответа и случайный выбор между оставшимися вариантами. Однако математически эти ситуации однозначно связаны. Так, если испытуемый справляется с заданием с вероятностью p, а с вероятностью 1p случайно выбирает один вариант ответа из n предложенных, то в среднем это эквивалентно уменьшению числа возможных вариантов до n' = n / ((n1)∙p + 1). Зависимость вероятности подтвердить освоение общеобразовательной программы по математике от владения предметом приведена на рисунке. Видно, что крайне слабые знания обеспечивают довольно высокую вероятность успешной аттестации, которая достигает 50% при владении предметом на уровне всего 14%. Ситуация с ЕГЭ по русскому языку несколько менее однозначная. Здесь почти нереально получить зачет, только расставляя наугад крестики, поскольку необходимо набрать 15 баллов, а (однобалльных) заданий в части A всего лишь 30. Однако в контрольно-измерительных материалах по русскому языку ответ на задания части B, в которой разыгрывается еще 9 баллов, тоже выбирается из приведенного набора вариантов (в отличие от математики, где ответы в части B нужно получать самостоятельно). Эти варианты заведомо неравноценны, а их число непостоянно, в силу чего нельзя достоверно определить шансы на успех при угадывании ответов для заданий части B, но могут быть сформулированы следующие три гипотезы: оптимистичная – шансы угадать такие же, как и для части A, т.е. 1 : 4; реалистичная – шансы угадать примерно 1 : 10; пессимистичная – шансов угадать нет вообще. Как видно из рисунка, переход от оптимистичной гипотезы к пессимистичной эквивалентен изменению владения предметом примерно на 5%, т.е. особой разницы между крайними гипотезами нет, и разумно опираться на промежуточную реалистичную. Зависимости для математики и русского языка качественно довольно похожи, но количественно всё же различны, поэтому в простейшем случае уместно ориентироваться на точку пересечения графиков. Из ее положения можно сделать общий вывод, что 70% вероятность подтверждения освоения основных общеобразовательных программ по этим предметам обеспечивается владением ими на уровне только в 25%. А уровень владения в 33,3% (соответствующий пресловутому «попросим компьютер убрать два неверных ответа из четырех») поднимает вероятность успеха и вовсе до 80÷90%. Очевидно, что ценность подобной аттестации (заметим, даже не затрагивающей самых сложных заданий части C) близка к нулю. ПЕРЕСЧЕТ БАЛЛОВ При обработке результатов ЕГЭ первичные баллы, полученные экзаменуемым непосредственно за выполнение предложенных заданий, пересчитываются в тестовые баллы, которые и становятся экзаменационной оценкой, учитываемой при поступлении в вуз. Пересчет осуществляется с помощью инструментария модели частичного оценивания (partial credit model), принадлежащей к семейству методов параметризации педагогических тестов (item response theory). Их главным свойством является возможность сопоставлять достижения испытуемых, выполняющих разные варианты экзаменацион- 2 ных заданий. При этом для каждого варианта заданий должна возникать своя шкала пересчета первичных баллов в тестовые, определяемая его сложностью. Однако на практике при пересчете все шкалы, полученные для разных вариантов ЕГЭ, усредняются, и используется единая шкала, что полностью обессмысливает применяемую сложную методику. Невнимание к этой фундаментальной ошибке, воспроизводимой из года в год, свидетельствует о полном отсутствии у лиц, ответственных за организацию и проведение единого экзамена, понимания сути совершаемых ими действий. Однако даже исправление отмеченной ошибки ситуацию радикально не улучшит. Модель частичного оценивания имеет научное обоснование только для гомогенных (т.е. состоящих из однотипных заданий) тестов. В случае же столь сложной структуры тестов, которая необходима для вступительного экзамена (и тем более, в случае попыток его совмещения с выпускным), невозможно гарантировать достаточно высокую корреляцию результатов выполнения отдельных заданий с результатами выполнения теста в целом, что автоматически выводит нас из области применимости модели. Кроме того, в случае заданий, оцениваемых из нескольких баллов, модель частичного оценивания требует такой их структуры, при которой преодоление каждой последующей однобалльной ступеньки возможно только после и на основе преодоления всех предыдущих. Это условие также нарушается в случае ЕГЭ и, по-видимому, не может быть выполнено для экзаменов сколь-либо сложной структуры. В официальных документах, регламентирующих проведение ЕГЭ, полноценное описание методов обработки его результатов отсутствует. Вместо этого приводятся лишь ссылки на содержащие обоснование этих методов научные публикации. Их правовой статус остается неясным, а содержащиеся в них рекомендации на практике игнорируются или даже целенаправленно нарушаются. НЕЛИНЕЙНОСТЬ ШКАЛЫ И КОНКУРСНЫЙ ОТБОР Шкала пересчета первичных баллов в тестовые является существенно нелинейной. Цена каждого набранного или потерянного первичного балла максимальна по краям шкалы и минимальна в середине. Как можно видеть из рисунка, для большинства предметов, первые и последние 10% набранных первичных баллов дают столько же тестовых, сколько средние 80%. Пересчет по нелинейной шкале неизбежно усиливает ошибки определения первичного балла, причем разные на разных участках его диапазона. Так, для самых слабых и самых сильных оказывается очень велика погрешность итоговой оценки, выраженной в тестовых баллах, для середняков – погрешность позиционирования относительно конкурентов. Нелинейность шкалы пересчета не позволяет придать содержательный смысл тестовым баллам, а главное – их сумме, используемой при проведении набора в вузы. Ведь складывать можно только величины, имеющие одинаковый смысл (нельзя подсчитывая содержимое кошелька, суммировать номинальные суммы в разных валютах). Эти проблемы легко могут быть разрешены, если отказаться от перечета первичных баллов в тестовые с помощью модели частичного оценивания (ее возможности всё равно оказались невостребованными, а условия применимости – нарушенными) и перейти к рейтинг-баллам. Рейтинг-балл экзаменуемого определяется как процент его 3 конкурентов, набравших первичный балл не меньший, чем он. При этом автоматически происходит компенсация различий в трудности разных вариантов экзаменационных заданий, если рассчитывать соответствующий процент отдельно для каждого варианта. Принципиально важно, что каждый вариант имеет ограниченную область распространения (не выходящую за пределы часового пояса, а на практике ее следует еще более сузить). В результате чего друг с другом соревноваться будут абитуриенты, получавшие образование в одном и том же регионе, т.е. в сходных социальноэкономических условиях, что намного справедливей и разумней, чем соревнование по стране в целом. Результаты абитуриента, измеряемые долей конкурентов, которых он сумел превзойти, будут точнее свидетельствовать о его потенциале, если все участники конкурса находятся в одинаковом положении. В случае использования рейтингбаллов экзаменуемые будут распределены по результатам равномерно, что должно выражаться линейным видом графика распределения. А для используемого ныне тестового балла он, как можно видеть на рисунке, имеет широкие области насыщения по краям. По большинству предметов средней, более-менее линейной области графика, на которую приходится 90% экзаменуемых, соответствует диапазон шириной лишь в 35÷50 тестовых баллов из 100. В результате, в дополнение к нелинейным искажениям происходит двух-трехкратное ухудшение дифференцирующей способности экзамена. ВЛИЯНИЕ ЕГЭ НА СОДЕРЖАНИЕ ОБРАЗОВАНИЯ Любому учителю известно, что форма контроля определяет форму учебной деятельности. То, что не контролируется, становится необязательным. А формат единого экзамена в принципе не пригоден для проверки целого ряда знаний, умений и навыков. Так, например, на ЕГЭ невозможна проверка навыков лабораторного практикума по физике и химии или умения вести диалог и последовательно отстаивать свою точку зрения, жизненно необходимого для гуманитарных дисциплин. Другой пример – навык использования справочной литературой. Ему не только следует обучать, его надо прямо разрешать на экзамене, что позволило бы удалить из контрольно-измерительных материалов большую часть бессодержательных вопросов, апеллирующих исключительно к памяти на детали, но не к пониманию сути. ЕГЭ требует знания определенного набора фактов, но практически не требует их анализа, умения видеть взаимосвязи и понимать структуру изучаемой дисциплины. Тем более он не позволяет выявить навыки рефлексии и объяснения своих знаний и умений. Способность работать с информацией (преобразовать способ ее представления, сократить или дополнить) также больше не проверяется, а значит, и не вырабатывается. Отдельной проблемой становятся наличие в большинстве дисциплин множества различных концепций и трактовок, систем терминов и классификаций, приближений и уровней описания. Чтобы при этом успешно справляться с заданиями, предполагающими единственно верный ответ, школьник должен изучать предмет ровно в той системе взглядов, которой пользуются составители заданий. Если он читал другой учебник или его знания выходят за пределы школьной программы, он неизбежно оказывается в проигрыше. В результате происходит насаждение единомыслия, а то и безмыслия. 4 Таким образом, ЕГЭ из инструмента контроля и измерения в сфере образования превратился в фактор, определяющий содержание и формы образования. 5