ЛАВОШНИКОВА Э. К. WORD)

реклама
ЛАВОШНИКОВА Э. К.
О недоработках в системных словарях компьютерных спеллеров (НА ПРИМЕРЕ MS
WORD)
Переработанный с учетом очередной версии MICROSOFT WORD вариант статьи,
опубликованной в сб. Научно-техническая информация. Серия 2. Информационные
процессы и системы. 2004, № 9, с. 31–38.
Рассматриваются проблемы компьютерной проверки орфографии в текстах на русском
языке. Работа автокорректора разбирается на примере одного из самых распространенных
– спеллера ОРФО 2003, встроенного в текстовый редактор MS WORD. Показано на
конкретных примерах, что при перенасыщенности основного системного словаря
Word’овской системы проверки правописания низкочастотной лексикой (без
необходимых помет) эффективность проверки снижается, ошибки и опечатки могут
пропускаться. Даются рекомендации разработчикам новых версий по организации
системных словарей и улучшению работы программы-«подсказки»
ВВЕДЕНИЕ
Программы, проверяющие правописание, называют орфокорректорами или
автокорректорами, а также спеллерами или спеллинг-чекерами. Одна из самых
распространенных в настоящее время систем проверки правописания – автокорректор
ОРФО 2003 (встроенный в текстовый редактор MICROSOFT WORD), на который мы и
будем ссылаться.
По сравнению с предыдущими версиями ОРФО, о которых мы писали, многие недостатки
уже исправлены. Но иногда при этом возникают новые ошибки.
При компьютерной проверке слова из текста обычно сравниваются со словоформами,
имеющимися или порождаемыми (из основ и окончаний) в системных словарях. Если
слово в компьютерных словарях не найдено, то оно либо «новое», т. е. пока еще не
включенное в словари текстового редактора, либо содержит ошибку.
Предусматриваемые классы ошибок включены в виде правил в списки опций
«Грамматика» и «Стиль». Пользователю предоставляется возможность отключать любые
проверки. Мы проводили тестирование спеллера ОРФО при полностью задействованном
наборе правил.
^ 1. «ПЛЮРАЛИЗМ» В ОРФОГРАФИИ?
Мы не приветствуем пренебрежение орфографией и грамматическими правилами,
вошедшее в моду в последнее время. Процитируем статью «О понятии графемы» [1: 576]
академика РАН А. А. Зализняка:
«Образно выражаясь, орфография – это средство борьбы за единообразие против тех
лишних степеней свободы в передаче звучания, которые предоставляет графическая
система. Приемы, используемые в этой «борьбе», могут быть чрезвычайно
разнообразными. Так, орфографические правила могут требовать учета самых различных
аспектов слова или передаваемого им понятия (графика, фонология, морфонология,
морфология, синтаксис, семантика; происхождение слова; степень уважения пишущего к
соответствующему понятию и многое другое). Разнообразна также форма
орфографических правил. Так, одни из них сформулированы в общем виде (т. е.
применимы к целым классам слов), другие касаются только слов или морфем, заданных
списком. Одни прямо указывают графему, которую следует писать в рассматриваемых
случаях, другие указывают лишь путь к ее нахождению (ср. тест с проверкой родственных
слов и т. п.)».
В основном словаре автокорректора ОРФО текстового редактора MS WORD имеются
следующие лексемы:

ас и асс (спеллер пропускает без замечаний образование через дефис летчик-асс,
хотя неодушевленное существительное асс имеет значение «древнеримская
монета»),

достигать и достегать (‘закончить шитье стеганого одеяла’, от глагола стегать),

кортеж и картеж (картёж – игра в карты),

наживаться и нажеваться (от глагола жевать),

обживать и обжевать,

пародировать и парадировать (от существительного парад),

подражать и подрожать (от глагола дрожать),

прийти и прейти (‘пройти, миновать’).
Этот список может быть продолжен. Подобные не различаемые по звучанию пары слов
(омофоны) в словарях часто снабжены толкованиями. В текстах пользователей многие
низкочастотные слова (например, вторые члены пар из вышеприведенного списка) с
большей вероятностью (это можно проверить поиском в Интернете) могут возникнуть в
результате слабого знания орфографии или просто в результате опечаток. Однако при
проверке текстов спеллером ОРФО они пропускаются без замечаний (никак не
подчеркиваются), так как без всяких помет имеются в его основном системном словаре.
Нарушения синтаксиса, связанные с неправильным употреблением непереходного глагола
(Она парадировала знаменитую певицу), Word’овский спелл-чекер пока не выявляет.
Подробнее проблемы компьютерной коррекции синтаксических ошибок разбираются в
статьях [3, 4].
Не каждый пользователь при наборе текста станет обращаться к академическим словарям,
многие полагаются на спеллер, а если он пропускает вышеприведенные слова без
предупреждений и замечаний, то подобный «плюрализм» в написании слов противоречит
самому смыслу работы орфокорректора.
Чтобы проиллюстрировать, в какой степени можно полагаться на автокорректор ОРФО,
ниже приводятся специально придуманные предложения с «разрезанием» слов (дефисом
или пробелами), со «склеиванием» соседних словоформ, с пропуском букв и прочими
типичными ошибками (опечатками). Эти же фразы могли бы послужить для
тестирования и других компьютерных систем проверки правописания. Автокорректор
ОРФО при любой настройке не выдает никаких замечаний к таким «высказываниям». Нет
подчеркиваний красной волнистой линией – предупреждений о возможных
орфографических ошибках, так как все эти словоформы (цепочки букв от пробела до
пробела или знака препинания) имеются или порождаются в основном словаре спеллера,
нет и подчеркиваний зеленой волнистой линией – предупреждений о синтаксических или
стилистических ошибках. В примечаниях к этим фразам-тестам даны заглавные слова и
фрагменты словарных статей, взятые из «Русского орфографического словаря» [5].
1. В оологическом саду жил не очень глад кий ежь, его принес од ин пи онер, который в
школе постегал оологию.
Ср.: оологический, глад, кий, ёжить(ся), ода, «ин, частица», «пи, нескл., с. (название
буквы, матем.)», «онёр: со всеми онёрами», «постегать... (к стегать)», оология.

Архаизм глад не имеет соответствующей пометы в словаре ОРФО, поэтому
ошибочное разбиение слова гладкий в данном примере спеллер пропускает без
замечаний.

При ошибочном написании слова еж с мягким знаком получился императив
(«Ёжь!») от неупотребительного глагола ёжить.

Частица ин в современном языке почти не употребляется, о чем спеллер мог бы
предупреждать пользователя. Эта частица может быть получена при нечаянной
вставке пробела: карт ин, крестьян ин, ин вариант, ин станция.

Слово онер употребляется только в выражении со всеми онёрами, о чем
сигнализирует двоеточие в соответствующей словарной статье в словаре А. А.
Зализняка, но ОРФО порождает полную его парадигму (онера, онеру и т. д.),
которая засоряет системный словарь и мешает спеллеру обнаруживать опечатки
(например, в словоформе опер) или разбиения некоторых слов (пи онеры, т онер и
др.).
2. Вы после пол-учения нашесть тысяч больше запродажу неправильно мыслете.
Вышвыряете кучу де нег для не вежд.
Ср.: учение, запродажа, «мыслете, нескл., с. (название буквы)», вышвырять, нега,
«вежды... ед. вежда».

Слова де как такового нет в словаре Зализняка, есть словарная статья
«-де (без удар.) част.», где имеется предшествующий дефис (из-за
присутствия де в словарях ОРФО пропускаются разбиения: арен де,
де юре, де американизация, де генерация).

При ошибочном появлении дефиса в словоформе получения
получилась «половина учения».
3. Закраем села вкруг нетям и кочек и ни одного пеше хода..
Ср.: «закрай, -я, (закраек), «вкруг, нареч. (устар. к вокруг)», «нети: в нетях», яма, пеший.

Слово нети («в нетях») не должно употребляться в именительном
падеже или в форме нетям (в данном примере произошло склеивание
слова нет со словоформой ям).
^ 2. «КАК СЛОВО НАШЕ ОТЗОВЕТСЯ?»
Далее мы получим новые подтверждения перегруженности основного системного словаря
текстового редактора MS Word низкочастотной лексикой, которая мешает выявлению
ошибок и опечаток.
В основном словаре автокорректора ОРФО представлены: контролер и контроллер
(аппарат), морской термин протрактор, ботанические термины перилла и ость, термин
севр (фарфор), геологический термин трапп, астрономический вертикал, математический
комплемент, музыкальные термины затакт, нона и нонет (совпадение с последними
тремя терминами может получиться при отсутствии пробела – при склеивании слов).
Никаких предупреждений к узкоспециальным терминам, «похожим» на более
употребительные словоформы и конструкции, системная подсказка ОРФО пока не выдает.
В идеале по желанию пользователей им должны предоставляться дополнительно
различные тематические словари. Правда, система дает пользователю возможность
завести свой небольшой личный словарь.
При сканировании со сгиба развернутой книги иногда могут не считаться в память
компьютера первые или последние символы строки. Если в прилагательных маленький
или остаточный пропадет первая буква, то Word’овский спеллер на получившиеся слова
аленький и статочный («Статочное ли дело?») никак не прореагирует даже при
настройке на «деловую переписку», тем более что синтаксис предложения останется без
изменений.
Многие короткие слова нередко совпадают с началами или концами более длинных
словоформ и могут при случайных разбиениях слова пропускаться спеллером без
замечаний. С этим приходится мириться. В словарях ОРФО имеются и пропускаются в
текстах словоформы: ость, тать, ин, ер и т. п. Кстати, слово ер как старое название
твердого знака в словаре автокорректора ОРФО отсутствует (как и «старое название
буквы х»), хотя словоформа ер порождается. Это видно из того, что словоформы ером и
еров подчеркиваются красным. Как нетрудно убедиться, словоформы ер, ерой (ёр, ёрой) и
т. д. образуются в системе ОРФО от устаревшего существительного ёра. В «Толковом
словаре» Д. Н. Ушакова (1935 г.) дается значение слова ёра – «озорной гуляка, волокита».
В официальных текстах может встретиться заслеженный деятель вместо заслуженный
(малоупотребительное причастие заслеженный спеллером ОРФО пропускается без
замечаний). Нам встречалась (в научной статье) без всякой реакции спеллинг-чекера
глагольная форма материл вместо существительного материал.
Приведем еще несколько примеров слов, включенных в основной словарь автокорректора
ОРФО, но которые с большей вероятностью могут быть получены в результате
распространенной ошибки – пропуска буквы: поветь (толкование в «Русском
орфографическом словаре – «помещение в крестьянском дворе, обл.», т. е. областное),
преставление (смерть), корец (в словаре Ушакова – «обл., ковш»).
В лексической базе текстового редактора MS WORD представлены и никак не
обособляются низкочастотные глаголы: бороть, взмутить (и взмутиться), вкраивать
(и вкраиваться), вкроить, вмесить, впить, вскальзывать, вскользнуть, выбросать,
вымесить, вымешать, вытроить, густить (и густиться), досажать, живать,
запреть, избабиться, изубрать, икриться, кориться, маять, небречь, низойти,
окорить, окорять, отоптать, повестить, помститься, прашивать (и прашиваться),
пригасить, пригашать (и пригашаться), примститься, прообразовывать (и
прообразовываться), ристать, сбирать (и сбираться: «Как ныне сбирается вещий
Олег…»), сроить (и сроиться), ссунуть (и ссунуться), узиться, утонить, утонять (и
утоняться), уточить, хвостать и др. Эти глаголы и образуемые от них причастия в
реальных текстах пользователя могут появиться в результате ошибок в более
употребительных словах.
^ Так ли уж необходимы устаревшие, областные и диалектные слова в основном
словаре системы проверки правописания? Подобные почти никогда не употребляемые
в современных текстах слова можно было бы убрать из основного словаря, поскольку
компьютерный корректор ОРФО нацелен на обнаружение ошибок в текстах массового
пользователя. При этом ничего катастрофического не произойдет. Низкочастотные слова
будут подчеркиваться либо как не найденные в словарях спеллера, либо (в случае их
перевода с пометами в особые словари) как имеющие ограниченную область
употребления – с выдачей по желанию пользователя толкований и разъяснений.
^ 3. РАЗГРАНИЧЕНИЕ РАЗНОРОДНЫХ ПЛАСТОВ ЛЕКСИКИ
Разговорные, просторечные, а особенно устаревшие и устаревающие слова в изданных
словарях не всегда бывают снабжены соответствующими пометами. Желательно, чтобы
при компьютерной проверке текста такая лексика выявлялась (подчеркивалась), а
системная подсказка выдавала сообщения о стилевой окраске выделенных слов.
В словаре А. А. Зализняка [2] различаются пометы «устаревшее» и «устаревающее», в
«Русском орфографическом словаре» [5] им соответствует помета «устарелое». В
системных словарях текстового редактора MS WORD архаичная лексика никак не
обособляется, и поэтому она не выявляется в проверяемых текстах.
Справедливости ради следует отметить, что некоторые слова все же вызывают у
автокорректора ОРФО сомнения с точки зрения стиля. Системная подсказка относит их к
жаргонной, разговорной, просторечной, экспрессивной или даже бранной лексике.
Они подчеркиваются зеленой волнистой линией. Однако списки таких помеченных слов в
системе ОРФО отнюдь не полны. Не все слова с соответствующими пометами даже из
первого издания словаря А. А. Зализняка учтены в системе ОРФО. Например, у глагола
спотыкнуться в словаре Зализняка есть ссылка на глагол споткнуться, где к его
варианту спотыкнуться дается помета простореч., однако система ОРФО глагол
спотыкнуться во всех его формах пропускает без каких-либо подчеркиваний.
Правописание просторечных, жаргонных и бранных (ругательных) слов иногда вызывает
затруднения, человек их слышит, но зрительная память его не задействована, так как он
их не читает, а точнее, не читал в печатных изданиях вплоть до последних времен. Их
присутствие в словарях текстовых редакторов (с соответствующими пометами,
разумеется) не представляется нам излишним (в словаре ОРФО 2003 почему-то нет слов
дурак и стерва; впрочем, нет и безобидного прилагательного розовый). В последние годы
такая лексика стала в большем объеме появляться и в издаваемых словарях.
А что касается нашей зрительной памяти, то в настоящее время она дезориентируется изза большого количества ошибок и опечаток в печатных изданиях и в Интернете.
В официальных документах редко можно встретить глагольные формы единственного
числа императива или 2-ого лица единственного числа (пример: лозунг «Голосуй, а то
проиграешь!»). При настройке на режим «деловой переписки» автокорректор мог бы
обращать внимание пользователя на эти глагольные формы. Тогда, например, фразы с
ошибочным появлением пробела перед постфиксом «-те» («Отправь те каталоги...») не
пропускались бы без замечаний.
Если низкочастотную лексику можно вывести за пределы основного словаря, то более
употребительные слова, «слишком похожие» на другие, желательно было бы на этапе
создания компьютерных словарей снабжать особыми предупреждающими пометами.
Представим себе такую ситуацию. В тексте несколько раз встретилось слово страница, но
только один раз – страННица или станица. Эти слова могут появиться и в результате
опечатки в слове страница. Для подобных случаев (контингент и континент, контракт
и контакт, проверка и поверка, смеЩение и смеШение) желательно было бы
предусмотреть особое сообщение, например: «Это ли слово имелось в виду?».
^ 4. ПОМЕТЫ ПРИ «ОТДЕЛЬНО ВЗЯТЫХ» СЛОВОФОРМАХ
4.1. Грамматические варианты. В русском языке существуют не только просторечные и
устаревающие слова (лексемы), но также просторечные и устаревающие
грамматические варианты. Отсюда, например, фразу «Потом тобою займуся» в тексте
можно интерпретировать двояко: либо в глагольной форме займутся пропущена буква т,
либо здесь употреблен просторечный вариант глагольной формы займусь. С
удовлетворением отметим, что программа-подсказка спеллера ОРФО выдает для
исправления обе эти формы.
4.2. Фразеологизмы. Фразеологизмы (устойчивые обороты речи) требуют особого
подхода, так как в них часто входят устаревшие слова и формы, которые в других
контекстах уже не употребляются. Однако работа ОРФО с фразеологическими оборотами
не всегда бывает удовлетворительной. Автокорректор подчеркивает красным (как
ненайденное) второе слово в конструкции ничтоже сумняшеся (слово ничтоже, однако,
не подчеркивается), «не знаком» с фразеологизмом с лихвой – производит словоформы,
которые в современном русском языке не употребляются: лихва, лихву, лихвам и т. д.
«Одиночные» словоформы сломя, спеху и т. п. следовало бы снабдить информацией о
вхождении во фразеологические обороты сломя голову, не к спеху. Имея системный
словарь фразеологизмов, автокорректор мог бы сличать контекстное окружение такого
слова с соответствующим фразеологическим оборотом, а также предупреждать ошибки в
идиоматических выражениях (например, для ошибочного «скрипя сердце» подсказка
могла бы предлагать скрепя сердце).
^ 4.3. Пометы при малоупотребительных словоформах. В списке опций «Стиль»
автокорректора ОРФО имеется правило «Редкие и разговорные формы слов». Оно гласит:
Малоупотребительные и разговорные формы слов (такие, как «читав», «побольше») не
рекомендуется использовать в деловой прозе. Лучше сказать «читая», «больше».
Однако проверщик правописания ОРФО выдает сообщения, ссылающиеся на данное
правило, практически лишь для малоупотребительных деепричастий (ев, грев, искав) и
небольшого списка словоформ.
При этом автокорректором ОРФО порождаются и никак не подчеркиваются некоторые
сомнительные в стилистическом плане, пусть даже теоретически возможные формы
деепричастий от глаголов несовершенного вида. Примеры: жав, рвав, терев.
Если даже деепричастия прошедшего времени от глаголов несовершенного вида
подчеркиваются зеленым и системная подсказка объявляет их малоупотребительными, то
они этой же подсказкой рекомендуются, коль скоро не найденные в словарях
автокорректора ОРФО слова окажутся «похожими» на эти деепричастия. Например, для
слова «заявлят», получившегося в результате опечатки – пропуска буквы е или мягкого
знака, подсказка предложит пользователю в качестве «исправления» среди прочих
вариант заявляв, т. е. деепричастие, которое при его обнаружении в тексте сама же
объявляет малоупотребительным.
В «Грамматическом словаре» А. А. Зализняка [2] особыми символами отмечены
прилагательные, краткие формы от которых почти никогда не употребляются
(«предположительны» или «затруднительны»). Однако в системе MS WORD такие
краткие формы образуются и пропускаются без замечаний: дальне, дочерня, зелененьки,
легонька, осторожненька, прежни, свеженьки, тихонька и т. д. Очевидно, что эти
слова в современных текстах с большей вероятностью могут быть получены в результате
обрезания «по техническим причинам» последней буквы (например, при сканировании со
сгиба книги).
Сравнительная степень от некоторых причастий и прилагательных встречается редко.
Формы читаемее, скрытее, разомкнутей (проверщик пропускает их без замечаний) с
большей вероятностью могут возникнуть в результате опечаток.
Маловероятно также употребление форм множественного числа от некоторых
существительных (верам, мглами), а также отдельных глагольных форм (окислишься,
удаюсь).
Образование в системных словарях текстового редактора сомнительных в
стилистическом плане грамматических форм не только засоряет подсказку, но
может приводить и к пропуску ошибок.
Программа-подсказка могла бы делать предупреждающие сообщения – на основании
помет, которые следовало бы приписать к отдельным словоформам из соответствующих
парадигм.
Даже если в парадигмах с пометами при отдельных словоформах будут проявляться
элементы субъективизма, это предпочтительнее, чем формальный подход, который
тормозит приближение «искусственного интеллекта» текстовых редакторов к
«естественному», к работе человека.
^ 4.4. «Упрощение» парадигм в словаре ОРФО. В разделе «Грамматические сведения»
словаря А. А. Зализняка [2: с. 88] говорится, что «у безличных глаголов имеются только
инфинитив и личные формы 3-го лица единственного числа (там, где различаются роды, –
среднего рода) действительного залога». Приведем примеры на подобные глагольные
формы.
^ Начало светать. По утрам хорошо работалось.
Не сидится, не лежится, не гуляется ему.
В этих фразах спелл-чекер ОРФО ничего не подчеркнул, что можно ему поставить в плюс.
В словаре Зализняка к глаголам спаться и лежаться дано указание безл. (безличное).
Однако в системных словарях текстового редактора MS WORD порождаются такие
«странные» словоформы: от спаться (или спасться) – спался, спалась, спавшийся;
лежусь, лежатся, лежалась, лежась, лежащийся, лежавшийся. Эти словоформы
иногда «выходят на поверхность» в списках предлагаемых программой-подсказкой
вариантов «исправления» неопознанных слов.
Никак не подчеркиваются словоформы вниму, внимешь, внимет, внимем, внимете,
внимут, хотя в словаре А. А. Зализняка к глаголу внять дана помета «буд. нет».
Часто в тех случаях, когда в словаре Зализняка даются указания, что какие-либо формы из
парадигмы слова затруднены или избегаются, проверщик правописания ОРФО пропускает
их без замечаний. Например: осную, оснует, оснуем; от слов часок, роток, кусток –
часку, часков, ротки, роткам, кустком, кустками и т. д.
Таким образом, тестируя работу автокорректора ОРФО, мы можем убедиться в том, что
все то разнообразие парадигм, которое мы видим во всех изданиях словаря А. А.
Зализняка, разработчиками спеллера сводится к более ограниченному числу шаблонов,
что варианты и особенные схемы склонения и спряжения не всегда отображены
адекватно.
^ 5. ОТ СЛОВОИЗМЕНЕНИЯ — К СЛОВООБРАЗОВАНИЮ
Казалось бы, системный словарь автокорректора ОРФО очень богат, может претендовать
на достаточную полноту и всеохватность, поскольку включает в себя даже редко
встречающиеся в современных текстах слова. К сожалению, это не так. В системе ОРФО
иногда не обнаруживаются известные и привычные слова, если не всегда имеющиеся в
наиболее доступных словарях, изданных в разное время, то довольно часто
встречающиеся в газетных текстах. Примеры слов из «Русского орфографического
словаря» [5], подчеркиваемых спеллером WORD’а как неопознанные: гламурный,
госфинансирование, комплексовать, конфискат, наркодилер, оживляж (первой в списке
вариантов исправления предлагается подчеркиваемая зеленым как
«малоупотребительная» форма оживляв), пилотный, подбрюшье, политкорректный,
прикольно, профицит, растаможить, реинкарнация, сельхозземли, соинвестор,
спецсеминар, телегеничность, телепортация, унисекс, целлюлит, штрафстоянка.
В наше время бурного словотворчества и активных заимствований из других (особенно из
английского) языков словари несколько «отстают от жизни». Даже в очень
представительном словаре [5] (а не только в системных словарях текстового редактора MS
WORD) отсутствуют слова: бабло, бивалютный, блог, гламур, мониторить,
продвинутость.
Следует отметить, что в большинстве словарей не приводится полный набор
однокоренных слов. Эти словари рассчитаны на человека, а человек, если он достаточно
хорошо знает язык, сам может образовать слова (отсутствующие в словарях текстового
редактора MS WORD):
гусарство, детективчик, зарабатывание, защитничек, переозвучить, подредактировать,
подыгрывание, поприсутствовать, приемчик, псевдорадикальный, рокировочка,
телефончик и т. п. Но в словарях спеллера желательно эти слова иметь или как-то
порождать.
При проверке реальных текстов быстро становится очевидным, что словоизменительный
компьютерный словарь оказывается недостаточным, не обеспечивает идентификацию
многих правильно образованных слов. Включение механизмов словообразования – задача
для разработчиков новых автокорректоров. В процессе построения
словообразовательного словаря легче учесть все однокоренные слова, относящиеся к
некоторому понятию. Если править тексты при помощи автокорректора, основанного на
словаре без словообразовательных механизмов, то довольно часто система не будет
опознавать правильно построенные слова, понятные русскоязычному человеку. При
большом количестве «ложных тревог» пользователь может добавлять в свой личный
компьютерный словарь слова, которые ему лишь представляются (по невнимательности
или незнанию) правильными. Кроме того, пользователь перестает обращать внимание на
постоянные сообщения о не найденных в словаре автокорректора словах и в результате
может пропускать ошибки и опечатки.
Словоизменительный словарь для текстового редактора, как правило, состоит из наборов
окончаний и списка основ с приписанными к ним номерами наборов окончаний. При этом
должны учитываться чередования в основах. Например, к основе «заметк-»
приписывается номер набора, в который входят окончания «-а», «-и» и т. д., а также
нулевое окончание – с появлением в основе беглой гласной о (заметок). Однако в список
окончаний можно было бы включить и словообразовательные «квазиокончания» –
суффиксы плюс окончания. Например, к основе «телефон-» можно приписать номер
набора {«-чик», «-чика» и т. д.} с пометой «разговорное».
Для автокорректора текстового редактора MS WORD некоторые слова с отрицательным
префиксом «не-» оказываются «неизвестными». Примеры из «Русского орфографического
словаря» [5], подчеркиваемые спелл-чекером WORD’а как неопознанные: невыездной,
негуманность, нетипичность. При этом соответствующие лексемы без префикса «не-» в
системном словаре ОРФО представлены.
Таким же образом можно порождать слова с помощью очень продуктивной приставки
«по-». Например, к основе глагола несовершенного вида рассуждать можно приписать
информацию о возможности присоединения префикса «по-», но с переходом
получившегося глагола порассуждать (отсутствующего в системном словаре ОРФО) в
совершенный вид, либо «породить» новую основу «порассужда-» с несколько другими
характеристиками.
К отдельным основам можно приписать указания на возможность присоединения
некоторых префиксов и префиксоидов. Например, достаточно продуктивен префикс «про» (ср. проправительственный, подчеркивается как отсутствующий в словаре ОРФО),
префиксоиды «высоко-», «само-», «супер-», «ультра-», «электро-» (ср. электрополотенце)
и т. п.
^ 6. ПРИЧИНЫ ОПЕЧАТОК И ПРОГРАММА-«ПОДСКАЗКА»
6.1. Причины возникновения опечаток. Непроизвольные ошибки можно разделить на
ошибки правописания, происходящие от недостаточного знания орфографии и
грамматики, и опечатки. Нередко тот, кто уличен в недостаточной грамотности, пытается
выдать свои ошибки за простые опечатки (якобы по невнимательности). Действительно,
четкую границу здесь трудно провести.
Характер и частота опечаток в сильной степени зависят от устройства клавиатуры и
другой компьютерной специфики (от искажений при сканировании – со сгиба книги,
например). Пропуск символа может происходить в результате недостаточно сильного
нажатия клавиши клавиатуры. Можно непроизвольно задеть соседнюю клавишу и
вставить лишний символ. Случается, что рядом расположенные символы по
невнимательности пользователя оказываются «взаимозаменяемыми».
В разных шрифтах кириллицы схожи между собой буквы ш и щ, з и э, ь и ъ и некоторые
другие пары символов.
Кстати, интересный факт. Ёсли в тёкстё всё буквы е замёнить буквой ё, то спёлл-чёкёр
ОРФО ничёго нё замётит! Превращение буквы е в ё возможно при огрехах сканирования.
^ 6.2. Перспективы сервисной подсказки. Программа-подсказка спелл-чекера ОРФО,
встроенного в текстовый редактор MS WORD, как было показано выше, пока оставляет
желать лучшего.
Приведем еще один пример. Подсказка спеллера ОРФО для просторечной формы отчества
^ Иваныч выдает единственный вариант «исправления» Иваны, для формы Васильич
ничего не может предложить, так как в системном словаре не порождаются отличающиеся
только одной буквой от формы Васильич словоформы (в нем имеется отчество
Васильевич, которое длиннее на целых две буквы). Может быть, словарь имен
собственных стоит дополнить такими часто встречающимися в художественной прозе
просторечными вариантами – с соответствующими пометами, разумеется.
Конечно, «Москва не сразу строилась», но хотелось бы высказать пожелание, чтобы в
следующих версиях автокорректора системная подсказка не только механически заменяла
в ненайденном слове каждую букву всеми другими по очереди, а была бы более полезной
и осмысленной. Мы уже высказывали пожелания в этом направлении. Приведем еще
одно. Например, для таких стилистически не очень приемлемых и отсутствующих в
словарях отглагольных существительных, как «реализовывание», подсказка могла бы
предлагать замену реализация, для слова «загружение» – загрузка, для «раздавание» –
раздача и т. п.
Подсказка должна учитывать технические и психологические причины возникновения
опечаток и ошибок. Наиболее вероятные варианты исправления должны выдаваться
пользователю в начале списка. Это особенно актуально для коротких слов, когда число
предлагаемых подсказкой словоформ доходит до нескольких десятков.
ЗАКЛЮЧЕНИЕ
Из всего вышеизложенного главные выводы таковы.
Чем «богаче» основной системный словарь автокорректора, тем больше ошибок
пропускается; чем он беднее, тем больше «ложных тревог».
С одной стороны, желательно, чтобы в каждой очередной версии системные словари
текстовых редакторов как можно больше пополнялись новыми словами. При этом могли
бы использоваться и механизмы словообразования, создания «словарных гнезд».
С другой стороны, в основном словаре должны быть выявлены малоупотребительные
слова и словоформы, которые могут совпасть с искажениями (в результате наиболее
вероятных ошибок и опечаток) достаточно употребительных словоформ. Такие
«подводные камни», которые «вылезают» в списках рекомендуемых вариантов
исправления, могли бы снабжаться особыми пометами или выноситься в дополнительные
компьютерные словари.
Стремительный прогресс в компьютерной сфере практически уже снимает ограничения,
связанные с объемами баз данных.
Желательно, чтобы сервисная подсказка наиболее вероятные варианты исправления
предлагала в начале списка. Ранжирование вариантов – задача для разработчиков новых
версий автокорректоров. Для этого нужно выявлять и учитывать наиболее частые
причины возникновения ошибок и опечаток. Желательно, чтобы система определяла
также вероятность адекватности именно в данном тексте (заявленном, например, как
художественное произведение, научная статья, деловая переписка) предлагаемых
программой-подсказкой вариантов исправления.
Игорь Станиславович Ашманов полемике на roem.ru пишет:
«Я своими руками сделал русскую морфологию в ОРФО много лет назад…
…Устаревшие слова немногочисленны и обычно в словарь спеллера попадают
изначально, поскольку входят в ядро любого словаря русского языка, в том числе в
главном источнике - словаре Зализняка. И включение их или выключение - это вопрос
чистки словаря с целью повышения соотношения полнота/точность. С объёмом словаря
это соотношение не связано. <…>
Короче говоря, улучшать спеллеры можно. Но это вряд ли окупится, если не будет гранта
или госфинансирования. Потому что продать пользователям следующую версию
спеллера, если в нём есть тончайшие улучшения типа "меньше стали путаться редкие
слова и ошибки" – нельзя».
Увы!..
СПИСОК ЛИТЕРАТУРЫ
1. Зализняк А. А. О понятии графемы // В сб. «Русское именное словоизменение» с
приложением избранных работ по современному русскому языку и общему языкознанию.
– М.: «Языки славянской культуры», 2002, с. 559–576.
2. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. Ок. 110 000
слов. – 4-е изд., испр. и доп. – М.: «Русские словари», 2003.
3. Лавошникова Э. К. О компьютерной коррекции «популярных» ошибок в текстах на
русском языке // Научно-техническая информация. Серия 2. «Информационные процессы
и системы».2003, № 9, с. 28–34.
4. Лавошникова Э. К. О результатах тестирования некоторых алгоритмов в текстовом
редакторе MS Word // Научно-техническая информация. Серия 2. «Информационные
процессы и системы». 2004, № 7, с. 28–33.
5. Русский орфографический словарь: около 180 000 слов (под ред. В. В. Лопатина) / РАН.
– М., 2005.
6. Толковый словарь русского языка (под ред. Д. Н. Ушакова). – М., в 4-х томах, 1935 –
1940.
Скачать 216.63 Kb.
оставить комментарий
Скачать