Коррекция искажений изображений документов

реклама
УДК 004(06) Информатика и процессы управления
С.Ю. ЯКОВЛЕВ
Московский инженерно-физический институт (государственный университет).
КОРРЕКЦИЯ ИСКАЖЕНИЙ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ
Рассматривается проблема коррекции изображений документов, снятых цифровой фотокамерой, анализируются существующие методы коррекции.
В настоящее время бытовые цифровые фотокамеры получили широкое
распространение. Их применение для съемки документов является альтернативой традиционному сканированию на планшетных сканерах [1].
Применение фотокамер для оцифровки документов обладает рядом преимуществ перед сканированием:
 мобильность;
 высокая скорость получения снимка;
 возможность работы в различных условиях;
 возможность получения изображения документов, которые не могут быть отсканированы.
В то же время, изображения документов, полученные с помощью фотокамеры, подвержены искажениям, которые нехарактерны для сканирования:
 цветовые, яркостные искажения, в первую очередь неравномерный
фон;
 различные геометрические искажения: перспективные, проективные, поворот, изгиб страницы документа;
 неточность фокусировки, размытость, смаз;
 артефакты, вызванные сжатием с потерями;
 шумы матрицы цифровой фотокамеры.
Для устранения указанных искажений требуются особые способы обработки полученного изображения. Итак, дано изображение I(x, y), необходимо найти такое преобразование I’(x, y) = P(I(x, y)), чтобы полученное
изображение I’(x, y) удовлетворяло некоторому критерию C(I’(x, y)). В
качестве критерия может выступать визуальная оценка изображения, либо
качество распознавания изображения документа OCR приложениями.
При коррекции изображения документов выделяют следующие основные этапы [1].
Поиск и локализация текста и границ документов. Обнаружение
текста и границ документа широко освещено в современной литературе
по обработке изображений [3].
ISBN 5-7262-0633-9. НАУЧНАЯ СЕССИЯ МИФИ-2006. Том 12
12
УДК 004(06) Информатика и процессы управления
Устранение перспективных искажений. Как было сказано выше, документ
непараллелен плоскости матрицы фотокамеры, что вызывает перспективные
искажения. В своей работе Mayers и др. [4] предлагает способ устранения перспективных искажений с помощью особого расположения фотокамеры: вертикальные края в сцене должны оставаться вертикальными и параллельными друг
другу на изображении. Clark и др. изучили более общий случай, в работе [2]
предлагается отыскивать прямоугольные блоки текста, которые приобретают
форму параллелограмма на изображении. Это не совсем корректное восстановление изображения документа, но его, как правило, достаточно для дальнейшей
обработки с помощью OCR приложений. M. Pilu предложил метод устранения
перспективных искажений [5], основанный на анализе расположения текстовых
строк и столбцов. Как показывают испытания, данный метод устойчив и инвариантен к масштабу и размеру текста.
Устранение искривления страницы документа. В некоторых случаях, страница документа не является плоской. Для коррекции геометрических искажений такого рода, в работах [6] и [7] описаны способы коррекции геометрических искажений, возникающих из-за неровности страницы
документа. Предлагается аппроксимировать страницу плоскостью и цилиндром [6], либо только цилиндрической поверхностью [7]. Оба метода
основаны на выделении текстовых строк и построении математической
модели искажения. Основным недостатком данных методов является то,
что предполагается отсутствие перспективных искажений.
Повышение качества изображения. К данной группе относятся повышение
резкости изображения, устранение цветовых и яркостных искажений. Особое
внимание уделяется бинаризации изображения документа. В [8] показано, что
для бинаризации изображения документа, снятого с помощью цифровой фотокамеры, необходимо использовать адаптивный порог бинаризации, а наиболее
эффективным методом отыскания адаптивного порога является метод Ниблэка.
Захват изображения документа с помощью цифровой фотокамеры является актуальной проблемой. Современные методы коррекции таких
изображений не позволяют устранить все описанные искажения в автоматическом режиме. В дальнейшем планируется разработать методы автоматической коррекции искажений документов.
Список литературы
1. D. David Doermann, J. Liang, H. Li, “Progress in Camera-Based Document Image Analysis”, IEEE, ICDAR 2003.
2. P. Clark, M. Mirmehdi, “Estimating the Orientation and Recovery of Text Planes in a Single Image”, Proc. Of the 12 th BMVC, pp. 421-430, Sept. 2001.
3. N. G. Alessi, S. Battiato, G. Gallo, M. Mancuso, and F. Stanco, “Low-Level Feature’s Set
for Text Image Discrimination”, IEEE-EURASIP NSIP, 2003.
ISBN 5-7262-0633-9. НАУЧНАЯ СЕССИЯ МИФИ-2006. Том 12
13
УДК 004(06) Информатика и процессы управления
4. G.K. Myers, R.C. Bolles, Q. -T. Luong, and J.A. Herson, “Recognition of Text in 3-D
Scenes”, SDIUT 01, pp. 85-100, 2001.
5. M. Pilu, “Deskewing Perspectively Distorted Documents: An Approach Based on Perceptual Organization”, HPL-200-100, May 2001.
6. Z. Zhang, C. L. Tan, “Correcting Document Image Warping Based on Regression of
Curved Text Lines”, IEEE ICDAR 2003.
7. H. Cao, X. Ding, C. Liu, “Rectifying the Bound Document Image Captured by the Camera: A Model Based Approach”, IEEE ICDAR 2003.
8. O.D. Trier, T. Taxt, “Evaluation of Binarization Methods for Document Images”, PAMI,
Vol. 17, No. 3, pp. 312-315, 1995.
ISBN 5-7262-0633-9. НАУЧНАЯ СЕССИЯ МИФИ-2006. Том 12
14
Скачать