Главная / Образцы дипломных работ
Разработка приложения по распознаванию текста на изображении и конвертации его в текстовый формат

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы:	K011503
Тема:	Разработка приложения по распознаванию текста на изображении и конвертации его в текстовый формат
Содержание
Содержание

Введение…………………………………………………………………………..3

Постановка задачи………………………………………………………….5

Содержательная постановка…………………………………………….5

Описание предметной области…………………………………………….6

История развития  технологииоптического распознавания текста….6

Нынешнее положение технологии оптического распознавания текса………………………………………………………………………7

Предварительная обработка изображения...…………………………...10

Фильтрация изображения……………………………...………………10

Метод Бернсена…………………………………...…………………....14

Оптимизация метода Бернсена………………………………………..17

Метод Бредли…………………………………………………………...18

Сегментация изображения………………………………………………..21

Метод нахождения белых полос ……………………………………...21

Метод диаграмм Вороного...…………………………………………..30

Сегментация текста на основе обобщенных диаграмм Вороного..31

Сегментация текста на основе точечных диаграмм Вороного…...33

Методы распознавания текста…………………………………………...39

Базовые принципы технологий распознавания текста………………39

Распознавание при помощи нейронной сети…………………………40

Анализ результатов………………………………………………………..43

Экспериментальные результаты………………………………………43

Заключение……………………………………………………………………...45

Список использованной литературы и источников……………………….46

Приложения……………………………………………………………………..48



	ВВЕДЕНИЕ

	Актуальность данной работы связна с необходимостью распознавания текста на изображения.С данной задачей люди сталкиваются довольно часто. У пользователей, которым приходится работать с документами, иногда возникает необходимость перевести текст с бумаги в цифровой документ, чтобы с ним можно было впоследствии выполнять работу в текстовом редакторе. Всем давно известно, что существуют миллионы старых книг, которые хранятся в хранилищах. Использование этих книг запрещено по причине их ветшалости и дряхлости, и поэтому оцифровка этих книг столь важна.

	В  работе  рассматривается  задача  разработки приложения по распознаванию текста на изображении и конвертации его в текстовый формат. Выделяются две основных цели данной работы:

	Исследование и разработка методов и алгоритмов обработки изображения перед распознаванием;

	Исследование и разработка методов и алгоритмов распознавания текста на изображении.

	Для решения задачи применяются следующие методы фильтрации и сегментации:

	Бернсена;

	Бредли;

	Медианного фильтра;

	Диаграмм Вороного;

	Нахождения белых полос.

	Для решения задачи распознавания были реализованы методы:

	С использованием метрик;

	С использованием сверточной нейронной сети.

	В первом разделе освещается постановка задач курсовой работы. Во втором разделе проанализирована предметная область. В третьем разделе рассматриваются методы предварительной обработки изображения. В четвертом разделе описываются основные методы сегментации текста на изображении. В пятом разделе описаны методы распознавания текста на изображении. В шестом разделе рассматриваются результаты курсовой работы. В заключение представлена сводка результатов выносимых на защиту и дальнейшие пути развития данной работы.















ПОСТАНОВКА ЗАДАЧИ

Содержательная постановка

Задача распознавания текста на изображении состоит из ряда подзадач:

предварительная обработка изображения (фильтрация и удаление шума);

сегментация текста (разбиение на компоненты связности);

распознавание компонент связности;

реализация блока обучения.

Решив последовательно задачи, приведенные выше, из входных данных в виде изображения с текстом, получаем выходные данные в виде текста в формате пригодном для его обработки. 

В данной выпускной работе проводились исследования в направлении всех подзадач.



















ОПИСАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ

История развития  технологии оптического распознавания текста

В 1929 году в Германии, Густав Таушек получил патент на метод оптического распознавания текста. Следующим, исследователем был Гендель, получив патент на свой метод в США в 1933. В 1935 году Таушек также получил патент США на свой метод. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.[1]

В 1950 году Дэвидом Х. Шепардом была построена машина, по преобразования печатных сообщений в последовательность нулей и единиц. После получения своего патента, он сообщил об этом в «Вашингтон ДэйлиНьюз» (27 апреля 1951) и в «Нью-Йорк Таймс» (26 декабря 1953). Далее Шепард основал компанию, разрабатывающую интеллектуальные машины, которая вскоре выпустила первые в мире коммерческие системы оптического распознавания символов. В 1955 году, была впервые установлена коммерческая система на «Ридерс Дайджест». В 1965 году «Ридерс Дайджест» начали сотрудничество  с «Ар-Си-Эй» с целью создания машины для чтения документов, использующую оптическое распознавание текста. Скорость работы созданной машины была 1500 документов в минуту.В Европе первой организацией, использующей машины с оптическим распознаванием текста, был британский почтамт. Канада  использует системы оптического распознавания символов с 1971 года.[2]

РэйКурцвейл создал компанию «Курцвейл Компьютер Продактс»в 1974 году, и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом.  Через четыре года компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов. 



Нынешнее положение технологии оптического распознавания текста

В настоящее время распознавание с нечеткими символами довольно затруднительно.  Программы зачастую выдают ошибки. Но если изображение является четким (отсканированный документ), то его точность распознавания стремится к 100%. Проблемы распознавания  стандартного рукописного текста  в настоящее время являются предметом активных исследований. Процентное количество распознанных символов, сильно варьируется в зависимости от используемых алгоритмов распознавания, методов фильтрации и сегментации изображения. 

Проблема распознавания рукописного «печатного» текста по-прежнему является актуальной. На изображениях с рукописным «печатным» текстом может быть достигнута точность в 75-85%, но при этом будет много ошибок. 

Следующей не менее важной темой, является распознавание рукописного текста. Точность такого текста, ниже, чем для печатного текста, написанного от руки. Увеличить данный показатель, можно используя интеллектуальные системы распознавания, такие как искусственные нейронные сети.[3]

Наиболее известной программой класса «Системы оптического распознавания» является ABBYYFineReader. В связи с этим, рассмотрим свойства данного приложения, проведем их анализ.[4]

Импорт различных изображений в форматах: BMP, DCX, JPEG, PCX, PNG, TIFF.

Распознавание цифровых фотографий документов. ?

Высокое качество распознавания (99,2% правильно распознанных символов).

Словарный контроль: словарь общеупотребительной лексики, возможность создания и подключения дополнительных словарей.

Автоматическая фильтрация и сегментация файлов.

Все вышеназванные свойства являются оптимальными, и будут заложены в основу разработки приложения.

Также как и у многих приложений, у ABBYYFineReader существуют минусы:

из-за большого количества поддерживаемых языков, длительность работы программы существенно увеличивается;

не распознает не шаблонные шрифты;

отсутствует возможность обучения;

нет возможности распознавать рукописный текст.

Подводя итог, нужно отметить, что ABBYY FineReader бесспорно является самой популярной из аналогичных программ.  С ее помощью можно преобразовать бумажные документы в редактируемые форматы и сохранить PDF с возможностью поиска по тексту. Рассмотрев все плюсы и минусы данного приложения, необходимо подчеркнуть, приложению для распознавания текста ABBYY FineReader, есть куда развиваться. Подводя итог главы, необходимо отметить, что приложение ABBYYFineReader не имеет блока обучения, и именно это влияет на его длительную работу и на невозможность распознавания текстов, шрифт которых не описан в шаблонах приложения.  

























	3. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ИЗОБРАЖЕНИЯ

3.1.  Фильтрация изображения

Изображение, служащее входными данными для приложения, как правило, не имеет четкости и контрастности, достаточной для высокого процента распознавания. Зачастую изображение имеет сложный фон, зашумлено, не является контрастным, четким и насыщенным. Причины этого явления могут быть разными, начиная от способа получения изображения и заканчивая технологиями передачи информации. В силу этого, целесообразно, перед передачей изображения на блок сегментации, проводить его предварительную обработку, с целью устранения различных видов шумов. Данный процесс называется фильтрацией.

В процессе фильтрации каждый пиксель изображения меняет свои характеристики яркости на наименее искаженные помехой[5]. Различают два вида фильтрации:

частотная;

пространственная.

Частотные методы фильтрации изображений основываются на преобразованиях Фурье. В данных преобразованиях функция представляется в виде суммы тригонометрических функций с различными частотами.

Пространственные методы фильтрации изображений применяются к растровым изображениям, представленным в виде двумерных матриц. Суть этого класса методов, заключается в применении матриц (ядер) к каждой точке исходного изображения.

В связи с постановкой задачи, возникает необходимость бинаризировать изображение в ходе фильтрации. Существуют следующие методы бинаризации:

глобальные;

локальные.

В первых методах величина порога не меняется в ходе процесса бинаризации. Во вторых  методах изображение разбивается на области, в каждой из которых вычисляется локальный порог.

В ходе разработки приложения был разработан следующий алгоритм предобработки изображения: 

изображение переводится в черно-белый формат, это необходимо для того, чтобы отделить ненужные фрагменты изображения.

Строим гауссову пирамиду(см.рис.1). Изображение текста на данном этапе, представляется в разнообразных пространственных масштабах. Крупные символы лучше видны на изображении с маленьким разрешением. В свою очередь, мелкие символы появляются только на изображениях с высоким разрешением. Данная структура имеет две основные цели: а) сокращение времени обработки изображения;          б) выявление наиболее точных начальных приближений для обработки нижних уровней по результатам обработки верхних уровней. Пирамида изображений имеет строгий порядок изображений, причем следующее изображение является результатом преобразования предшествующего изображения,  путем прореживания в два раза. Для устранения качественных шумов при прореживании рекомендуется использовать низкочастотную фильтрацию. Центром линейного фильтра, чаще всего выбирают функцию Гаусса, поэтому пирамиду называют гауссовой.  Важным аспектом является, что при сжатии с помощью гауссовой пирамиды, минимизируется потеря информации (теорема Котельникова)[6].  Изображение является уменьшенной копией изначального изображения. Пиксель изображения равняется , где

— уровень изображения.

В данном приложении реализована пирамида с четырьмя уровнями изображений.



                   Рисунок 1. Гауссова пирамида



Применение оператора Собеля. Оператор Собеля это дискретный дифференциальный оператор, вычисляющий приближенное значение градиента яркости изображения.Оператор Собеля основан на свёртке изображения небольшими сепарабельными целочисленными фильтрами в вертикальном и горизонтальном направлениях. Увеличение яркости и её величина изменения, находится оператором путем вычисления градиента яркости изображения. Полученный результат выявляет, резкость и плавность яркости изображения в каждой точки, а значит вероятность нахождения ориентации границ. С точки зрения математики градиент функции двух переменных для каждой точки изображения является двухмерным вектором. Компонентами данного вектора являются производные яркости в направлении вертикали и горизонтали. Для каждой точки изображения вектор градиента направлен в сторону большего увеличения яркости. Допустим B исходное изображение, а  – это изображения, каждая точка которых содержит приближенные производные по  x и по y. Они вычисляются из следующих соотношений:  

.

Значение xвозрастает вправо, а y вниз. Для каждой точки существует возможность вычислить приближенное значение градиента, используя приближенные значения производных, . Используя данную информацию можно вычислить направление градиента: .

В данном параграфе были рассмотрены  виды фильтрации изображений, описан и реализован алгоритм предобработки изображения. В настоящей выпускной работе, используются методы пространственной бинаризации изображения.



3.2.  Метод Бернсена

Глобальные методы бинаризации имеют большой недостаток  - если исходное изображение освещено неоднородно, области, освещённые меньше, целиком представляются как передний план. Происходит это из-за того, что пороговое значение фильтрации является константой, а не меняется от пикселя к пикселю.

В локальных методах бинаризации пороговое значение меняется для каждого пикселя в зависимости от признаков области (). Недостатком таких алгоритмов является низкая скорость работы. Он связан с потребностью пересчета порогового значения для каждого пикселя изображения[7].

МетодБернсена основан на идее сопоставления яркости преобразуемого пикселя со значениями локальных средних, вычисляемых в его .Пиксели изображения последовательно обрабатываются путем сравнения их интенсивности со средними значениями яркости в областях с центрами в точках  , где l = 0, 1, .., 7 (см. рис. 2).



Рис. 2 Преобразование пикселя



Пусть 1 это элемент объекта, а 0 это элемент фона в полученном бинарном изображении, то значение преобразованного пикселя становится равным 1 тогда,  и только тогда, если для всех , выполняется условие:



где t - определенный параметр,

  - средняя локальная яркость,

- яркость в точке  с соответствующими координатами.

Адаптивное определение значения локального параметра  вместо использования глобального значения помогает  избавиться от ошибок порогового преобразования. Параметр  вычисляется в соответствии с алгоритмом[8]:

В окне  с центром в преобразуемом пикселе вычисляются значения:





Вычисляются величины:





Если , то локальная область скорее всего, содержит больше низких яркостей, поэтому



где - константа из диапазона [0,27; ...; 0,86].

4. Если , то в локальной области содержится больше высоких яркостей, поэтому



Если , то следует увеличить размер области до  и повторить операции, начиная с первого шага. Если же и в этом случае , то пиксельотносится к фону.

Подводя итог параграфа, необходимо отметить, что проблемой данного метода является зависимость от прохода пикселей и то, что перемещающееся среднее, плохо аппроксимирует окружающие пиксели из-за неравномерной распределенности по всем направлениям. Скорость работы приведенного алгоритма очень низкая, что не соответствует временным затратам поставленной задачи.



3.3. Оптимизация метода Бернсена

Для минимизации временных затрат предлагается оптимизировать метод Бернсена представив обрабатываемое изображение в виде интегрального[9]. Интегральные изображения - это хороший способ нахождения результирующей суммы значений пикселей, а также легкий способ нахождения среднего арифметического значения яркости в области выделенного участка изображения.  Интегральное изображение возможно использовать при наличии функции, которая отражает зависимость между пикселями и действительными числами, и необходимость вычислить сумму этой функции на заданных областях изображения.

Для того чтобы, найти интегральное изображение, необходимо сохранить для каждой из областей изображения число - сумму всех значений  для пикселей, расположенных в левом верхнем квадрате относительно пикселя . Где для всех пикселей верна формула:

.

При наличии найденного интегрального изображения сумма функциидля всех прямоугольников с верхним левым углом в пикселе  и нижним правым углов в пикселе  может быть посчитана за малое количество времени с использованием следующей формулы:



Приведенная методика пороговой обработки является расширением метода Бернсена[10]. Использование интегрального изображения, дает нам значительное улучшение алгоритма, сокращение времени работы, а также метод исключает вышеуказанные минусы метода Бернсена. С помощью данного метода, возможно, избежать резких контрастных полос и не брать в счет небольшие градиентные изменения.

При первом проходе по изображению находится интегральное изображение. На втором проходе вычисляется среднее в прямоугольнике размером , с использованием интегрального изображения для каждого пикселя, далее происходит сравнение. 



3.4. Метод Брэдли

Метод Брэдли, также как и оптимизированный метод Бернсена основан на интегральных изображениях. Предположим, дано 8-битное изображение в градациях серого. Используя указанную ниже формулу, цветное изображение переводится в изображение в градациях серого.

.

После, значение элемента интегрального изображения можно вычислить по формуле:

;

где  – итог предыдущих итераций для данной позиции пикселя,  – яркость пикселя исходного изображения.  Координаты, попавшие за границы изображения,  равны нулю. Суть данного метода  представлена на схеме ниже:


Схема 1. Метод Бредли
Плюсом данного метода, является то, что после составления интегральной матрицы изображения, возможно, очень быстро вычислить результирующую сумму значений пикселей произвольной прямоугольной области в границах обрабатываемого изображения.

Алгоритм метода Брэдли:

Разделяем изображение на несколько квадратов со стороной .

Берем среднее  от суммы значений пикселей в данном квадрате, где

- среднее  от суммы значений пикселей, далее добавляем  величину .

Сравниваем итоговый результат со значением каждого пикселя.

 – искомая пороговая величина. Брэдли предлагает в качестве значений и , взять соответственно  от ширины изображения и  от среднего значения яркости пикселей в квадрате.

Подводя итог необходимо отметить, что, несомненно, плюсами метода Брэдли является его простота и быстродействие. Данный метод лучше всего применять, для изображения с контрастным фоном, но отсюда вытекает минус метода, при обработке изображения возникает проблема с однородными деталями.

	В данной главе были рассмотрены некоторые методы фильтрации входного изображения. Экспериментальным путем было выявлено, что оптимизированный метод Бернсена наиболее предпочтителен для реализации в общей задаче распознавания текста. Наиболее высокий результат устранения шума был, достигнут при тестировании данного метода в совокупности слинейным и медианным фильтром.







	

	

	

	

СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ

Сегментация изображения

После предобработки, изображение передается в блок сегментации, на выходе которого, получается изображение, разбитое на отдельные символы. В квалификационной работе бакалавра[11], был предложен метод сегментации текста основанный на последовательном выделении строк, слов и символов, путем поиска белых полос. В курсовой работе[12], данный метод был доработан путем введения критериев для удаления границ внутри одной компоненты связности. Предложенный алгоритм показал высокий процент правильно сегментированных символов. Стоит отметить, что данный подход имеет существенный недостаток, а именно, не может разделить символы написанные слитно (рукописный текст).

Подводя итоги параграфа, стоит отметить, что данный алгоритм сегментации является модификацией метода, рассматриваемого в квалификационной работе бакалавра. Из плюсов стоит выделить простоту и эффективность описанного метода, но он не решает проблему сегментации рукописных символов, и, как следствие ограничен в области применения.



Метод диаграмм Вороного

Для сегментации рукописного текста рассмотрим метод диаграмм Вороного.

Определение:  пусть множество точек, и оно конечно. Тогдаразбиение плоскости на подмножества[13]:



Где- ячейки, точки  – генераторы. Каждая ячейка есть выпуклый многоугольник. Таким образом, плоскость представляется совокупностью ячеек равноудалённых от точек-генераторов рёбер. Известны следующие основные свойства диаграммы Вороного[13]:

Каждая вершина диаграммы Вороного, полученной для множества  точек-генераторов, является точкой пересечения трёх рёбер диаграммы (при ).

Каждый ближайший сосед  точки , определённый условием  задаёт ребро ячейки Вороного. В этом случае ребро Вороного задано множеством точек.

Многоугольник   является неограниченным тогда и только тогда, когда точка  лежит на границе выпуклой оболочки множества S.

Диаграмма Вороного, построенная для множества N точек, имеет не более 2N-5 вершин и 3N-6 рёбер.



				Сегментация текста на основе обобщенных диаграмм Вороного

В работе [14] предлагается использовать обобщение диаграммы Вороного для выделения текстовых блоков (т.е. абзацев, параграфов) и строк внутри этих блоков. Генераторы обобщённой диаграммы Вороного представляют собой конечные множества точек . Тогда обобщённая диаграмма Вороного  области будет задана разбиением пространства на множества вида:

Определение в точности совпадает, когда генераторы  представляют собой одноточечные множества. Рассмотрим структуру обобщённой диаграммы области  и её связь с диаграммой Вороного  множества . Таким образом, весь текст представляется набором связных множеств точек.Если граница между двумя связанными компонентами  и , то минимальное расстояние от каждого из компонентов до границы между компонентами ,  определяется как расстояние  от прямой, содержащей , до соответствующего компонента. Аналогично вводится расстояние от компонента до его границы, заданной рёбрами ячейки Вороного, т.е. отрезков прямых 



Правила поиска промежутков между словами:

Если верно для смежных множеств и , то символы, соответствующие этим множествам объединяются в одно слово. 

Иначе, граница ячейки Вороного, отделяющая  и , является также и границей слов, к которым принадлежат символы, соответствующие этим множествам.



Сегментация текста на основе точечных диаграмм Вороного

Метод, описанный в предыдущем разделе, предполагает использование множества всех точек изображения для построения обобщённой диаграммы Вороного. Так, в случае изображения с высоким разрешением, построение диаграммы Вороного для множества всех точек является достаточно затратным. Учитывая вычислительную сложность построения диаграммы Вороного области, существует возможность получения новых, более эффективных алгоритмов сегментации текста, основанных на анализе взаимного расположения центров масс символов. Так, изображение текста на листе формата A4 содержит в среднем 2000–3000 символов, центры масс которых используются при построении диаграммы Вороного.

Для выделения строк, слов и символов текста разработан алгоритм, основанный на использовании диаграмм Вороного. Каждое связное множество точек , соответствующее некоторому символу текста, заменено центром его масс:



Пусть c – точка-генератор диаграммы Вороного, а соответствующая ей ячейка ограничена множеством отрезков прямых. Обозначим наименьшее расстояние от точки c до границы ячейки  как



где  евклидово расстояние от точки сдо отрезка е.Обозначим как , расстояние от двух смежных точек–генераторов c и p до общей границы ячеек Вороного  и , по построению – , совпадает с половиной евклидова расстояния между точками c и p. Сформулируем алгоритм поиска «соседних» символов, принадлежащих одному слову. В качестве критерия принадлежности символов, заданных центрами масс , и , одному слову используются следующие условия:

Символы принадлежат одной строке: , где > 0 – заранее заданная константа.

Символы расположены достаточно «близко» друг к другу и принадлежат одному слову:  где > 0 – заранее заданная константа.

Для сегментации большинства как машинописных, так и рукописных текстов использовались следующие параметры, полученные эмпирическим путём:  = 1 27, = 1 48.

Рассмотрим алгоритм поиска соседних символов слова[15]:

Пусть заданы константы 

Пусть c – точка генератора, для которого необходимо найти соседний символ, U – множество точек генераторов, которые допускаются в решении.

Перебором рёбер, ограничивающих ячейку Вороного, порождённую точкой , найти точку , смежную с ней, такую, что выполняются следующие условия:



Если p не найдена, вернуть 

Обновить множество генераторов 

Вернуть p.

Сформулируем алгоритм выделения слова на основе алгоритма поиска «соседних» символов:

Пусть c – точка генератора, соответствующая некоторому символу слова, U – множество точек генераторов, которые допускаются в решении.

Инициализировать список , задающий порядок букв слова.

Положить 





Положить 

Алгоритм 1.

Если  добавить  в начало списка 

Список  содержит упорядоченные центры элементов арифметических выражений.

 Вернуть 

Сформулируем алгоритм сегментации текста, использующий алгоритмы поиска «соседних» символов и выделения слов на изображении:

Заполнить список U упорядоченными по возрастанию координаты  точками-генераторами диаграммы Вороного.

Инициализировать список строк текста L_L.

Инициализировать текущую строку L.

Если список U пуст, перейти к шагу 10.

Выбрать следующую точку , из списка , положить .

Положить Алгоритм 2.

Если текущая строка L пуста, добавить слово  к строке L.

Если найденное слово  не принадлежит строке L, добавить строку L к списку L_L, положить L .

Добавить слово  к строке L.

 Если строка L не пуста, добавить её к списку строк L_L.

Шаг 8 описанного алгоритма является проверкой того, что найденное слово  не принадлежит строке L и заключается в исследовании двух множеств точек-генераторов  и , составленных, соответственно, из точек, принадлежащих сформированной строке L и точек найденного слова . Пусть точка  – точка строки L с наибольшей координатой 



Аналогично,  – точка найденного слова с наименьшей координатой  Если где  – некоторая заданная константа, то считается, что слово  не принадлежит строке L. Для сегментации рукописных и машинописных символов константа  выбиралась равной 1,42[15].

Вычислительные эксперименты по сегментации текстов, проведённые для набора образцов рукописных и машинописных текстов, свидетельствуют о достаточной точности сегментации с использованием представленного подхода. Для рукописных текстов ошибки определения принадлежности символа слову, то есть отношение числа ошибочно классифицированных символов к общему числу символов текста, составляет порядка 2,7%.

Таким образом, на основе экспериментальных данных можно сделать вывод о том, что описанный метод сегментации текста является эффективным методом к выделению строк, слов и изолированных символов текста на основе использования диаграмм Вороного. Стоит отметить, что использование данного метода оправдано лишь в случае распознавания рукописного текста.  При работе с печатным текстом, наиболее выгодно использовать метод нахождения белых полос, как более результативный и менее затратный. 





	

МЕТОДЫ РАСПОЗНАВАНИЯ ТЕКСТА

Базовые принципы технологий распознавания текста

В настоящее время выделяют три базовых принципа технологий распознавания текста.[16]  В частности это:

Принцип целостности, согласно которому текст рассматривается как целое, состоящее из связных частей. Связь частей выражается в пространственных отношениях между ними, и сами части получают толкование только в составе предполагаемого целого. Преимущество системы, следующей данному правилу, выражается в способности точнее классифицировать данный объект, исключаяиз рассмотрения сразу множество гипотез, не совпадающих хотя бы с одним положениям принципа.

Принцип целенаправленности: любая интерпретация данных преследует определенную цель. Следовательно, распознавание должно представлять собой процесс выдвижения гипотез о целом объекте и целенаправленной их проверки.

Принцип адаптивности подразумевает способность системы к обучению. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач.

Использование данных принципов, является неотъемлемой частью при разработке приложения распознавания текстов. Стоит отметить, что принцип адаптивности не прослеживался не в одном из рассмотренных приложений по распознаванию текста.



Распознавание при помощи нейронной сети

Большинство самообучающихся алгоритмов, по своей реализации, можно разделить на три класса: 1) самообучающиеся алгоритмы с использованием коррекции не правильно распознанных символов и занесением результатов в базу данных; 2) самообучающиеся алгоритмы с использованием клеточных автоматов; 3)самообучающиеся алгоритмы с использованием нейронных сетей. Первый класс методов был реализован в выпускной квалификационной работе бакалавра[11], второй класс не исследуется в данной работе. Рассмотрим подробнее использование нейронных сетей в качестве классификатора в процессе распознавания.

В качестве классификатора для распознавания была разработана сверточная нейронная сеть с четырьмя скрытыми слоями. Первый слой является входным и состоит из  нейронов. Второй слой является сверточным и состоит из пяти плоскостей размером  нейронов. Размер сверточной плоскости определяется в соответствии с формулами: и , где





K – параметр сканирования.

Третий слой состоит из пяти плоскостей размером  нейронов. Четвертый состоит из 50 плоскостей размером  нейронов. Пятый слой состоит из 160 сигмоидальных нейронов. Шестой слой является результатирующим и состоит из 48 нейронов. Во втором и четвертых слоях при сканировании рецептивные поля частично наслаиваются друг на друга по принципу черепицы, в третьемслое области соседних нейронов не перекрываются.Служит он для того, чтобы уменьшить масштаб плоскостей путём локального усреднения значений выходов нейронов. Последующие слои извлекают более общие характеристики, меньше зависящие от искажений изображения.В качестве активационной функции был выбран гиперболический тангенс, формула функционирования нейрона второго и четвертого слоя: , где:











 Формула функционирования нейрона третьего слоя: 

.

Для обучения сети используется алгоритмобратного распространения ошибки. Ошибка:, где значение функции ошибки для образа p;

 желаемый выход нейрона jдля образа p;

действительный выход нейрона jдля образа p. 

Коррекция синаптических коэффициентов происходит по следующей формуле: .

	 Таким образом, в данной главе были рассмотрены методы распознавания текста на изображении, разработана и исследована сверточная нейронная сеть, выступающая в качестве классификатора. Данная сеть была обучена на рукописных текстах от трех авторов, после чего успешно внедрена в компанию «ПроФакт».  Акт о внедрении программного обеспечения и отзыв о работе программы находятся в приложение данной квалификационной работы.

















АНАЛИЗ РЕЗУЛЬТАТОВ

Экспериментальные результаты

Подводя итог дипломной работы, следует отметить, что в реализованное приложение соответствует базовым принципам распознавания текста, также в приложении реализованы блоки фильтрации и сегментации изображения, реализована и обучена нейронная сеть. В конечном результате был проведен эксперимент: программе на вход подавалось три типа изображений, содержащих двадцать тысяч символов каждое. После обучения нейронной сети удалось достичь следующих результатов:

Первое изображение имело шаблонный шрифт, и было отсканировано. В процессе распознавания данного изображения, было правильно распознано 87.6% символов.

Второе изображение имело не шаблонный шрифт, и было сфотографировано при искусственном освещении. В процессе распознавания второго изображения, было верно распознано 94.3% символов.

Третье изображение содержала рукописный текст, и было сфотографировано при искусственном освещении.В процессе его распознавания процент правильно распознанных символов удалось повысить до 74. 3%.

Использование автокорректора позволило улучшить результаты распознавание рукописных текстов до 83.6%.

В случае, когда распознавание производилось с использованием метрик, получились следующие результаты:

Отсканированный текст – 99, 6% распознавания.

Текст, изображенный на фотографии – 98,3% распознавания.

В заключении стоит отметить, что в процессе работы удалось достичь следующих результатов:

При введении новых алгоритмов предобработки и сегментации удалось повысить качество распознавания алгоритма при помощи метрик, рассмотренного в выпускной бакалаврской работе;

При использовании нейронной сети в качестве классификатора хоть и не удалось превзойти алгоритм с использованием метрик, но удалось приблизиться к его результатам;

Появилась возможность распознавать рукописный текст на достаточно высоком уровне.

Стоит отметить, что при распознавании с использованием метрик был реализован блок обучения[12], а при использовании нейронной сети в качестве классификатора, блоком обучения является сама нейронная сеть.

Данное приложение соответствует базовым принципам технологии распознавания текста. Из всех исследованных классов обучающихся алгоритмов, для достижения поставленной цели данной дипломной работы, будут использованы алгоритмы на основе метрик для печатных и рукопечатных символов, и нейронная сеть для распознавания рукописных символов. Приложение данной работы было написано на языке программированияС++.

В приложении была реализована фильтрация изображения, что позволило увеличить четкость и качество распознаваемого изображения. В процессе выполнения сегментации результатом является весь текст, представленный изображениями букв этого текста. В приложении был осуществлен блок обучения, при работе с печатным и рукопечатным текстом. Данное программное обеспечение было успешно внедрено в компанию с большим потоком разнородного распознаваемого материала. Руководствуюсь отзывом компании о приложении можно сделать вывод, что характеристики работы удовлетворяют целям и поставленным задачам.

В заключении стоит отметить, что в процессе работы над приложением удалось достичь результатов распознавания текста, на уровне тех, что показывают аналогичные приложения распознавания теста. В то же время, с помощью модуля обучения был достигнут высокий результат распознавания не шаблонных шрифтов, а использование нейронной сети позволило распознавать рукописный текст.

Для развития приложения планируются следующие направления:

Исследование клеточных автоматов в качестве классификатора текста.

Использование нейронных сетей в блоке сегментации текста.

Использование нейронных сетей для проведения почерковедческой экспертизы.

Список использованных источников и список литературы:

Журавлев Ю.И. Избранные научные труды. - Изд. Магистр, 2002. 

http.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену
Каталог работ
Похожие работы: