- Дипломы
- Курсовые
- Рефераты
- Отчеты по практике
- Диссертации
Исследование вероятности распознавания текстовых символов на зашумленных изображениях
Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы: | W007753 |
Тема: | Исследование вероятности распознавания текстовых символов на зашумленных изображениях |
Содержание
Экз. №____ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «МОСКОВСКИЙ ИНСТИТУТ ЭЛЕКТРОННОЙ ТЕХНИКИ» УДК: 621.394: 004.94 № госрегистрации: Инв. № УТВЕРЖДАЮ Заведующий кафедрой «Информационная безопасность» д.т.н., профессор _______ А.А.Хорев «____» ____________ 2017 г. ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ «Исследование вероятности распознавания текстовых символов на зашумленных изображениях» Научный руководитель д.т.н., профессор __________________ подпись В.А. Шевцов Москва 2017 СПИСОК ИСПОЛНИТЕЛЕЙ Научный руководитель НИР Доцент кафедры «Информационная безопасность», доктор технических наук, профессор ______________ подпись, дата А.А.Хорев (раздел 1- 3) Исполнители НИР: Ответственный исполнитель НИР Магистрант группы ИБ-21 ______________ подпись, дата Л.А. Прохоренко (раздел 1 – 3) РЕФЕРАТ Научно-исследовательская работа содержит стр., рисунок, 1 таблицу, 29 источников. Ключевые слова: технический канал утечки информации, побочные электромагнитные излучения, видеосистема, перехват информации, оценка эффективности защиты информации. Объектом исследований является процесс распознавания оператором текстовых изображений, выводимых на экран монитора при различных уровнях зашумленности изображения. Цель научной работы - исследование вероятности распознавания текстовых символов на зашумленных изображениях. В научной работе: проведен анализ моделей распознавания зашумленный изображений; разработана модель перехвата ПЭМИ СВТ средством разведки; разработана методика проведения экспериментальных исследований по оценке вероятности распознавания текстовых изображений, выводимых на экран монитора, при различных отношениях сигнал/шум; с помощью специально разработанного программного комплекса проведены экспериментальные исследований по оценке вероятности распознавания текстовых изображений, выводимых на экран монитора, при различных отношениях сигнал/шум; получены аналитические выражения для расчета вероятности распознавания оператором текстовых изображений, выводимых на экран монитора, от отношения сигнал/шум; обоснованы критерии эффективности защиты текстовой информации, выводимой на экран монитора, от утечки по каналам ПЭМИ. СОДЕРЖАНИЕ СПИСОК СОКРАЩЕНИЙ…………………………………………….. 5 ВВЕДЕНИЕ……………………………………………………………... 6 1 Анализ моделей распознавания зашумленный изображений………. 8 1.1 Модель перехвата побочных электромагнитных излучений средством разведки…………………………………………………….. 8 1.2 Математическая модель зашумленного текстового изображения…...………………………………………………………... 12 2 Методика проведения экспериментальных исследований…………...………………………………………………. 15 2.1 Описание программного комплекса, используемого для экспериментальных исследований……………………………………. 15 2.2 Описание методики проведения экспериментальных исследований 22 3 Анализ результатов экспериментальных исследований…………….. 28 3.1 Результаты экспериментальных исследований……………………… 28 3.2 Обработка результатов экспериментальных исследований…………. 29 3.3 Критерии эффективности защиты текстовой информации, выводимой на экран монитора, от утечки по каналам побочных электромагнитных излучений…………………………………………. 39 ЗАКЛЮЧЕНИЕ………………………………………………………… 41 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ………………….. 43 СПИСОК СОКРАЩЕНИЙ ГПСЧ - Генератор псевдослучайных чисел МО - Математическое ожидание ПК - Персональный компьютер ПО - Программное обеспечение ПСЧ - Псевдослучайное число ПЭВМ - Персональная электронно-вычислительная машина ПЭМИ - Побочные электромагнитные излучения СВТ - Средство вычислительной техники СКО - Среднеквадратичное отклонение ТКУИ - Технический канал утечки информации ТСР - Техническое средство разведки ВЕДЕНИЕ Перехват побочных электромагнитных излучений (ПЭМИ) видеосистемы – один из технических каналов утечки информации, обрабатываемой средствами вычислительной техники (СВТ). С целью защиты СВТ от утечки информации по данному каналу используются пассивные и активные средства. Оценка эффективности защиты СВТ от утечки информации по каналам ПЭМИ проводится инструментально-рассчетным методом, предполагающим изменение уровней напряженности поля ПЭМИ на расстоянии 1 м от СВТ, расчет затухания электромагнитного излучения на трассе «СВТ – средство разведки» и расчет вероятности правильного обнаружения информативного сигнала приемным устройством средства разведки. Считается, что перехват ПЭМИ СВТ невозможен (нормы по защите информации выполняются), если вероятность правильного обнаружения информативного сигнала приемным устройством средства разведки не превышает установленного порогового значения. Данный подход к оценке эффективности защиты СВТ от утечки информации по каналам ПЭМИ не учитывает того факта, что анализ перехваченного изображения осуществляет оператор. Поэтому очень важно исследовать вероятность распознавания изображений оператором. В основном, к информации ограниченного доступа, обрабатываемой на ПЭВМ, относится текстовая информация, поэтому в данной научной работе исследуется зависимость вероятности распознавания текстовых символов на зашумленном изображении от отношения сигнал/шум с целью в конечном итоге обоснования критериев эффективности защиты текстовой информации, выводимой на экран монитора, от утечки по каналам ПЭМИ. Объектом исследований является процесс распознавания оператором текстовых изображений, выводимых на экран монитора при различных уровнях зашумленности изображения. Цель научной работы исследование вероятности распознавания текстовых символов на зашумленных изображениях. Для достижения поставленной цели были сформулированы следующие задачи: провести анализ моделей распознавания зашумленный изображений; разработать модель перехвата ПЭМИ СВТ средством разведки; разработать методику проведения экспериментальных исследований по оценке вероятности распознавания текстовых изображений, выводимых на экран монитора, при различных отношениях сигнал/шум; с помощью специально разработанного программного комплекса провести экспериментальные исследований по оценке вероятности распознавания текстовых изображений, выводимых на экран монитора, при различных отношениях сигнал/шум; получить аналитические выражения для расчета вероятности распознавания оператором текстовых изображений, выводимых на экран монитора, от отношения сигнал/шум; обосновать критерии эффективности защиты текстовой информации, выводимой на экран монитора, от утечки по каналам ПЭМИ. 1 Анализ моделей распознавания зашумленный изображений 1.1 Модель перехвата побочных электромагнитных излучений средством разведки При прохождении импульсного сигнала от видеоадаптера к монитору по соединительному кабелю, вокруг последнего возникает переменное электромагнитное поле (побочное электромагнитное излучение), представляющее суперпозицию излучений трех цветовых сигналов. Данное излучение может быть перехвачено и детектировано техническим средством разведки побочных электромагнитных излучений. Наиболее подробно проблема перехвата ПЭМИ видеосистемы ПЭВМ с интерфейсами VGA и DVI рассмотрена в диссертации М.Г. Кюна. С использованием программно-аппаратного комплекса в составе цифрового супергетеродинного приемника DynamicSciences R1250, логопериодической антенны, цифрового запоминающего осциллографа Tektronix TDS 7054, генератора импульсов R-1160C, ПЭВМ и специального программного обеспечения, ему удалось на расстоянии 10 м через два офисных помещения (три гипсокартонные стены)реализовать перехват ПЭМИ и восстановить выводимое на экран монитора ноутбука изображение. При этом в здании находилось более 100 работающих компьютеров. М.Г.Кюн экспериментально установил, что разборчивость перехваченного текста зависит от отношения сигнал/шум (рисунок 1.1). Рисунок 1.1 – Зависимость разборчивости текста от отношения сигнал/шум по напряжению q, дБ Рисунок 1.2 Текст, перехваченный с экрана ноутбука 440CDX на расстоянии 10 м через два промежуточных офисных помещения, разделённых 3-мя стенами из гипсокартона: центральная частота сигнала 350 МГц, полоса пропускания приемника F= 50 МГц, усреднение 12 кадров (160 мс). Калибровочная полоска показывает среднеквадратическое напряжение сигнала на входе приемника, мкВ В качестве показателя оценки возможности перехвата ПЭМИ СВТ используется вероятность правильного обнаружения информативного сигнала приемным устройством средства разведки при фиксированной ложной тревоге = const (критерий Неймана – Пирсона). При оптимальном приеме уравнение для расчета вероятности правильного обнаружения единичного импульса со случайной начальной фазой имеет вид , (1.1) где отношениесигнал/шум по напряжению на выходе согласованного фильтра; энергия принимаемого одиночного импульса; функция, определяющая закон изменения амплитуды импульса; длительность импульса; спектральная плотность мощности шума, приведенная ко входу разведывательного приемника на сопротивлении 1 Ом. Интеграл в формуле (1.1) в элементарных функциях не выражается и может быть рассчитан численно, либо с использованием справочных таблиц и графиков. Оценка эффективности защиты СВТ от утечки информации по каналам ПЭМИ проводится инструментально-рассчетным методом, предполагающим изменение уровней напряженности поля ПЭМИ на расстоянии d= 1 м от СВТ, расчет затухания электромагнитного излучения на трассе «СВТ – средство разведки» и расчет вероятности правильного обнаружения информативного сигнала приемным устройством средства разведки. Считается, что перехват ПЭМИ СВТ невозможен (нормы по защите информации выполняются), если вероятность правильного обнаружения информативного сигнала приемным устройством средства разведки не превышает установленного порогового значения , то есть . Данный подход к оценке эффективности защиты СВТ от утечки информации по каналам ПЭМИ не учитывает того факта, что анализ перехваченного изображения осуществляет оператор. Следовательно, он не учитывает особенности зрительной системы человека при обработке зашумленных изображений. Экспериментально установлено, что при распознавании изображений объектов (в том числе и текстов), вероятность правильного распознавания зависит от зашумленности изображения, числа элементов, составляющих алфавит (словарь), а также от априорной вероятности предъявляемых изображений объектов. При этом вероятность распознавания изображения объекта Рр с достаточной точностью может быть рассчитана по эмпирической формуле , (1.2) где – интеграл вероятности; Q1 и Q2 коэффициенты, определяемые объемом априорной информации об объектах, которой располагает дешифровщик; qотношение сигнал/шум с учетом фильтрации, осуществляемой зрительной системой (воспринимаемое зрительной системой отношение сигнал/ шум); Значения Q1 и Q2 в значительной степени зависят от характера решаемых задач дешифровщиком и при решении определенного вида задачи, например, распознавании известных ему объектов на характерных фонах, могут быть определены экспериментально. Проведенный анализ показал, что в доступной отечественной и иностранной литературе отсутствуют аналитические соотношения, позволяющие рассчитать вероятность распознавания оператором символов (букв русского языка и цифр) на зашумленных изображениях. Поэтому одной из основных задач данной работы является проведение экспериментальных исследований с целью получения зависимостей вероятности распознавания текстовых изображений, выводимых на экран монитора, от отношения сигнал/шум. 1.2 Математическая модель зашумленного текстового изображения Как следует из рисунка 1.1, разборчивость перехваченного текста зависит от отношения сигнал/шум тестового изображения (): , (1.3) где Lc– средняя яркость тестового изображения (математическое ожидание яркости текстового изображения); – среднеквадратическое отклонение яркости текстового изображения. ПЭМИ видеосистемы СВТ в режиме вывода текстовой информации представляет собой суперпозицию излучений трех цветовых сигналов, передаваемым по трем проводам соответственно. Поэтому перехваченное изображение можно восстановить только в градациях серого. В типовых изображениях, выводимых на экран монитора, обычно используются 256 значений яркости: от 0 до 255 включительно; Полагая, что приемник оптимальный (в качестве приемника используется согласованный фильтр) и яркость каждого пикселя изображения имеет линейную зависимость от соответствующего ему напряжения на выходе приемного устройства, формулу (1.3) можно записать в виде , (1.4) где отношениесигнал/шум по напряжению на выходе разведывательного приемника (см. формулу 1.1). Спектральная плотность мощности шума, приведенная ко входу разведывательного приемника на сопротивлении 1 Ом (No) будет определяться как собственными шумами приемника, так и шумами антенны. В соответствие с методиками ФСТЭК России при оценке возможности перехвата ПЭМИ СВТ учитываются только собственный тепловой шум приемного устройства и антенны. Такой шум часто называю «белым». «Белый шум» характеризуется равномерной спектральной плотностью с одинаковой энергией шума в любом заданном интервале частот. Название для данного типа шума взято из оптики, где свет с равной амплитудой во всем спектре имеет белый цвет. Амплитуда «белого шума» описывается Гауссовским (нормальным) законом распределения. С учетом вышесказанного с целью упрощения разрабатываемой модели были приняты следующие допущения: а) сигнал и шум на входе приемного устройства технического средства разведки независимые; б) шумы, приведенные ко входу разведывательного приемника, описывается Гауссовским (нормальным) законом распределения; в) каждый пиксель изображения может принимать 256 значений яркости: от 0 до 255 включительно; г) яркость пикселя изображения имеет линейную зависимость от соответствующего ему напряжения на выходе приемного устройства. Далее рассмотрим процесс формирования исходного изображения с заданным отношением сигнал/шум. При отсутствии сигнала на входе приемного устройства средства разведки яркость изображения, выводимого на экран монитора, будет определяться только собственными шумами приемного устройства. Для нормального закона распределения с математическим ожиданием и среднеквадратическим отношением яркость каждого пиксела изображения, выводимого на экран монитора, при отсутствие сигнала на входе приемного устройства средства разведки будет носить случайный характер. При этом с вероятностью 0,9973, она будет находиться в интервале [;]. При выводе на экран монитора текстовых черно-белых изображений (фон – белый, буквы – черные), ПЭМИ возникают только при передаче импульсов цвета фона (белый цвет). В момент передачи импульсов цвета для пикселей, принадлежащих буквам (цифрам), ПЭМИ отсутствует, так как амплитуда импульсов цвета в каждом из трех проводов равна нулю. Следовательно, яркость пикселей, принадлежащих буквам (цифрам) Lб, будет определяться только шумами приемного устройства и будет носить случайный характер, то есть . Из формулы (1.3) следует, что . Учитывая, что сигнал и шум независимы, яркость пикселей, принадлежащих фону перехваченного изображения Lф, будет равна . (1.5 Учитывая, что яркость пикселей выражается в целых числах, за значение яркостей Lб и Lф необходимо принимать их округленные значения: round (Lб); round (Lф). Для обеспечения выполнения нормального закона распределения необходимо обеспечить локализацию значений величины Lф в промежутке [0; 255]. 2 Методика проведения экспериментальных исследований 2.1 Описание программного комплекса, используемого для экспериментальных исследований В данной работе использовался специально разработанный для проведенияэксперимента программный комплекс, реализующий моделирование текстовых изображений при различных уровнях их зашумленности. Разработчиком программного комплекса является магистрант группы ИПОВС-11, Железнов Д.И. Рисунок 2.1 – Общий интерфейс программного комплекса (основное окно) Программный комплекс имеет 4 окна: - «Главная» - позволяет провести настройку комплекса: сформировать исходное изображение, отобразить изображение с заданным отношением сигнал/шум, включить бинаризацию и задать ее порог, реализовать накопление (усреднение) нескольких перехваченных ТСР ПЭМИ изображений и т.д. - «Тест» - окно, в котором проводится эксперимент; - «Анализ результатов» - позволяет построить график зависимости вероятности распознавания изображения от отношения сигнал/шум; - «ГПСЧ» - выводит график функции генерирования псевдослучайных чисел. Главное окно содержит следующие вкладки: - «Исходное изображение»; - «Параметры шума»; - «Параметры накопления»; - «Редактор изображения». Вкладка «Исходное изображение» позволяет выбрать тип генерируемого изображения (буквы прописные, буквы строчные, цифры), шрифт, кегель, межстрочный отступ, межэлементный отступ, число элементов в строке, максимальное число элементов. При нажатии на кнопку «Обновить» данной вкладки происходит генерация нового изображения. Вкладка «Параметры шума» позволяет установить необходимое отношение сигнал/шум, а также имеет опцию генератора шума в режиме видео. На рисунке 2.2 представлено одно изображение с различным уровнем зашумленности. а) б) в) Рисунок 2.2 – Результаты зашумления изображения с отношением сигнал/шум: а) 4 дБ; б) 8 дБ; в) 12 дБ. При нажатии на кнопку «Обновить» данной вкладки происходит генерация шума, исходное изображение не меняется. Вкладка «Параметры накопления»позволяет формировать изображение, получаемое методом накопления (усреднения) заданного числа изображений. Пример результата накопления (усреднения) изображений представлен на рисунке 2.3. а) б) в) Рисунок 2.3 – Результаты обработки зашумленного изображения (q = 4,77 дБ) методом накопления (усреднения) изображений (верхний ряд тоновые изображения; нижний ряд – бинарные изображения, порог бинаризации - 128): а) исходное изображение; б) изображение, полученное путем накопления (усреднения) десяти изображений; в) изображение, полученное путем накопления (усреднения) пятидесяти изображений Вкладка «Редактор изображения» позволяет производить процедуру бинаризации изображения (преобразования тонового изображения в бинарное). Пример преобразования тонового изображения в бинарное изображен на рисунке 2.4. а) б) Рисунок 2.4 – Пример преобразования тонового изображения (а) в бинарное (б) Окно «Тест» имеет следующий вид Рисунок 2.4 – Общий интерфейс окна «Тест» Для того, чтоб начать эксперимент, необходимо нажать кнопку «Начать», установить необходимые параметры (рисунок 2.5) в соответствии с требованиями методики проведения эксперимента и нажать «Окей». Рисунок 2.5 – Настройки теста Далее пользователю будут представлены изображение для распознавания и поля для заполнения распознанных символов (рисунок 2.6). Рисунок 2.6 – Окно «Тест» во время тестирования В окне «Обработка результатов» происходит анализ результатов эксперимента для одного наблюдателя либо для группы наблюдателей в целом. Результаты отображаются в таблице зависимости вероятности распознавания изображения от отношения сигнал/шум и графике этой зависимости (рисунок 2.7). Рисунок 2.7 – Результат обработки результатов Результаты анализа можно сохранить, нажав на кнопку «Сохранить», после чего происходит создание файла Excel, содержащего 2 листа: «Статистика по буквам», «статистика по экспертам» (рис. 2.8, 2.9). Рисунок 2.8 – Содержание листа «Статистика по экспертам» сохраненного файла Рисунок 2.9 – Содержание листа «Статистика по буквам» сохраненного файла 2.2 Описаниеметодики проведения экспериментальных исследований Распознавание букв и цифр на текстовых изображениях должны проводить лица, имеющие остроту зрения не менее 0,5 дптр (с коррекцией в случае необходимости) при установленном расстоянии наблюдения, нормальную контрастную чувствительность зрения и способность различать цвета (ГОСТ Р 50948-2001). Для обеспечения статистической представительности результатов число наблюдателей должно быть около 20, но не менее 10. Исследование допускается проводить как с одиночными наблюдателями, так и с группой. В последнем случае должны быть обеспечены одинаковые условия наблюдения и независимость суждений участников испытаний (ГОСТ 26320-1984). 2.2.1 Условия наблюдения Наблюдатель должен выбрать удобное для себя расстояние до экрана. Во время эксперимента он может отдаляться или приближаться к экрану с целью поиска наилучшей разборчивости символов для текущего предъявленного изображения. Для обеспечения комфортных условий восприятия информации и точного ее считывания работа с дисплеями должна проводиться при таких сочетаниях значений яркости и контраста изображения, внешней освещенности экрана, углового размера знака и угла наблюдения экрана, которые входят в оптимальные или предельно допустимые (при кратковременной работе) диапазоны Допустимые диапазоны значений внешней освещенности экрана, углового размера знака и угла наблюдения экрана, – по ГОСТ Р 50923. Диапазоны значений яркости и контраста изображения должны соответствовать требованиям п. 5.1 и п. 5.4 ГОСТ Р 50948-2001. Эргономические требования к цветовым параметрам должны соответствовать п.4.2 ГОСТ Р 50948-2001. 2.2.2 Подготовка к проведению испытаний. Перед началом испытаний наблюдатели должны быть ознакомлены с целью испытаний, настоящей методикой и методом оценок результатов испытаний. Должен быть проведён предварительный сеанс испытаний, в процессе которого наблюдателям поясняется работа с программой сбора статистических данных, элементами интерфейса и порядком заполнения полей ответов. Для того, чтоб начать эксперимент, необходимо нажать кнопку «Начать» вкладки «Тест». Наблюдателю необходимо ввести свои идентификационные данные (фамилия и имя) и выбрать, какие символы будут тестироваться (буквы прописные, буквы строчные, цифры). Все остальные параметра установлены по умолчанию в соответствии с целями эксперимента: - количество символов на изображении: 40 (включая пробелы); - шрифт: Times New Roman$ - кегель: 14; - накопление – 1; - отношение сигнал/шум: 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; - количество повторений: 10. Далее необходимо на нажать на кнопку «Окей». 2.2.3 Проведение испытаний 2.2.3.1 Наблюдателю для распознавания предъявляются в зависимости от выбранных настроек: изображение, представляющее собой набор из 33 символов - прописных букв русского алфавита – и 7 пробелов; изображение, представляющее собой набор из 33 символов - строчных букв русского алфавита и 7 пробелов; изображение, представляющее собой набор из 10 символов – цифр – и 7 пробелов. Присутствие на изображении пробелов необходимо для расчёта вероятности ложного срабатывания – возможности такой генерации шума, при которой наблюдателю на месте пробела видится символ. 2.2.3.2 Распознавание изображений производится при отношении сигнал/шум в диапазоне от 3 до 12 дБ с шагом 1 дБ. Проводить эксперименты со значениями отношения сигнал/шум, выходящими за этот диапазон нецелесообразно, так как при больших значениях все символы распознавались с вероятностью, близкой к 1, а при меньших – вероятность правильного распознавания становилась близкой к нулю. Контрольные изображения предъявляются наблюдателю в порядке от наиболее зашумленного (с низким отношением сигнал/шум) до менее зашумленных (с высоким отношением сигнал-шум). Каждое изображение генерируется 10 раз для каждого отношения сигнал/шум. Итого представляется 100 изображений для распознавания. 2.2.3.3 Наблюдатель заполняет поле ответов только прописными буквами, строчными буквами и цифрами, а также специальным знаком («-») в случае невозможности распознания конкретной буквы или цифры. В случае, если наблюдателю встречается пробел, он оставляет поле пустым. 2.2.3.4 Наблюдатель при распознавании изображения может пользоваться функцией «Редактор изображения», которая производит бинаризацию изображения с заданным порогом. 2.2.3.5 Для каждого распознаваемого изображения в протокол заносятся идентификатор эксперта, предъявленные символы, ответы наблюдателя, отношение сигнал/шум, установленные настройки. Протокол записывается в виде таблицы для каждого наблюдателя, в которой наименование строк – буквы, отсортированные в алфавитном порядке, а наименование столбцов – отношение сигнал/шум. В таблицу заносится количество верно распознанных букв (цифр). 2.2.3.6 До начала работы наблюдателей, посередине смены и в конце работы обязательно проводят контрольное предъявление изображение символов с фиксированной зашумленностью для проверки стабильности результатов и оценки утомленности наблюдателей. 2.2.3.7 Общее время одного сеанса испытаний не должно превышать 30 минут. 2.2.4 Обработка результатов Статистический анализ результатов включает в себя оценки всех предъявлений, исключая предварительные сеансы. В ходе анализа результатов испытаний для каждого значения отношения сигнал/шум (q) рассчитывается вероятность правильного распознавания каждого символа (буквы, цифры) каждым наблюдателем по формуле , (2.1) где Mi.j – количество раз, когда i-й наблюдатель правильно распознал j-й символ (букву, цифру); Ni– количество предъявлений для распознавания i-му наблюдателю j-го символ (буквы, цифры). Далее рассчитываются вероятности правильного распознавания каждого символа (буквы, цифры) всеми наблюдателями: , (2.2) где К – количество наблюдателей, участвующих в эксперименте. Результаты расчетов вероятностей правильного распознавания отдельных символов (букв, цифр) в зависимости от отношения сигнал/шум сводятся в таблицу. Учитывая, что события распознавания разных символов являются несовместными, для расчета вероятности правильного распознавания всех символов, предъявляемых в эксперименте (), используем формулу полной вероятности: , (2.3) где – априорная вероятность появления j-го символа; – вероятность правильного распознавания j-го символа при его предъявлении (условная вероятность); N – число предъявляемых символов. За априорную вероятность появления символа будем принимать частоту его встречаемости в тексте. Встречаемость цифр примем равновероятным. Поэтому для расчета вероятности правильного распознавания цифр можно использовать формулу: , (2.4) где – вероятность правильного распознавания j-й цифры при ее предъявлении (количество цифр – 10). Частота встречаемости букв в русском языке приведена в таблице 3.1. Таблица 3.1 – Частота встречаемости букв русского языка Буква Частота встречаемости, % Буква Частота встречаемости, % а 8,01 р 4,73 б 1,59 с 5,47 в 4,54 т 6,26 г 1,7 у 2,62 д 2,98 ф 0,26 е 8,45 х 0,97 ё 0,04 ц 0,48 ж 0,94 ч 1,44 з 1,65 ш 0,73 и 7,35 щ 0,36 й 1,21 ъ 0,04 к 3,49 ы 1,9 л 4,4 ь 1,74 м 3,21 э 0,32 н 6,7 ю 0,64 о 10,97 я 2,01 п 2,81 С учетом частоты встречаемости букв русского языка формулу для расчета вероятности распознавания букв запишем в виде , (3.5) где – частота встречаемостиj-й буквы русского языка (количество букв 33); – вероятность правильного распознавания j-й буквы при ее предъявлении (условная вероятность). Производится расчёт Pр.б.отдельно для строчных букв и прописных букв. На основании полученных данных строится зависимость вероятности правильного распознавания символов (букв, цифр) от отношения сигнал/шум. 3Анализ результатов экспериментальных исследований 3.1 Результаты экспериментальных исследований Наблюдение изображений происходило невооруженным глазом. Изображения рассматривались на экране жидкокристаллического монитора SamsungS22D300HY с разрешением 19201080 точек. Условия наблюдения соответствовали требованиям методики проведения экспериментальных исследований, приведенной в подразделе 2.2. При наблюдении прописных и строчных букв русского алфавита (черных на белом фоне) они располагались в виде таблицы 10?4; при распознавании цифр символы располагались в следующем порядке: 10 символов в первой строке 7 – во второй (с учетом пробелов);шрифт TimesNewRoman, размер шрифта – 14 пунктов. Расположение символов и пробелов на каждом изображении случайное и разное. Таблицы генерировались с помощью разработанного программного комплекса. Было сгенерировано по 10 изображений для каждого отношения сигнал/шум для каждого эксперта для каждого варианта символа (прописные буквы, строчные буквы, цифры). В работе принимали участие 20 наблюдателей. По результатам экспериментальных исследований была получена выборка, состоящая из 194000 записей о событиях успешного или неуспешного распознавания букв или цифр со значением отношения сигнал/шум, изменяющимся в диапазоне от 3 до 12 дБ. Проводить эксперименты со значениями отношения сигнал/шум, выходящими за этот диапазон нецелесообразно, так как при больших значениях все символы распознавались с вероятностью, близкой к 1, а при меньших – вероятность правильного распознавания становилась близкой к нулю. 3.2 Обработка результатов экспериментальных исследований По результатам проведенных экспериментальных исследований были рассчитаны вероятности распознавания каждого символа (буквы, цифры) по формуле . (3.1) Результаты расчетов для прописных букв, строчных букв и цифр представлены в таблицах 3.1, 3.2 и 3.3 соответственно. Таблица 3.1 – Вероятности распознавания прописных букв Символ Отношение сигнал/шум, q [дБ] 3 4 5 6 7 8 9 10 11 12 А 0,00 0,00 0,00 0,05 0,19 0,46 0,81 0,89 0,92 0,89 Б 0,00 0,00 0,00 0,02 0,09 0,27 0,57 0,79 0,88 0,90 В 0,00 0,00 0,00 0,02 0,10 0,27 0,47 0,69 0,78 0,85 Г 0,00 0,00 0,02 0,04 0,18 0,36 0,65 0,87 0,89 0,92 Д 0,00 0,00 0,00 0,03 0,14 0,34 0,70 0,89 0,91 0,92 Е 0,00 0,00 0,00 0,01 0,02 0,18 0,51 0,77 0,82 0,89 Ё 0,00 0,00 0,00 0,00 0,03 0,16 0,35 0,63 0,80 0,87 Ж 0,00 0,00 0,05 0,10 0,37 0,73 0,85 0,91 0,91 0,92 З 0,00 0,00 0,00 0,05 0,11 0,32 0,66 0,85 0,87 0,91 И 0,00 0,00 0,01 0,05 0,26 0,47 0,71 0,84 0,90 0,91 Й 0,00 0,02 0,02 0,02 0,14 0,44 0,63 0,75 0,82 0,86 К 0,00 0,00 0,01 0,04 0,24 0,54 0,76 0,85 0,90 0,92 Л 0,00 0,00 0,00 0,04 0,06 0,27 0,57 0,73 0,83 0,90 М 0,00 0,00 0,01 0,04 0,15 0,43 0,75 0,85 0,92 0,92 Н 0,00 0,01 0,00 0,04 0,17 0,40 0,68 0,86 0,89 0,91 О 0,00 0,00 0,02 0,07 0,32 0,66 0,86 0,89 0,91 0,92 П 0,00 0,01 0,00 0,02 0,11 0,31 0,66 0,78 0,86 0,92 Р 0,00 0,00 0,02 0,02 0,12 0,37 0,68 0,86 0,91 0,91 С 0,00 0,00 0,01 0,01 0,15 0,36 0,53 0,79 0,89 0,92 Т 0,00 0,00 0,01 0,05 0,08 0,39 0,66 0,82 0,89 0,90 У 0,00 0,00 0,01 0,03 0,22 0,54 0,75 0,90 0,90 0,92 Ф 0,00 0,00 0,00 0,08 0,15 0,52 0,71 0,85 0,89 0,92 Х 0,00 0,00 0,02 0,04 0,18 0,43 0,63 0,83 0,89 0,91 Ц 0,00 0,01 0,00 0,01 0,17 0,40 0,63 0,83 0,89 0,91 Ч 0,00 0,00 0,01 0,02 0,14 0,35 0,63 0,79 0,89 0,92 Ш 0,00 0,00 0,01 0,11 0,34 0,57 0,78 0,79 0,81 0,89 Щ 0,00 0,00 0,03 0,07 0,15 0,37 0,50 0,65 0,69 0,76 Ъ 0,00 0,00 0,02 0,02 0,11 0,38 0,56 0,73 0,82 0,88 Ы 0,00 0,00 0,00 0,02 0,21 0,51 0,70 0,88 0,92 0,92 Ь 0,00 0,00 0,00 0,02 0,24 0,50 0,68 0,85 0,90 0,89 Э 0,00 0,00 0,00 0,02 0,08 0,36 0,72 0,82 0,90 0,92 Ю 0,00 0,00 0,04 0,10 0,45 0,76 0,89 0,90 0,89 0,92 Я 0,00 0,00 0,01 0,02 0,16 0,40 0,67 0,89 0,91 0,92 Таблица 3.2 – Вероятности распознавания строчных букв Символ Отношение сигнал/шум, q [дБ] 3 4 5 6 7 8 9 10 11 12 а 0,00 0,00 0,00 0,00 0,00 0,03 0,10 0,40 0,73 0,89 б 0,00 0,00 0,00 0,00 0,05 0,15 0,62 0,91 0,98 0,95 в 0,00 0,00 0,00 0,00 0,00 0,06 0,13 0,35 0,52 0,68 г 0,00 0,00 0,00 0,00 0,03 0,10 0,38 0,69 0,93 0,95 д 0,00 0,00 0,00 0,00 0,02 0,10 0,32 0,68 0,96 0,96 е 0,00 0,00 0,00 0,00 0,01 0,05 0,20 0,63 0,88 0,94 ё 0,00 0,00 0,00 0,00 0,00 0,01 0,22 0,69 0,93 0,96 ж 0,00 0,00 0,00 0,01 0,07 0,28 0,77 0,93 0,97 0,99 з 0,00 0,00 0,00 0,01 0,01 0,04 0,26 0,51 0,74 0,84 и 0,00 0,00 0,00 0,00 0,04 0,18 0,46 0,73 0,88 0,9....................... |
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену | Каталог работ |
Похожие работы: