Главная / Образцы дипломных работ

Разработка информационно-вычислительной системы автоматического синтеза речи

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.

Код работы:	W013362
Тема:	Разработка информационно-вычислительной системы автоматического синтеза речи

Содержание

Введение
Автоматический синтез речи - это технология, позволяющая преобразовать входную текстовую информацию в звучащую речь. При этом одним из важнейших аспектов является качество синтезируемой речи. Технология синтеза речи многого достигла в своем развитии. Синтезированную речь сегодня часто сложно отличить от естественной речи. Позвонив в информационную службу, мы уже слышим не роботизированную речь, а приятный естественный голос. Автоинформационная система с синтезом речи освобождает операторов от ответов на часто повторяющиеся вопросы такого плана как курс валюты, время, прогноз погоды и многое другое. Технология синтеза речи открывает широкие возможности для людей с физическими недостатками. Разработаны говорящие машины для слепых и слабовидящих. Для немых предусмотрены портативные устройства синтеза речи, в которых сообщение набирается на клавиатуре, что позволяет общаться с другими людьми.
Но у данных систем есть недостатки. Синтезатор речи, основанный на заранее записанных предложениях, предназначается для использования в системах с фиксированным набором фраз. В связи с этим, синтезаторы данного вида только озвучивают заранее заданную информацию и не способны сгенерировать новую фразу. Такие свойства сильно ограничивают области применения синтезатора.
Синтезаторы речи, оперирующие набором слов и шаблоном составления предложений, более гибки, но также зависит от объема заданной заранее информации. С помощью такого синтезатора можно только перебрать все возможные сочетания слов в словаре, благодаря чему оперирует большим диапазоном фраз, но в основном сохраняет недостатки предыдущего синтезатора.
Синтез речи, оперирующей наименьшей звуковой единицей языка – фонемой, предоставляет наибольшую вариативность, позволяя покрыть все возможные варианты, но синтезированная таким образом речь звучит неестественно для человеческого слуха. Человек способен воспринимать такую речь ограниченное количество времени, после чего становится трудным воспринимать информацию.
В настоящий момент первые два типа практически ушли из широкого применения. Распространены различные вариации синтезаторов третьего типа, составленные с целью убрать или уменьшить один из недостатков такого синтезатора. Синтезированная речь все еще отлична от человеческой, но длительность восприятия значительно возросла.
В настоящий момент проблема заключается в отсутствии достаточно проработанного синтезатора речи, который может генерировать речь в широких диапазонах или с эмоциональным окрасом, что позволит синтезированной речь стать максимально похожей на человеческую
Соответственно, актуальным является решение задачи создания системы, способной на генерацию речи максимально приближенной к человеческой путем анализа голоса человека и составления ключа голоса, на основе которого возможен синтез речи близкой к оригиналу.
Целью работы является разработка информационно-вычислительной системы автоматического синтеза речи по фонетическим правилам русского языка.
Для достижения поставленной цели решались следующие задачи:
1. Изучение существующих программных продуктов для автоматического синтеза речи.
2. Исследование существующих способов и средств решения проблемы и разработка на основе проведенных исследований алгоритма реализации программного продукта.
3. Разработка программного продукта.
Объектом исследования и разработки является информационно-вычислительная система автоматического синтеза речи.
Предмет исследования – синтез речи посредством дифонного полуслогового метода с помощью алгоритмов кластеризации.
Избранными методами исследования в данной работе являлись дифонныйполуслоговый метод, экспериментальные фонетические методы для анализа текстов и кластеризация на основе персептронной модели.
Научной новизной работы является использование алгоритма кластеризации для создания фонетического ядра, на основе которого возможен синтез речи с уникальными особенностями определённого человека.
Система предназначена для использования в производствах, связанных с широким голосовым оповещением в течении длительного времени. Возможное ее применение – системы оповещения аэропортов, вокзалов, робототехника.
Структура и объем работы. Преддипломная практика состоит из введения, 2 разделов, заключения и списка использованной литературы. Текст преддипломной практики включает 59 страниц, из них 36 страниц основного текста.
Во введении формулируются проблема, актуальность и цель работы, решаемые задачи. Также приводятся объект, предмет и избранные методы исследования, научная новизна работы, варианты использования системы. Указаны структура и объем работы, а также приведено краткое содержание каждого из разделов.
В первом разделе проводится анализ имеющихся синтезаторов речи, которые позволяют формировать речевой сигнал на основе текстовой информации.
Второй раздел посвящен разработке методов и принципов, позволяющих генерировать синтезируемую речь наиболее близкую к человеческой.
В третьем разделе представлена разработка программного продукта на основе разработанных методов и принципов.
Четвертый раздел посвящен разработанной информационно-вычислительной системе, изучением ее особенностей, получению результатов работы.
В заключении излагаются основные результаты.
?

1 Аналитический обзор средств синтеза речи
1.1 Обзор средств синтеза речи
Синтез речи в широком смысле означает восстановление формы речевого сигнала по его параметрам. Частным случаем этого процесса может служить формирование речевого сигнала по печатному тексту. Существует большое количество средств синтеза речи, наиболее известными из которых являются:
- синтезатор Acapela,
- синтезатор Vokalizer,
- синтезатор RHVoice,
- синтезатор SVOX Mobile TTS,
- синтезатор Flite,
- синтезатор eSpeak,
- синтезатор Symbian,
- синтезатор Android,
- синтезатор RSynth,
- синтезатор Festival,
- синтезатор Epos,
- синтезатор Tacotron.
1.1.1 Синтезатор Acapela
Acapela – синтезатор, разработанный компанией Acapela Inclusive.

В самом начале позиционировалась как TTS система для людей с ограниченными возможностями, позднее расширила свой функционала практически во все сферы, нуждающиеся в синтезированной речи. Имеется ряд существующих решений – вариаций приложения, предназначенные для работы в отдельных сферах. Например, устройства для адаптации слабовидящих людей, как серия InfovoxiVox, или интерактивное обучение на сайте Airbus. Основная направленность Acapela – вокализация интерфейса и контента для пользователей.
Преимущества данного средства синтеза речи:
1) Высокое качество синтезированного голоса.
2) Мультиязычность. Синтезатор Acapela способен работать с текстовой и звуковой информацией на 30 языках, и данное число постепенно увеличивается.
3) Многовариантность голоса. Синтезатор использует более 100 уникальных голоса при синтезе речи.
4) Эмоциональная наполненность синтезированного голоса. Данное свойство позволяет получать гораздо более адаптированную речь для человеческого слуха.
5) Синтезатор Acapela при анализе голоса способен распознать акцент или дефект речи, что сильно влияет на качество голоса.
6) Уникальность предоставляемых по умолчанию голосов, полученной благодаря обработке донорского голоса большим количеством часов работы нейросетей.
7) Кроссплатформенность. Синтезатор доступен на различных платформах Windows, Mac, iOS, Android, Linux посредством собственного SDK.
8) Возможность работы как через сайт компании, благодаря облачным хранилищам, так и через отдельное приложение.
9) Возможность создания голоса не по шаблону, а с помощью записи. Голос может как добавить в общую базу с последующей обработкой и публикацией, так и оставить приватным.
10) Собственная разработка искуственной нейронной сети Acapela DeepNeuralNetwork, которая способна смоделировать практически любой голос на основе нескольких минут речевых записей.
11) Возможность регуляции необходимого качества голоса
12) Простота интеграции синтезатора Acapela в различные проекты.
13) Интуитивно понятный интерфейс
14) Быстрый отклик синтезатора на производимые пользователем действия.
15) Подходит для разовых задач по озвучиванию текста, но и постоянной работы в программах экранного доступа.
Недостатки данного средства синтеза речи:
1) Высокая цена синтезатора.
2) Небольшое количество адаптированных для русского языка голосов.
3) Нестабильность голосового движка и склонность к ошибкам в отдельных версиях.
4) Дефекты при синтезе речи на этапе анализа текста. Например, одна из частых ошибок синтезаторов русского языка - отсутствие произношения отдельно стоящих беззвучных букв, например, мягкого и твердого знака в русском языке.
5) Дефекты при синтезе речи на этапе создания звука. Склонность к «проглатыванию» окончаний фраз, особенно в сложных участках.
6) Низкая скорость работы, что исключает использование данного синтезатора в большинстве систем реального времени.
1.1.2 Синтезатор Vokalizer
Синтезатор Vokalizer – разработка компании Nuance. Данный синтезатор речи от Vokalizer представляет собой не универсальный голосовой движок, встраивающийся в системную TTS-службу Android, а встроенный компонент русскоязычного программного комплекса экранного доступа MobileAccessibility.
Преимущества данного синтезатора:
1) Более естественная и чистая речь по сравнению со своими конкурентами.
2) Кастомизированность голосового движка. Возможно устанавливать различные словари по выбору пользователя, а также корректировать различные параметры итоговой синтезированной речи: громкость, скорость, ударение. Возможно изменить способы обработки пунктуации и цифр.
3) Кроссплатформенность. Синтезатор имеет различные версии для мобильных, автомобильных и компьютерных приложений.
4) Конфигурация синтезатора позволяет создавать аудиокниги.
5) Поддержка более 80 голосов на 40 языках.
6) Поддержка синтеза сокращений различного вида: аббревиатуры, смайлики.
7) Присутствует защита от неосторожных действий пользователя.
8) В последних версиях появилась возможность компенсации изначально большого размера файлов голоса.
9) Частые обновления и улучшения синтезатора.
10) Удобное интерфейс.
Имеется и ряд недостатков:
1) Большие размеры файлов голоса, затрудняющие их обработку и хранение.
2) Долгий отклик синтезатора на действия пользователя.
3) Невозможность создания своего голоса.
4) Дефекты при синтезе речи на этапе анализа текста. Например, одна из частых ошибок синтезаторов русского языка - отсутствие произношения отдельно стоящих беззвучных букв, например, мягкого и твердого знака в русском языке.
5) Дефекты при синтезе речи на этапе создания звука. Склонность к «проглатыванию» окончаний фраз, особенно в сложных участках.
6) Низкая скорость работы, что исключает использование данного синтезатора в большинстве систем реального времени.
7) Долгая обработка больших объемов текста.
8) Чрезмерное потребление ресурсов.
1.1.3 RHVoice
RHVoice — это многоязычный синтезатор речи с открытым исходным кодом, доступный в версиях для операционных систем Windows и Linux.
Преимущества синтезатора:
1) Открытый код синтезатора и голосового движка.
2) Четкое звучание.
3) Правильность синтезируемой речи.
Недостатки
1) Большой вес файлов голосов.
2) Монотонность синтезируемой речи.
3) Слабая связность голосов.
4) Отсутствие атмосферности получаемой речи, в связи с чем голоса становятся плоскими и безликими.
1.1.4 SVOX Mobile TTS
Преимущества синтезатора:
1) Высокое качество синтезированного голоса.
2) Мультиязычность. Синтезатор Acapela способен работать с текстовой и звуковой информацией на 30 языках, и данное число постепенно увеличивается.
3) Многовариантность голоса. Синтезатор использует более 100 уникальных голоса при синтезе речи.
Недостатки:
1) Малое количество голосов.
2) Ряд дефектов голосов-доноров.
3) Сильная зависимость от подачи текстовой информации.
4) Ряд странных установок, например, восприятие отдельных латинских букв как римские цифры, что путает пользователя.
5) Весьма медленная скорость реакции синтезатора на действия пользователя.
6) Слабая проработанность языков, кроме английского.
1.1.5 Flite
Порт FLite синтезатора Festival активно развивается, но она заточен только под английский язык. Работа с русским языком возможна только в случае перевода текста в транслит, что влечет за собой ряд недостатков, таких как неправильность ударений и интонаций.
1.1.6 eSpeak
eSpeak - это компактный мультиязычный некоммерческий программный синтезатор речи, разработанный Джонатаном Дуддингтоном. Синтезируемая речь находится на среднем уровне качества, но вполне разборчива. Программа может работать не только под *nix, но также под Windows и MacOS.
Из основных недостатков можно указать, что eSpeak всегда ставит ударение на первый слог. Необходимо вручную вносить изменения в текст, в частности, чтобы слова с ударением не на первом слоге звучали правильно, нужно ставить перед ударным слогом пробел.
1.1.7 Symbian
Встроенный TTS от SymbianFoundation находится в классе CMdaAudioPlayerUtility. Данный синтезатор не указан в официальной документации, но позволяет синтезировать речь. Русский язык не поддерживается напрямую. Качество генерации английской речи очень низкое.
Можно загрузить дополнительные языковые пакеты, однако список поддерживаемых платформ небольшой.
Имеется расширение API под названием NSS TTS Utility API с подробным описанием.
1.1.8 Festival
FestivalSpeechSynthesisSystem — обобщенная многоязычная система синтеза речи, разработанная Аланом В. Блэком в Исследовательском Центре Речевых Технологий (CSTR) в университете Эдинбурга. Существенный вклад также был сделан Университетом Карнеги-Меллона и другими. Распространяется под свободной лицензией, аналогичной лицензии BSD.
1.1.9 Epos
Программа Epos разработана специально под языки славянской группы, в связи с чем качество русского языка у синтезируемой речи находится на высоком уровне. Предоставляется небольшой транслитератор, для удобстава использования Epos.
Синтезатор поддерживает множество голосов, как мужских, так и женских. Имеется поддержка многих языков.
Основной недостаток – трудность работы со звуками Ч, Ш и Щ.
1.2 Сравнение существующих средств синтеза речи
Все вышеперечисленные средства синтеза речи обладают своим достоинствами и недостатками. При их сравнении необходимо руководствоваться из требований к программному продукту.
Так, Синтезатор Acapela способен выдавать синтезируемую речь близкую к человеческой, но только в случае работы одного из встроенных голосов синтезатора, специализированного под язык. При загрузке стороннего голоса, из-за малого времени обработки нейронной сети, искусственная речь становится гораздо менее разборчивой. Также существуют трудности при работе с русским языком в местах со сложными конструкциями.
Синтезатор Vokalizer также имеет проблемы при работе с русским языком. Большое количество настроек позволяют сгладить, но оставшиеся недостатки делают синтезируемую речь менее разборчивой. Программа медленно реагирует на действия пользователя.
Синтезатор RHVoice обладает слабой связностью генерируемой речи и отсутствием интонации.
Синтезатор SVOX Mobile TTS обладает рядом настроек, которые неприменимы в русском языке, в связи с чем качество синтезируемой речи получается неравномерным.
Синтезатор Flite не предназначен для работы с русским языком. Использование транслитерации позволяет обойти данную проблему, путем ухудшения качество получаемой речи.
Синтезатор eSpeak обладает слабым лингвистическим анализом текста, за счет чего часто получаются ошибки.
Синтезаторы Symbian, Android, RSynth являются максимально упрощенными генераторами речи с крайне низким качеством речи.
Открытый синтезатор Festival обладает малым количеством русских голосов, не способен увеличивать количество голосов и привязан к платформе Linux.
Синтезатор Epos также не предназначен для работы с русским языком. После использования транслитератораадаптированность синтезатора к языкам славянской группы слабо влияет на качество речи.
Синтезатор Tacotron 2 не закончен и обладает крайне ограниченным набором голосовю
Выводы к главе: Проведённые исследования существующих средств синтеза речи показали, что для полноценной работы в системе для синтеза речи русского языка по фонетическим правилам должны присутствовать следующие элементы:
1) Блок лингвистической обработки текста. Обрабатывает и нормализует текст, приводит к виду, воспринимаемому программой, по правилам русского языка.
2) Блок фонетического ядра. Обрабатывает звуковую информацию, выделяет фонемы, приводит к виду, воспринимаемому программой, по фонетическим правилам русского языка.
3) Блок сопоставления вводимой информации. Сопоставляет получаемую с предыдущих блоков информацию. Генерирует недостающие варианты.
4) Блок создания голоса. Использует полученную информацию для создания файла, хранящего все параметры голоса.
5) Блок озвучивания. На основе предоставленного файла голоса и вводимого текста синтезирует речевой сигнал.
?
2 Разработка системы синтеза речи по фонетическим правилам русского языка
2.1 Строение TTS системы
TTS система состоит из 5 основных частей: блок лингвистической обработки текста, блок фонетического ядра, блок сопоставления вводимой информации, блок создания голоса, блок озвучивания.
2.2 Блок лингвистической обработки текста
Основной задачей блока лингвистической обработки является создание транскрипционного представления (записи) текста и его фрагментов, которое должно содержать как сегментную, так и супрасегментную фонетическую информацию, необходимую для последующей генерации акустического сигнала.
При создании системы ряд задач, стоящих перед синтезаторами речи, был отброшен. К таким относятся автоматическое определение языка входного текста, коррекция орфографических и пунктуационных ошибок, расшифровка аббревиатур. Данные задачи не входят в требования к системе, так как являются существенными в основном для систем многоязычного синтеза. Также автоматическая коррекция и расшифровка сильно зависят от управляющего алгоритма, в связи с чем могут возникать проблемы при озвучивании электронного варианта текста, полученного в результате сканирования. Необходимо отметить, что и в обычном тексте, введённом с использованием клавиатуры, могут быть ошибки, устранение которых желательно до начала подготовки текста к озвучиванию.
2.3 Принципы реализации блока лингвистической обработки
Слова входного текста для синтезирования проходят два этапа обработки:
1) Слово в буквенном представлении преобразуется в последовательность фонем.
2) Слово в буквенном представлении преобразуется в последовательность аллофонов.
2.3.1 Нормализация текста
Для построения текст должен быть сначала представлен как последовательность слов, разделённых пунктуационными знаками.
1. Обработка текстовых объектов, которые не являются обычными словами (цифры, условные сокращения типа "г-н, г., т.д., т.е.", смайлики и др.) и требуют вербализации с выбором нужной грамматической формы.
2. Обработка текстовых объектов, которые не являются обычными словами, но в то же время не требуют вербализации (аббревиатуры, собственные имена).
3. Обработка обычных слов (замена "е" на "ё", маркирование ударного гласного с учетом возможной омографии).
Первые два типа операций в данном синтезаторе не требуют реализации, так как их можно заменить предварительной обработкой текста.
Больший интерес представляет механизм расстановки ударений. Исходя из полученной информации [1], потребуется первоначальный синтаксический анализ текста, чтобы определить особенности структуры предложений и назначить каждому слову категории. Категории необходимы, чтобы определить какие правила постановки ударений необходимо применять в данном случае. Виды категорий:
1) Прилагательные. Большинство правил для этой категории предусматривает рассмотрение исходного слова.
2) Глаголы. Имеется несколько жестких закономерностей и набор словарей.
3) Причастия.
4) Деепричастия.
5) Наречия.
6) Слова иностранного происхождения. В основном, используется набор словарей с уже расставленными ударениями.
7) Исключения. Приведен список слов, в которых ударение ставится иначе, чем указывается в категории. Список пополняется программой как ответ на действия пользователя.
8) Сложные слова. Разбиение слова на составляющие и присвоение их категорий.
9) Использования приставок, суффиксов, окончаний. Ряд правил и закономерностей, меняющих постановку ударения.
2.3.2 Составление алфавита
После нормализации текста происходит обработка отдельных слов. Обработка происходит исходя из заранее составленной классификации фонем и аллофонов посредством кластеризации. Используются несколько параметров, таких как:
- отсутствие или наличие преграды в ротовой полости при произношении звука;
- участие в артикуляции мягкого нёба;
- работа голосовых складок;
- способ образования звука;
- степень напряжения средней части спинки языка;
- степень подъёма языка в ротовой полости;
- участие в артикуляции разных частей языка;
- лабиализация;
- принадлежность к ряду (положению языка в горизонтальной плоскости);
- степень подъёма языка к нёбу (его положению в вертикальной плоскости);
- место артикуляции: активный и пассивный артикуляторы;
- способ артикуляции;
- соотношение шума и голоса;
- наличие или отсутствие дополнительной артикуляции, например, палатализации;
- положение мягкого неба;
- место резонирования;
- производимое акустическое впечатление.
Благодаря большому количеству параметров становится возможным дальнейшая обработка звуковой информации, и генерация недостающих фонем и аллофонов.
2.5 Приведение звуковой транскрипции к базовым единицам синтеза
Указанная операция необходима в связи с разной степенью фонетической детализации, которая задается фонемным транскриптором, с одной стороны, и необходима для качественного синтеза, с другой. Транскриптор работает с инвентарем из 56 единиц, а акустические базы элементов конкатенации (у нас, как правило, аллофонной размерности) содержат 688 и 1300 единиц.
2.6 Блок сопоставления вводимой информации
Данный блок сопоставляет полученную от блока фонетического ядра последовательность звуковых фрагментов и полученную от блока лингвистической обработки текста последовательность. Составляется полный набор всех комбинаций фонем и аллофонов. Отсутствующие комбинации генерируются автоматически на основе работы алгоритма кластеризации и алгоритма поиска нечетких дубликатов на основе простых признаков[6].
2.8 Блок создания голоса
Данный блок принимает обработанные данные и на их основе создает файл, сохраняющий все полученные характеристики голоса.
2.9 Блок озвучивания
Основой любой системы синтеза речи, основанной на конкатенативном методе, является набор фрагментов реального акустического сигнала - базовых элементов конкатенации. Размерность этих элементов может быть различной в зависимости от конкретного способа синтеза речи, это могут быть фонемы, аллофоны, слоги, дифоны, слова и т.д. В разрабатываемой нами системе базовые элементы в большинстве случаев имеют фонемную размерность и являются тем самым аллофонными реализациями традиционных фонем. Микрофрагменты, соответствующие частям фонемных сегментов, имеются только для взрывных согласных (типа /п/, /б/, /п’/, /б’/ и т.д.) и вибрантов (/р/ и /р'/). Главное же отличие от традиционных фонетических представлений состоит в том, что для получения естественно звучащей речи необходимо учитывать гораздо больше различий, обусловленных контекстными фонетическими влияниями, чем это делается даже в достаточно детальных транскрипционных системах. Так, уже в первой версии акустический инвентарь голоса включал 688 единиц: 158 для согласных и 530 для гласных. В разрабатываемой версии для женского голоса в инвентаре содержится 200 согласных и около 1100 гласных аллофонов. Возможно, что и эта степень акустической детализации является недостаточной.
Вывод:
Разработанные и адаптированные методы и методики, во втором разделе данной работы, в полной мере позволят создать информационно-вычислительную систему, которая сможет генерировать речь с эмоциональным окрасом.

3 Разработка программных средств
3.1 Техническое задание
3.1.1 Основание для разработки
Основанием для разработки программного продукта служит задание на преддипломную практику по программе магистратуры.
3.1.2 Назначение разработки
Система автоматического синтеза речи по фонетическим правилам русского языка предназначена для решения следующих задач:
– анализ поступившей текстовой информации,
– анализ поступившей звуковой информации,
– анализ фонетических правил русского языка,
– моделирование голоса человека на основе поступившей информации,
– дополнение модели голоса человека,
– поиск искажений голоса,
– генерация звуковых файлов на основе введенной текстовой части с применением модели голоса,
– создание файла для хранения модели голоса,
– создание файла для хранения фонетических правил языка,
– возможность внесения изменений в систему,
– возможность визуального отображения работы программы.
3.1.3 Рассмотренные альтернативы
При постановке задачи на разработку был проведен поиск аналогичных программных продуктов, которые позволяют синтезировать человеческую речь. Большая часть найденных аналогичных продуктов имеют недостаточный функционал или узкую специализацию. Оставшиеся являются на текущий момент экспериментальными незаконченными образцами.
3.1.4 Описание прецедентов
3.1.4.1 Перечень прецедентов проекта
В функциональном плане программный продукт должен представлять собой систему ввода и вывода, хранения и обработки информации, систему анализа результатов и должна включать в себя:
1. Получение экземпляра голоса. В связи с этим должны быть реализованы следующие прецеденты:
– получение текстовой информации,
– получение звуковой информации,
– сопоставление поступившей информации.
2. Получение фонетического ядра языка. В связи необходимо реализовать следующие прецеденты:
– возможность внесения правил языка в систему,
– анализ и формирование ядра.
3. Генерация звуковой информации. Для этого необходимо создать следующие прецеденты:
– получение текстовой информации,
– загрузка модели голоса,
– генерация звуковой информации,
– вывод звукового файла.
4. Возможность визуального отображения информации. Для этого должны быть реализованы следующие прецеденты:
– вывод частот звуковых дорожек на отдельную панель.
5. Возможность сравнительного анализа звуковых дорожек. Необходимо реализовать следующие прецеденты:
– возможность получения исходной звуковой дорожки,
– возможность получения исходной звуковой дорожки с идентичной текстовой информацией,
– возможность анализа и сравнения дорожек.
3.1.4.2 Прецедент «Анализ и формирование ядра»
Основной исполнитель. Система.
Заинтересованные лица и их требования. Пользователь. Хочет получить фонетическое ядро языка.
Предусловие. Программа запущена. Правила введены.
Постусловие. Фонетическое ядро сгенерировано и готово к работе.
Основной успешный сценарий:
1. Пользователь выбирает файл с правилами и нажимает кнопку «Сгенерировать ядро».
2. Программа считывает правила из файла.
3. Программа систематизирует полученную информацию.
4. Программа осуществляет запись правил в структуру ядра.
5. Фонетическое ядро обрабатывает поступившие данные и генерирует шаблоны уровней.
6. Фонетическое ядро типизирует сформированные шаблоны по категориям и уровням в тексте.
7. Программа добавляет в фонетическое ядро надстройку, позволяющую сформировать перечень аллофонов.
8. Если все действия прошли успешно, пользователь получает сообщение, что ядро успешно сформировано и предлагает сохранить файл.
Расширения (или альтернативные потоки):
2а. Файл правил не соответствует формату.
1. Производится проверка файла правил.
2. Файл правил не соответствует формату.
3. Появляется сообщение о несоответствии файла правил.
2б. Файл правил пуст.
4. Производится проверка файла правил.
5. Файл правил пуст.
6. Появляется сообщение о несоответствии файла правил.
4а. Ряд правил противоречит друг другу.
1. Производится проверка файла правил.
2. Файл правил соответствует формату.
3. Программа осуществляет запись правил в ядро.
4. Введенные правила противоречивы и не соответствуют друг другу.
5. Отмена операции внесения правил в ядро.
6. Вывод сообщения о невозможности генерации ядра.
5а. Невозможность генерации шаблонов из-за некорректной структуры ядра.
1. Пользователь выбирает файл с правилами и нажимает кнопку «Сгенерировать ядро».
2. Программа считывает правила из файла.
3. Программа систематизирует полученную информацию.
4. Программа осуществляет запись правил в структуру ядра.
5. Фонетическое ядро обрабатывает поступившие данные и генерирует шаблоны уровней.
6. При генерации происходит ошибка.
7. Программа откатывает все изменения, совершенные в формирующемся ядре.
8. Вывод сообщения о ошибке на этапе генерации.
3.1.5 Требование к программному продукту
3.1.5.1 Входные и выходные данные
Входными данными должны являться текстовая и звуковая информация, отражающая голос человека в определенном состоянии, текстовая информация, предназначенная для выполнения задачи, различные манипуляции с клавиатурой и мышью.
Выходными данными должен быть звуковой файл на основе модели голоса и текстовой информации, предназначенной для выполнения задачи.
Данные отчета о работе системы представляют собой:
– анализ полученного звукового файла,
– оценка различий между исходной и сгенерированной версией голоса (включает аналитическую и оценочную части),
– данные фонетического ядра,
– данные файла голоса.
Данные отчета о работоспособности системы представляют собой:
– анализ работы системы с тестовыми входными данными.
3.1.5.2 Информационная совместимость
Форматы хранения данных должны полностью соответствовать типу данных, которые можно открыть в данной системе автоматического синтеза речи по фонетическим правилам русского языка.
В качестве входных данных программный продукт, использует файлы формата *.wav, *.txt, *.mp3, *.jts. Выходными данными является звуковой файл формата .wav.
3.1.5.3 Программные ограничения, совместимость
Данный программный продукт должен быть разработан с использованием языка программирования C# .
3.1.5.4 Результирующие компоненты программного продукта
В программный продукт должны входить следующие компоненты:
1) исполняемый файл ProgSGN (с расширением *.exe),
2) набор библиотек системы (с расширением *.dll),
3) текстовый файл шаблона (с расширением *.txt),
4) звуковой файл шаблона (с расширением *.wav),
5) звуковой файл результата шаблона (с расширением *.wav),
6) руководство по установке ПО.
3.1.5.5 Носители информации
Программный продукт и вся программная документация, передаются на твердом носителе.
3.1.5.6 Требования к надежности
Программный продукт должен полностью функционировать на всех разработанных тестах. Данные тесты необходимо проработать на этапе рабочего проекта.
3.1.5.7 Рестарт
При работе данного программного продукта используется сохранение информации в виде файла на каждом отдельном этапе, что позволяет хранить информацию в реальном времени. В случае сбоя браузера, есть возможность вернуться к тому месту, на котором произошел сбой, с минимальными временными затратами.
1.1.6.8 Требования к составу и параметрам технических средств
Программное обеспечение должно функционировать на любом компьютере, на котором установлен .NetFramework.
3.1.6 Диаграмма вариантов использования
Рассмотренные в 1.1.5.1 прецеденты и их взаимосвязи отражены в диаграмме вариантов использования представленной на рисунке 1.1. Данная диаграмма полностью соответствует правилам и обозначениям языка UML.

Рисунок 1.1 – Диаграмма прецедентов
3.1.7 Исследование технической целесообразности проекта
С технической точки зрения информационно-вычислительная система синтеза речи позволит заменить в ряде служб человека, автоматизируя определенные участки производства, связанные с передачей звуковой информации на основе поступивших данных[1]. При помощи специально разработанных методов, синтезированная речь будет максимально близка к человеческой, позволяя более длительную работу с ним. Разработка подобной системы позволит упростить ряд взаимодействий групп людей в различных сферах[2-5].
После того как данная информационно-вычислительная подсистема будет сделана, станет возможным использовать боле современный подход, например, в системе оповещений, позволяя упростить конструкцию и расширить количество вариантов использования. Создание системы в виде приложения предоставляет возможность для ее использования в любом месте, где необходимо озвучивание получаемой информации.
?
3.2 Технический проект
1.2.1 Реализация прецедентов при помощи диаграмм последовательностей системных операций
Диаграмма последовательностей системных операций показывает генерируемые события, созданные пользователями, их порядок выполнения, а так же события, которые генерируются внутри самой системы.
На рисунке 1.2 представлена диаграмма последовательности системных операций, разработанная на основе прецедента «Анализ и формирование ядра». Исполнитель сценария прецедента «Анализ и формирование ядра» является – пользователь. Диаграмма была построена в соответствии с правилами обозначения языка UML.

Рисунок 1.2 – Диаграмма последовательности системных операций
3.2.2 Тестовые наборы, построенные по данным вариантов использо.......................

Для получения полной версии работы нажмите на кнопку "Узнать цену"

Узнать цену

Каталог работ

Похожие работы: