Главная / Образцы дипломных работ
Зависимость реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы:	K002611
Тема:	Зависимость реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста
Содержание
ПРАВИТЕЛЬСТВО РОСССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Кафедра информационных систем в искусстве и гуманитарных науках





ДОПУСТИТЬ К  ЗАЩИТЕ
Заведующий Кафедрой информационных систем в искусстве и гуманитарных науках

___________(Борисов Н.В.)
“_____”_______________2016 г.



ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
Основная образовательная программа
 «Прикладная информатика в области искусств и гуманитарных наук»
Направление 230700  «Прикладная информатика»
Уровень   Бакалавриат



«Зависимость реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста»

                 

             			Студента Крутченко Ольги Витальевны
 _______________________
(подпись студента)

            		   Руководитель профессор СПбГУ,  доктор филол. наук, 
        		   Ягунова Елена Викторовна

__________________________
(подпись руководителя)


            



Санкт-Петербург
2016

АННОТАЦИЯ
выпускной квалификационной работы
Крутченко Ольги Витальевны

название выпускной квалификационной работы
Зависимость реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста

Пояснительная записка 62 стр., 5 ч., 5 рис., 13 табл., 38 источников, 4 прил.
КОНТЕКСТНАЯ ПРЕДСКАЗУЕМОСТЬ, БИГРАММА, КОРПУС ТЕКСТОВ, НАУЧНЫЕ ТЕКСТЫ, ХУДОЖЕСТВЕННЫЕ ТЕКСТЫ, DICE, SURPRISAL, УСЛОВНАЯ ВЕРОЯТНОСТЬ, ИНФОРМАЦИОННАЯ ЭНТРОПИЯ, ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ, CLOZE-ТЕСТ
Объектом исследования является контекстная предсказуемость в текстах художественного и научного функциональных стилей.
Цель данной работы – выявить зависимость реализации процедур контекстной предсказуемости и от жанровых и стилевых характеристик текста, простроить модель-прототип, позволяющую предсказывать элементы текста, обозначить ее особенности для текстов разных функциональных стилей.
Для достижения поставленной цели необходимо было решить следующие задачи:
 выбрать и обосновать методы исследования;
 написать модульную программу, реализующую вычисления контекстной информации и предсказательную силу для каждого элемента текста;
 построить модели для художественных и научных текстов;
 оценить эффективность статистически и с помощью эксперимента с информантами.
В процессе работы был произведен анализ различных методов исследования контекстной предсказуемости, проведен вычислительный эксперимент на основе корпусов научных и художественных текстов и эксперимент с информантами. 
В результате были построены модели текстов, произведена оценка работоспособности модели по выбранным признакам контекстной предсказуемости. 
Полученные результаты и написанная программа могут применяться для дальнейших исследований в области автоматической обработки текстов.
Работу планируется продолжать в магистратуре.





Автор работы ___________________ 	Крутченко Ольга Витальевна		
Руководитель работы  ____________ 	Ягунова Елена Викторовна











Содержание
Введение	6
1.	Анализ литературы	9
1.1 Исследование контекстной предсказуемости с помощью cloze-теста	9
1.2. Основные математические модели контекстной предсказуемости	11
1.2.1. Информационная энтропия	13
1.2.3. Метрика MI (Mutual Information)	14
1.2.4. Метрика t-score	15
1.2.5. Метрика Dice	16
1.2.6. Метрика surprise	17
1.2.7. Метрика salience	18
2. Методика и материалы исследования	19
2.1. Выбор методик для дальнейшего исследования	19
2.2. Обоснование материала. Формирование корпусов текстов	20
2.3. Выбор программных средств для построения модели	22
3. Написание модульной программы	25
3.1. Постановка задачи	25
3.2. Токенизация	27
3.3. Лемматизация	29
3.4. Генерация множества биграмм	31
3.5. Вычисление признаков и метрик	32
3.5.1. Энтропийная характеристика	32
3.5.2. Условная вероятность	33
3.5.3. Метрика Dice	33
3.5.4. Метрика surprisal	34
3.6. Генерация модели текста	35
3.7. Структурированный вывод	37
3.8 Выделение сильно связанных сегментов текста	38
4. Анализ результатов вычислительного эксперимента	40
4.1. Сравнение значений признаков контекстной предсказуемости	40
4.2. Практическое применение построенной модели. Исправление опечаток и снятие неоднозначности	42
4.3 Анализ выделенных цепочек слов	43
5. Оценка выбранных признаков с помощью эксперимента с информантами	45
5.1. Подготовка и проведение эксперимента	45
5.2. Анализ полученных результатов	48
Заключение	51
Список использованных источников	53
Приложение А. Среднее значение признаков контекстной предсказуемости по каждому из исследуемых текстов.	57
Приложение Б. Инструкция по прохождению теста.	58
Приложение В. Бланк теста, предложенный информантам.	59
Приложение Г. Сводные таблицы ответов информантов.	61









Введение
Информационная избыточность – это неотъемлемое свойство любого текста, особенно с точки зрения теории информации. И именно благодаря этому свойству человек успешно воспринимает и понимает как устный, так и письменный тексту. Избыточность является неотъемлемым свойством любого языка и поэтому присуща всем текстам без исключения, но в разной степени, в зависимости от функционального стиля текста  [1].
С вопросом об избыточности текста тесно связано понятие контекстной предсказуемости, т.е. предугадывания слова на основе контекста. Эффект контекстной предсказуемости по сути является противопоставлением информационной избыточности, демонстрируя, что для восприятия и понимания текста  не все его слова являются равнозначными. 
В данной работе производится анализ различных вычислительных методов исследования контекстной предсказуемости, выделяются наиболее адекватные метрики и признаки для дальнейшей проверки в ходе построения модели текста и оценки ее работы по каждому из признаков, производится составление корпусов текстов художественного и научного стилей. Исследование, проведенное в рамках выпускной квалификационной работы, предполагает проведение вычислительного анализа на основе корпусов научных и художественных текстов и эксперимента с информантами.
Основной целью проведения исследования является выявление зависимости реализации процедур контекстной предсказуемости от жанровых и стилевых характеристик текста.
Решаются следующие задачи:
 Анализ литературы, позволяющий выбрать наиболее адекватные методы исследования контекстной предсказуемости;
 Подбор и обоснование материала для будущего исследования;
 Формирование корпусов текстов различных стилей и жанров;
 Выбор и обоснование основных методик исследования;
 Написание программы, реализующей такие модули как :
 ?препроцессинг (токенизация, ламатизация), 
 ?модули, реализующие признаки контекстной предсказуемости (энтропийные признаки, различные меры связности и т.д.)
 Проведение эксперимента с информантами 
 Оценка эффективности модели по каждому из признаков.
Изучение контекстной предсказуемости предполагает учет многих аспектов, так как эта тема является междисциплинарной. Один из них – психологический аспект. Существует много различных исследований зависимости контекстной предсказуемости и скорости чтения человека, его движении глаз при чтении [2] и др.  
С другой стоны, изучение контекстной предсказуемости необходимо непосредственно для лингвистики, психологии, восприятия и анализа текста.  Такие методы исследования как проведение cloze-текстов, тестов направленных на восстановление недостающих элементов текста, позволяют оценить степень владения языком информантами, readability текста (например, решение вопроса о понятности текстов наподобие текстов инструкций) [3], а так же проанализировать особенности обучения данному языку [3, 4, 5, 6, 7].  
Но особенно актуален вопрос контекстной предсказуемости в компьютерной лингвистике, при решении задач связанных с автоматической обработкой текстов [8]. 
В частности, для распознавания и исправления опечаток в тексте при решении различных задач, связанных с дальнейшей обработкой текста. Используя принципы контекстной предсказуемости,  при невозможности распознать слово, можно предположить, что в нем допущена опечатка, и далее – восстановить правильное слово. В таком случае, восстановить исходное слово, то которое подразумевалось, возможно с помощью контекста. И после сравнения наиболее вероятных вариантов в этом контексте со словом с возможной опечаткой, сделать выводы. 
Также контекстная предсказуемость может помочь в выделении ключевых слов в тексте и коллокаций [9]. Словосочетание, являющееся коллокацией, имеет признаки целостной семантической и синтаксической единицы, для него показатели контекстной предсказуемости будут велики. Ключевые слова, напротив, являются основным источником новой и значимой информации в тексте, следовательно, их контекстная предсказуемость будет невелика, особенно при первых их появлениях. 
Таким образом, актуальность и практическая значимость исследования контекстной предсказуемости очень высоки для разнообразных областей, связанных с автоматической обработкой текста.

 
 Анализ литературы
1.1 Исследование контекстной предсказуемости с помощью cloze-теста 
Начальной точкой изучения контекстной предсказуемости можно считать введение в лингвистические исследования такой формы тестирования как cloze-тест.  Cloze-тест был разработан и предложен американским ученым В. Тейлором для определения readability текста (показателя, насколько текст труден для чтения и восприятия). Методика составления cloze-теста такова: выбирается отрывок прозы объемом 100 – 400 слов, в котором пропускается каждое n-oе слово. Испытуемому предлагается восстановить пропущенные слова. Успешность выполнения данного текста непосредственно зависит от времени, необходимому испытуемому для понимания всего текста и восстановления связи между событиями. Это в свою очередь определяется тем, насколько хорошо испытуемый владеет лексикой данного языка, в какой степени у него развита языковая догадка и как адекватно он понимает текст каждой конкретной ситуации [5].
Данный вид тестов может быть использован для контроля в процессе обучения иностранному языку, поскольку данный метод позволяет точно и объективно установить степень сформированности навыков чтения и уровень владения лексикой при чтении. 
Однако определение степени владения различными навыками иностранного языка является не единственным применением cloze-тестов. С помощью данного вида тестов возможно также оценить языковую модель конкретного языка. Данные исследования демонстрируют сравнение результатов проведения cloze-тестов среди носителей языка и статистическую языковую модель. Данные эксперименты демонстрируют, что возможно получить подробную информацию о производительности языковой модели через cloze-тесты с информантами [3].
Метод cloze-тестов используется также и для оценки понимания речи на слух. Причем данный подход важен не только в целях контроля в обучении иностранному языку, но и для изучения механизмов восприятия звучащей речи, обладающей своими отличительными особенностями: эллипсис, нечеткое произнесение безударных слогов, объективные помехи канала связи и т.д. Данный вопрос подробно рассматривается в работах Ягуновой Е.В. «Вариативность стратегий восприятия звучащего текста» [10], «Исследование избыточности русского звучащего текста» [11] и др. Для данного типа исследований особенно часто применяются скрытые Марковские модели, позволяющие рассматривать текст как совокупность процессов перехода из одного состояния в другое [12]. 
С точки зрения компьютерной лингвистики предсказуемость слов в контексте исследована незначительно. Однако в последнее время появляется все больше исследований на эту тему.
Основными подходами в данном исследовании контекстной предсказуемости являются анализ статистических данных, основанных на корпусах текстов, и проведение  cloze-тестов c информантами.  Для проведения комплексного исследования необходимо использовать сочетание двух подходов и сопоставление результатов на каждом из этапов, причем для анализа корпусных ресурсов необходимо использовать различные методы. На первичном этапе анализа корпусных данных возникает два основных вопроса: как оценивать контекстную предсказуемость на основе статистических данных и на основе каких материалов (корпусов) проводить исследование.
Контекстную предсказуемость слова в тексте можно оценить различными способами. В первую очередь это статистические меры ассоциации, используемые в основном для выявления коллокаций. Это такие меры как MI, t-score, Dice [9, 13, 14] и др. Их значения для исследования контекстной предсказуемости могут быть интересны как при вычислении на отдельном тексте, так и на корпусе сразу [15]. Другой возможный подход к контекстной предсказуемости это информационная энтропия и условная вероятность. Далее эти меры будут рассмотрены более подробно.

1.2. Основные математические модели контекстной предсказуемости
В последние годы появилось много новых исследований, посвященных такой проблеме как  «сложность» языковых систем. Возникший нтерес к этой теме является относительно новым. Если рассматривать исследования, в которых предлагаются объективные критерии для определения сложности произвольного языка и ранжирования различных языков по сложности, то первой работой в этом направлении можно считать статью Джона Мак-Уортера (в 2001 году). В своей работе он критикует сложившееся мнение об одинаковой сложности всех языков и доказывает, что некоторые современные языки проще «старинных» [16]. В дальнейшем, идеи Джона Мак-Уортера были развиты в работах других исследователей, таких как Ваутера Кюстерса [17], Эстена Даля [18], Питера Традгила [19] и др.
Для данной дипломной работы это направление связано не с исследованием языков разной типологии, а квантитативной типологией стилей и жанров, активно развивающейся в наше время. Исходя из этого была предположена зависимость процедур контекстной предсказуемости и модели текста.
Однако основным ориентиром в исследовании послужили разработки моделей контекстной предсказуемости в информатике и смежных дисциплинах. Чаще всего такого рода модели опираются на скрытые Марковские процессы. Скрытые Марковские модели позволяют рассматривать текст как совокупность процессов перехода из одного состояния в другое. При этом, если проанализировать текст достаточно большого объема, то возможно использовать полученные частоты для получения вероятности перехода в отдельные состояния. Например, проанализировав сказку Льиюса Кэролла «Приключения Алисы в Стране чудес», получили, что состояние «л» (появление в тексте буквы «л») встречается в тексте 100 раз. Затем при использовании полученной модели получаем это состояние 33 раза из 100, и следующим состоянием с большой долей вероятности будет состояние «и», поскольку слово «Алиса» является достаточно частотным словом в тексте, выбранном для первоначального анализа [12].
Ряд вероятностных методов, таких как скрытые модели Маркова, Марковские случайные поля активно используются в последние годы для вероятностного анализа, для задачи извлечения текстовых данных. Некоторые примеры таких задач включают моделирование языка, классификации документов, кластеризацию и извлечение информации [20].
Следует так же заметить при этом, что работы, связанные с изучением избыточности, велись и в нашей стране уже в 60-е годы. Например, исследования Н. Н. Леонтьевой, Р. Г. Пиотровского, Т. Н. Никитиной, М. И. Откупщиковой, специально посвященные этой теме [21]. Особенно полно данный вопрос рассматривается в статьях Пиотровского Р. Г. «Лингвистический автомат (в исследовании и непрерывном обучении)» [22] и «Информационные измерения языка» [23].
В качестве предварительного этапа данного исследования скрытые модели Маркова были также рассмотрены, была написана программа на языке Python, получены предварительные результаты. Однако, эти результаты не всегда подлежали полноценной интерпретации,  поэтому на этапе работы над дипломом основное внимание было уделено взаимодействию вероятностных (энтропия, удивительность и т.д.) метрик и метрик связанности (Dice, MI, t-score). Учет контекста происходил следующим образом: с помощью построения связных цепочек на основании меры Dice (с максимальной длиной цепочки равной 7 токенам), которые позволяли рассматривать контекст, предположительно соотносимый с тем минимальным контекстом, который может воспринимать человек в ходе анализа текста. Таким образом рассматривалось большое количество параметров в совокупности и отдельно. В планах на будущее (на магистерскую диссертацию) вернуться к скрытым Марковским процессам и интерпретации результатов разных моделей и разных наборов признаков.

1.2.1. Информационная энтропия
На понятии информационная энтропия из теории информации основана такая метрика как энтропийная характеристика. Рассчитывается по формуле:
H(x)=-?log?_2 P(x)  ,
где P(x) – вероятность появления в тексте слова x. 
В теории информации информационная энтропия – это мера неопределенности или непредсказуемости [24], неопределенность появления какого-либо символа первичного алфавита. В условиях исследования контекстной предсказуемости,  в качестве элементарного символа выступает единичное словоупотребление, рассматриваемое на основе первичного алфавита, состоящего из словаря всех возможных словоупотреблений корпуса (или текста). В данном вопросе интересна именно частная энтропия, характеризующая только появление конкретного словоупотребления.

1.2.2. Условная вероятность
Одним из наиболее очевидных способов оценить контекстную предсказуемость является условная вероятность. В теории вероятности условная вероятность – вероятность одного события при условии, что другое событие уже произошло [24]. Перенося данное определение на контекстную предсказуемость, возможно рассчитать вероятность встретить одно слово при условии, что оно идет в тексте после другого. В данной ситуации контекст выступает в роли события, которое уже произошло. 
Условная вероятность для контекстной предсказуемости слова рассчитывается по формуле:
P(x?context)=(f(x,context))/(f(context))   ,
где f(x,context) – частота совместной встречаемости слова x после заданного контекста, f(context) – частото встречи контекста. 
Здесь преимуществом так же является то, что размер контекста никак не ограничен, он выбирается исходя из поставленных задач.

1.2.3. Метрика MI (Mutual Information)
В основе метрики MI лежит такое понятие как взаимная информация, взятое из теории информации. MI, или коэффициент взаимной информации, относится к точечным оценкам силы связи и позволяет оценить независимость появления двух слов в тексте. Этот коэффициент сравнивает зависимые контекстно-связанные частоты (pMI) с независимыми, считая появление слов в тексте случайным. Определяется по формуле:
pMI(x_1 x_2 )=?log?_2  (f(x_1 x_2 )?N)/(f(x_1)?f(x_2))   ,
где x_2 – исследуемое слово, x_1 – слово предшествующего контекста,  f(x_1 x_2 ) – частота встречаемости слов x_1 и x_2 в паре,  f(x_1 ),  f(x_2 ) –  частоты слов x_1 и x_2 в корпусе, N – размер корпуса (в количестве словоупотреблений) [9, 13].  В дальнейшем будем использовать номинацию MI (несмотря на то, что оцениваются частотные характеристики).
Мера MI зависит от размера корпуса, что дает более высокий средний показатель для корпусов большего объема. Это говорит о большей достоверности полученных данных на большом корпусе, но исключает возможность сравнения полученных значений в разны корпусах текстов.
Основной принцип работы данной меры – присвоить большее значение сочетаниям с редкими словами, в том числе сюда могут попасть слова с опечатками, сочетания с иностранными словами.  Для этого необходимо вводить нижний порог по частотности в корпусе [9, 15]. 
MI также не учитывает порядок следования слов, что важно при исследовании контекстной предсказуемости. Одним из возможных вариантов ее использования является  самостоятельный учет порядка слов в словосочетании и разделение сочетаний на пары вида (x_1 x_2) и (x_2 x_1). В этом случае необходимо считать MI для каждой пары.
Возможен так же вариант видоизменения меры MI c возведением значения в куб – метрика MI3 [13]. Она рассчитывается по формуле:
MI3(x_1,x_2 )=?log?_2  (?f(x_1 x_2 )?^3?N)/(f(x_1)?f(x_2))   ,
где используются те же обозначения, что и в MI. Данный вариант расчета этой меры считается одним из возможных вариантов нормализации [9].

1.2.4. Метрика t-score
T-score - мера ассоциации, которая относится к асимптотическим критериям для проверки гипотезы. Определяется по формуле:
t-score(x_1,x_2 )=(f(x_1 x_2 )-(f(x_1 )?f(x_2 ))/N)/?(f(x_1 x_2 ) )   ,
где x_2 – исследуемое слово, x_1 – слово предшествующего контекста,  f(x_1 x_2 ) – частота встречаемости слов x_1 и x_2  в паре,  f(x_1 ), f(x_2 ) –  частоты слов x_1 и x_2 в корпусе, N – размер корпуса (в количестве словоупотреблений) [9, 13]. 
Мера t-score, так же как и MI, учитывает размер корпуса и не учитывает порядок слов n и c (учесть порядок слов возможно аналогично). По сути, данная мера является скорректированным ранжированием словосочетаний по частоте встречаемости.  В отличие от MI, данная мера не завышает значение для редких словосочетаний, и следовательно для ее использования не нужен нижний порог по частоте в корпусе [9]. 
В силу своих особенностей t-score интересна в исследовании контекстной предсказуемости слов тем, что она позволяет лучше, по сравнению с MI, выявлять стилистические особенности и устойчивые конструкции, встречающиеся в корпусе.

1.2.5. Метрика Dice
Метрика Dice, как и MI, относится к точечным оценкам меры связи. Она вычисляется по формуле:
Dice(x_1,x_2 )=(2*f(x_1 x_2))/(f(x_1 )+f(x_2))   ,
где x_2 – исследуемое слово, x_1 – слово предшествующего контекста,  f(x_1 x_2 ) – частота встречаемости слов x_1  и x_2 в паре,  f(x_1 ), f(x_2 ) –  частоты слов x_1 и x_2 в корпусе. 
Данная мера не зависит от размера корпуса, она учитывает только частоту совместной встречаемости и независимые частоты. Однако, как и MI,  эта мера дает завышенную оценку низкочастотных словосочетаний [13, 14]. Хотя это завышение у меры Dice гораздо менее критично, чем у меры  MI.
Для исследования контекстной предсказуемости может быть интересен следующий алгоритм для оценки n-словных сочетаний с  использованием меры Dice: для всех пар слов  в корпусе (или тексте) считается коэффициент Dice, далее осуществляется компоновка элементов по одному из двух принципов (т.н. cosegment процедура). 
Первый вариант: в один элемент объединяются пары слов на основании значения коэффициентов у этой пары слов и ближайшего контекста. Слово не присоединяется к предыдущему, если значение коэффициента Dice для данной пары ниже порогового, или если оно ниже, чем среднее арифметическое того же коэффициента для левой и правой пары. Накладывается условие, что связанные цепочки не могут состоять более, чем из 7 слов [14]. Данный алгоритм был подробно описан в статьях V.Daudaravicius [25], реализован и  программа доступна для скачивания с сайта разработчика.
Второй вариант: для каждого словосочетания формируется группа путем последовательного объединения со словосочетаниями контекста. Для каждой группы высчитывается коэффициент Dice с учетом пяти словосочетаний из левого контекста и двух словосочетаний из правого контекста (такие цифры учета «окна» контекста являются приближенными к возможности восприятия контекста человеком).

1.2.6. Метрика surprise
Метрика surprisal (иначе собственная информация) является мерой содержания информации, связанной с событием в вероятностном пространстве. Чем меньше вероятность события, тем больше коэффициент surprisal связан с информацией, что это событие произойдет [26]. 
Метрика surprisal является еще одним способом оценить контекстную предсказуемость с помощью условной вероятности. Предложенная Х.Левви в 2001 году [27], эта мера стала достаточно стандартной для задач, связанных с оценкой контекстной предсказуемости. Она рассчитывается по формуле:
I(x,context)=?log?_2  1/(P(x|context))   ,
где P(x|context) – условная вероятность появления слова x  в заданном контексте. 
Данную метрику можно рассматривать как информационную энтропию исследуемого слова и контекста вместе взятых, поскольку для ее расчета используется именно условная вероятность (т.е. оценивается зависимость слова от контекста) [26].
Эта метрика универсальна тем, что нет никаких ограничений, накладываемых на контекст. Это может быть как одно слово, так и n-словное сочетание. 

1.2.7. Метрика salience
Метрика salience для оценки сочетаемости слов встречается намного реже метрик MI  и t-score. Однако ее можно рассматривать как один из нормализованных вариантов метрики Dice. Коэффициент salience рассчитывается по формуле:
 salience(x_1,x_2 )=14+ ?log?_2  (2?f(x_1 x_2 ))/(f(x_1 )+f(x_2))  , 
где x_2 – исследуемое слово, x_1 – слово предшествующего контекста,  f(x_1 x_2 ) – частота встречаемости слов x_1  и x_2 в паре,  f(x_1 ), f(x_2 ) –  частоты слов x_1 и x_2 в корпусе [13].
2. Методика и материалы исследования
2.1. Выбор методик для дальнейшего исследования
Все рассмотренные метрики для выявления контекстной предсказуемости можно классифицировать следующим образом: вероятностные оценки (энтропийная характеристика, условная вероятность, surprisal), точечные (MI, Dice, salience) и асимптотические (t-score) оценки мер связи. Некоторые из них очень похожи между собой, они отличаются друг от друга только нормализацией.
Для практической части данного исследования имеют интерес следующие меры:
 Условная вероятность и энтропийная характеристика, поскольку они являются основными вероятностными метриками.
 Метрика surprisal, т.к данная метрика является стандартной для оценки контекстной предсказуемости. 
 Метрика Dice, которая будет использоваться для реализации алгоритма объединения коллокаций в связанные сегменты.
Все отобранные метрики достаточно разнообразны в подсчете коэффициента, и как следствие интересны для сравнения их работоспособности.  А так же все из них имеют свои особенности, преимущества и недостатки. В связи с этим они наиболее интересны для дальнейшей проверки на корпусах текстов и отдельных текстах в ходе построения модели и анализе ее работы. Сравнение различных методик позволит наглядно выявить их различия и эффективность работы и проанализировать результаты в отдельности по каждой из метрик.

2.2. Обоснование материала. Формирование корпусов текстов
Как уже упоминалось ранее, избыточность является неотъемлемым свойством естественного языка и текста на естественном языке в частности, необходимым для восприятия и понимания. Избыточность присуща всем текстам без исключения, однако она не является постоянной величиной и зависит от многих параметров, одним из которых является функциональный стиль текста  [1, 11].
Общее количество информации, содержащейся в тексте, называется информационной насыщенностью текста. Информационная насыщенность является абсолютным показателем качества текста (в отличие от информативности, которая зависит от степени новизны темы для читателя, и следовательно является относительным показателем качества).  По степени информационной насыщенности пять основных функциональных стилей можно расположить следующим образом в порядке возрастания: разговорный, художественный, публицистический, научный, официально-деловой [1, 28]. 
В соответствии с этой классификацией наибольшей избыточностью обладает разговорный и художественный стили, в то время как научный и официально-деловой стремятся к повышению информационной насыщенности, т.е. к уменьшению избыточности.
Исходя из выше сказанного, для исследования контекстной предсказуемости были выбраны для сравнения два функциональных стиля: научный и художественный, существенно отличающихся избыточностью текстов. Причем научные тексты должны быть отобраны одной тематики из одной научной области.
На данном этапе подготовки к вычислительному анализу контекстной предсказуемости на основе двух корпусов текстов можно предположить, что значение контекстной предсказуемости для научных текстов будет намного выше по сравнению с художественными ввиду большей информационной насыщенности.
Для корпуса художественных текстов были отобраны тексты различающиеся по следующим параметрам: количество словоупотреблений в тексте,  жанр, «узнаваемость» данного художественного произведения. 
Корпус художественных текстов состоит из 6 текстов. По количеству словоупотреблений тексты варьируются от 9 500 до 363 500 словоупотреблений. Общее количество словоупотреблений в корпусе – 782 300.
Для корпуса научных текстов было сформировано 2 подкурпуса: научные статьи по корпусной лингвистике (объем – 15 093) и когнитивной психологии (объем – 22 703). Общее количество словоупотреблений в корпусе – 37 796.
Ввиду небольшого объема научных статей в ходе вычислительного эксперимента имеет смысл проводить анализ непосредственно на всем корпусе, в то время как художественные тексты можно рассматривать по отдельности. Результаты анализа корпуса научных текстов и отдельно взятых художественных текстов могут быть сравнимы по причине общности темы научных статей, принадлежности одной предметной области, присутствии схожих ключевых слов (корпус научных статей схожих по этим признакам можно воспринимать как единый текст).
Сформированные корпуса текстов послужат основой для исследования и получения предварительных результатов. Эти корпуса будут рассматриваться как «ядерные». В ходе исследования они могут пополняться для решения частных задач.

2.3. Выбор программных средств для построения модели
Существуют различные программные средства для создания и анализа собственных корпусов текстов. Самые известные из них: Intelli Text [29] и Sketch Engine [30] – программные интерфейсы для создания и анализа корпусов электронных текстов - программный интерфейс для работы с корпусами онлайн, и AntConc [31] - кроссплатформенная программа для проведения корпусных лингвистических исследований и управления данными. Очевидным плюсом данных программных средств является быстродействие при работе с большими объемами данных, широкий выбор доступных функций, однако они также обладают своими недостатками. Многие качественные ресурсы являются коммерческими. К тому же несмотря на большое количество доступных функций, ни один из ресурсов не может предоставить реализацию всех необходимых для данного исследования признаков, а именно подсчет всех выбранных ранее метрик. Поэтому используя готовые программные средства необходимо будет самостоятельно совмещать полученные с помощью разных ресурсов результаты, что является достаточно трудоемкой задачей при анализе больших корпусов текстов.
В связи с этим,  в рамках данного вычислительного эксперимента гораздо удобнее написать собственную программу для построения модели текста. Несмотря на то, что собственный продукт, скорее всего, будет уступать в быстродействии крупным коммерческим ресурсам, он будет обладать существенным преимуществом: построенная модель будет удовлетворять всем требованиям поставленной задачи, реализуя необходимые признаки контекстной предсказуемости, и будет предоставлять результат в удобном для дальнейшего анализа виде.
Для написания собственной программы был выбран интерпретируемый, объектно-ориентированный высокоуровневый язык программирования Python [32], поскольку он является достаточно производительным для решения задач связанных с обработкой текстов (анализ, преобразование, поиск, порождение текстовой информации). Данный язык программирования является расширяемым, имеет хорошую поддержку модульности, позволяя использовать помимо обширной стандартной библиотеки, как собственные библиотеки, так и библиотеки, созданные другими разработчиками. В языке имеется стандартный модуль для математических вычислений math [33], реализующий обширный функционал. Так же для Python созданы различные модули для работы с естественными языками, которые широко используются в различных лингвистических исследованиях. 
Одной из отличительных черт языка Python является наличие таких встроенных стандартных типов данных как списки, словари и тьюплы [34], которые так же будут полезны для организации сложных структур хранения данных в лингвистических исследованиях.
В качестве среды разработки для написания программы был выбран продукт компании JetBrains – PyCharm [35]. Это интегрированная среда разработки для языка программирования Python, которая предоставляет следующие возможности: 
 статический анализ кода, подсветку синтаксиса и ошибок;
 удобную навигацию по проекту и исходному коду: отображение файловой структуры проекта, быстрый переход между файлами, классами, методами и использованиями методов;
 рефакторинг (процесс изменения внутренней структуры программы, не затрагивающий её внешнего поведения): переименование, извлечение метода, введение переменной, введение константы, подъём и спуск метода и т. д.;
 встроенный отладчик для Python;
 встроенные инструменты для юнит-тестирования (процесса, позволяющего проверить на корректность отдельные модули исходного кода программы).

 
















3. Написание модульной программы
3.1. Постановка задачи
Необходимо написать программу, результатом работы которой будет построенная на основе входного файла модель текста, результат работы модели будет представлен в виде таблицы в выходном файле. 
Для представления признаков контекстной предсказуемости был выбран такой объект как направленный граф, вершинами которого являются множество слов текста, а дуги отображают связь слова с его возможными контекстами. Каждая дуга содержит максимально полные списки контекстной информации (см. рис. 1).


Рисунок 1 – Направленный граф из модели текста.
Программная реализация данного графа представляет собой сложную структуру данных на основе стандартных типов данных языка Python, содержащую всю вычисленную информацию по каждому из выделенных признаков контекстной предсказуемости.
Для построения модели текста на основе исходных текстовых данных на естественном языке необходима последовательная обработка текста на различных уровнях. Для анализа контекстной предсказуемости каждого слова текста необходимо из входного текст составить множество пар, состоящих из исследуемого слова и контекста. В рамках данной задачи в качестве контекста принято считать одно предыдущее слово в тексте. Следовательно, весь исходный текст разбивается на двухсловные сочетания – биграммы (биграммы и коллокации в данной работе являются различными терминами). Множество уникальных биграмм текста является основой модели текста, для которой будут производиться дальнейшие вычисления выбранных метрик и признаков. Результатом работы программы – моделью текста – является структура данных, содержащая уникальное множество биграмм и результат вычисленных признаков и метрик по каждой из биграмм. Данный результат выводится в файл в виде таблицы, содержащей построчно результаты для каждой биграммы.
Для построения такой модели текстовые данные, который поступают на вход программе, последовательно обрабатываются на нескольких последовательных этапах, таких как: 
 препроцессинг, включающий в себя  токенизацию (р.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену
Каталог работ
Похожие работы: