Главная / Образцы дипломных работ
Теория перевода и межкультурная коммуникация

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы:	W007819
Тема:	Теория перевода и межкультурная коммуникация
Содержание
РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ СОЦИАЛЬНЫЙ УНИВЕРСИТЕТ

ЛИНГВИСТИЧЕСКИЙ ФАКУЛЬТЕТ 

КАФЕДРА ЛИНГВИСТИКИ И ПЕРЕВОДА



ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

на тему:

СОВРЕМЕННЫЕ КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ КАК ИНСТРУМЕНТ 

ПЕРЕВОДА ИНОЯЗЫЧНОГО ТЕХНИЧЕСКОГО ТЕКСТА 

(НА МАТЕРИАЛЕ ТЕКСТОВ ГЕОЛОГОРАЗВЕДОЧНОЙ ОТРАСЛИ)

Направление подготовки 45.04.02 Лингвистика,

 профиль «Теория перевода и межкультурная коммуникация»

Квалификация (степень): магистр

Студент                                    __________________         Смирнова Валентина Владимировна
                                                                                               подпись

Дата                                          __________________     

 

Научный руководитель           __________________       _к. пед. н., доцент Тарарина Л.И.__  

                                                               подпись                        (ученая степень, ученое звание, фамилия, инициалы) 



Консультант                             __________________       _______________________________  

                                                               подпись                        (ученая степень, ученое звание, фамилия, инициалы) 



Рецензент                                __________________        _______________________________  

                                                               подпись                        (ученая степень, ученое звание, фамилия, инициалы) 


ВКР допущена к защите «___» _________________20__г.

И. о. зав. кафедрой 

лингвистики и перевода,

к. филол. н.                               _________________          Лимарова Елизавета Валерьевна
                                                                                               подпись



Москва, 2017


Содержание



	Введение	3

	Глава 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ МАШИННОГО И АВТОМАТИЗИРОВАННОГО ПЕРЕВОДОВ	8

	1.1. История развития машинного перевода	8

	1.2. Виды машинного перевода и лингвистического	27

	программного обеспечения	27

	1.3. Особенности машинного перевода технической литературы	36

	1.4. Системы автоматизированного перевода	50

	Выводы по Главе 1	61

	Глава 2. Анализ машинного перевода текстов геологоразведочной отрасли	63

	2.1. Особенности перевода текстов геологоразведочной тематики	63

	2.2. Анализ машинного перевода текстов геологоразведочной отрасли	76

	с русского языка на английский	76

	2.3. Анализ машинного перевода текстов геологоразведочной отрасли	86

	с английского языка на русский	86

	Выводы по Главе 2	93

	Заключение	95

	Список литературы	98









Введение



Актуальность темы данной работы связана с тем, что в современных условиях роботизации и перехода ряда функций от человека к машинам большое значение имеет качество получаемых в результате данного перехода услуг. Не является исключением сфера машинного перевода. XXI век является генератором новых задач, охватывающих информационное пространство человечества. В связи с увеличением объема массовой информации происходит неуклонный рост роли перевода почти во всех сферах деятельности, потому что при движении информационных потоков стираются границы пространства и времени. 

Необходимо отметить широту круга деятельности, которую можно соотнести с понятием «перевод». Существует перевод с одного языка на другой стихов, художественной прозы, научных и научно-популярных книг по различным темам и областям знания, дипломатических документов, деловых бумаг, статей политических деятелей и речей ораторов, газетных материалов, бесед лиц, которые говорят на разных языках и вынуждены пользоваться услугами переводчика, производится дубляж кинофильмов. Логично, что увеличение потоков информации и распространение каналов связи приводит к возрастанию потребности в переводе этой информации с одного языка на другой. Однако использовать услуги специалиста-переводчика с целью получить сведения, например, с иностранного сайта, не является целесообразным. Поэтому желание автоматизации процесса перевода является вполне обоснованным, и тема машинного перевода очень актуальна, и в будущем ее актуальность будет только возрастать.

В настоящее время компьютерные технологии проникают во все сферы деятельности, обеспечивают распространение информационных потоков в обществе, образуя глобальное информационное пространство. Важной частью данного процесса является компьютеризация процесса перевода, а задачей разработчиков является максимально возможная помощь переводчику посредством современных информационных технологий.

Актуальным является вопрос о машинном переводе в специализированных областях знаний. В данной работе мы рассмотрим особенности применения машинного перевода для сферы геологии. Это достаточно узкая специализация, содержащая в себе значительное количество геологических терминов и понятий, в связи с чем особое внимание обращается на качество перевода как с русского на английский язык, так и наоборот. 

Объектом исследования является перевод иноязычного технического текста.

Предметом исследования является эффективность применения систем машинного перевода для работы с иноязычным техническим текстом.

Целью работы является анализ современных компьютерных технологий как инструмента перевода иноязычного технического текста (на материале текстов геологоразведочной отрасли).

Задачи:

дать определение машинного перевода, охарактеризовать исторические этапы его развития;

рассмотреть основные компьютерные ресурсы для машинного перевода текста;

выявить особенности машинного перевода технического текста;

дать определение автоматизированного перевода, рассмотреть основные системы и функции автоматизированного перевода;

изучить особенности геологической науки как объекта для машинного перевода; 

определить особенности перевода текстов геологической направленности с русского языка на английский и с английского на русский, применяя системы машинного перевода;

сделать статистический анализ качества перевода технических текстов с помощью наиболее популярных систем машинного перевода.

Научная новизна исследования заключается в определении закономерностей ошибок перевода технического текста с помощью различных систем машинного перевода. Данный вопрос подробно рассмотрен в нефтедобывающей сфере, однако в геологоразведочной отрасли нет подобных исследований. Эта сфера деятельности не является популярной в широких научных кругах. Она содержит значительное количество специализированной лексики и терминологии, причем значительное место среди лексического состава данной области знания занимают географические названия, представляющие достаточную сложность при переводе. В рамках диссертационной работы предпринята попытка систематизации полученных экспериментальным путем данных и выявления закономерности при изучении корректности перевода с помощью систем машинного перевода как путем анализа текста, так и с применением метода статистики. 

Гипотеза исследования: термины и аббревиатуры представляют наибольшую трудность при осуществлении машинного перевода в геологоразведочной отрасли. Целью исследования является выявление тех систем машинного перевода, которые лучше справляются с переводом технической терминологии указанной сферы научной деятельности. 

Теоретическая база работы: при написании диссертации широко использовались научные труды таких ученых-лингвистов, как:

Л.Л. Нелюбин, А. Сокирко, Е.Н. Филинов, в чьих работах рассматриваются различные аспекты переводческой деятельности; 

В.Н. Комиссаров и Г.В. Чернов, которые являются авторами множества публикаций по теории перевода;

Л.А. Черняховская, которая в своих трудах исследует важнейший аспект преобразования синтаксической структуры при переводе, связанной с передачей компонентов информационной структуры высказывания; 

Л.К. Латышев и Р.К. Миньяр-Белоручев, которые рассматривают концепцию устного перевода. 

Практическую базу данного исследования составили тексты геологоразведочной отрасли из специализированных СМИ. 

В работе применены следующие методы исследования:

Анализ: системы машинного перевода рассмотрены с учетом их свойств или признаков; 

Аналогия: выявлено сходство систем машинного перевода по ряду качеств;

Сравнение: сделан сравнительный анализ систем машинного перевода по ряду свойств; 

Эксперимент: ряд систем машинного перевода протестирован с помощью идентичных технических текстов для определения качества выполненного перевода.  

Материалом исследования стали тексты научных работ геологоразведочной тематики (фрагменты статей, опубликованных в специализированных печатных СМИ). 

Теоретическая значимость работы состоит в том, что системы машинного перевода подробно проанализированы в том состоянии, в котором они находятся на сегодняшний день. Выбраны наиболее популярные системы машинного перевода, описаны их алгоритмы и принципы действия, произведен статистический анализ качества перевода. 

Практическая значимость работы состоит в том, что она может быть применена в качестве пособия в процессе обучения техническому переводу в геологоразведочной отрасли. 

Магистерская диссертация состоит из введения, двух глав и заключения, сопровождается списком использованной литературы и источников.

Во введении обосновывается актуальность темы исследования, её теоретическая и практическая значимость, определяются объект, предмет, цель, задачи исследования и т.д.

Первая глава «Теоретические основы машинного и автоматизированного переводов» посвящена истории развития машинного перевода, видам машинного перевода и лингвистического программного обеспечения, особенностям машинного перевода технической литературы, а также системам автоматизированного перевода.

Вторая глава «Анализ машинного перевода текстов геологоразведочной отрасли» посвящена особенностям перевода текстов геологоразведочной тематики, анализу машинного перевода текстов геологической направленности с русского языка на английский и с английского языка на русский.	

В заключении подводятся итоги проведенного исследования и формулируются краткие выводы.

Работа прошла апробацию на XIII Международной научно-практической конференции «Новые идеи в науках о Земле», МГРИ-РГГРУ, Москва, 2017. Том 2. С. 490-491.












Глава 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ МАШИННОГО И АВТОМАТИЗИРОВАННОГО ПЕРЕВОДОВ



1.1. История развития машинного перевода



Среди многочисленных проблем, которые рассматривает современное языкознание, важное место занимает изучение лингвистических аспектов межъязыковой речевой деятельности, называемой переводом. Перевод представляет собой древний вид человеческой деятельности. Сначала появились устные переводчики, которые помогали общаться разноязычным коллективам. С возникновением письменности появились письменные переводчики, переводившие тексты официального, религиозного и делового характера. Распространение письменных переводов открыло людям широкий доступ к культурным достижениям других народов, сделало возможным взаимодействие и взаимообогащение литератур и культур.

К середине XX века началось систематическое изучение переводческой деятельности. В этот период на первый план выдвигается перевод политических, коммерческих, технических и прочих материалов, где особенности индивидуального авторского стиля, как правило, малосущественны. В связи с этим основные трудности перевода и весь характер переводческого процесса обусловливаются расхождениями в структурах и правилах функционирования языков, участвующих в этом процессе. 

Современный период развития общества характеризуется сильным влиянием на него компьютерных технологий, которые проникают во все сферы человеческой деятельности, обеспечивают распространение информационных потоков в обществе, образуя глобальное информационное пространство. Неотъемлемой и важной частью этих процессов является компьютеризация процесса перевода. Мечта о создании автоматических машинных переводчиков не покидает ученых. И хотя полное переведение процесса в сферу деятельности машин на данном этапе развития информационных технологий невозможно – присутствие человеческого фактора как конечной инстанции принятия решения все еще необходимо – задачей разработчиков стала посильная помощь переводчику посредством современных информационных технологий [42].

Сегодня уже трудно найти профессионального переводчика, который бы не использовал современные компьютерные технологии при переводе иноязычного текста.  Это обеспечивает переводчику статус профессионала на рынке, а также облегчает непосредственно сам труд. Несмотря на разнообразие имеющихся компьютерных технологий в переводческой деятельности, в данной работе мы остановились на машинном переводе как на одном из наиболее удобных и популярных средств.

В настоящее время машинный (автоматический) перевод является распространенным инструментом для оперативного перевода различных видов текста с одного языка на другой. Согласно определению, машинный перевод – это процесс перевода текстов, когда текст на одном естественном языке переводится на другой c использованием специальной компьютерной программы [50]. Аналогичным образом можно назвать направление научных исследований, которые основаны на построении подобных систем. 

Машинный перевод осуществляется следующим образом:

		с постредактированием: в этом случае машина обрабатывает начальный текст, а получившийся результат дорабатывает человек;

		с предредактированием: человек адаптирует текст для машинной обработки, убирает вероятные двусмысленные сочетания, упрощает текст, после чего текст подвергается машинной обработке;

		 с интерредактированием: переводчик работает одновременно с машиной для разрешения трудных случаев;

		 с использованием смешанных систем: есть как предредактирование, так и постредактирование.

Машинный перевод имеет долгую историю развития. Впервые идею о вероятности машинного перевода выразил математик Чарльз Бэббидж (1791-1871), который в 1836-1848 годах разработал проект цифровой аналитической машины. Она стала механическим прототипом электронных цифровых машин, которые появились только через 100 лет. Идея Бэббиджа заключалась в том, чтобы использовать память объемом 1000 50-разрядных десятичных чисел для хранения словарей. Эта идея стала основанием для предоставления английским правительством средств на создание аналитической машины, которую Бэббидж так и не воплотил в жизнь [16:4].

В январе 1954 года начался «Джорджтаунский эксперимент», который фактически знаменует начало машинного перевода. На машине ИБМ-701 была осуществлена первая публичная демонстрация машинного перевода с русского языка на английский, о чем было сообщено в СМИ [28:39]. Одной из публикаций на эту тему стала статья советского ученого в области математики, директора Института научной информации АН СССР Д.Ю. Панова, которая была озаглавлена как «Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании». В СССР после этой публикации начались масштабные работы по машинному переводу, и уже к концу 1955 года были совершены первые опыты перевода текста с помощью Большой (или Быстродействующей) электронно-счетной машины, сокращенно именуемой БЭСМ. Программы для БЭСМ составляли математики Н.П. Трифонов и Л.Н. Королев. Последний является автором одной из первых диссертаций по методам построения словарей для машинного перевода [48].

Иное направление деятельности осуществлялось в Отделении прикладной математики Математического института АН СССР (сегодня ИПМ им. М.В. Келдыша РАН) по инициативе математика А.А. Ляпунова. Проводилась работа над машинным переводом математических текстов с французского языка на русский, затем разрабатывался алгоритм англо-русского перевода. Первыми программами для машинного перевода стали программы, реализованные на машине «Стрела». 

Основанием первых поколений систем машинного перевода были алгоритмы последовательного перевода одного слова за другим, одной фразы за другой [48]. Возможности данных систем ограничивались объемом памяти компьютера. Перевод текста производился по отдельным предложениям, без учета смысловых связей между ними. Такие системы получили название систем прямого перевода. Со временем их сменили системы последующих поколений, в которых перевод с одного языка на другой производился на уровне синтаксических конструкций. Эти системы получили название Т-систем (от англ. “transfer” – преобразование). В алгоритмах таких систем предусматривались следующие действия:

аналитическим способом по правилам грамматики определялась синтаксическая структура входного предложения;

далее происходило преобразование синтаксической структуры входного предложения в синтаксическую структуру выходного предложения;

и, наконец, осуществлялся синтез синтаксической структуры выходного предложения с помощью нужных слов из словаря [49].

Наиболее совершенный подход – это подход построения систем машинного перевода, которые в основе своей имеют смысловое представление входного предложения при помощи анализа семантики без привязки к языку. Затем синтезируется выходное предложение в зависимости от полученного смыслового представления. Эти системы известны как И-системы (от слова «интерлингва»). При развитии машинного перевода данная система считалась предпочтительной. 

Е.Н. Филинов в своей работе отмечает, что математик А.М. Ляпунов, начиная работы с машинным переводом, говорил, что упор нужно делать именно на извлечение смысла из переводимого текста. Однако постановка проблемы перевода в таком виде несколько опередила свое время, так как для реализации не было достаточных технических возможностей. Проведение работ по совершенствованию машинного перевода свидетельствовало о том, что решение таких проблем следовало производить постепенно и по частям. Это решение было обусловлено значительным количеством трудноразрешимых вопросов в области формализации и выстраивания алгоритмов для работы с текстами, в определении словарей для ввода в машину, в определении и выборе лингвистических закономерностей для применения в машинном переводе. Кроме того, в ходе работ было определено, что традиционная лингвистика не имеет ни фактического материала, ни идей для построения систем машинного перевода, которые бы использовали смысл переводимого текста [48].

Эти проблемы захватывают не только уровень грамматики, но и уровень синтаксиса. Ни один язык в то время не обладал систематизированным перечнем синтаксических конструкций, не изучалось, при каких условиях они сочетаются и взаимозаменяются, не разрабатывались правила, которые бы строили крупные единицы синтаксической структуры из малых. Таким образом, традиционная лингвистика 50-х годов прошлого столетия не давала ответа ни на один поставленный вопрос касательно машинного перевода.

Ко второй половине 50-х годов XX века сформировалось новое направление в лингвистике на основании потребности в создании теоретических основ машинного перевода, а именно: структурной, прикладной и математической лингвистики. Основной вклад в этот процесс был внесен математиками А.А. Ляпуновым, В.А. Успенским, О.С. Кулагиной, лингвистами В.Ю. Розенцвейгом, П.С. Кузнецовым, А.А. Реформатским, И.А. Мельчуком, В.В. Ивановым [48].

Одним из результатов появления нового лингвистического направления стало то, что 6 мая 1960 года было принято Постановление Президиума АН СССР «О развитии структурных и математических методов исследования языка», для исполнения которого в Институте языкознания и Институте русского языка АН СССР создали подразделения по структурной лингвистике. В постановлении отмечалось, что важные исследования по теории и практике машинного перевода проводятся гораздо медленнее, чем ожидалось, по причине недостаточного развития в лингвистических организациях теоретических исследований в сфере структурных и математических методов. В этой связи с 1960 года на филологическом факультете МГУ, в Ленинградском и Новосибирском университетах началась подготовка кадров в сфере автоматической переработки текстов. Специализация получила название математической лингвистики, в рамках которой осуществлялось изучение языка как абстрактной знаковой системы, задача которой – построение теоретической основы машинного перевода и создание определенных алгоритмов перевода. Исходя из этого понимания, математическая лингвистика – это часть семиотики – общей теории знаковых систем [16:45].

В это же время в США математик Н. Хомский развивал формальную теорию грамматик. Эти труды стали классическими для сферы искусственных языков, в частности языков программирования.

В период с 1956 года по 1976 год проводилась усиленная разработка основ технологии машинного перевода. 

В 80-х годах XX века были разработаны теоретические основы системы машинного перевода с иероглифических языков (японского, китайского и т.д.). В процессе создания были применены принципы смыслового анализа текстов.

Первыми коммерческими продуктами машинного перевода, которые нашли практическое использование, стали программы, появившиеся в середине 80-х годов. Данные программы загружались в персональные компьютеры, и это были системы прямого перевода, в основе которых лежали базы огромных (по сравнению с первыми системами) словарей.

1993 год стал годом создания промышленной версии системы RETRANS, которая осуществляет фразеологический машинный перевод с русского языка на английский, и наоборот. Она применялась в Министерстве обороны, Министерстве путей сообщения, Министерстве образования и науки, Министерстве по связи и информатизации (с 2008 года преобразовано в Министерство связи и массовых коммуникаций).

На сегодняшний день отечественные компании предлагают следующие пользующиеся спросом продукты для машинного перевода:

 Retrans Vista (1991 г.), 

 PROMT (1991 г.),

 Яндекс.Переводчик (2011 г.).

Retrans Vista – это система, которая предоставляет простой и эффективный способ автоматического перевода текстов с русского языка на английский и с английского на русский. В основных словарях системы Retrans Vista содержатся блоки терминов и фразеологических единиц как в естественных, так и в технических науках, экономике, бизнесе и политике.  Политематический машинный словарь содержит объем около 3,4 млн. слов (1,8 млн. слов – русско-английская часть, 1,6 млн. – англо-русская), где 20% содержания объема – это слова, а 80% – устойчивые словосочетания средней «длины» в 2,2 слова.

В системе Retrans Vista реализована прогрессивная концепция фразеологического машинного перевода, основанная на переводе целостных понятий, выражаемых словами, словосочетаниями или даже предложениями. Поэтому система в первую очередь находит переводные эквиваленты для максимально длинных фраз и словосочетаний, и лишь затем, если это не удается, переводит входящие в их состав более короткие словосочетания и отдельные слова.

При разработке базовых процедур Retrans Vista широко использовался метод аналогии. Это позволяет освободить пользователей системы от необходимости указывать какую-либо грамматическую информацию при пополнении словарей. В системе впервые удалось реализовать и объединить идеологию машинного перевода и популярную в настоящее время специальную технологию Translation Memory (базу данных, где хранятся выполненные переводы, иногда ее еще называют «памятью переводов»).

Retrans Vista может применяться в любой ситуации, где нужно исследовать, сопоставлять, собирать и анализировать текстовую информацию на английском или русском языках. Система поможет провести экспресс-анализ больших объемов текста в Интернете, выполнить смысловой перевод, подобрать правильный термин для узкой профессиональной области, быстро подготовить черновой вариант перевода, познакомиться с наиболее вероятным словоупотреблением, завести собственный словарь переводных единиц и т.д. 

Практика показывает, что само применение Retrans Vista подсказывает множество идей, как улучшить или создать новые приложения с помощью настройки системы на потребности пользователя. Retrans Vista совместно с офисными технологиями может быть использована для создания приложений в сфере обработки текстовой информации, поисковых систем, документооборота, управления информационными ресурсами и т.п.

Для того, чтобы пользователь мог начать работу с системой наиболее быстро, было принято решение встроить Retrans Vista в среду наиболее популярных офисных приложений. Таким образом пользователь сможет сохранить привычные для себя навыки работы, освобождаясь от необходимости изучения новых интерфейсов. 

Продукты компании Microsoft являются наиболее популярными приложениями для работы с документами. Поэтому система Retrans Vista выпущена в двух модификациях: Retrans Vista для Word, работающая в среде Microsoft Word, и Retrans Vista для Web, встраиваемая в Microsoft Internet Explorer.

Компания ПРОМТ является лидером в разработке систем машинного перевода и предлагает широкий спектр продуктов для разных языковых пар. Онлайн-переводчик PROMT является бесплатным и располагается в Интернете по адресу http://www.translate.ru [50].

На сегодняшний день переводчики компании PROMT с легкостью справляются с переводами с русского, английского, немецкого, французского, итальянского, испанского, португальского языков. Последние годы работы компании дали хорошие результаты не только в виде качественных машинных переводчиков с возможностью использования сопутствующих специализированных словарей, но также и в виде собственных решений при использовании технологии Translation Memory.

Принцип работы программ PROMT состоит в использовании специальной технологии машинного перевода, основанной на правилах (RBMT – rule-based machine translation), которые являют собой лингвистическое описание двух языков (имеются в виду двуязычные словари и другие базы данных, которые содержат семантическую, грамматическую и морфологическую информацию), формальную грамматику, а также алгоритмы переводов. Понятие качества перевода будет зависеть от того, насколько полным окажется объем лингвистической базы данных, а также насколько глубоко будут описаны естественные языки, то есть необходимым является учет количества возможностей грамматических структур. 

Однако 2017 год привнес некоторые изменения в работу программы. Так, компания представила новую технологию – гибридный перевод, который совместил в себе как RBMT, так и SMT (statistical machine translation). Это совмещение полезно тем, что теперь программа будет предлагать не один вариант перевода, как это было до сих пор, а как минимум сотни. Количество предлагаемых вариантов будет зависеть от особенности переводимых слов и конструкций – чем сложнее они будут, тем большее количество вариантов сможет выдать программа. После этого языковая модель сможет выбрать тот вариант, которые окажется наиболее вероятным и предпочтительным. Таким образом, комбинация двух технологий дала свои преимущества, почерпнув позитивные качества от каждой из них. Кроме того, такой вид подхода к машинному переводу дает возможность быстро обучить программу. 

Основные характеристики и возможности программы PROMT: возможность перевода текстов, словосочетаний и отдельных слов, возможность использования, редактирования и создания специализированного словаря и профиля перевода, возможность подключения к базе сервиса Translation Memory и глоссарию, возможность доступа к любой из словарных статей Мультитрана, возможность интеграции в офисное приложение или веб-браузер, а также контроль правописания.

Таким образом, использование программы PROMT является хорошим решением для тех, кто пользуется услугами машинного перевода и желает получать наиболее точные варианты перевода, которые соответствовали бы высокому языковому уровню. PROMT поможет решить эту проблему благодаря комбинации нескольких технологий и возможности интеллектуального подбора нужного варианта фразы, слова или текста.

Яндекс.Переводчик является достаточно качественной системой автоматического перевода. Поисковая система Яндекс зародилась еще в 1993 году, а широкой публике была представлена в 1997 году. Постепенно с течением времени добавлялись различные программные сервисы, пока, наконец, в 2011 году не дошла очередь и до Яндекс.Переводчика (изначально Яндекс.Перевод). Яндекс.Переводчик основывается на статистическом машинном переводе. Система строит свои словари соответствий на основе анализа миллионов переведенных текстов, которые переводчик сначала сравнивает с базой слов, а затем с базой моделей языка, стараясь определить смысл выражения в контексте.

Яндекс.Переводчик встроен в Русскую Википедию (осуществляет перевод с английского языка на русский). Помимо этого, переводчик встроен в Яндекс.Браузер и автоматически предлагает перевести текст на иностранном языке. 

На сегодняшний день возможен перевод на 64 языка. Есть два режима работы: перевод текстов и перевод веб-страниц. Доступны такие возможности, как автоматическое определение языка, синхронный перевод (по мере набора текста), подсказки при наборе текста и исправление опечаток, а также очень хороший машинный словарь, позволяющий просматривать подробные словарные статьи с вариантами перевода, примерами использования лексики в различных контекстах и грамматическими комментариями.

Яндекс.Переводчик доступен для мобильных устройств даже в режиме оффлайн (для Android и iOS) [52].

С сентября 2017 года Яндекс.Переводчик начал переход на нейронный машинный перевод для более качественного перевода.





Вопрос о нейронных сетях и применении их в процессе автоматического перевода сегодня как нельзя более актуален. Директор мобильных и интернет-проектов компании PROMT Б.C. Тихомиров говорит о том, что осуществление машинного перевода на базе нейронных сетей – это первоочередная задача разработчиков [45].

Динамика популярности в поиске запросов про нейронные сети в целом и про нейронный машинный перевод в частности характеризуется стабильным ростом.

В конце 2016 года свои новые технологии и системы машинного перевода, построенные на базе нейронных сетей, продемонстрировали сразу несколько компаний, среди которых Google, Microsoft и SYSTRAN. Они появились почти одновременно, с разницей в несколько недель или даже дней.

Для того, чтобы ответить на вопрос «как так получается?», необходимо понять, что такое машинный перевод на базе нейронных сетей и в чем его ключевое отличие от классических статистических систем или аналитических систем, которые используются сегодня для машинного перевода.

В основе нейронного переводчика – механизм двунаправленных рекуррентных нейронных сетей (Bidirectional Recurrent Neural Networks), построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики.

Как и статистический перевод, нейронный перевод требует для обучения параллельные корпуса, позволяющие сравнить автоматический перевод с эталонным «человеческим», только в процессе обучения оперирует не отдельными фразами и словосочетаниями, а целыми предложениями. Основная проблема в том, что для тренировки такой системы требуется существенно больше вычислительных мощностей.

Для ускорения процесса обучения ученые используют чипы собственной разработки, адаптированные специально для технологий машинного обучения – Graphics Processing Unit (GPU) от NVIDIA и Tensor Processing Unit (TPU) от Google. Графические чипы изначально оптимизированы под алгоритмы матричных вычислений, и поэтому выигрыш в производительности составляет 7-15 раз по сравнению с Central Processing Unit (CPU) [45].

Даже при всем при том, тренировка одной нейронной модели требует от 1-ой до 3-х недель, тогда как статистическая модель примерно того же размера настраивается за 1-3 дня, и с увеличением размера эта разница увеличивается.

Однако не только технологические проблемы были тормозом для развития нейронных сетей в контексте задачи машинного перевода. В конце концов, обучать языковые модели можно было и раньше, пусть медленнее, но принципиальных препятствий не было.

Свою роль сыграла, в том числе, и мода на нейронные сети. Внутренние разработки вели многие, но заявлять об этом не спешили, опасаясь, возможно, что не получат того прироста качества, которое общество ожидает от словосочетания Neural Networks. Этим можно объяснить тот факт, что сразу несколько нейронных переводчиков были анонсированы один за другим. 

Несмотря на то, что Google заявляет об улучшении на 60% и даже выше, в этом показателе есть небольшой подвох. Представители компании говорят о “Relative Improvement”, то есть насколько им удалось с нейронным подходом приблизиться к качеству “Human Translation” по отношению к тому, что было в классическом статистическом переводчике. 

Эксперты отрасли, анализирующие результаты, представленные Google в статье “Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”, достаточно скептически относятся к представленным результатам и говорят, что фактически BLEU score удалось улучшить только на 10%, а существенный прогресс заметен именно на достаточно простых тестах из Wikipedia, которые, скорее всего, были использованы и в процессе обучения сети.

Внутри PROMT регулярно проводится сравнение перевода на различных текстах отечественных систем с конкурентами, и поэтому всегда есть примеры, на которых можно проверить, действительно ли нейронный перевод так превосходит предыдущее поколение, как заявляют производители.

Исходный текст (EN): Worrying never did anyone any good.

Перевод Google PBMT: Не беспокоясь не делал никому ничего хорошего.

Перевод Google NMT: Беспокойство никогда никому не помогало.

Кстати, перевод той же фразы на Translate.Ru: Волнение никогда не приносило никому пользы, можно заметить, что он был и остался таким же и без использования нейронных сетей. 

Microsoft Translator в этом вопросе тоже не отстает. В отличие от коллег из Google они даже сделали сайт, на котором можно сделать перевод и сравнить два результата: нейронный и донейронный, чтобы убедиться, что утверждения о росте в качестве не голословны [45].

На этом примере мы видим, что прогресс есть, и он действительно заметный. На первый взгляд похоже, что заявление разработчиков о том, что машинный перевод практически догнал «человеческий» – правда. Но так ли это на самом деле, и что это значит с точки зрения практического применения технологии для бизнеса?

В общем случае перевод с применением нейронных сетей превосходит перевод статистический, и у этой технологии есть огромный потенциал для развития. Но если внимательно подойти к вопросу, то мы сможем убедиться, что прогресс не во всем, и не для всех задач можно применять нейронные сети без оглядки на саму задачу.

От автоматического переводчика всю историю его существования – а это уже более 60 лет! – ждали некой магии, представляя его как машинку из фантастических фильмов, которая мгновенно переводит любую речь в инопланетный свист и наоборот. 

На самом деле, задачи бывают разного уровня, оди.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену
Каталог работ
Похожие работы: