История и опыт использования машинного перевода. Основные этапы развития машинного перевода

Материал подготовил А. А. Тараскин

Осуществление перевода компьютером – сложная, но интересная научная задача. Основная ее сложность состоит в том, что естественные языки плохо поддаются формализации. Отсюда и невысокое качество получаемого с помощью систем МП текста, содержание и форма которого служит неизменным объектом шуток. Однако идея машинного перевода уходит корнями далеко в прошлое. Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж, разработавший в 1836-1848 гг. проект цифровой аналитической машины. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить.

А через 100 лет, в 1947 году, У. Уивер (директор отделения естественных наук Рокфеллеровского фонда) написал письмо Норберту Винеру. В этом письме он предлагал использовать технику дешифрования для перевода текстов. Этот год считается годом рождения машинного перевода. В этом же году был разработан алгоритм осуществления пословного перевода, а в 1948 году Р. Риченс предложил правило разбиения слова на основу и окончание. В последующие два десятилетия системы машинного перевода бурно развивались. В январе 1954 года на машине IBM – 701 была продемонстрирована первая система машинного перевода IBM Mark II. Но в 1967 году специально созданная Комиссия Национальной Академии Наук США признала машинный перевод нерентабельным, что существенно затормозило исследования в этой области. Новый подъем машинный перевод переживает в 70-е годы, а в 80-е становится экономически выгодным за счет сравнительной дешевизны машинного времени.

Однако в СССР исследования в области машинного перевода продолжались. После демонстрации системы IBM Mark II группа ученых ВИНИТИ начала разработку системы машинного перевода для машины БЭСМ. Первый образец перевода с английского на русский язык был получен к концу 1955 года.

Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела". Благодаря работе над созданием систем МП оформилось такое направление, как прикладная лингвистика.

В 70-е годы над созданием систем МП трудилась группа разработчиков ВИНИТИ РАН под руководством проф. Г.Г. Белоногова. Первая их система МП была разработана в 1993 году, а в 1996 году после ряда доработок была зарегистрирована в РОСАПО под названием Retrans. Эта система использовалась министерствами обороны, путей сообщения, науки и технологии.

Параллельные исследования велись в лаборатории Инженерной Лингвистики ЛГПИ им. А. И. Герцена (ныне Педагогический Университет). Именно они и легли в основу наиболее популярной сейчас системы МП “PROMT”. Последние версии этого программного продукта используют наукоемкие технологии и построены на основе технологии расширенных сетей переходов и формализма нейронных сетей.

Классификация систем машинного перевода по Лари Чайлду

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод

Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека.

Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера

При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM). Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Системы машинного перевода (МП)

В соответствии с указанной выше классификацией, целью данной работы является исследование и анализ систем МП второй группы, поскольку систем МП первой группы еще не существует в природе, а системы третьей группы в сущности не являются системами МП, а более напоминают электронные словари.

Системы МП осуществляют автоматизированный перевод текста. Единицами перевода при этом служат слова или словосочетания, причем последние разработки позволяют учитывать морфологию переводимого слова. Развитые системы МП осуществляют перевод по заданным разработчиком и/или корректируемым пользователем алгоритмам перевода.

Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

В настоящее время существует две концепции развития систем МП:

1. Модель «большого словаря со сложной структурой», которая заложена в большинство современных программ-переводчиков;

2. Модель «смысл-текст», впервые сформулированная А.А. Ляпуновым, но пока что не реализована ни в одном коммерческом продукте.

На сегодняшний день наиболее известны такие системы машинного перевода, как

PROMT 2000/XT компании PROMT;

Retrans Vista компаний Vista и Advantis;

Сократ – набор программ компании Арсеналъ.

В настоящее время качество машинного перевода оставляет желать много лучшего, и само наличие таких систем пока правильнее воспринимать как предмет научных исследований. В большинстве случаев при работе над проектом применение систем МП не оправдано, поскольку:

Системы МП не дают приемлемого качества выходного текста. Более высокого качества можно добиться с помощью предварительной настройки системы (продукты серии PROMT XT предоставляют пользователю множество возможностей для этого), что совершенно неприемлемо при небольших объемах переводимого текста, и/или путем последующего редактирования, а это только замедляет работу, если переводчик использует слепой метод печати.

Системы МП не гарантируют соблюдения единства терминологии, особенно при работе коллектива переводчиков над большим проектом. Вернее, могут гарантировать при условии очень внимательного обращения с пользовательскими словарями, а на это не всегда стоит рассчитывать.

Однако в некоторых случаях использование систем МП все же помогает сократить временные затраты. Это происходит, если текст достаточно объемный и содержит однообразную терминологию, что позволяет сравнительно быстро настроить под него систему МП. Тогда редактирование текста не займет слишком много времени. Однако в этом случае следует особенно внимательно отнестись к стилю текста перевода. Машинный перевод формален, поэтому высока вероятность калькирования синтаксических структур языка оригинала, которое характерно для перевода вообще, а потому вполне может быть пропущено при редактировании.

Вообще говоря, системы МП вполне могут применяться там, где используется максимально стандартизованный язык с простой грамматикой и сравнительно небольшим запасом слов. Довольно успешным проектом системы МП считается немецкая программа Meteo, выполняющая перевод метеопрогнозов с французского языка на английский и обратно. Для облегчения работы переводчиков и технических писателей компанией Boeing в свое время был разработан стандарт языка для написания технической документации, который известен как Boeing English.

Система МП Retrans Vista

Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит, прежде всего, от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. К сожалению, эти законы пока еще недостаточно изучены. Решая проблему машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. А этот опыт свидетельствует о том, что в процессе перевода в качестве основных единиц смысла рассматриваются, прежде всего, фразеологические словосочетания, выражающие целостные понятия, а не отдельные слова. Именно понятия являются теми элементарными мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.

Условимся называть системы машинного перевода, в которых в качестве основных минимальных единиц смысла рассматриваются не отдельные слова, а фразеологические словосочетания, системами фразеологического машинного перевода. В этих системах отдельные слова также могут использоваться, но они рассматриваются как вспомогательные единицы смысла, к которым приходится прибегать за неимением лучших.

Система фразеологического машинного перевода должна включать в свой состав базу знаний, содержащую переводные эквиваленты для наиболее часто встречающихся фраз, фразеологических сочетаний и отдельных слов, и программные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком. В процессе перевода текстов система использует хранящиеся в ее базе знаний переводные эквиваленты в следующем порядке: сначала делается попытка перевести всю фразу как целостную единицу; далее, в случае неудачи, входящие в ее состав словосочетания; и, наконец, осуществляется пословный перевод тех фрагментов текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полученные всеми тремя способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).

Принципы построения систем фразеологического машинного перевода текстов были впервые сформулированы в 1975 году в предисловии к книге Д. Жукова "Мы переводчики". В более полном виде они были изложены в 1983 году в книге Г. Г. Белоногова и Б. А. Кузнецова "Языковые средства автоматизированных информационных систем". Наконец, в 1993 году были опубликованы две статьи, в которых были описаны система машинного перевода, построенная на этих принципах, и методы автоматизированного составления двуязычных словарей по параллельным (русских и английским) текстам. Важнейшими среди этих принципов являются следующие:

1. Основными единицами языка и речи, которые, прежде всего, следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы.

2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода следует использовать и так называемые "речевые модели" - фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи.

3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей - тем более. Он должен создаваться, прежде всего, на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.

4. Наряду с основным политематическим словарем большого объема, в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей).

На основе описанных принципов в ВИНИТИ РАН (см. выше) были построены две системы фразеологического машинного перевода:

1) система русско-английского перевода (RETRANS)

2) система англо-русского перевода (ERTRANS).

Обе системы имеют одинаковую структуру и примерно одинаковые объемы машинных словарей. Поэтому мы рассмотрим только первую систему.

Система RETRANS имеет следующие характеристики:

1. Область применения, назначение, функциональные возможности. Система предназначена для автоматизированного перевода научно-технических текстов с русского языка на английский. Русско-английский политематический машинный словарь системы содержит терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. В частности, он содержит термины и фразеологические единицы по следующим тематическим областям: Машиностроение, Электротехника, Энергетика, Транспорт, Аэронавтика. Космонавтика, Робототехника, Автоматика и Радиоэлектроника, Вычислительная Техника, Связь, Математика, Физика, Химия, Биология, Медицина, Экология, Сельское Хозяйство, Строительство и Архитектура, Астрономия, География, Геология, Геофизика, Горное Дело, Металлургия и др.

Перевод текстов может осуществляться в автоматическом и в диалоговом режимах.

2. Объем политематического машинного словаря: более 1.300.000 словарных статей; 77 процентов из них составляют словосочетания длиной от двух до семнадцати слов. Объем дополнительных машинных словарей (для настройки системы на различные тематические области) - более 200.000 словарных статей.

Система МП PROMT XT

В основу программных продуктов компании PROMT поставлено решение следующих фундаментальных проблем:

Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания больших словарей для систем.

Во-вторых, ясно, что система должна переводить такие предложения: ПРИВЕТ, КАК ДЕЛА? Значит, еще одна проблема - научить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно являются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову "программа"? И, вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста? Очевидно, более верно второе. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

Практически во всех системах, которые претендуют на то, чтобы считаться системами перевода, проблема представления морфологических моделей так или иначе решается. Но одни системы могут распознать миллион словоформ при объеме словаря в пятьдесят тысяч словарных статей, а другие при объеме словаря в сто тысяч словарных статей могут распознать именно эти сто тысяч.

В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для всех языков, с которыми системы умеют обращаться. Оно содержит 800 типов словоизменений для русского языка, более 300 типов, как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя - создателя словаря. Эта система фактически автоматизирует процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей.

Такой возможности нет ни в одной из существующих систем машинного перевода, даже в таких распространенных системах как Power Translator (Globalink, США), Language Assistant (MicroTac, США), TRANSEND (Intergaph,США), где пользователям приходится вручную спрягать и склонять слова для задания морфологической модели.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, как это требуется в спеллерах или электронных словарях, она необходима для выполнения программой собственно процедур перевода. Какая же нужна информация в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?

Во многих системах МП в прошлом (как, впрочем, и сейчас) словарное описание и описание алгоритмов рассматривались как стороны одной проблемы, но решение, как правило, искалось в ограничении рассматриваемого мира, либо грамматического, либо семантического. Например, на основе признака "принадлежность к части речи" описывалась грамматика такого типа:

именная группа - это существительное

именная группа - это прилагательное + именная группа

глагольная группа - это глагол + именная группа

предложение - это именная группа + глагольная группа

Понятно, что некоторая часть предложений естественного языка описывается такой грамматикой, но эта часть очень незначительна, и на ее основе нельзя правильно анализировать и переводить хоть сколько-нибудь реальный текст. Но зато можно использовать эффективные методы построения преобразователя по заданной грамматике или, на худой конец, написать программу, которая путем перебора построит древа зависимостей для ограниченного множества предложений. Такие системы точно так же получали определения "экспериментальные".

Так или иначе, но именно из таких проектов появились системы перевода, которые сейчас предлагаются конечному пользователю. Это и Power Translator (компания Globalink) и Language Assistant (компания MicroTac) и TRANSEND (компания Intergraph).

Системы семейств STYLUS и PROMT - не исключение, поскольку многие специалисты компании PROMT имели опыт работы в такого типа проектах. Однако при разработке систем PROMT впервые был применен фактически революционный подход, который и позволил получить впечатляющие результаты. Системы перевода семейства PROMT - это системы, спроектированные на основе не лингвистических, а кибернетических методов.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получение результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамматики, с которой работает система.

Вместо принятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с "объектно-ориентированной" организацией, основанной на иерархии обрабатываемых компонентов предложения. Это позволило сделать системы PROMT устойчивыми и открытыми.

Кроме того, такой подход дал возможность применения различных формализмов для описания перевода разных уровней. В системах работают и сетевые грамматики, близкие по типу к расширенным сетям переходов, и процедурные алгоритмы заполнения и трансформаций фреймовых структур для анализа сложных предикатов.

Описание лексической единицы в словарной статье, которое фактически не ограничено по размерам и может содержать множество различных признаков, тесно взаимосвязано со структурой алгоритмов системы и структурировано не на основе извечной антитезы синтаксис - семантика, а на основе уровней компонентов текста.

При этом системы могут работать и с не полностью описанными словарными статьями, что является важным моментом при открытии словарей для пользователя, от которого нельзя требовать тонкого обращения с лингвистическим материалом.

Первая система машинного перевода, выпущенная компанией PROMT в 1991 году, переводила с английского языка на русский специализированные тексты по программному обеспечению. Она использовала небольшой словарь - около 17 тыс. слов и выражений, работала в среде ДОС и не имела средств настройки для пользователя. Но уже эта первая система была правильно устроена, и нынешняя технология разработки алгоритмов машинного перевода, применяемая в компании PROMT, не претерпела значительных изменений. Напротив, найденный тогда подход оказался очень плодотворным для самых разных языков.

Сначала поясним некоторые определения: вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем, и стало принято делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае - разработать сам метаязык и описать естественный язык в соответствующих терминах.

Несмотря на то, что эта классификация существует, и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится система PROMT, не было разработано еще не одной реальной системы, основанной на принципе INTERLINGUA.

Система PROMT не является исключением, и на этот вопрос мы отвечаем: наша система выполняет перевод типа TRANSFER. Но это очень простой ответ, он практически не отражает особенностей архитектуры системы PROMT. А особенности состоят в том, что этот метод (TRANSFER) применен в системе не в соответствии с лингвистическим стандартным подходом.

Дело в том, что система перевода, как правило, работает в условиях не полностью описанных данных, ведь в язык - это живая система, которая развивается очень быстро: постоянно появляются новые слова, новые функции старых слов, и, вместе с новыми сущностями, новые значения. В этих условиях определяющим структурным свойством алгоритмов перевода становится их устойчивость к произвольным входным данным, и в основу алгоритмов, выполняющих перевод в системе PROMT, вместо последовательного TRANSFER"а был заложен иерархический подход, разделяющий процесс перевода на взаимосвязанные TRANSFER"ы для разных единиц анализа.

В системе выделяется уровень лексических единиц, уровень групп, уровень простых предложений и уровень сложных предложений. Все эти процессы связаны и взаимодействуют иерархически в соответствии с иерархией текстовых единиц, обмениваясь синтезируемыми и наследуемыми признаками. Такое устройство алгоритмов позволяет использовать разные формальные методы для описания алгоритмов разных уровней.

Рассмотрим уровень лексических единиц: лексическая единица - это слово или словосочетание, которое является единицей самого низкого уровня. И в случае входного, и в случае выходного языка слово описывается как совокупность основы и окончания. Это обеспечивает возможность, с одной стороны, распознавания входных слов и анализа входной морфологии и, с другой стороны, удобного синтеза выходных слов по их морфологической информации (основа, тип словоизменения и адрес окончания в массиве окончаний этого типа). Таким образом, если ввести правила преобразования входной морфологической информации в выходную морфологическую информацию, осуществляется TRANSFER на морфологическом уровне.

Уровень групп рассматривает структуры более сложные: группы существительных, прилагательных, наречий и сложные глагольные формы. Этот уровень при анализе, основываясь на формальных сетевых грамматиках, умеет соединять группы в синтаксические единицы, каждая из которых характеризуется синтезированной структурной информацией и главным элементом группы. По входной структуре, полученной в терминах непосредственных составляющих, вместе с синтезированными признаками формируется выходная группа как набор лексических единиц со значениями морфологических признаков, которые могут наследоваться исходя из результатов анализа группы. Таким образом, реализуется TRANSFER на уровне групп.

Анализ простых предложений как структур, состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов. Таким образом, осуществляется TRANSFER на уровне предложений. Анализ сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.

Новожилова Анна Алексеевна

Ключевые слова

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / ЭЛЕКТРОННЫЕ СЛОВАРИ / АВТОМАТИЗАЦИЯ ПЕРЕВОДА / МАШИННЫЙ ПЕРЕВОД / КАЧЕСТВО ПЕРЕВОДА

Аннотация научной статьи по языкознанию, автор научной работы - Новожилова Анна Алексеевна

В статье подробно рассматриваются две системы машинного перевода «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе , и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов , выполненных с помощью компьютерных программ, является их постредактирование.

Текст научной работы на тему «Машинные системы перевода: качество и возможности использования»

DOI: http://dx.doi.org/10.15688/jvolsu2.2014.3.8

УДК 81"322.4 ББК 81.184

МАШИННЫЕ СИСТЕМЫ ПЕРЕВОДА: КАЧЕСТВО И ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ

Новожилова Анна Алексеевна

Кандидат филологических наук, доцент кафедры теории и практики перевода Волгоградского государственного университета [email protected], [email protected]

просп. Университетский, 100, 400062 г Волгоград, Российская Федерация

Аннотация. В статье подробно рассматриваются две системы машинного перевода - «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе, и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов, выполненных с помощью компьютерных программ, является их постредактирование.

Ключевые слова: информационные технологии, электронные словари, автоматизация перевода, машинный перевод, качество перевода.

^ Научно-технический прогресс влечет за собой возрастание потоков информации, кото-« рой обмениваются носители разных языков, что

1 способствует расширению межъязыковых гра-о ниц и увеличению объема текстов, требующих щ перевода. «В настоящее время перевод выпол-© няет главную функцию в процессе межкультур-

ной коммуникации, позволяя человечеству преодолевать трудности в аккумулировании полезной и необходимой информации» . Современные переводчики уже не могут использовать в своей работе лишь словари. В пере-водоведении все больше внимания уделяется анализу электронных средств, позволяющих

ускорить и оптимизировать процесс перевода. Отечественные и зарубежные ученые-лингвисты, практики и теоретики-переводоведы, в особенности специалисты в области переводческого терминоведения и машинного перевода, отмечая возрастающую значимость информационных технологий в лингвистике в целом и в переводе в частности, разрабатывают различные стратегии и методы их наиболее эффективного применения в профессиональной деятельности .

Процессы глобализации и общедоступность интернета обусловили интенсивное развитие и совершенствование систем информационного обеспечения коммуникативной деятельности . По мнению В.Н. Шевчука, начало нового тысячелетия совпало с наступлением эры информационной революции и в практической деятельности профессиональных переводчиков и филологов за последние 20 лет произошли гигантские изменения . Многие ученые считают, что появление компьютеров и интернета стало серьезным шагом вперед в области практического перево-доведения, позволило значительно повысить качество перевода, особенно при переводе текстов с родного языка на иностранный, а переводчикам работать стало проще и быстрее . А.Н. Усачева утверждает, что благодаря интернету «переводчик приобрел уникальную возможность выхода в мировую информационную сеть, ему стали доступны данные отовсюду. Изменения, которые это внесло в профессию переводчика, настолько колоссальны, что все последствия этого сейчас вряд ли возможно оценить» .

Сегодня в распоряжении переводчика находятся разнообразные электронные инструменты, ускоряющие и облегчающие переводческий процесс. Наиболее известными из них являются электронные переводные словари («Lingvo», «Мультитран», «Мультилекс», «Babylon», «Polyglossum» и др.), системы класса Translation Memory («TRADOS», «Déjà vu», «Wordfast» и др.), программы автоматического редактирования текстов, программы распознавания устной речи, электронные библиотеки, терминологические базы данных, а также сама глобальная сеть Интернет как хранилище информационных ресурсов. Все эти инструменты являются лишь вспомогательными в

деятельности профессионального переводчика, хотя ученые еще с середины прошлого столетия работают над созданием систем, которые автоматически выполняли бы безупречные переводы с одного языка на другой. Первая система машинного перевода - IBM Mark II, разработанная компанией IBM совместно с Джорджтаунским университетом, была представлена в 1954 г. в Нью-Йорке. С тех пор исследования и разработки в сфере машинного перевода не прекращаются, а специалисты в области перевода на протяжении многих лет ведут споры о целесообразности применения программ автоматического перевода. В среде профессиональных переводчиков высказывается много аргументов за их использование и против него, но как противники, так и сторонники машинного перевода остаются единодушны в том, что у этих программ есть одно неоспоримое преимущество - значительная экономия времени, затрачиваемого на перевод больших объемов текста. На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов. Это входит в задачи лингвистов-переводоведов, а разработчики автоматизированных программ перевода стараются исправлять ошибки в системе, развивать и совершенствовать свои продукты, опираясь на получаемые результаты и теоретические обоснования специалистов в области переводоведения.

К основным факторам, затрудняющим машинный перевод, исследователи относят:

Языковую неоднозначность, которая может быть как лексического, так и грамматического характера;

Наличие сложных синтаксических структур, которые могут значительно различаться в языке оригинала и в языке перевода;

Различия в порядке слов в предложении (прямой / обратный, строгий / свободный);

Наличие анафорических связей в тексте;

Наличие идиом, смысл которых невозможно передавать посредством пословного перевода;

Наличие неологизмов;

Существование культурных различий у языковых сообществ и т. д. .

Среди наиболее известных автоматических переводчиков можно выделить системы машинного перевода «ПРОМТ» и «Google Translate». Автоматический переводчик «ПРОМТ» работает по принципу «перевода по правилам». Технология этого перевода состоит в применении алгоритмов, в соответствии с которыми программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода. Считается, что работа такого машинного переводчика похожа на процесс мышления человека . Работа системы машинного перевода «Google Translate» осуществляется по принципиально иной технологии, основанной на статистическом вычислении вероятности совпадений. Этой системой используется множество баз параллельных текстов, в которых попарно хранятся словосочетания и их переводы. В процессе перевода осуществляется статистический анализ: система подбирает эквивалент для перевода, основываясь на частоте употреблений, и в итоге подставляет вариант, имеющий наиболее высокий процент совпадений. Следует отметить, что «Google Translate» изначально разрабатывался для перевода с английского языка и на него, и до сих пор английский является языком-посредником при работе с другими парами языков. Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом - на необходимый язык перевода, что во многом влияет на качество перевода.

Сопоставим примеры переводов, выполненные системами «ПРОМТ» и «Google Translate» с английского языка на русский. При переводе фрагмента текста технического характера - инструкции по эксплуатации электронного устройства (игровой приставки) - были получены следующие результаты:

Оригинал:

Keep food and beverages away from product. Do not spill liquid of any kind on this product as it may render it inoperative. Clean with a slightly damp cloth (cold water). Do not use soap, detergent or other chemicals. Never submerge the unit in water.

«ПРОМТ» (режим - общая тематика, без подключения специализированных словарей):

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может отдать его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте единицу в воду.

«Google Translate» (основной предлагаемый вариант):

Держите еду и напитки от продукта. Не допускайте попадания какой-либо жидкости об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Следует отметить, что обе системы правильно распознали формы повелительного наклонения, используемые в тексте оригинала. Переводчик «Google Translate» верно определил частеречную принадлежность всех языковых единиц. Это составляет его преимущество по сравнению с «ПРОМТ», который выбрал для перевода лексемы clean прилагательное чистый, а не глагол очистить. Эта проблема связана с широко распространенным в английском языке явлением грамматической омонимии. «ПРОМТ», выполняя перевод по грамматическим правилам, неверно дешифровал исходную синтаксическую конструкцию и допустил ошибку, поскольку в программе не был учтен тот факт, что английский язык относится к аналитическому типу языков с достаточно строгим порядком слов и обязательным наличием сказуемого в предложении: именно оно при переводе не было распознано. «Google Translate» определил наличие глагола в этом предложении и его грамматическую форму (императив), но не распознал его видового значения, поскольку категория вида в английском языке не является облигаторной для каждой формы глагола. В данном предложении профессиональный переводчик обязательно использовал бы глагол несовершенного вида, чтобы подчеркнуть неоднократность предписываемого действия.

Приведенные переводы показывают, что обе системы не всегда хорошо справляются с выбором управления глаголов и часто работа-

ют на уровне словосочетаний, стоящих в непосредственной близости друг от друга (попадания какой-либо жидкости об этом продукте; не проливайте жидкость никакого вида на этом продукте и др.). При этом осуществлен и корректный выбор управления, например: Никогда не погружайте единицу в воду / Никогда не погружайте прибор в воду; Не используйте мыло, моющее средство или другие химикаты / Не используйте мыло, моющие средства или другие химические вещества.

Различия обнаруживаются и при переводе наречий. Так, «ПРОМТ» перевел наречие away с помощью наречия отдельно, а «Google Translate» опустил это наречие, ограничившись переводом предлога from. Однако применение функции просмотра и выбора доступных вариантов перевода позволяет увидеть, что в «Google Translate» единицы away и from рассматриваются как связанная пара и предлагаются более точные варианты перевода -вдали от, далеко от.

В системе «ПРОМТ» есть функция выбора специальной терминологической области. При переводе данного отрывка с подключением тематической области «техника: гад-жеты» был получен следующий текст:

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может представить его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте модуль в воду.

Подключение специализированной тематической области обусловило замену лексемы единица лексемой модуль, что в данном контексте можно рассматривать как более удачный вариант. При переводе английского глагола render был использован глагол представить, а не глагол отдать. Однако оба варианта нельзя считать корректными, поскольку в данном случае глагол render следовало бы перевести посредством словосочетания приводить в состояние (это может привести его в неисправное состояние).

Если воспользоваться в системе «Google Translate» предлагаемыми для отдельных словосочетаний вариантами перевода, то можно «собрать» следующий текст:

Храните еду и напитки вдали от продукта. Избегайте попадания каких-либо жидкостей об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Приведенный перевод свидетельствует о том, что пользователю чаще всего предлагаются варианты, которые практически не различаются ни лексически, ни грамматически. Однако если сравнить оригинал и перевод второго предложения, то видно, что система произвела грамматическую и лексическую трансформации, заменив императив глагола spill в отрицательной конструкции (Do not spill liquid of any kind- дословно: не проливайте жидкостей какого-либо рода) на конструкцию «глагол + существительное» (не допускайте / избегайте попадания), но правильного управления для существительного (попадание куда-л.) распознать не смогла. При переводе второй части этого предложения не было дано корректного варианта и для многозначного союза as («так как, поскольку»), использующегося для выражения причинно-следственных отношений.

Результаты анализа представлены в приведенной ниже таблице.

Сравнение машинных переводчиков «ПРОМТ» и «Google Translate»

Языковой параметр сопоставления Система машинного перевода

«ПРОМТ» «Google Translate»

Наклонение + +

Часть речи + +/-

Управление +/- +/-

Лексика +/- +/-

Из таблицы видно, что обе системы хорошо распознают наклонение; «ПРОМТ» допускает меньше ошибок с определением ча-стеречной принадлежности лексических единиц; обе системы не всегда справляются с выбором верного управления, подбором правильного лексического эквивалента и нормами употребления глагольного вида в русском языке. Однако, несмотря на наличие ошибок и неточностей, допущенных программами, можно сделать вывод о том, что общий смысл переведенного фрагмента понятен, и после

внесения корректуры в переводы, выполненные каждой из систем, можно получить текст, который будет вполне соответствовать нормам русского языка.

Приведем в качестве еще одного примера переводы текста другого жанра - энциклопедической статьи.

Оригинал (фрагмент):

Article 5 of the North Atlantic treaty, requiring member states to come to the aid of any member state subject to an armed attack, was invoked for the first and only time after the 11 September 2001 attacks, after which troops were deployed to Afghanistan under the NATO-led ISAF. The organization has operated a range of additional roles since then, including sending trainers to Iraq, assisting in counter-piracy operations and in 2011 enforcing a no-fly zone over Libya in accordance with U.N. Security Council Resolution 1973.

Статья 5 Североатлантического соглашения, требуя, чтобы государства-члены пришли на помощь любому государству-члену, подвергающемуся вооруженному нападению, была призвана в течение первого и единственного времени, после 11 сентября 2001 нападает, после которого войска были развернуты в Афганистан под ВЕДОМЫМ НАТО ISAF. Организация управляла диапазоном дополнительных ролей с тех пор, включая отправку тренеров в Ирак, помощь в операциях противопиратства и в 2011 проводя в жизнь бесполетную зону по Ливии в соответствии с Резолюцией 1973 Совета безопасности ООН.

«Google Translate»:

Статья 5 Североатлантического договора, требующего государства-члены пришли на помощь любой стране-члене условии вооруженного нападения, был вызван в первый и единственный раз после 11 сентября 2001 года, после чего войска были развернуты в Афганистане под под руководством НАТО ISAF. Организация осуществляет свою деятельность ряд дополнительных ролей с тех пор, включая отправку инструкторов в Ирак, помощь в борьбе с пиратством и в 2011 году приведения бесполетной зоны над Ливией в соответствии с Резолюцией 1973 Совета Безопасности ООН.

Исходный фрагмент текста состоит из двух повествовательных предложений, первое из которых является сложноподчиненным и содержит большое количество конструкций,

построенных на основе подчинительных связей между их компонентами. Второе является простым распространенным предложением с однородными членами, герундием и сложными синтаксическими конструкциями. Переводы позволяют увидеть, что обе системы не распознают сложных синтаксических связей, неверно определяют сказуемое, объектные, атрибутивные и другие отношения в предложении. Выполненные переводы представляют собой, скорее, произвольный набор слов и словосочетаний, не объединенных смысловыми связями. Их, в отличие от предыдущего примера, невозможно отредактировать, не обращаясь к оригиналу.

Представленный анализ позволяет сделать вывод о том, что машинные переводчики «Google Translate» и «ПРОМТ» непригодны для переводов текстов, изобилующих сложносочиненными и сложноподчиненными предложениями, распространенными определениями, метафорическими сравнениями, сложными синтаксическими конструкциями и т. п. Перевод таких текстов может выполнить лишь человек, поскольку только он способен к осуществлению глубинных когнитивных речемыслитель-ных процессов. Однако машинные системы можно использовать для перевода с английского на русский язык текстов, которые достаточно формализованы в речевом плане (техническая документация, потребительские инструкции, контракты и т. п.). Однако и в этом случае выполненные машиной переводы требуют обязательного редактирования и доработки «вручную». Профессиональные переводчики, от которых социум, как правило, ожидает переводы высокого качества, могут прибегать к помощи «ПРОМТ» и «Google Translate» при переводе текстов, ограниченных в сфере функционирования, поскольку названные компьютерные системы часто предлагают вполне адекватные, не требующие редактирования, варианты переводов для отдельных предложений или небольших фрагментов текста либо варианты, требующие минимальной корректуры, которая занимает у опытного переводчика незначительное время. Таким образом, системы «ПРОМТ» и «Google Translate» при правильном использовании способствуют ускорению процесса перевода и оптимизации труда практикующих переводчиков.

СПИСОК ЛИТЕРА ТУРЫ

1. Андреев, А. Машинный перевод: правила против статистики / А. Андреев. - Электрон. текстовые дан. - Режим доступа: http://www.computerra.ru/ cio/old/offline/2007/63/329838/. - Загл. с экрана.

2. Зубов, А. В. Информационные технологии в лингвистике / А. В. Зубов, И. И. Зубова. - М. : Академия, 2004. - 208 с.

3. Королев, Э. И. Промышленные системы машинного перевода / Э. И. Королев. - М. : Всесо-юз. центр переводов, 1991. - 104 с.

4. Марчук, Ю. Н. Компьютерная лингвистика / Ю. Н. Марчук. - М. : АСТ: Восток-Запад, 2007. -320 с.

5. Новожилова, А. А. Обучение студентов-переводчиков работе с электронными ресурсами как основа их будущей конкурентоспособности и успешности / А. А. Новожилова, Е. А. Шовгенина // Вестник Волгоградского государственного университета. Серия 6, Университетское образование. -2013. - №> 14. - С. 70-76.

6. Соловьева, А. В. Профессиональный перевод с помощью компьютера / А. В. Соловьева. -СПб. : Питер, 2008. - 160 с.

7. Тиссен, Ю. В. Интернет в работе переводчика / Ю. В. Тиссен // Мир перевода. - 2000. - .№ 2. -С. 45-62.

8. Усачева, А. Н. Инновационные технологии в профессиональном переводе / А. Н. Усачева // Коммуникативные аспекты современной лингвистики и лингводидактики: материалы Междунар. науч. конф., г. Волгоград, 29 янв. 2008 г. - Волгоград: Волгогр. науч. изд-во, 2008. -С. 81-87.

9. Усачева, А. Н. Перевод: от лингвистической теории к когнитивной модели / А. Н. Усачева // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2011. - J№ 1 (13). -С. 131-137.

10. Шевчук, В. Н. Информационные технологии в переводе. Электронные ресурсы переводчика - 2 / В. Н. Шевчук. - М. : Зебра Е, 2013. -384 с.

11. Шевчук, В. Н. Электронные ресурсы переводчика / В. Н. Шевчук. - М. : Либрайт, 2010. -136 с.

12. Austermühl, F. Electronic Tools for Translators / F. Austermühl. - Manchester: St. Jerome, 2001. - 192 p.

13. Bowker, L. Computer-Aided Translation Technology: A Practical Introduction / L. Bowker. -Ottawa: Univ. of Ottawa Press, 2002. - 185 p.

14. Computers and Translation: A Translator"s Guide / H. Somers (ed.). - Amsterdam ; Philadephia: John Benjamins Publ. Company, 2003. - 349 p.

1. Andreev A. Mashinnyy perevod: pravila protiv statistiki . Available at: http://www.computerra.ru/cio/ old/offline/2007/63/329838/.

2. Zubov A.V., Zubova I.I. Informatsionnye tekhnologii v lingvistike . Moscow, Akademiya Publ., 2004. 208 p.

3. Korolev E.I. Promyshlennye sistemy mashinnogo perevoda . Moscow, Vsesoyuznyy tsentr perevodov Publ., 1991. 104 p.

4. Marchuk Yu.N. Kompyuternaya lingvistika . Moscow, AST, Vostok-Zapad Publ., 2007. 320 p.

5. Novozhilova A.A., Shovgenina E.A. Obuchenie studentov-perevodchikov rabote s elektronnymi resursami kak osnova ikh budushchey konkurentosposobnosti i uspeshnosti . Vestnik Volgogradskogo gosudarst-vennogo universiteta. Seriya 6, Universitetskoe obrazovanie , 2013, no. 14, pp. 70-76.

6. Solovyeva A.V. Professionalnyy perevod s pomoshchyu kompyutera . Saint Petersburg, Piter Publ., 2008. 160 p.

7. Tissen Yu.V. Internet v rabote perevodchika . Mir perevoda, 2000, no. 2, pp. 45-62.

8. Usacheva A.N. Innovatsionnye tekhnologii v professionalnom perevode . Kommunikativnye aspekty sovremennoy lingvistiki i lingvodidaktiki. Materialy Mezhdunarodnoy nauchnoy konferentsii. Volgograd, 29 yanvarya 2008 . Volgograd, Volgogradskoe nauchnoe izd-vo, 2008, pp. 81-87.

9. Usacheva A.N. Perevod: ot lingvisticheskoy teorii k kognitivnoy modeli .

Vestnik Volgogradskogo gosudarstvennogo universiteta. Seriya 2, Yazykoznanie , 2011, no. 1 (13), pp. 131-137.

10. Shevchuk V.N. Informatsionnye tekhnologii v perevode. Elektronnye resursy perevodchika - 2 . Moscow, Zebra E Publ., 2013. 384 p.

11. Shevchuk V.N. Elektronnye resursy perevodchika . Moscow, Librayt Publ., 2010. 136 p.

12. Austermühl F. Electronic Tools for Translators. Manchester, St. Jerome, 2001. 192 p.

13. Bowker L. Computer-Aided Translation Technology: A Practical Introduction. Ottawa, University of Ottawa Press, 2002. 185 p.

14. Somers H., ed. Computers and Translation: A Translator"s Guide. Amsterdam, Philadephia, John Benjamins Publishing Company, 2003. 349 p.

MACHINE TRANSLATION SYSTEMS: QUALITY AND POSSIBLE WAYS OF USE

Novozhilova Anna Alekseevna

Candidate of Philological Sciences,

Associate Professor, Department of Translation Theory and Practice, Volgograd State University [email protected], [email protected]

Prosp. Universitetsky, 100, 400062 Volgograd, Russian Federation

Abstract. The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Key words: information technologies, electronic dictionaries, computerized translation, machine translation, quality of translation.

Концевой Даниил Сергеевич,
ЧОУ ВО «Омская юридическая академия», г. Омск

Переводчик в сфере профессиональных коммуникаций - это человек, активно владеющий иностранным языком профессиональной сферы, умеющий логически верно, аргументировано и ясно строить иноязычную устную и письменную речь, а главное, владеть техникой использования систем машинного перевода, ведь даже профессионалы не могут обойтись без обращения к электронным переводчикам.

Машинный перевод - выполняемый на компьютере, или ином электронном устройстве процесс по преобразованию текста одного языка на эквивалентный по содержанию текст другого языка, а также результат такого действия. Так как не существует полностью автоматизированных электронных переводчиков, способных точно и верно по смыслу переводить текст, специалист-переводчик должен этот текст подготовить, или же исправить ошибки и недочеты уже в обработанном машиной тексте.

Существуют четыре формы организации взаимодействия компьютера и человека при осуществлении машинного перевода:

предредактирование: человек подготавливает текст к обработке компьютером (упрощает смысл текста, устраняет неоднозначные прочтения, размечает текст), после чего производится машинный перевод;
интерредактирование: человек непосредственно вмешивается в работу системы перевода, разрешая проблемные вопросы;
постредактирование: исходный текст целиком подвергается машинной обработке, а человек исправляет полученный результат путем редактирования переведенного текста;
смешанная система.

Современные электронные переводчики способны производить адекватный для восприятия перевод отдельных фраз и предложений, они служат для облегчения работы человека-переводчика, для избавления его от рутинной работы поиска значений определенных слов и словосочетаний в словарях.

Для освоения систем машинного перевода необходимо хотя бы в общих чертах понимать технологии электронного перевода. В машинном переводе их несколько:

1) Прямой машинный перевод

Прямой машинный перевод является самым старым подходом машинного перевода. При таком способе перевода текст на исходном языке не подвергается структурному анализу за пределами морфологии. Такой перевод использует большое количество словарей и является пословным, если не считать небольшой грамматической корректировки, например, касательно порядка слов и морфологии. Система прямого перевода предназначена для особых пар языков. Лексикон представляет собой хранилище информации о специфике слов. Эти системы зависят от качества подготовки словарей, морфологического анализа и программного обеспечения по обработке текста. Примером системы прямого перевода может служить Systran.

2) Машинный перевод, основанный на правилах, использует объемное хранилище лингвистических правил и двуязычных словарей для каждой языковой пары. Типами машинного перевода, основанного на правилах, можно назвать принцип Interlingua (Интерлингва) и машинный перевод типа Transfer (Перенос).

Машинный перевод Интерлингва

При машинном переводе, основанном на принципе Interlingua, перевод осуществляется через промежуточную (семантическую) модель текста исходного языка. Interlingua являет собой не зависящую от конкретного языка модель, из которой может быть сгенерирован перевод на любой язык. Принцип Interlingua допускает возможность трансформации текста на исходном языке в модель, общую для нескольких языков.

Машинный перевод Transfer основан на идее Interlingua с использованием сопоставительного анализа двух языков. Три этапа данного процесса: анализ, перенос и генерирование. Сначала текст на исходном языке переводится в абстрактную или промежуточную модель исходного языка, которая затем преобразуется в модель целевого языка, чтобы потом окончательно оформиться в текст на целевом языке. Данный принцип проще, нежели Interlingua, но зато здесь сложнее избежать неоднозначности.

3) Машинный перевод на корпусах текстов

Корпусный подход в машинном переводе использует совокупность (корпус) параллельных двуязычных текстов. Главным преимуществом систем машинного перевода с корпусным подходом является их самонастройка, т.е. они способны запоминать терминологию и даже стилистику фраз из текстов предыдущих переводов. Статистический машинный перевод и машинный перевод, основанный на примерах, представляют собой варианты корпусного подхода.

Статистический машинный перевод

Это разновидность машинного перевода текста, основанная на сравнении больших объемов языковых пар. Этот переводческий подход использует модели статистического перевода. Один из применяемых подходов - теорема Байеса. Построение моделей статистического перевода - процесс довольно быстрый, но эта технология в большой степени зависит от наличия многоязычного корпуса текстов. Требуется минимум 2 миллиона слов для каждой отдельной области, если речь идет о языке в целом. Статистический машинный перевод требует наличия специального оборудования, для того чтобы «усреднять» переводческие модели. Примером статистического машинного перевода служит Google Translate.

Машинный перевод на примерах

Системы машинного перевода, основанного на примерах, базируются на принципе параллельного двуязычного корпуса текстов, в котором в качестве примеров содержатся пары предложений. Каждое предложение дублируется на другом языке. Статистический машинный перевод обладает свойством "обучения". Чем больше в распоряжении текстов (примеров), тем лучше результат машинного перевода.

Каждый переводчик в сфере профессиональной коммуникации столкнется с проблемой выбора надлежащей программы для перевода. Исключая платные сервисы, считаем нужным проанализировать наиболее известные системы.

Большой популярностью пользуется электронный переводчик Google Translate, который разработан компанией Google в середине 2000-х годов. Данная услуга предназначена для перевода текстов и перевода сайтов "на лету". Переводчик использует самообучающийся алгоритм машинного перевода на основе языкового анализа текстов.

В отличие от большинства машинных переводчиков, которые используют технологию SYSTRAN, Google использует собственное программное обеспечение. Google Translate на данный момент является наиболее популярным переводчиком благодаря своей простоте и многофункциональности (а также прямой связи с разработчиком программного обеспечения для компьютеров - Microsoft). Благодаря этому, данная система машинного перевода очень быстро развивается и оптимизируется под нужды пользователей. Поэтому сейчас из функций данного переводчика можно наблюдать: перевод всей веб-страницы; одновременный поиск информации с переводом на другой язык; перевод текста на изображениях; перевод произнесенной фразы; перевод с рукописным вводом; перевод диалога.

Из особенностей данной системы машинного перевода можно выделить:

Варианты перевода контролируются статистическим алгоритмом.

Пользователи всегда могут предлагать собственные варианты перевода тех или иных слов и/или выбирать один из вариантов перевода как наиболее подходящий. Недостатком подобного алгоритма могут служить заведомо неверные варианты перевода, в том числе нецензурные слова.

Охват мировых языков.

То есть сейчас программа работает более чем со ста языками, включая суахили, китайский и валлийский языки. Так, Google Translator в силах осуществить перевод с одного поддерживаемого языка на другой поддерживаемый, но в большинстве случаев перевод выполняется через английский. Минус такого механизма очевиден - страдает качество перевода.

На российском рынке машинных переводчиков лидирующую позицию занимает PROMT, разработанный в 1991 году.

PROMT, равно как и Google Translate, использует собственное программное обеспечение, которое в 2010 году заметно обновилось. Отныне PROMT осуществляет перевод, основываясь на гибридной технологии. Её суть заключается в том, что вместо одного варианта перевода программа производит около сотни переводов одного и того же предложения в зависимости от многозначности слов, конструкций и статистических результатов. Затем машина подбирает наиболее вероятный из предложенных переводов. Таким образом, переводчик способен быстро обучаться, но имеет те же минусы, что и все переводчики, основанные на статистических методах обработки текста.

Из возможностей переводчика можно выделить: перевод слов, словосочетаний и текстов, в том числе с помощью «горячих» клавиш; перевод выделенной области экрана с графическим текстом; перевод документов разных форматов: doc(x), xls(x), ppt(x), rtf, html, xml, txt, ttx, pdf (в том числе отсканированные), jpeg, png, tiff; использование, редактирование и создание специализированных словарей и профилей перевода; подключение баз Translation Memory и глоссариев; интеграция в офисные приложения, веб-браузеры, корпоративные порталы и сайты.

Недостатками переводчика являются: небольшое количество языковых пар, с которыми работает программа; сложный интерфейс; неточности в переводах профессиональной лексики (что, впрочем, устраняется благодаря подключению тематических словарей).

Тем не менее, PROMT признавался лучшим англо-русским переводчиком в рамках ежегодного семинара по статистическому машинному переводу под эгидой Ассоциации компьютерной лингвистики (ACL) в 2013 и в 2014 годах.

Существует множество других систем машинного перевода, но они, так или иначе, копируют различные особенности отечественного переводчика PROMT или американского Google Translate.

Таким образом, переводчик в сфере профессиональной коммуникации, зная технологии машинного перевода, умеющий правильно выбрать электронный переводчик для тех или иных целей, будет подкован для осуществления успешной профессиональной деятельности, ведь на данном этапе развития компьютерных технологий думать о полностью автоматическом машинном переводе еще рано. Человек-переводчик мыслит образами и исходит из цели: донести конкретную мысль до слушателя/читателя. Пока сложно представить компьютерную программу с такими возможностями. Современные машинные переводчики носят вспомогательную роль. Они призваны избавить человека от рутинной работы в процессе перевода. Век бумажных словарей окончен, а в помощь профессионалам-переводчикам (и не только) приходят системы машинного перевода.

Список использованной литературы

www.promt.ru
www.translate.google.com
Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993.
Вестник Московского Университета. Сер.19 Лингвистика и межкультурная коммуникация. 2004. № 4, с.51.

Ваша оценка: Пусто

Московский Авиационный Институт

(государственный технический университет)

«Институт иностранных языков МАИ»

Кафедра И-01

«Теория и практика английского языка»

Реферат

«Машинный перевод»

Москва 2012 г.

Машинный перевод и для чего он необходим……………………………………………………………….………………3 Классификация систем машинного перевода………………………………………………………………………………..4 Как осуществляется машинный перевод………………………………………………………………………………………..7 История развития систем машинного перевода……………………………………………………………………………11 Современное состояние машинного перевода на основе «Яндекс.Перевод»……………………….…..18 Вывод………………………………………………………………………………………………………………….……………………………20

Список использованной литературы…………………………………..…………………………………………………….…..21

Машинный перевод и для чего он необходим

В последнее время знание иностранных языков может понадобиться не только в путешествии или на приеме гостей из-за рубежа, но и в собственном доме, например, при просмотре популярных голливудских кинолент, при чтении инструкции по использованию заморских товаров или Web-страниц. Таким образом, оказывается, даже не покидая родных стен, мы нуждаемся в услугах переводчика. Однако необходимую помощь нам вполне может оказать домашний компьютер. Системы машинного перевода (МП) давно перестали быть диковинкой. Они постепенно выходят из младенческого возраста и вместо бессвязного детского лепета начинают изъясняться на вполне понятном, "человеческом" языке. До последнего времени такие программы были не только очень дороги, уступая в цене разве что мощным графическим и издательским системам, но и весьма сложны и капризны в работе. И вот появились первые переводчики, пригодные для использования на домашнем ПК. Давайте познакомимся с ними поближе и узнаем, на что они способны.

Классификация систем машинного перевода

Полностью автоматизированный машинный перевод.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова – "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Автоматизированный машинный перевод при участии человека.

Экономичность использования машинного перевода с помощью человека – вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов – процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера.

При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод – точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Как осуществляется машинный перевод

В ее основе лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода.

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штетко будланула бокра и кудрячит бокрёнка. Бессмысленная фраза? Как будто да: в русском языке нет слов, из которых она состоит (кроме союза и). И все же в какой-то степени мы ее понимаем: «куздра» – это существительное (мы даже можем предположить, что оно обозначает какое-то животное), «глокая» – определение к нему, «будланула» – глагол-сказуемое (похожий на толканула, боднула), «штетко» – скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» – это прямое дополнение («будланула» кого? – «бокра») и т. д.

То есть машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. Так, при переводе русской фразы «У меня была интересная книга» на английский язык глагол «быть» надо перевести глаголом to have – «иметь», сочетание «у меня» преобразовать в подлежащее I («я»), а слово «книга», которое в русском языке – подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»). В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в большинстве случаев реализуются в своем наборе контекстов. То есть у каждого из «конкурирующих» (при интерпретации) значений – свой набор контекстов. И именно вот эта зависимость значения от окружения позволяет слушающему понять высказывание правильно. Для правильного понимания высказывания необходимо в полной мере учитывать также правила обусловленности выбранного значения лексическим окружением (действующие при «фразеологической» интерпретации слова), правила обусловленности выбранного значения семантическим контекстом (так называемые законы семантического согласования) и правила обусловленности выбранного значения грамматическим (морфолого-синтаксическим) контекстом. То есть для решения проблемы «моносемизации» слов при автоматическом переводе основой служит изучение и тщательное описание закономерностей лексической, семантической и грамматической сочетаемости. При этом правила такой сочетаемости достаточно подробно описываются в словарях – а именно, (а) с мощным охватом лексики, но весьма бегло и нетщательно, а также весьма имплицитно это делается в традиционной лексикографии; и, с другой стороны, (б) в выборочном порядке (со слабым охватом лексики), но зато весьма аккуратно и тщательно, и довольно-таки эксплицитно это делается в работах по «толково-комбинаторной» лексикографии (последних сорока лет).

Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования.

История развития систем машинного перевода

40-е: первые шаги

История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П. П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 г. меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. У. Уивер писал: «I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text» («У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, - это взломать код, чтобы извлечь информацию, заключенную в тексте»). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva: стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания). Вскоре началось финансирование исследований. На ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 г. английским математиком А. Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками с одной стороны и лингвистами – с другой установилось продуктивное сотрудничество.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г. в Нью-Йорке была представлена первая система МП - IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. В том же 1954-м первый эксперимент по машинному переводу был осуществлен в СССР И. К. Бельской (лингвистическая часть) и Д. Ю. Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю. А. Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив). Pen в данном случае должно переводиться не как «ручка» (инструмент для письма), а как «детский манеж» (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода «человеко-машинный симбиоз»).

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживает работа в этой области отечественных лингвистов, таких, как И. А. Мельчук и Ю. Д. Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956 г.), получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

При этом несколько сместились акценты: исследователи теперь ставили целью развитие «реалистических» систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из «врага» и «конкурента» профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

За период 1978-93 гг. в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Вместе с тем разработки в области МП стимулировали развитие не только лингвистики. Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Одной из новых разработок этого периода стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге «не нужно дважды переводить одно и то же предложение!». В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

В СССР с середины 70-х годов были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю. А. Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ; была также разработана система МП с русского языка на английский АСПЕРА. На этих разработках основываются такие системы машинного перевода, как Stylus, Socrat и другие.

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов». Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст», и они реализуют краткую схему перевода. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система Systran, разработанная и поддерживаемая компанией Systran Software Inc, используемая службой машинного перевода при комиссии Европейского союза.

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: www.alphaworks.ibm.com/ aw.nsf/html/mt; www.freetranslation.com; www.transtlate.ru; www.logomedia.net/text.asp; www.foreignword.com/Tools/transnow.htm; babelfish.altavista.com/translate.dyn; infinit.reverso.net/traduire.asp; www.t-mail.com .

С начала 1990-х годов на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer’s Machine Translation). В 1991 г. было создано ЗАО «ПРОект МТ», и уже в 1992 г. компания «ПРОМТ» выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

Несмотря на такую долгую историю, фактически всеми системами осуществляется перевод только на уровне поверхностного синтаксиса, поскольку еще не разработаны (по всей видимости) эффективные модели формального представления смысла, носителем которого должен выступать язык-посредник – интерлингва, хотя для отдельных узких отраслей такие модели строятся (например, METEO и LingoWare). Специалисты связывают построение адекватных систем МП с развитием искусственного интеллекта: машина сможет переводить с одного языка на другой, когда научится думать, как человек.

Другой путь совершенствования МП, более доступный на современном этапе, – составить корпус соответствий на двух языках. Можно предположить, что такие работы ведутся, и многими разными командами, но их действия не скоординированы, и потому результат слишком мал.

Критики современных систем МП полагают, что установка на жанровую ограниченность (научить машину сначала понимать совсем простые, специально отобранные тексты) на практике привела к тому, что задача моделирования естественного языка фактически уступила место задаче моделирования ограниченных (и крайне примитивных) подъязыков отдельных отраслей знания. При этом наилучшего результата на этом пути, как известно, достигла канадская система TAUM-METEO, отлично выполняющая задачу англо-французского перевода сводок погоды. Простейшим видом систем такого рода являются автоматические разговорники для туристов, предлагающие пользователю более или менее разнообразные «меню» стандартных вопросов и ответов на двух или нескольких языках.

Существующий в настоящее время «словоцентрический» подход (когда машина выбирает и переводит главным образом отдельные слова) объясняется тем, что выделяется то, что легко выделить (слова разделены пробелами), и, соответственно, это переводится. Однако человек (в том числе тот, который занимается переводом) имеет дело с текстом, когда отдельное предложение приобретает смысл как часть более широкого контекста: соседние предложения определяют и объясняют многие невыраженные или неоднозначные элементы каждого отдельного высказывания. На настоящем же этапе часто самыми удобными для понимания оказываются такие системы МП, которые выполняют перевод пословно: фраза корявая, но видно, как она получилась, и, если есть поддержка в виде знания исходного языка, легко догадаться, что же было в оригинале, и увидеть, какие слова переведены неверно. Те системы, которые переводят текст пословно, зачастую оказываются удобнее: видно, откуда фраза взялась. Если хотя бы поверхностно знать язык оригинала, можно понять, что же было в первоначальном варианте, и какие слова переведены неверно. Системы МП, которые обрабатывают фразу синтаксически, избегая «корявости», часто выдают гладкие, но совершенно невразумительные переводы.

Современное состояние машинного перевода на основе “Яндекс.Перевод”

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.

Решением проблемы обучения универсальной модели перевода стало использование параллельных документов, извлечённых из индексов поисковых машин. И это не только мультиязычные сайты, которые изначально были созданы на нескольких языках. К примеру, в интернете появился документ с текстом о каком-то событии. Для него создаётся своеобразный «паспорт» с характерными (контрастными) словами, который потом сравнивается с паспортами других документов, и при их совпадении делается вывод, что это текст об одном и том же, но на разных языках. Этот процесс требует значительных вычислительных ресурсов, потому что приходится обрабатывать миллиарды веб-документов.

Естественно, не все предложения в таких текстах будут последовательными переводами друг друга. Чтобы составить таблицы соответствия слов и фраз со всеми возможными переводами, нужно сделать специальное выравнивание и выкинуть те, которые случайно туда попали. В итоге получается, что, например, каждому русскому слову соответствует 20–30 английских.

Практически весь вышеописанный процесс основывается на статистических методах и теории вероятностей. Автоматический переводчик знает величину вероятности каждого перевода и на её основе быстро делает свой выбор по языковой модели из десятков вариантов, а иногда и сотен.

Кажется, что для точности перевода и учёта стилистики текста, нужно всего лишь показывать варианты переводов человеку и он подберёт наиболее подходящее по контексту и стилю слово. Но это статистические фрагменты текста, которые сами по себе могут не нести для простого пользователя никакого смысла. Как минимум, потому что он может увидеть тысячи вариантов для одного слова, что ему никак не поможет. Особенно, если человек не очень хорошо знает язык, на который переводит.

Автословарь решает проблему выбора, выбирая только самые подходящие переводы и показывая их в читабельной для простого пользователя форме. Для этого наша команда специалистов провела сложную и ресурсоёмкую работу. Во-первых, мы сделали так, что автословарь показывает словарную форму слова. Во-вторых, научили выявлять из всего набора фраз действительно устойчивые словосочетания, которые человек может потом сформулировать.

В составлении автоматического словаря есть и другие трудности. Например, когда пользователь запрашивает перевод слова без контекста, то для группировки вариантов на другом языке приходится выводить все его значения. И зачастую на языке, который ему незнаком. Чтобы помочь человеку сориентироваться среди вариантов переводов, нужно не просто показать все главные значения слова, но и сделать группировку по их смысловым значениям.

Для этого используется словарь синонимов, который тоже строится на основе статистических данных, накопленных нами в процессе построения модели перевода. Благодаря тому, что в Яндекс.Переводе есть оба направления перевода, мы знаем, что разные слова одного языка часто переводят в одно и то же слово другого языка. Это позволяет предположить, что они являются синонимами. Таким образом, мы автоматически формируем группы переводов, каждая из которых имеет свое смысловое значение.

В результате пользователю Яндекс.Перевода не нужно дополнительно смотреть статьи из обычных словарей, чтобы подобрать более точный перевод. Автословарь покажет ему автоматически сформированную статью, в которой даже будут примеры употребления слова. К тому же, основанный на статистике словоупотребления в интернете, автоматический словарь быстрее обновляется. Благодаря всему этому, переводы, выполненные с помощью машинного переводчика Яндекса, будут гораздо качественнее.

Машинный перевод, как живой организм, с каждым годом развивается. Разработчики находят различные алгоритмы и решения, которые позволяют максимально приблизить машинный перевод к переводу человека. И если посмотреть глубоко в историю, то можно легко заметить как МП развивался и эволюционировал.

Но даже в наши дни нельзя сказать, что машинный перевод может полностью заменить человека, но он может существенно облегчить ему процесс перевода. И грамотное использование различных программных средств снижает временные затраты и экономит умственные силы.

Сейчас человек может выбирать переводчики для своих нужд из многочисленного числа программных средств и сопоставить их. Это позволяет делать перевод более точным и целым.

1947 - дата рождения машинного перевода (МП) как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий.

1947 - А. Бут и Д. Бриттен разработали подробный «код»
для пословного машинного перевода.

1948 - Р. Риченс предложил правила разбиения словоформ
на основу и окончание.

1952 - первая конференция по МП в Массачусетском технологическом институте.

1954 - представлена первая система МП - IBM Mark II - русско-английская, которая имела словарь в 250 единиц и 6

грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.

1967 - специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу о том, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.

70-е годы - возрождение интереса к работам в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов.

80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным.

90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/ Intranet. Преимущества использования машинного перевода особенно очевидны при получении онлайнового перевода.

В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

FAMT (Fully-automated machine translation) - полностью ав
томатизированный машинный перевод;

НАМТ (Human-assisted machine translation) - машинный
перевод при участии человека;

МАНТ (Machine-assisted human translation) - перевод, осу
ществляемый человеком с использованием компьютера.

Как переводит компьютер

Машинный перевод - это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом.

Во-первых, очевидно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания больших словарей для систем.

Во-вторых, ясно, что система должна переводить предложения типа «Привет, как дела?». Значит, еще одна проблема - научить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит, есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.

Словарь

Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову «программа»? И вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, т.е. для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как правило, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, содержащие слова «программу», «программе», «программы» и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова «программа» с соответствующей словоформой из текста. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, она необходима для выполнения программой собственно процедур перевода. Какая же информация нужна в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?

Грамматика

Тут необходимо сделать небольшое историческое отступление, поскольку машинный перевод как область прикладной лингвистики имеет драматическую историю. В 1950-х годах практически с появлением первых вычислительных машин возникла идея машинного перевода, кстати, сам термин «машинный перевод» существует именно с тех времен. Кажущаяся простота задачи породила некоторую лингвистическую эйфорию, и было начато несколько глобальных проектов по созданию систем перевода для разных языков. Ни один из них не привел к созданию работающих систем, и в 1967 г. специальная комиссия Национальной Академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования. Только в начале 80-х годов лингвисты более или менее оправились от столь сурового вердикта и возобновили исследования в области МП. Конечно, во многом это оживление было связано с развитием вычислительной техники вообще и с интересом к проблемам искусственного интеллекта как области применения компьютеров в частности.

Глобальные проекты по-прежнему были ориентированы на решение задачи перевода в целом. В них рассматривались разработка описания лексических единиц в словаре и разработка алгоритмов перевода как разные задачи. Появилось множество лингвистических работ, предлагающих структуру описания свойств живого слова в словарной статье машинного словаря. Не появ-

лялось только реальных коммерческих систем, в которых эти исследования хоть как-то соединялись бы. Все системы, которые так или иначе существовали, имели скромное дополнение «экспериментальная» или «прототип». Но реально ни одна из таких систем никогда не была доработана до системы массового использования. Это происходило потому, что применяемые методы описания перевода при переносе их в естественную среду (т.е. при применении к произвольным текстам) приходили в противоречие с методами, предлагаемыми для формирования словарных статей.

В то же время локальные проекты были ориентированы на решение только узких задач. Установкой разработчиков было получение хоть каких-то практических результатов.

Хотя оба эти подхода не дали коммерческих систем, работы, которые проводились в этом направлении, позволили осознать сложность задачи и, по крайней мере, установить узкие места в подобных разработках. Так или иначе, но именно из локальных проектов появились системы перевода, которые сейчас предлагаются конечному пользователю.

Вместо принятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с объектно-ориентированной организацией, основанной на иерархии обрабатываемых компонентов предложения.

Сначала поясним некоторые определения. Вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем. Стало принято делить системы перевода на системы типа TRANSFER и системы типа

INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае. Поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. «Единственная» сложность в этом случае - разработать сам метаязык и описать естественный язык в соответствующих терминах.

Несмотря на то что эта классификация существует и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится ваша система, не было разработано еще ни одной реальной системы, основанной на принципе INTERLINGUA.

Хотелось бы надеяться, что эти сведения позволят потенциальным пользователям систем перевода понять, что создание системы машинного перевода - задача не такая уж простая и, что называется, наукоемкая. Следовательно, количество действительно пригодных к использованию систем перевода, которое может появляться в единицу времени, принципиально ограничено.

2.2.3. Классификация систем

1. Системы машинного перевода (МП)

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным

критерием программы является качество перевода. Кроме этого, для пользователя важным является удобство интерфейса, легкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита, пополнения словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода web-страниц, электронных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM)

Системы с функцией Translation Memory (TM) предоставляют средства для так называемого Machine-assisted human translation (МАНТ) - перевода, выполняемого человеком с помощью машины.

Они основаны на технологии Translation Memory (TM) в противоположность МП, машинному переводу. Идея заключается в хранении базы данных переводов, сделанных профессиональным переводчиком, для того чтобы в процессе перевода предлагать человеку уже готовый перевод фразы или куска текста, если он уже был однажды переведен. Причем совпадение фразы не обязательно должно быть буквальным, а может определяться критериями «похожести», заложенными в программу, с возможностью их настройки пользователем. ТМ-программы очень полезны в ситуациях, в которых необходимо сделать перевод обновленной версии документа, переведенного ранее. Такая необходимость возникает при поддержке мультиязычных сайтов. Программа быстро обнаружит в документе места, подвергшиеся изменениям со времени предыдущей версии документа, и человеку останется перевести только эти изменившиеся части. ТМ-программы значительно повышают эффективность работы переводчика, избавляя его от рутинной, повторяющейся работы. Во многих фирмах, занимающихся переводом, владение одной из таких программ является существенным критерием при приеме на работу.

3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован переход от свободного входного языка к контролируемому входному языку. Контроль входного языка предусматривает определенные ограничения лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

■-

4. On-line переводчики

Службы онлайнового перевода выполняют перевод прямо в окне броузера, не требуя установки программы на компьютер пользователя. Достаточно большое количество ссылок на бесплатные сервисы машинного перевода с указаниями направлений переводов приведено по адресу http://rivendel. com/~ric/resources/free. html.

Как правило, существует ограничение на объем вводимого текста.

Бесплатный онлайновый перевод можно сделать также по адресам:

Http://www.t-mail.com/;

Http://www.freetranslation.com/.

5. Словари on-line

Наиболее полный список словарей представлен по адресу http://members.aol.com/Mgierhake/trans.html. В словарях on-line существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка. Среди словарей данного вида известны LOGOS ONLINE DICTIONARY (английский, французский, немецкий, испанский, итальянский, чешский), TRADOS MultiTerm, Langenscheidt"s New College Dictionary on-line и т.д.

6. Услуги по переводу в Интернете

Практически каждая компания - производитель систем МП предлагает услуги по переводу. Например, на странице

Languge Partners International (http://www.languagepartners. com/reg-forms/inq-trans.html) организована служба переводов, которая обрабатывает любой электронный документ с помощью систем МП и отправляет обратно без редактирования. Пользователь может предоставить термины для пополнения словаря по своей тематике (за дополнительную плату) или сам его создать. Скорость перевода - 1 рабочий день. Стоимость - 0,04 доллара за слово (приблизительно 8 долларов за страницу). За дополнительную плату предоставляются услуги по сканированию. Направления перевода: английский-французский-английский, английский-немецкий-английский, английский-итальянский-английский, английский-испанский-английский, английский- португальский -английский, английский-японский-английский, английский-русский-английский. Однако чаще всего пользователю предоставляется возможность выбора: получить только машинный перевод, либо машинный перевод с последующим редактированием профессиональным переводчиком, либо перевод, выполненный профессиональным переводчиком. Такого рода сервис можно встретить по адресу http://www.plustranslation.com/ (сервис компании Transparent Language). Цена варьируется от 0,01 доллара за слово при машинном переводе до 0,38 при переводе с участием переводчика. Подобные услуги есть у SYSTRAN, L&H, Langscheidt, Language Engineering Corporation.

2.2.4. Инновационные технологии компании ПРОМТ

Ведущие сотрудники компании ПРОМТ начали заниматься исследованиями в области прикладной лингвистики и изучать модели построения систем машинного перевода более 20 лет назад, в конце 1970-х годов. Исследования велись в лаборатории инженерной лингвистики ЛГПИ им. А.И. Герцена (ныне педагогический университет). Накопленный теоретический багаж лег в основу технологий МП, разрабатываемых в компании ПРОМТ.

За 10 лет с момента основания компании ПРОМТ удалось создать передовые технологии МП, в основе которых заложены современные лингвистические алгоритмы, разработки в области математического моделирования и нейронных сетей. На базе этих технологий были разработаны системы машинного перевода, которые по качеству на 30% превосходят ведущие мировые аналоги.

В 2000 г. компания ПРОМТ выпустила семейство систем МП на основе нового ядра перевода. В новом ядре реализованы технологии расширенных сетей переходов и формализма нейронных сетей, что вывело машинный перевод на качественно новый уровень, а также последние разработки в области алгоритмов семантического анализа и синтаксического разбора.

Новым шагом в развитии МП компании ПРОМТ стало использование технологии F2F, обеспечивающей сохранение всей форматной информации в процессе перевода, что позволило осуществлять перевод сложноформатированных документов без потери форматных признаков.

Помимо развития собственно технологии машинного перевода, были приложены специальные усилия к тому, чтобы реализовать в новых системах возможность лингвистической настройки, которая обеспечивает значительное улучшение качества перевода для специализированных текстов.

В частности, появление поддержки тематик в новом ядре позволило кардинально изменить подход к переводу специализированных текстов. Использование тематик решило проблему лингвистической настройки системы на специализированные тексты и обеспечило эффективность их сохранения.

Легкость и удобство лингвистического администрирования систем МП было реализовано на базе следующих технологий:

AutoDetect для реализации автоматического определения
темы документа;

SmartFolders для предварительного задания тематики пере
вода всем документам, находящимся в определенной папке;

KeyWords - выбор тематики на основе предварительного за
данного списка ключевых слов;

SmartURL - возможность предварительного задания тематики перевода для конкретного URL.

Компания ПРОМТ предлагает онлайновые сервисы перевода текста, web-страниц и электронных писем для английского, немецкого, французского, испанского, итальянского и русского языков. Для перевода специализированных текстов можно подключать тематические словари.

Перевод текста. Позволяет переводить любые тексты, набранные в окне перевода или скопированные из буфера обмена (Clipboard).

Перевод web-страниц. Позволяет полностью переводить web-страницы, включая гиперссылки, с сохранением исходного форматирования.

Перевод электронной почты. Позволяет переводить и отправлять электронные письма непосредственно в онлайне.

WAP-переводчик. Новый сервис перевода для пользователей мобильных телефонов.

I. Религия имеет несколько исторических форм и прошла длительный путь развития

I. Характеристика состояния сферы создания и использования информационных и телекоммуникационных технологий в Российской Федерации, прогноз ее развития и основные проблемы

I.) История возникновения и развития компьютерных вирусов

II Основные этапы и главные сражения Великой Отечественной войны (2 часа)

История и опыт использования машинного перевода. Основные этапы развития машинного перевода

Классификация систем машинного перевода по Лари Чайлду

Полностью автоматизированный машинный перевод

Автоматизированный машинный перевод при участии человека.

Перевод, осуществляемый человеком с использованием компьютера

Системы машинного перевода (МП)

Система МП Retrans Vista

Система МП PROMT XT

Аннотация научной статьи по языкознанию, автор научной работы - Новожилова Анна Алексеевна

Похожие темы научных работ по языкознанию, автор научной работы - Новожилова Анна Алексеевна,

Текст научной работы на тему «Машинные системы перевода: качество и возможности использования»