Интервью с создателями системы машинного перевода PROMT

 Впервые опубликовано на сайте F-Center 

На сайте F-Center было опубликовано интервью с создателями системы машинного перевода PROMT. 

Ниже данное интервью приведено полностью. 

«Для того чтобы завоевать 70% рынка, вы должны предоставлять информацию на пяти языках». Merrill Lynch 

Пользователи противоречиво относятся к системам машинного перевода (СМП). Компьютерные словари распространены сегодня очень широко, мы с радостью доверяем машине задачу перевода одного слова или устойчивого словосочетания. Когда же доходит очередь до обработки целого текста (набора предложений, связанных друг с другом по смыслу), многие из нас с недоверием косятся на СМП и предпочитают выполнять работу вручную. Причиной является довольно скептическое отношение к технологиям искусственного интеллекта. Все мы понимаем огромный потенциал, заложенный в них, но не верим в возможность его практической реализации в ближайшем будущем. Тем не менее, за последние несколько лет СМП сделали огромный скачок в своем развитии. Сегодня СМП служит хорошим помощником в переводе больших текстов (чем больше, тем лучше), помогает существенно сократить время, требуемое для перевода значительного объема информации. 

Некоторое время назад на российском рынке были представлены лишь две СМП: PROMT от одноименной компании и Сократ от компании «Арсеналъ». Но компания «Арсеналъ» прекратила разработку новых версий СМП Сократ, поэтому сегодня на российском рынке представлена лишь одна СМП - PROMT . Следует отметить, что PROMT - это СМП мирового уровня, спокойно конкурирующая со всеми западными аналогами и имеющая в своей копилке немало крупных побед и контрактов. 

На наши вопросы согласился ответить Михаил Каничев, коммерческий директор компании PROMT… 

TanaT: Расскажите немного о компании PROMT. 

Михаил Каничев: Дата рождения компании ПРОМТ - 30 января 1991 года. Компания была основана группой единомышленников, которые объединили свои усилия для разработки коммерческого варианта системы машинного перевода. Первая система называлась PROMT и была предназначена для перевода с английского языка описаний компьютерных программ. Стоила программа по тем временам немалые деньги - 7 000 рублей, что было сопоставимо со стоимостью Жигулей. Однако на этот продукт был спрос, что и позволило компании активно продолжать разработки системы, совершенствовать технологию перевода и добавлять новые языки. Потом было выпущено семейство систем перевода под легендарной торговой маркой Stylus , которое завоевало колоссальную популярность как в России, так и заграницей. В 1997 году мы переуступили торговую марку Stylus компании Epson и возобновили выпуск систем машинного перевода под торговой маркой PROMT . 

TanaT: У вас, наверное, есть собственная школа лингвистов? 

Михаил Каничев: Что называть собственной школой? Мы охотно берем на работу лучших выпускников филологических факультетов санкт-петербургских высших учебных заведений и после многомесячного, если не многолетнего обучения они становятся классными специалистами. В этом смысле у нас, конечно, есть собственная школа. Есть специалисты и методики, которые обеспечивают этот процесс обучения. 

TanaT: Какие дистрибутивы СМП PROMT бывают, сколько они стоят и где их можно купить? 

Михаил Каничев: На сегодня компания ПРОМТ предлагает две линейки систем машинного перевода: PROMT XT Family и @promt family . Начнем наш рассказ с систем, ориентированных на российского пользователя - программные продукты семейства PROMT XT . Продукты этого семейства имеют русский интерфейс и обеспечивают перевод с 5 европейских языков (английского, немецкого, французского, испанского и итальянского) на русский язык и обратно. В состав линейки входят следующие продукты:

  • PROMT XT Professional - профессиональная версия системы перевода. Продукт в предназначен для переводческих бюро и тех компаний, которые должны решать задачи перевода больших массивов документов. Возможность интеграции с системами Translation Memory компании TRADOS и целый ряд дополнительных функций делают применение этого продукта особенно эффективным при выполнении перевода большого объема текстов, требующего настройки на предметную область.
  • PROMT XT Office - полное решение для обработки многоязычных документов в современном офисе. Стоимость продукта в базовой комплектации составляет 300 долларов.
  • PROMT XT Standard - система перевода для малого бизнеса и домашнего компьютера. Продукт обеспечивает оперативный перевод документов и электронной почты. Стоимость продукта в базовой комплектации составляет 99 долларов.
  • PROMT Internet XT - программа для онлайнового перевода web-сайтов и поисковых запросов в Интернете. Стоимость продукта в комплектации Premium составляет 49 долларов.



В этом году под торговой маркой @promt мы выпустили системы машинного перевода, ориентированные на западный рынок. Эти продукты могут поставляться в английской и немецкой локализации и обеспечивать перевод не только на русский язык и обратно, но и с английского на немецкий и испанский языки и обратно. В ближайшее время список предлагаемых языковых направлений существенно расширится, в частности появятся системы перевода с французского на английский, испанский, немецкий, с испанского на русский и обратно, а также с английского на португальский. 

TanaT: Что входит в состав PROMT XT Office ? 

Михаил Каничев: PROMT XT Office содержит набор приложений, необходимых для работы с иностранными документами в современном офисе:

  • Мощный лингвистический редактор ( PROMT ). С его помощью вы сможете переводить, редактировать и форматировать документы (поддерживаются все текстовые форматы). Здесь же можно настраивать систему перевода, используя целый спектр возможностей: подключение специализированных словарей, создание и пополнение собственных словарей, пополнение базы данных ассоциированной памяти и т.п. Особо хочу отметить, что наш редактор поддерживает встроенный макроязык, обеспечивающий возможность управления качеством перевода, а также он - единственный из представленных на рынке, который предоставляет пользователю возможность синхронного просмотра исходного текста и перевода, причем синхронизация достигнута на уровне слова, а не параграфа или предложения.
  • Средство интеграции переводчика со всеми приложениями Microsoft Office 2000/XP (SmarTool) . Вы можете добавить функции перевода в любое приложение Microsoft Office 2000/XP: Word, Outlook, FrontPage, PowerPoint . 

    В результате, в хорошо знакомом редакторе Word появляется дополнительная панель с функциями перевода. Перевод любого документа становится делом пары секунд. 

    Особо хочется выделить функцию перевода в Microsoft Outlook . PROMT обеспечивает автоматический перевод любой входящей корреспонденции! Переводить можно исходящую почту, а также настраивать правила для автоматической обработки писем.
  • Программа для работы с базой ассоциированной памяти - Associated Memory Manager . Ассоциированная память работает аналогично механизму Translation Memory : в базе переводов можно сохранить удачные переводы сегментов текста (предложений). При последующих переводах система сравнивает исходный текст с базой и, при наличии совпадений, подставляет уже готовый перевод, который хранится в базе. При этом существенно экономится время и ресурсы - в базе хранятся уже выверенные переводы, что гарантирует безупречное качество и отсутствие необходимости постредактирования.
  • Программа для интеграции переводчика в Adobe Acrobat (PROMT Plug-In for Acrobat) . Перевод PDF -документов - такой возможности нет ни в одной системе перевода! PROMT XT умеет встраивать функции перевода в Adobe Acrobat/Adobe Acrobat Reader , чтобы переводить файлы формата PDF .
  • Переводчик Web-страниц ( PromtE ). Эта программа встраивается в браузер Microsoft Internet Explorer , после чего вы сможете читать западные сайты так же легко, как если бы это были русские сайты. Перевод Web-страницы осуществляется одним щелчком мыши!
  • Облегченная версия лингвистического редактора ( PromtX ). Эта программа может быть очень полезна, например, в случае, когда на компьютере уже запущено много ресурсоемких приложений, а требуется перевод пары строчек или абзаца из справочной системы или описания. PromtX прекрасно справится с этой задачей. Здесь также к вашим услугам функция перевода буфера обмена ( Clipboard ).
  • Большой Электронный Словарь ( Electronic Dictionary ). Больше 1 миллиона слов по самым различным тематикам. Это отдельное приложение, которое работает совершенно независимо от программы переводчика. Кроме того, Электронный Словарь встраивается в Microsoft Word - всегда под рукой по одному щелчку мыши.
  • Резервное копирование настроек ( PROMT Backup ) - очень полезно при замене операционной системы или компьютера целиком. С помощью этой программы все пользовательские настройки сохраняются в архиве и могут быть восстановлены при очередной инсталляции системы.



TanaT: Расскажите подробнее о @promt . Что это? 

Михаил Каничев: @promt - это новая линия систем машинного перевода для интернационального рынка. В составе линейки продукты: @promt Standard, @promt Professional, @promt Expert, @promt Internet, @promt Express . Эти системы предназначены для перевода с английского на немецкий и испанский языки, а также с русского на английский, немецкий и французский. 

TanaT: Собираетесь ли Вы выпускать новую версию PROMT ? Над чем сейчас ведутся работы? 

Михаил Каничев: Работа над обновлениями систем ведется постоянно. В прошлом году мы выпустили PROMT XT , в этом году - семейство @promt . В системе @promt реализован целый ряд революционно новых разработок - новая архитектура словарей, улучшенные алгоритмы перевода и ряд других инноваций. В частности, особо хочу коснуться новой архитектуры словарей. Если раньше словари к любой системе машинного перевода были особым подвидом, сильно отличающихся от обычных электронных словарей, то сейчас это различие практически устранено. Раньше при создании словаря мы, как и все, были вынуждены приписывать одному слову не более одного-двух переводов, иначе результат работы такой системы был бы абсолютно не читаем, - теперь мы избавлены от этого ограничения и можем хранить в словаре любое количество переводов, грамматических пометок и прочего просто часть этой информации не будет использоваться в процессе перевода. Однако в процессе работы с документом пользователь всегда может обратиться к этому, как к справочной информации. Словарь, как бы стал содержать информацию в нескольких плоскостях, поэтому-то мы и назвали эту архитектуру многоразмерной. А если учесть, что одним кликом мышки пользователь теперь может выбрать любой перевод для слова (сделать его активным), то это придаст новое качество работе с системой. 

В следующем году мы планируем выпустить следующую версию системы перевода PROMT , в которой найдут отражение эти и другие, о которых я пока не хочу упоминать, инновации и разработки. 

TanaT: На кого ориентирован ваш продукт? 

Михаил Каничев: Посмотрите состав продуктов в линейке PROMT XT - мы предлагаем продукты как для домашних пользователей, так и людей, занятых в бизнесе, а также продукты для профессиональных переводчиков. В это, конечно, сложно поверить, но если нужно просмотреть за рабочий день несколько сот страниц на иностранном языке, подготовить перевод 30-страничного контракта, то даже при знании языка решить эти задачи без системы машинного перевода невозможно. А если пользователь еще и не очень хорошо знает иностранный язык, то как ему прочитать, например информацию в Интернет или заказать отель или билеты на западном сайте не пользуясь системой машинного перевода? Поэтому любой человек, столкнувшийся с проблемой перевода, сможет выбрать для себя подходящую систему - как по функциональным, так и финансовым возможностям. 

TanaT: Можете рассказать, по каким принципам действуют СМП, в общем? 

Михаил Каничев: Для детального освещения этого вопроса потребуется, наверное, целая монография. Однако постараюсь вкратце изложить суть. Весь процесс перевода можно условно разбить на три части: разбор (анализ) исходного текста, собственно процесс перевода и сборка (синтез) выходного текста. Естественно, качество перевода зависит от того, как система перевода справится с задачами на каждом из этих этапов. 

TanaT: Что отличает PROMT от конкурентов? 

Михаил Каничев: Сейчас мы конкурируем только на западном рынке по «нерусским» парам. Наше основное отличие и главное конкурентное преимущество - это наша передовая технология, которая обеспечивает высокое качество перевода, получаемого при помощи наших систем, что подтверждается целым рядом независимых тестов. Другим важным свойством, отличающим наши системы от продуктов конкурентов, я бы назвал программную реализацию наших продуктов. Все они построены с использованием новейшего инструментария и полностью соответствуют текущему пониманию того, как должна быть «написана» современная программа. Именно поэтому мы, в отличие от конкурентов, достаточно легко можем развивать наши программы, переносить их с одной платформы на другую, в частности, мы - единственные, кто предлагает версию для Pocket PC . Более чем двенадцатилетний опыт разработок позволил нам учесть многочисленные пожелания пользователей и сделать наши системы действительно мощным средством. 

TanaT: А какие уникальные технологии реализованы в вашей СМП? 

Михаил Каничев: В основе наших систем лежит технология машинного перевода PROMT XT , которая обеспечивает самое высокое качество перевода. Говоря это, мы опираемся на результаты независимого тестирования, которые проводились в нашей стране и за рубежом. На российском рынке нас сравнивать просто не с кем, поэтому проводились сравнения с системами зарубежных конкурентов. Резюмируя итоги тестов, можно сказать, что PROMT на голову опережает конкурирующие продукты как по качеству перевода, и так и по технической реализации системы. 

В технической реализации можно отметить поддержку перевода PDF -файлов, XML -документов и всех тех технических возможностей, о которых шла речь ранее. Таких возможностей не предоставляет больше ни одна система перевода в мире! 

TanaT: Можете дать какие-нибудь рекомендации по использованию вашей СМП? Например, для работы с большими объемами текстов? 

Михаил Каничев: Конечно. У нас даже есть собственный отдел переводов, которые выполняет крупные переводческие проекты именно с помощью наших систем перевода. 

При работе над большими объемами текста мы рекомендуем использовать уникальную технологию компьютеризированного перевода, в основе которой лежит интеграция системы машинного перевода (МП) PROMT XT компании ПРОМТ и систем класса Translation Memory (TM) компаний Trados . Эта технология позволяет обеспечить высокую эффективность процесса перевода при обработке больших объемов технической документации и существенно сократить время выполнения таких проектов, поскольку в этом случае ручной труд переводчиков, терминологов и лексикографов сводится к минимуму. Кроме того, для подготовки к автоматизированному переводу больших объемов документации возможно проведение сотрудниками компании ПРОМТ адаптации специализированных словарей для систем перевода, что является гарантией точного соблюдения терминологии заказчика. Для настройки словарей может быть использован продукт PROMT Terminology Manager (PROMT TerM) компании ПРОМТ, который предназначен для автоматического выделения терминологии на основании статистического анализа групп текстов, а также для сравнения полученных терминологических кандидатов со словарями систем МП и ТМ. На завершающем этапе обработки документации проводится верстка текста и постредактирование. 

TanaT: Кого можно назвать ближайшим конкурентом СМП PROMT ? 

Михаил Каничев: На международном рынке я бы расположил наших конкурентов в следующем порядке: Systran (Франция, США), Logomedia (США), Comprendium (Германия), SDL (Великобритания), Linguatec (Германия). На российском рынке представлена система Сократ компании Арсенал. 

TanaT: Как можно оценить качество сделанных переводов? 

Михаил Каничев: Для оценки качества перевода есть несколько разных методик. Одна из наиболее распространенных построена на экспертной оценке, когда специалисты просто оценивают качество перевода системы «as is» - без дополнительной настройки - по 10-бальной шкале. Они проводят оценку качества перевода текстов из разных предметных областей. Затем результаты нормируются и выводится оценка. При этом для повышения объективности оценки они не должны знать, какой текст какой системой переведен. 

К сожалению, подобная методика не позволяет учесть необходимость и уровень настройки разных систем МП, без которой зачастую невозможно получение высокого качества перевода текстов той или иной области. При разработке систем ПРОМТ огромное значение придавалось разработке таких средств настройки на предметные области, которые позволили бы добиться оптимальных результатов в кратчайшие сроки и при наличии минимальных навыков работы. 

Другая методика основана на подсчете количества действий, которые необходимо выполнить, чтобы получить результат перевода, устраивающий эксперта. Чем меньше требуется действий, тем более высоким считается качество перевода и эффективность использования системы перевода. При такой оценке, когда система машинного перевода рассматривается как инструмент, благодаря развитым интерфейсным возможностям наши системы демонстрируют абсолютное лидерство. 

TanaT: Как вы лично оцениваете качество работы своих систем? 

Михаил Каничев: Если я буду хвалить наши системы, это будет совсем нескромно. Поэтому лучше попросить высказаться на этот счет наших клиентов. Я могу лишь назвать несколько компаний, которым мы осуществили поставки за последние месяцы. Это компании БМВ Русланд Трейдинг , NEC , GM-BA3 , МТС-Новосибирск , NASA (Johnson Space Center) , SAP AG , Центральный Банк РФ и многие другие. 

TanaT: Я знаю, что у Вас есть версия СМП для КПК. Можете рассказать, как она помещается в ограниченные рамки мобильного компьютера? Может, чем-нибудь пришлось пожертвовать? 

Михаил Каничев: Да, для КПК мы предлагаем переводчик Pocket PROMT 4.0. «Ограниченные рамки» - это уже осталось в прошлом. Если раньше нам приходилось поставлять Pocket PROMT с ограниченным по объему генеральным словарем, то теперь карманный переводчик ничем не отличается от настольного по своим «переводческим» возможностям. Да, по интерфейсу, конечно, существуют отличия, но они связаны в первую очередь с тем для чего предназначен данный продукт. Переводчик может очень пригодиться в путешествиях:

  • когда нужно попытаться изъясниться на языке, которым не вполне владеешь;
  • когда нужно работать с сайтами на иностранных языках;
  • когда нужно работать с документами на иностранных языках.



TanaT: Ваша компания никогда не думала перейти на рынок словарей? Ведь словарь разработать проще, чем СМП? 

Михаил Каничев: Действительно, словарь разработать на несколько порядков проще, чем систему перевода. Именно поэтому рынок электронных словарей является очень конкурентным. 

Мы специализируемся на системах перевода и являемся технологическим лидером не только на рынке стран СНГ, но и на мировом рынке. Используя эти конкурентные преимущества, мы сейчас активно продвигаем наши системы на международные рынки и рассчитываем существенно увеличить нашу долю на мировом рынке и довести ее в ближайшие годы до 20-40%. 

Что касается словарей, то, учитывая, что словари наших новых систем ( @promt ) уже практически повторяют электронные словари с точки зрения внешнего представления - многочисленные переводы грамматические пометы, комментарии и прочее - почему бы и нет, хотя пока это не входит в наши планы. 

TanaT: Вы предоставляете что-нибудь типа PROMT Development Kit , для встраивания функций перевода в программы сторонних разработчиков? Расскажите об этом. 

Михаил Каничев: Да, конечно. Мы предлагаем PROMT Development Kit - инструмент для интеграции возможностей перевода в корпоративную систему документооборота. PROMT Development Kit представляет собой гибкое решение для разработчиков программного обеспечения и для компаний, занимающихся системной интеграцией, с одинаковым успехом применимое как для создания desktop -приложений, так и для разработки сложных распределенных систем в корпоративной сети и для реализации серверов перевода в Интернет. 

Использование PROMT Development Kit открывает доступ ко всему спектру возможностей передовых лингвистических технологий компании ПРОМТ и дает возможность усилить функциями перевода корпоративные информационные системы и проекты. В частности, упомянутые ранее компании NEC , SDL International уже лицензировали у нас это инструмент для интеграции в свои продукты. Я бы не хотел показаться нескромным, но сейчас мы ведем переговоры с крупнейшими «игроками» на рынке решений по глобализации, которые проявляют интерес к этому продукту. 

TanaT: Каковы перспективы развития СМП? Что нас ждет в будущем? 

Михаил Каничев: Прогресс не стоит на месте, и системы МП также постоянно развиваются. Возможности современных систем МП показались бы просто фантастическими пользователям 5 лет назад. А теперь качественный и корректный перевод уже никого не удивляет. Мы видим развитие наших технологий по трем направлениям:

  • Повышение качества перевода. Мы постоянно работаем в этом направлении и рассчитываем, что через несколько лет наши технологии машинного перевода достигнут новых высот. Ведь не секрет, что еще лет 8-9 назад наши системы были практически неприменимы для перевода «свободной» не предопределенной информации, например, типа той, что находится в Интернете, а сейчас около 40.000 пользователей ежедневно используют наш сервис в Интернете. Это ли не демонстрация того шага, которые сделали системы машинного перевода за этот период.
  • Увеличение числа направлений перевода. Чтобы успешно конкурировать на западном рынке, мы планируем существенно увеличить число поддерживаемых языков. Не исключаем даже, что помимо европейских языков, мы сможем предложить перевод с ряда азиатских (например, китайского, экономика которого растет невероятно быстрыми темпами).
  • Поддержка новых технологий. Вспомните ситуацию 6-7-летней давности. Тогда никому и в голову не приходило, что в Интернете будет доступно такое количество информации на разных языках. И уж тем более было трудно предположить, что информацию можно будет переводить непосредственно в online . Точно так же пройдет буквально несколько лет - и для большинства пользователей станут обыденными названия технологий Microsoft. NET, XML, WML и другие. Мы всегда старались идти в ногу со временем, надеемся, что наши решения и в дальнейшем будут поддерживать все самые последние стандарты и технологии.
  • И если в будущем любой холодильник сможет самостоятельно заказывать продукты в Интернете, то почему бы не оснастить бытовые приборы также функциями перевода? Например, приезжаете вы на отдых заграницу, а холодильник в гостиничном номере спрашивает вас на русском языке: «Вам какое пиво заказать?».



TanaT: Большое спасибо, что уделили нам время. Мы от всей души желаем успехов вашей компании и ее продуктам на международной арене! 

© TanaT 

Впервые опубликовано на сайте F-Center 

 


 

 
На нашем сайте вы можете найти нужную Вам информацию об обучении в различных странах мира, России и СНГ. Интересные статьи помогут Вам разобраться, куда направиться учиться, какие методики выбрать для более эффективного изучения иностранных языков. Здесь так же представлен обзор курсов английского языка, а также подборка ресурсов для прохождения онлайн тестов. Онлайн тесты помогают оценить начальные знания изучающего иностранный язык. Это нужно для того, чтобы узнать, какие методики обучения иностранного языка подходят, позволяют понять уровень подготовки человека. Есть помощь для предэкзаменационной подготовки для школьников и студентов. Учителя могут найти для себя интересные наработки по обучению. Подводя итог об этом разделе можно сказать следующее: здесь можно найти практически все, что касается обучения английскому языку, приятного просмотра!