Как обучать переводу в эпоху искусственного интеллекта

На фоне ежедневных новостей о достижениях машинного перевода на основе ИИ многим кажется, что знание иностранных языков и умение переводить уже не нужны. Нажмите кнопку – и перед вами вполне приемлемый текст. Однако в реальности все не так просто. Переводчики-профессионалы по-прежнему незаменимы. Почему – рассказывают приглашенные преподаватели Центра иностранных языков, культур и профессиональных коммуникаций НИУ ВШЭ в Нижнем Новгороде Мария Степанова и Дмитрий Троицкий.

Мария Степанова

Кандидат педагогических наук, доцент кафедры английского языка МГИМО МИД России

Дмитрий Троицкий

Кандидат технических наук, доцент Санкт-Петербургского государственного университета аэрокосмического приборостроения, преподаватель СахГУ, ДФГУ, УЮГУ, директор агентства переводов TTS

Содержание:

Большие языковые модели и перевод

В последние годы интенсивно развиваются технологии искусственного интеллекта (ИИ), что уже существенно изменило ситуацию и на переводческом рынке, и в переводческом образовании. Нейросетевые системы применяются для автоматизации процессов преобразования текста, устной речи или визуальной информации с одного языка на другой посредством вычислительных алгоритмов и технологических решений.

Вместо обычного перевода – постредактура машинного?

Сейчас все чаще перевод текста «с нуля» заменяется постредактированием автоматизированного перевода (PEMT), причем даже там, где это не просто не обеспечивает должной отдачи, но приводит к падению производительности. Есть огромный пласт текстов, которые невозможно перевести автоматически, – от художественных до сложных технических, медицинских и юридических. Разработчики средств машинного перевода редко обсуждают фундаментальные причины его низкого качества:

- дефектный исходный текст, содержащий смысловые ошибки (сейчас, как отметил лауреат премии «Переводчик России» Израиль Шалыт, тексты делятся на две категории: плохие и очень плохие). Их пишут неносители языка, нередко компилируя из ранее написанного без должного редактирования. В итоге такой текст невозможно использовать по назначению, а задача переводчика в 21 веке сводится именно к этому: создать документ, по которому можно работать;

- неизбежные галлюцинации, вызванные самой вероятностной структурой нейросетей. С этим ничего нельзя сделать – ни через пять, ни через десять лет;

- невозможность применения машинного перевода по узким темам, при переводе текстов с высоким уровнем новизны (например, научные статьи) и при работе с редкими языками (попробуйте «перевести машинкой» с якутского на аварский).

В целом устного переводчика, как и переводчика аудиовизуальных материалов (фильмов, телесериалов, видеоигр и т. п.), системы машинного перевода не заменят еще долго.

Компетенции постредактора

Первое и, возможно, самое важное, чему необходимо учить: нельзя слепо доверять искусственному интеллекту при переводе, поскольку выполненный машиной перевод – «транслят» или «текстоид» – часто содержит и языковые, и фактические ошибки и всегда требует тщательной проверки. Как справедливо указывают ряд исследователей, создаваемый ИИ продукт нельзя считать текстом в традиционном понимании.

ИИ, разумеется, может быть надежным помощником и инструментом в сфере перевода, но лишь при условии, что его воспринимают именно как инструмент, а статус основного субъекта перевода остается за человеком. Концепция о том, что система искусственного интеллекта является равноправным партнером человека, чревата тем, что переводчик-постредактор может оказаться «в подчинении» у ИИ. Между тем, отношения между человеком и искусственным интеллектом не могут быть равноправными, как и между токарем и токарным станком.

В целом постредактирование – многоаспектное явление, включающее как переводческую, так и редакторскую компетенции.

В более узком контексте постредактирование – это способность эффективно использовать как исходный, так и целевой языки, а также предметные знания, когнитивные навыки, текстообразующие способности и инструментальные умения.

Выбор систем машинного перевода

Обучение постредактированию машинного перевода предполагает использование реальных инструментов. Сегодня в открытом доступе имеются множество систем нейронного машинного перевода и больших языковых моделей (LLM). Возникает вопрос, какие из них выбрать для предварительного перевода конкретного текста, и даст ли это эффект.

Авторы провели сравнительный анализ качества машинного перевода с английского языка на русский и с русского на английский, выполненного в шести самых доступных системах нейронного машинного перевода и больших языковых моделях:

1. Яндекс.Переводчик – российская система нейросетевого перевода, оптимизированная под русскоязычные тексты и интегрированная с сервисами Яндекса.

2. Google Translate – глобальная система нейросетевого перевода.

3. DeepL Translate – европейская система, известная высоким качеством перевода и естественностью синтаксических конструкций.

4. SYSTRAN – коммерческая система, объединившая нейросетевые и статистические подходы.

5. ChatGPT – многофункциональная языковая модель, способная к контекстному переводу и адаптации стиля.

6. GigaChat – российская LLM от Сбера, поддерживающая перевод и генерацию текста.

При помощи этих инструментов была переведена выборка текстов различных тематик (техника; медицина; экономика; юриспруденция; художественный перевод). После этого качество переводов было оценено независимыми экспертами – специалистами в области профессионально ориентированного перевода.

Соревнование систем

Критериями оценки были:

точность передачи смысла;
корректность использования терминологии;
грамматическая правильность;
соответствие стилю;
общая читабельность текста.

На основе экспертных оценок были рассчитаны средние значения качества перевода по 10-балльной шкале для каждой исследуемой системы.

Рис. 1. Средние оценки качества перевода с русского языка на английский

Источник: статья М.Степановой и Д.Троицкого

Рис. 2. Средние оценки качества перевода с английского языка на русский

Источник: тот же.

Анализ качества переводов текстов с русского языка на английский (рис. 1) выявил, что ChatGPT демонстрирует наивысший средний показатель (6,2), DeepL занимает второе место (5,4), близок к нему GigaChat (5,2). А вот Google Translate и Яндекс.Переводчик получили более низкие значения (4,4 и 4). Наименьший средний балл (3,8) у SYSTRAN.

При анализе качества переводов с английского на русский язык (рис. 2) выяснилось, что Google Translate и DeepL демонстрируют одинаково высокий результат (5,2). ChatGPT, GigaChat и Яндекс также показали сходные результаты (5,1 и 5), а SYSTRAN снова заработал наименьший балл (4,7).

При этом, согласно оценкам экспертов, ни одна из систем даже не приближается к идеальному переводу (10 баллов).

При переводе с русского языка на английский наблюдается выраженное преимущество больших языковых моделей над нейросетевым машинным переводом. При переводе с английского языка на русский различия менее выражены.

Эти результаты стоит учитывать при выборе инструментов для обучения переводу и постредактированию и показывать различия возможностей технических средств перевода – равно как и то, что пока ни одна из этих систем не способна осуществить идеальный перевод.

Интеграция новых технологий в образование переводчиков

При обучении переводу следует учить объективной оценке система машинного перевода и не возлагать на них неоправданных надежд. Необходимо объяснять возможности и ограничения применения подобных инструментов. В центре переводческого процесса находится человек, который несет ответственность за результат независимо от того, какими инструментами он пользуется.

Усилить свои навыки перевода с помощью новых технологий можно на программах повышения квалификации «Цифровые инструменты в переводе» и «Удаленный синхронный перевод» Центра иностранных языков, культур и профессиональных коммуникаций. Программы научат самым современным подходам в переводческой сфере. Вы будете уверенно применять автоматизированные инструменты для проверки и повышения качества перевода.

Редактировала Ольга Соболевская