Корпусная лингвистика (corpus linguistics) открыла
новые направления, и перспективы
в области развития теории перевода,
особенно его применения в сфере
МП.
Прежде чем говорить о корпусно-ориентированном
подходе в области МП, уточним понятие
корпусной лингвистики как таковой.
Становление нового направления в лингвистических
исследованиях известного как corpus linguistics,
относится к девяностым годам 20 века связано
с развитием компьютерной лингвистики
(или квантитативной лингвистики). Общую
характеристику данного направления можно
найти в обзорной работе Вольфганга Тойберта
(Wolfgang Teubert "Corpus Linguistics - A Partisan View",
2000).
В своей статье Тойберт отмечает, что корпусная
лингвистика основывается на трех методах
анализа - автоматическом вычленении языковых
данных из корпуса языковых единиц (corpora);
их дальнейше обработки с помощью ряда
статистических процедур и приемов, оценки
интерпретации полученных данных. Если
два первых метода являются чисто математическими,
то последний требует, несомненно, участия
человеческог интеллекта.
Корпусная лингвистика опирается на положение
о том, что язык, безусловно, социально
детерминированное явление, которое может
описываться и систематизироваться в
виде корпуса коммуникативных актов. Корпус
языковых единиц (corpora) представляет в
свою очередь банк всевозможных лингвистических
контекстов, фиксирующих все коммуникативные
акты.
Как социальный организм язык манифестируется
в виде текстов, которые воспринимаются,
фиксируются и анализируются. Поскольку
количество существующих текстов практически
необозримо, задача исследователя состоит
в том, чтобы ограничить и систематизировать
все коммуникативные акты в виде корпуса
- корпоры. Параметрами систематизации
могут быть: ситуативный контекст, временные
границы, область употребления, внутренние
или внешние стилистические особенности
текста и многое др. Корпусная лингвистика,
будучи контекстно детерминированным
методом анализа, может исследовать какой-либо
конкретный отдельный язык, не предполагая
универсальных выводов для естественного
языка вообще (т.е. не занимается описанием
языковых универсалей). С точки зрения
корпусной лингвистики, язык представляет
собой некую виртуальную динамическую
систему, которую можно осмыслить и описать
только овладев всем возможным корпусом
образцов языкового употребления (речевых
актов), составляющих дискурсную вселенную
текстов языка.
Корпора представляет собой электронное
собрание текстов, зафиксированных в определенной
стандартизированной форме. Корпора может
быть сравнительным многоязычным корпусом
идентичных контекстов (comparable corpora): параллельным
корпусом текстов на ИЯ и ПЯ (parallel corpora);
реципрокальным корпусом текстов (reciprocal
parallel corpora), представленных как на ИЯ, так
и на различных других языках.
Корпусная лингвистика является по существу
новым методом описания и анализа языка
с точки зрения набора строгих статистических,
математических целиком автоматизированных
процедур извлечения и обработки лингвистических
данных из банка контекстов и аналитической
обработки последних. В отличие от традиционной
лексикографии, основной единицей анализа
которой является слово, корпусная лингвистика
оперирует понятием текста как минимальной
единицы языка, она вычленяет не слово,
а сегменты текста, которые могут быть
как одно-, так и многокомпонентными, связанными
смысловыми и иными отношениями с другими
текстами, характеризоваться определенными
моделями функционирования и быть частью
более объемных текстов. Корпусная лингвистика
ставит во главу угла, описание и анализ
языковых единиц с точки зрения их контекстных
связей единиц, превышающих объем слова,
но входящих в состав более широких контекстов,
напр.: контекстов словосочетания, фразы,
границы которых подвижны и колеблются
между параметрами устойчивости и свободы.
Корпусная лингвистика расставила новые
акценты в традиционных лингвистических
исследованиях. Во-первых, это уровень
статистически детерминированной взаимной
лексико-синтаксической сочетаемости
(коллокации) языковых единиц. Корпусная
лингвистика опирается здесь на принцип
дихотомии между устойчивостью и вариативностью,
которая может быть вызвана диахронно-синхронным
фактором социальной, региональной или
функциональной вариативностью, а также
семантической взаимообусловленностью.
Виртуальный корпус текстовых материалов,
хранящихся в информационном пространстве
Интернета, систематизируется в соответствии
с областью знаний или тематики, с помощью
метов корпусной лингвистики они могут
быть подвергнуты структурированию и
компьютерной обработке, что позволяет
обнаружить изменения на синхронно-диахронном,
региональном или функциональном срезе
с точки зрения появления новых концепций
и идей в той или иной области.
Корпусная лингвистика открыла новые
перспективы и для совершенствования
МП. Извлекая единицы языка и их переводные
соответствия из параллельной корпоры,
процедура перевода может обеспечить
его точность на 98%.
В области исследования семантики языка
корпусная лингвистика также предлагает
новые методы и подходы. Если традиционная
семантика в качестве центральной единицы
анализа выделяет базовые языковые концепты
и значение, то основной единицей анализа
корпусной лингвистики является семантическая
коллокация, взаимная сочетаемость лексических
единиц языка с точки зрения их совместной
встречаемости в тестах и частотности.
Лексическое значение в корпусной лингвистике
- это зафиксированная история всех предшествующих
употреблений данной языковой единицы
во всех возможных для нее контекстах
и комбинациях с другими единицами языка.
Корпусная семантика не принимает во внимание
потенциальные значения языковых единиц,
которые характерны на ментальном (когнитивном)
или психологическом уровнях. Таким образом,
когнитивная семантика и психолингвистика
не влияют на корпусные исследования.
Корпусная семантика изучает значение
и/или смысл языковых единиц только при
условии его текстовой актуализации, т.е.
если существуют зафиксированные в тексте
употребления данной единицы. С точки
зрения корпусной семантики, значение
того или иного фрагмента текста (или текста
в целом) не может существовать на когнитивном
уровне вне его реального языкового функционирования.
Исследователи отвергают положение о
том, что говорящий, создавая текст, кодирует
некоторую информацию в виде языковых
символов, а слушающий (или получатель
гекста) при его восприятии осуществляет
обратный процесс декодирования значения
языковых символов. Для корпусных исследований
понятия формы и значения неотделимы друг
от друга как на уровне лингвистического
знака, так и на уровне любого другого
символа вообще. Значение типовых сегментов
текста складывается из знаковых сегментов
всех зафиксированных когда-либо фрагментов
текста. Более тонкие оттенки значения
такие, как коннотации, модальность, прагматические
аспекты и др., которые могут быть характерны
для данного высказывания, извлекаются
из контекстов, сжимаемых и трансформируемых
в текст, которые описывают значение сегмента
конкретного текста. Описание значения
- это продукт мыслительной деятельности,
который не может быть сведен только к
операциям компьютерной обработки. Корпусная
семантика, таким образом, работает только
с текстом, внутри которого актуализируется
значение.
Проблемы перевода, и в частности МП, также
по-новому трактуются с точки зрения корпусной
семантики. Так, если традиционная лингвистика
в качестве основного инструмента перевода
текста считает двуязычный словарь, то
для корпусной лингвистики главным условием
перевода является
понимание ИЯ текста, т.е. описание его
значения (или смысла) с помощью определенных
правил и трансформаций.
С развитием МП и компьютерных технологий
основное внимание было сосредоточено
на совершенствовании перевода узкоспециальных
текстовых доменов (т.е. текстов специальных
областей знаний), где инструментом перевода
служат терминологические базы данных,
и/или терминологическая корпора. Однако
данный подход малоэффективен для перевода
текстов общего назначения (или художественной
литературы, естественно).
Перевод текста - это, в принципе, процедура
перефразирования или трансформация воспроизводства
его значения в ПЯ. Данная процедура предполагает
те же операции кодификации значения,
которые необходимы для понимания текста
на родном языке.
Для полиязыковой корпусной семантики
значение определенного сегмента текста
в языке А есть его перевод на некий язык
В. Эмпирической базой служит здесь множество
дискурсов, существующих в разных языках,
куда входят как фрагменты оригинальных
текстов, так и все их переводы на другие
языки. Этот виртуальный корпус представляет
собой параллельную корпору и/или реципрокальную
корпору. При этом значение понимается
в строго лингвистическом смысле как парафраза.
Полное значение сегмента текста складывается
из всех зафиксированных его интерпретаций
в переводах на иные языки.
Таким образом, основной единицей анализа
в корпусной семантике является единица
перевода, т.е. единица, которая в переводе
на другой язык, трактуется как единое
неделимое целое. Единица перевода, как
правило, соотносится с определенным тестовым
сегментом или коллокацией языковых единиц
в одноязычной корпоре. Значение единицы
перевода представляет собой ее переводной
эквивалент в другом языке.
Является ли некая повторяемая в тексте
единица - единицей перевода или она представляет
собой некую последовательность слов,
может быть очевидным только в процессе
перевода. Во-первых, то, что в одном языке
является единицей перевода, может в другом
языке быть простой последовательностью
отдельных слов. И только сообщество переводчиков
может решить относительно каждого конкретного
языка, что следует считать единицей перевода.
Анализ параллельной корпоры свидетельствует
о том, что в общеупотребительном языке
единица перевода, как правило, превышает
объем отдельного слова. Во-вторых, если
значение единицы перевода - это ее переводное
эквивалентное соответствие в ПЯ, то, значит,
данная единица имеет столько же значений,
сколько у нее разных эквивалентов (не
синонимичных) в других языках. Напр., английское
слово sorrow имеет три эквивалента во французском
переводе - chagrin, peine, tristess. Первые два обозначают
чувство, связанное с определенной причиной,
которое его вызывает, третье значение
- чувство, которое не связано с определенной
причиной. Эквивалентами в немецком языке
будут - Traur (caused by loss), Kummer (caused by infelicitous
event intense and usually of limited duration); Gram (caused by an infelicitous
event, more a disposition of unlimited duration). Как видно,
набор немецких значений не совпадает
с французскими эквивалентами и, следовательно,
все они будут рассматриваться как отдельные
значения слова sorrow.
С помощью параллельной корпоры можно
автоматически перевести около 98% текстов.
Количество неотмеченных единиц составляет
только 1%. Тем не менее корпора не является
окончательным решением проблемы МП, она
может служить обычному переводчику в
качестве дополнительного инструмента
перевода в нахождении всех возможных
эквивалентов и соответствий.
Значительный вклад в развитие корпусного
подхода в переводе внесла британская
исследовательница Мона Бейкер (Mona Baker,
1999), которая считает возможным использовать
данные методы для изучения стратегий
и приемов, применяемых профессиональными
переводчиками в работе над устными и
письменными переводами.
Бейкер указывает на то, что переводчик-исследователь
отличается от обычного своим отношением
к тексту. Обычный переводчик видит в переводе
нечто, не поддающееся каким бы то ни было
общим закономерностям и правилам, текст,
сопротивляющийся обработке и категоризации.
Исследователь видит в переводе фрагмент
живой коммуникации, который отличается
от оригинала не тем, что он как-то искажает
источник, а тем, что он функционирует
в других условиях порождения и восприятия.
В качестве примера корпусного подхода
в переводческой практике можно предложить
так называемый Корпус переводных текстов
на английском языке (The Translation English Corpus),
включающий 5,5 млн. слов. Данный корпус
содержит: а) выборку текстов в ИЯ, переведенных
с разных языков, предоставляя пользователю
возможность установить степень влияния
языка-источника на модель текста в ИЯ;
б) выборку текстов в ПЯ, корпус составляют
тексты, выполненные выдающимися переводчиками
(английскими и американскими), что дает
возможность исследовать индивидуальный
стиль того или иного переводчика, его
творческую манеру и т.д.; в) выборку текстов,
организованных в специальные корпусы:
художественных текстов, публицистических,
информационно-новостных и т.д.
М.Бейкер отмечает, что язык, и язык перевода
в особенности, есть отражение не только
лингвистических закономерностей и моделей,
сколько феномен, характеризующийся признаками
социальной, культурной, идеологической
и когнитивной природы. С точки зрения
корпусной лингвистики, перевод каждого
отдельного текста есть проявление общих
закономерностей, задаваемых структурой
языка-источника или его жанровым своеобразием.
Примером специфического конкорданса,
составленного с учетом указанных принципов,
может служить корпус переводов текстов,
выполненных английским переводчиком
Лоренсом Венути (Lawrence Venuti), который дает
возможность проследить, напр, структуру
значения слова "gay" в период с 1800-х
по 1900-ые годы, базовой семой которого
являются значения "merry", "happy",
а не значение "homosexual", характерное
для современного языка, ср.:
,. .he was quite fond of the ladies and the gay life.
qualms had vanished entirely, and I felt gay and happy as a child...
he...ruffled her hair and returned to me, gay, voluptuous, all perfumes,
smiles, etc. (Baker, 1999:295).
Таким образом, корпусная лингвистика
предлагает дополнительную методику обработки
и анализа перевода в целях совершенствования
общей процедуры описания языка. |