Компьютерный лингвист. План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели

Под термином "компьютерная лингвистика" (computational linguistics) обычно понимается широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Собственно, только в последнем случае речь идет о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования (computer science) в области лингвистики. Тем не менее общая практика такова, что сфера компьютерной лингвистики охватывает практически все, что связано с использованием компьютеров в языкознании: "Термин "компьютерная лингвистика" задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, связанных с языком, никак не ограничивая способы решения этих задач".

Институциональный аспект компьютерной лингвистики . Как особое научное направление компьютерная лингвистика оформилась в 60-е гг. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал "Компьютерная лингвистика". Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике - КОЛИНГ. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Когнитивный инструментарий компьютерной лингвистики

Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту - то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, то об общем метаязыке говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В основе этого языка лежит теория знаний, разработанная в искусственном интеллекте и образующая важный раздел когнитивной науки.

Основной тезис теории знаний гласит, что мышление - это процесс обработки и порождения знаний. "Знания" или "знание" считается неопределяемой категорией. В качестве "процессора", обрабатывающего знания, выступает когнитивная система человека. В эпистемологии и когнитивной науке различают два основных вида знаний - декларативные ("знание что") и процедурные ("знание как"2)). Декларативные знания представляются обычно в виде совокупности пропозиций, утверждений о чем-либо. Типичным примером декларативных знаний можно считать толкования слов в обычных толковых словарях. Например, чашка] - "небольшой сосуд для питья округлой формы, обычно с ручкой, из фарфора, фаянса и т.п. " . Декларативные знания поддаются процедуре верификации в терминах "истина-ложь". Процедурные знания представляются как последовательность (список) операций, действий, которые следует выполнить. Это некоторая общая инструкция о действиях в некоторой ситуации. Характерный пример процедурных знаний - инструкции по пользованию бытовыми приборами.

В отличие от декларативных знаний, процедурные знания невозможно верифицировать как истинные или ложные. Их можно оценивать только по успешности-неуспешности алгоритма.

Большинство понятий когнитивного инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей на некоторых метаязыках. Иными словами, элементы метаязыка имеют онтологический и инструментальный аспект. Онтологически разделение декларативных и процедурных знаний соответствует различным типам знаний когнитивной системы человека. Так, знания о конкретных предметах, объектах действительности преимущественно декларативны, а функциональные способности человека к хождению, бегу, вождению машины реализуются в когнитивной системе как процедурные знания. Инструментально знание (как онтологически процедурное, так и декларативное) можно представить как совокупность дескрипций, описаний и как алгоритм, инструкцию. Иными словами, онтологически декларативное знание об объекте действительности "стол" можно представить процедурно как совокупность инструкций, алгоритмов по его созданию, сборке (= креативный аспект процедурного знания) или как алгоритм его типичного использования (= функциональный аспект процедурного знания). В первом случае это может быть руководство для начинающего столяра, а во втором - описание возможностей офисного стола. Верно и обратное: онтологически процедурное знание можно представить декларативно.

Требует отдельного обсуждения, всякое ли онтологически декларативное знание представимо как процедурное, а всякое онтологически процедурное - как декларативное. Исследователи сходятся в том, что всякое декларативное знание в принципе можно представить процедурно, хотя это может оказаться для когнитивной системы очень неэкономным. Обратное вряд ли справедливо. Дело в том, что декларативное знание существенно более эксплицитно, оно легче осознается человеком, чем процедурное. В противоположность декларативному знанию, процедурное знание преимущественно имплицитно. Так, языковая способность, будучи процедурным знанием, скрыта от человека, не осознается им. Попытка эксплицировать механизмы функционирования языка приводит к дисфункции. Специалистам в области лексической семантики известно, например, что длительная семантическая интроспекция, необходимая для изучения плана содержания слова, приводит к тому, что исследователь частично теряет способность к различению правильных и неправильных употреблений анализируемого слова. Можно привести и другие примеры. Известно, что с точки зрения механики тело человека является сложнейшей системой двух взаимодействующих маятников.

В теории знаний для изучения и представления знания используются различные структуры знаний - фреймы, сценарии, планы. Согласно М. Минскому, "фрейм - это структура данных, предназначенная для представления стереотипной ситуации" [Минский 1978, с.254]. Более развернуто можно сказать, что фрейм является концептуальной структурой для декларативного представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные между собой определенными семантическими отношениями. В целях наглядности фрейм часто представляют в виде таблицы, строки которой образуют слоты. Каждый слот имеет свое имя и содержание (см. табл.1).

Таблица 1

Фрагмент фрейма "стол" в табличном представлении

В зависимости от конкретной задачи структуризация фрейма может быть существенно более сложной; фрейм может включать вложенные подфреймы и отсылки к другим фреймам.

Вместо таблицы часто используется предикатная форма представления. В этом случае фрейм имеет форму предиката или функции с аргументами. Существуют и другие способы представления фрейма. Например, он может представляться в виде кортежа следующего вида: { (имя фрейма) (имя слота)) (значение слота,),..., (имя слота п) (значение слота л) }.

Обычно такой вид имеют фреймы в языках представлениях знаний.

Как и другие когнитивные категории компьютерной лингвистики, понятие фрейма омонимично. Онтологически - это часть когнитивной системы человека, и в этом смысле фрейм можно сопоставить с такими понятиями как гештальт, прототип, стереотип, схема. В когнитивной психологии эти категории рассматриваются именно с онтологической точки зрения. Так, Д. Норман различает два основных способа бытования и организации знаний в когнитивной системе человека - семантические сети и схемы. "Схемы, - пишет он, - представляют собой организованные пакеты знания, собранные для репрезентации отдельных самостоятельных единиц знания. Моя схема для Сэма может содержать информацию, описывающую его физические особенности, его активность и индивидуальные черты. Эта схема соотносится с другими схемами, которые описывают иные его стороны" [Норман 1998, с.359]. Если же брать инструментальную сторону категории фрейма, то это структура для декларативного представления знаний. В имеющихся системах ИИ фреймы могут образовывать сложные структуры знаний; системы фреймов допускают иерархию - один фрейм может быть частью другого фрейма.

По содержанию понятие фрейма очень близко категории толкования. Действительно, слот - аналог валентности, заполнение слота - аналог актанта. Основное отличие между ними заключается в том, что толкование содержит только лингвистически релевантную информацию о плане содержания слова, а фрейм, во-первых, не обязательно привязан к слову, и, во-вторых, включает всю релевантную для данной проблемной ситуации информацию, в том числе и экстралингвистическую (знания о мире) 3).

Сценарий представляет собой концептуальную структуру для процедурного представления знаний о стереотипной ситуации или стереотипном поведении. Элементами сценария являются шаги алгоритма или инструкции. Обычно говорят о "сценарии посещения ресторана", "сценарии покупки" и т.п.

Изначально фрейм также использовался для процедурного представления (ср. термин "процедурный фрейм"), однако сейчас в этом смысле чаще употребляется термин "сценарий". Сценарий можно представить не только в виде алгоритма, но и в виде сети, вершинам которой соответствуют некоторые ситуации, а дугам - связи между ситуациями. Наряду с понятием сценария, некоторые исследователи привлекают для компьютерного моделирования интеллекта категорию скрипта. По Р. Шенку, скрипт - это некоторая общепринятая, общеизвестная последовательность причинных связей . Например, понимание диалога

На улице льет как из ведра.

Все равно придется выходить в магазин: в доме есть нечего - вчера гости все подмели.

основывается на неэксплицированных семантических связях типа "если идет дождь, на улицу выходить нежелательно, поскольку можно заболеть". Эти связи формируют скрипт, который и используется носителями языка для понимания речевого и неречевого поведения друг друга.

В результате применения сценария к конкретной проблемной ситуации формируется план ). План используется для процедурного представления знаний о возможных действиях, ведущих к достижению определенной цели. План соотносит цель с последовательностью действий.

В общем случае план включает последовательность процедур, переводящих начальное состояние системы в конечное и ведущих к достижению определенной подцели и цели. В системах ИИ план возникает в результате планирования или планирующей деятельности соответствующего модуля - модуля планирования. В основе процесса планирования может лежать адаптация данных одного или нескольких сценариев, активизированных тестирующими процедурами, для разрешения проблемной ситуации. Выполнение плана производится экзекутивным модулем, управляющим когнитивными процедурами и физическими действиями системы. В элементарном случае план в интеллектуальной системе представляет собой простую последовательность операций; в более сложных версиях план связывается с конкретным субъектом, его ресурсами, возможностями, целями, с подробной информацией о проблемной ситуации и т.д. Возникновение плана происходит в процессе коммуникации между моделью мира, часть которой образуют сценарии, планирующим модулем и экзекутивным модулем.

В отличие от сценария, план связан с конкретной ситуацией, конкретным исполнителем и преследует достижение определенной цели. Выбор плана регулируется ресурсами исполнителя. Выполнимость плана - обязательное условие его порождения в когнитивной системе, а к сценарию характеристика выполнимости неприложима.

Еще одно важное понятие - модель мира. Под моделью мира обычно понимается совокупность определенным образом организованных знаний о мире, свойственных когнитивной системе или ее компьютерной модели. В несколько более общем виде о модели мира говорят как о части когнитивной системы, хранящей знания об устройстве мира, его закономерностях и пр. В другом понимании модель мира связывается с результатами понимания текста или - более широко - дискурса. В процессе понимания дискурса строится его ментальная модель, которая является результатом взаимодействия плана содержания текста и знаний о мире, свойственных данному субъекту [Джонсон-Лэрд 1988, с.237 и далее]. Первое и второе понимание часто объединяются. Это типично для исследователей-лингвистов, работающих в рамках когнитивной лингвистики и когнитивной науки.

Тесно связано с категорией фрейма понятие сцены. Категория сцены преимущественно используется в литературе как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр) ситуаций и их частей5). Будучи связана с языковыми формами, сцена часто актуализуется определенным словом или выражением. В грамматиках сюжетов (см. ниже) сцена предстает как часть эпизода или повествования. Характерные примеры сцен - совокупность кубиков, с которыми работает система ИИ, место действия в рассказе и участники действия и т.д. В искусственном интеллекте сцены используются в системах распознавания образов, а также в программах, ориентированных на исследование (анализ, описание) проблемных ситуаций. Понятие сцены получило широкое распространение в теоретической лингвистике, а также логике, в частности в ситуационной семантике, в которой значение лексической единицы непосредственно связывается со сценой.

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

К компетенции компьютерной лингвистики относится и автоматический перевод.

В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

Компьютерная лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

Лингвистическая информатика является частью теории информационного обслуживания. Теория информационного обслуживания возникла в связи с компьютеризацией речи, то есть в связи с применением ЭВМ как средства записи, учета и хранения языковой информации. Благодаря технике удалось совместить функции библиотеки, архива и канцелярии.

Большие классы текстов обрабатываются путем автоматического реферирования. Непрерывно растущий объем научно-технической информации, поиск которой становится все более трудоемким, вызвал идею вести поиск по так называемым вторичным текстам, представляющим собой свернутую информацию первичного документа: библиографическое описание, аннотация, реферат, научный перевод.

Свертывание первичного текста осуществляется путем его сжатия, компрессии. Разработаны специальные методы свертывания первичного текста:

а) статистико-дистрибутивные методы заключаются в том, что выделяются наиболее информативные предложения, в которых сосредоточены наиболее значимые для данного текста языковые знаки;

б) методы использования смысловых индикаторов, когда отмечаются наиболее содержательные «точки» текста - предмет исследования, цель, методы, актуальность, область применения, выводы, результаты); в) метод текстовых связей, который заключаются в том, что учет межфразовых связей делает реферат целостным.

3. Практическое терминоведение.
Практическое терминоведение включает разделы:

а) лексикографическая терминология, которая занимается теорией и практикой создания специальных словарей, унификацией терминосистем, переводом терминов, созданием терминологических банков данных, автоматизацией их хранения и обработки.

б) предметом прикладной лингвистики стала и сама лексикография как один из самых трудоемких видов практического языковедения. Словари создаются десятилетиями. Поэтому вполне объяснимо стремление ученых автоматизировать лексикографическую деятельность. Появились автоматические словари. Их предназначение - повысить производительность труда при работе с текстами, по сбору, хранению и обработке различных единиц языка. Словари такого типа используются в системах автоматической переработки текстов.

Автоматический перевод.

В основе автоматического, или машинного, перевода лежит предположение о возможности приведения в соответствие типологически разных языковых структур (словаря, порядка слов, словоизменения, синтаксических структур). Лингвистический принцип перевода заключается в сопоставлении эквивалентных по смыслу языковых единиц двух и более языков.

В разработках систем автоматического перевода выделяют два этапа. На первом этапе решались такие фундаментальные проблемы машинного перевода, как создание автоматических словарей, разработка языка- посредника, формализация грамматики, преодоление омонимии, обработка идиоматических образований. На втором этапе продолжают достаточно плодотворно развиваться и воплощаться в практике теоретико-множественные модели грамматик, модели грамматик зависимостей, непосредственно составляющих, моделей порождающей грамматики. В этот период все более активно в прикладную лингвистику вовлекается семантика по модели «смысл - текст». Возникшие в отечественных и зарубежных университетах центры прикладной лингвистики разрабатывают стратегии машинного перевода. К ним относятся лаборатория математической лингвистики в Санкт-Петербургском университете, в Институте прикладной математики РАН; Всесоюзный центр перевода; группа «Статистика речи» в Ленинградском пединституте под руководством Раймонда Генриховича Пиот­ровского; группа по исследованию синтаксического моделирования «смысл - текст» под руководством Игоря Александровича Мельчука.

Новый этап совершенствования машинного перевода связан с использованием языка-посредника - языка представления знаний. В его основе лежит анализ значения предложения, получаемого при осмыслении входного предложения, дополненного и размеченного с помощью информации из базы знаний и в ее терминах. Процесс перевода представляет собой преобразование входного предложения языка X в выходную структуру языка У. Иными словами, результатом машинного перевода является скорее не собственно перевод, а пересказ исходного текста (X). Качество перевода зависит от эффективности языка представления знаний. Высокое качество машинного перевода может быть обеспечено только созданием надежных лингвистических основ и программных средств для построения мощных семантических сетей на основе автоматизированных лексиконов.

IV. Этнолингвистика.

Этнолингвистика (этносемантика, антрополингвистика) – это область языкознания, изучающая язык в его взаимоотношении с культурой определенного этноса. Основы этнолингвистики были заложены в работах Франца Боаса и Эдварда Сепира в первой четверти 20 века. Во второй половине 20 в. этнолингвистика оформилась в самостоятельный раздел языкознания. Этнолингвистические исследования второй половины 20 в. характеризуются такими чертами, как: привлечение методов экспериментальной психологии; сопоставление семантических моделей разных языков; изучение проблем народной таксономии; паралингвистические исследования; реконструкция духовной этнической культуры на основе данных языка; оживление внимания к фольклористике.

Центральными для этнолингвистики являются две тесно взаимосвязанных проблемы, которые можно назвать «когнитивной» и «коммуникативной»:

1. Каким образом, с помощью каких средств и в какой форме в языке находят отражение культурные (бытовые, религиозные, социальные и пр.) представления народа, говорящего на этом языке, об окружающем мире и о месте человека в этом мире?

2. Какие формы и средства общения – в первую очередь, языкового общения – являются специфическими для данной этнической или социальной группы?

В соответствии с этими проблемами в этнолинвистике выделились два направления: когнитивно ориентированная этнолингвистика и коммуникативно ориентированная лингвистика.

а) Когнитивно ориентированная этнолингвистика.

Когнитивно ориентированная этнолингвистика характерна для американского языкознания. Она называется антропологической лингвистикой. Первоначально антропологическая лингвистика была ориентирована на изучение культуры народов, резко отличающихся от европейских, прежде всего – американских индейцев. Установление родственных связей между этими языками и описание их современного состояния подчинялись задаче комплексного описания культуры этих народов и реконструкции их истории, в том числе путей миграции. Запись и интерпретация бытовых и фольклорных текстов была неотъемлемым компонентом антропологического описания.

Вслед за Францем Боасом в антропологической лингвистике считается, что более дробные фрагменты классификации действительности в языке соответствуют более важным аспектам данной культуры. Как замечает американский лингвист и антрополог Гарри Хойер, «народы, живущие охотой и собирательством, как, например, племена апачей на юго-западе Америки, обладают обширным словарем названий животных и растений, а также явлений окружающего мира. Народы же, основным источником существования которых является рыбная ловля (в частности, индейцы северного побережья Тихого океана), имеют в своем словаре детальный набор названий рыб, а также орудий и приемов рыбной ловли».

Наибольшее внимание этнолингвистов привлекали такие таксономические системы, как обозначения частей тела, термины родства, так называемые этно-биологические классификации, то есть названия растений и животных (английский ученый Б.Берлин, Анна Вежбицкая), – и особенно цветообозначения (Б.Берлин и П.Кей, А.Вежбицкая).

В современной антропологической этнолингвистике можно условно выделить «релятивистское» и «универсалистское» направления: для первого приоритетным является изучение культурной и языковой специфики в картине мира говорящего, для второго – поиск универсальных свойств лексики и грамматики естественных языков.

Примером исследований релятивистского направления в этнолингвистике могут служить работы Юрия Дерениковича Апресяна, Нины Давидовны Арутюновой, Анны Вежбицкой, Татьяны Вячеславовны Булыгиной, Алексея Дмитриевича Шмелева, Е.С.Яковлевой, посвященные особенностям русской языковой картины мира. Эти авторы анализируют значение и употребление слов, которые либо обозначают уникальные понятия, не характерные для концептуализации мира в других языках (тоска и удаль, авось и небось), либо соответствуют понятиям, существующим и в других культурах, но особенно значимым именно для русской культуры или получающим особую интерпретацию (истина и правда, свобода и воля, судьба и доля). Приведем для примера фрагмент описания слова «авось» из книги Т.В.Булыгиной и А.Д.Шмелева «Языковая концептуализация мира»:

«<...> авось значит вовсе не то же, что просто „возможно“ или „может быть“. <...> чаще всего авось используется как своего рода оправдание беспечности, когда речь идет о надежде не столько на то, что случится некоторое благоприятное событие, сколько на то, что удастся избежать какого-то крайне нежелательного последствия. О человеке, который покупает лотерейный билет, не скажут, что он действует на авось. Так, скорее, можно сказать о человеке, который <...> экономит деньги, не покупая медицинской страховки, и надеется, что ничего плохого не случится <...> Поэтому надежда на авось – не просто надежда на удачу. Если символ фортуны – рулетка, то надежду на авось может символизировать „русская рулетка“».

Примером исследований универсалистского направления в этнолингвистике являются работы польского ученого Анны Вежбицкой, посвященные принципам описания языковых значений. Цель многолетних исследований А.Вежбицкой и ее последователей – установить набор так называемых «семантических примитивов», универсальных элементарных понятий, комбинируя которые каждый язык может создавать бесконечное число специфических для данного языка и культуры конфигураций. Семантические примитивы являются лексическими универсалиями, иначе говоря, это такие элементарные понятия, для которых в любом языке найдется обозначающее их слово. Эти понятия интуитивно ясны носителю любого языка, и на их основе можно строить толкования любых сколь угодно сложных языковых единиц. Изучая материал генетически и культурно различных языков мира, в том числе языков Папуа – Новой Гвинеи, австронезийских языков, языков Африки и аборигенов Австралии, А.Вежбицкая постоянно уточняет список семантических примитивов. В ее работе «Толкование эмоциональных концептов» приводится следующий их список:

«субстантивы» – я, ты, кто-то, что-то, люди;
«детерминаторы и квантификаторы» – этот, тот же, самый, другой, один, два, много, все/весь;
«ментальные предикаты» – думать (о), говорить, знать, чувствовать, хотеть;
«действия и события» – делать, происходить/случаться;
«оценки» – хороший, плохой;
«дескрипторы» – большой, маленький;
«время и место» – когда, где, после/до, под/над;
«метапредикаты» – не/нет/отрицание, потому что/из-за, если, мочь;
«интенсификатор» – очень;
«таксономия и партономия» – вид/разновидность, часть;
«нестрогость/прототип» – подобный/как.

Из семантических примитивов, как из «кирпичиков», А.Вежбицкая складывает толкования даже таких тонких понятий, как эмоции. Так, например, ей удается продемонстрировать трудноуловимое различие между понятием американской культуры, обозначаемым словом «happy», и понятием, обозначаемым русским словом «счастливый» (и близкими ему по смыслу польским, французским и немецким прилагательными). Слово «счастливый», как пишет А.Вежбицкая, хотя и считается обычно словарным эквивалентом английского слова «happy», в русской культуре имеет более узкое значение, «обычно оно употребляется для обозначения редких состояний полного блаженства или совершенного удовлетворения, получаемого от таких серьезных вещей, как любовь, семья, смысл жизни и т.п.». Вот как формулируется это отличие на языке семантических примитивов (компоненты толкования В, отсутствующие в толковании А, выделяются заглавными буквами).

Толкование А: X feels happy
X чувствует что-то
со мной произошло что-то хорошее
я хотел этого
я не хочу ничего другого
Х чувствует что-то похожее

Толкование B: X счастлив
X чувствует что-то
иногда человек думает примерно так:
со мной произошло что-то ОЧЕНЬ хорошее
я хотел этого
ВСЕ ХОРОШО
я не МОГУ ХОТЕТЬ ничего другого
поэтому этот человек чувствует что-то хорошее
Х чувствует что-то похожее

Для исследовательской программы А.Вежбицкой принципиально, что поиск универсальных семантических примитивов осуществляется эмпирическим путем, с применением методик полевой лингвистики – работой с информантом: во-первых, в каждом отдельном языке выясняется роль, которую играет данное понятие в толковании других понятий, и, во-вторых, для каждого понятия выясняется множество языков, в которых данное понятие лексикализовано, то есть имеется специальное слово, выражающее это понятие.

Б) Коммуникативно ориентированная этнолингвистика.

Наиболее значительные результаты в коммуникативно ориентированной этнолингвистике связаны с направлением, именуемым «этнографией речи» или «этнографией коммуникации». Этнография речи как теория и метод анализа языкового употребления в социокультурном контексте была предложена в начале 60-х гг. в работах Д. Хаймза и Джона Дж. Гамперца и развита в работах американского ученого Арона Сикурела, Дж. Баумана, А.У. Корсаро. Высказывание исследуется только в связи с каким-либо речевым или коммуникативным событием, в рамках которого оно порождается. Подчёркивается культурная обусловленность любых речевых событий (проповедь, судебное заседание, телефонный разговор и т.д.). Устанавливаются правила языкового употребления путём присутствующего наблюдения (соучастие в речевом событии), анализа спонтанных данных, интервьюирования носителей данного языка как родного.

В рамках этого направления изучаются модели речевого поведения, принятые в той или иной культуре, в той или иной этнической или социальной группе. Так, например, в культуре «среднеевропейского стандарта» неформальная беседа нескольких человек предполагает, согласно принятым в данном сообществе правилам хорошего тона, что участники не будут перебивать друг друга, всем поочередно предоставляется возможность высказываться, желающий высказаться обычно сигнализирует об этом словами «позвольте заметить», «разрешите спросить» и т.п. Желающий выбыть из числа участников беседы объявляет о своем намерении словами «к сожалению, мне пора», «я должен ненадолго отлучиться» и так далее. Совсем иные нормы публичного речевого поведения приняты, например, в ряде культур аборигенов Австралии. Соблюдение индивидуальных прав отдельного участника разговора в этих сообществах не является обязательным правилом: несколько собеседников могут говорить одновременно, реагировать на высказывание другого не обязательно, говорящий высказывается, ни к кому специально не обращаясь, собеседники могут не смотреть друг на друга и т.д. Такая модель речевого поведения строится на исходной предпосылке, что все высказывания так или иначе аккумулируются в окружающем мире, и поэтому «прием» сообщения не обязательно должен непосредственно следовать за его «передачей».

Актуальной темой этнографии коммуникации является также изучение языкового выражения относительного социального статуса собеседников: правила обращения к собеседнику, в том числе использование титулов, обращений по имени, фамилии, имени и отчеству, профессиональные обращения (например, «доктор», «товарищ майор», «профессор»), уместность обращений «на ты» и «на Вы» и т.д. Особенно пристально исследуются такие языки, в которых соотношение социального положения говорящего и слушающего закрепляется не только в лексике, но и в грамматике. Примером может служить японский язык, где выбор грамматической формы глагола зависит от того, стоит ли слушающий выше говорящего в социальной иерархии или ниже, а также от того, входят ли говорящий и слушающий в одну социальную ячейку или нет. Кроме того, учитываются и отношения между говорящим и лицом, о котором идет речь. В результате комплексного действия этих ограничений один и тот же человек употребляет разные формы глагола при обращении к подчиненному и при обращении к начальнику, при обращении к сослуживцу и при обращении к незнакомому человеку, при обращении к своей жене и к жене соседа.

В грамматике находит отражение и такая особенность речевого этикета японцев, как стремление избежать вторжения в сферу мыслей и чувств собеседника. В японском языке существует особая грамматическая форма глагола – так называемое «желательное наклонение». С помощью суффикса желательного наклонения –tai говорящий выражает желание совершить действие, обозначенное исходным глаголом: "читать" + tai = "хочу читать", "уйти" + tai = "хочу уйти". Однако формы желательного наклонения возможны, только если говорящий описывает собственное желание. Желание собеседника или третьего лица выражается с помощью особой конструкции, приблизительно означающей "по внешним признакам можно заключить, что лицо X хочет совершить действие Y". Таким образом, подчиняясь требованиям грамматики, говорящий на японском языке может высказывать суждения лишь о собственных намерениях. Делать же прямые утверждения о внутреннем состоянии другого человека, например о его желаниях, язык просто не позволяет. Можно сказать «Я хочу...», но нельзя сказать «Вы хотите...» или «Он хочет...», а лишь «Мне кажется (у меня такое впечатление), что Вы хотите...» или «Мне кажется (у меня такое впечатление), что он хочет...».

Помимо норм речевого этикета, этнография коммуникации изучает также ритуализованные в тех или иных культурах речевые ситуации, такие, как заседание суда, защита диссертации, торговая сделка и тому подобные; правила выбора языка при межъязыковом общении; языковые конвенции и клише, сигнализирующие о принадлежности текста к определенному жанру («жили-были» – в сказках, «слушали и постановили» – в протоколе заседания).

Современная этнолингвистика тесно связана с социологией, психологией, семиотикой. В российской этнолингвистике особое место занимают исследования на стыке этнолингвистики, фольклористики и сравнительно-исторического языкознания. В первую очередь это исследовательская программа, посвященная этноязыковой и этнокультурной истории славянских народов (Никита Ильич Толстой, Светлана Михайловна Толстая, Владимир Николаевич Топоров). В рамках этой программы составляются этнолингвистические атласы, картографируются обряды, верования, фольклор; изучается структура кодифицированных славянских текстов определенных жанров, в том числе заговорных текстов, загадок, погребальных и строительных ритуалов и т.д., в соотнесении с данными сравнительно-исторических и археологических исследований.

  • Систематизация в языкознании и лингвистическая классификация народов мира
  • Социолингвистическая (или функциональная) классификация языков и форм речи


  • 1. Деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях. 2. Область знаний, решающая проблемы общения человека и компьютера на естественном языке. 3. Широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях.


    Искусственный интеллект – направление информатики, целью которого является разработка компьютерных систем, способных выполнять функции, традиционно считающиеся интеллектуальными, - понимание естественного языка, логический вывод, использование накопленных знаний, обучение, планирование действий и др.








    3. Построение алгоритмов лингвистического анализа – разработка алгоритмов анализа естественно - языковых текстов на всех языковых уровнях: фонемном, морфемном, морфологическом, синтаксическом, прагматическом. Построение синтаксического дерева зависимостей (проект Автоматическая Обработка Текста)


    4. Корпусная лингвистика – занимается разработкой, созданием и использованием текстовых (лингвистических) корпусов. Главная страница сайта Национального корпуса русского языка


    5. Машинный перевод - направление научных исследований, связанных с построением автоматических систем перевода текстов с одного естественного языка на другой. Главная страница сайта Google- переводчик


    6. Автоматическое реферирование – создание программ сжатого представления естественно - языковых текстов. Сервис построения реферата на сайте Визуальный мир


    7. Полнотекстовый информационный поиск – разработка информационно - поисковых систем с лингвистическим анализом текстов информационного массива и запроса пользователя. Главная страница информационно - поисковой системы Яндекс









    Новоселова Ирина

    Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале

    Скачать:

    Предварительный просмотр:

    Открытая

    Международная

    научно-исследовательская

    конференция

    старшеклассников и студентов

    «Образование. Наука. Профессия»

    Секция «Лингвистика иноязычная»

    «Компьютерная лингвистика»

    Выполнила Новосёлова Ирина

    МОУ гимназия № 39 «Классическая»

    10 «Б» класс

    Научные руководители:

    Чигринёва Татьяна Дмитриевна,

    учитель английского языка высшей категории

    Осипова Светлана Леонидовна,

    учитель информатики высшей категории

    г. Отрадный

    2011

    1. Англоязычные слова в ИКТ

    Смотрите на сайте

    1. Мой эксперимент

    Одна из задач – провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.

    Были протестированы следующие сайты:

    1. http://translate.eu/
    2. http://translate.google.ru/#ru
    3. http://www.langinfo.ru/index.php?div=6
    4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

    Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие:

    1. A new report says today’s teenagers are more selfish than they were 20 years ago

    (Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад)

    2. She believes video games and the Internet are the biggest reasons for this increased selfishness.

    (Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности)

    3. They want to be better than others

    (Они хотят быть лучше, чем остальные)

    4. She found the big increase started from the year 2000, which is when violent video games became really popular.

    (Она нашла большой рост, начавшийся с 2000 года, когда жестокие видео игры стали действительно популярны)

    Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты:

    1. http://translate.eu/

     

    Возможно, будет полезно почитать: