вторник, 27 января 2015 г.

ЭКСПЕРИМЕНТАЛЬНАЯ ЛИНГВИСТИКА И СЕТЕВАЯ НАУКА

ЭКСПЕРИМЕНТАЛЬНАЯ ЛИНГВИСТИКА И СЕТЕВАЯ НАУКА 1
Константин Игоревич Белоусов
д. филол. н., профессор кафедры теоретического и прикладного языкознания
Пермский государственный национальный исследовательский университет
614990, г. Пермь, ул. Букирева, 15. belousovki@gmail.com

В узком
понимании сетевая наука – это распределен-
ный в режиме реального времени научный про-
цесс, предполагающий организацию сетевого
взаимодействия участников и систему управле-
ния исследовательской деятельностью, исполь-
зование единых технологий обработки инфор-
мации и общей базы данных, интегрирующих
результаты исследовательской работы каждого
участника в создаваемое информационное про-
странство проекта; а также наука, изучающая
организацию сетевого взаимодействия участни-
ков научного процесса.

http://wiki.semograph.com/images/d/d6/Belousov_K._I._EXPERIMENTAL_LINGUISTICS_AND_NETWORK_SCIENCE.pdf

Информационная система (ИС) «Семограф»
(http://semograph.com) является инструментом
зарождающейся в настоящее время сетевой
науки. Несмотря на то что ИС предназначена для
извлечения знаний о предметных областях из
информационных массивов, ее функциональ-
ность постоянно расширяется и на сегодняшний
день дает возможность проведения эксперимен-
тальных исследований нескольких типов.
5.1. Сбор экспериментальных данных в ИС
«Семограф»
ИС позволяет проводить эксперименты, отно-
сящиеся к классу 1 «Реакция представляет собой
языковую единицу или набор языковых единиц,
соотносимых со стимулом». На рис. 1 отображе-
но окно редактирования контекста с данными
одной анкеты, полученной в направленном цепо-
чечном ассоциативном эксперименте (в реакциях
информантов сохраняется авторское написание)

image

 

Состояние и задачи современ-
ной экспериментальной лингвистики
Несмотря на то, что для современного состоя-
ния лингвистических исследований характерно
частое обращение к методам научного экспери-
мента, в области экспериментального изучения
языка и речевой деятельности сложилась ситуа-
ция «технологического запаздывания» и необос-
нованной фрагментации ее предметного поля.
Можно говорить о том, что в отличие от корпус-
ных исследований, использующих возможности
IT-сферы и имеющих впечатляющие результаты
в виде отдельных масштабных корпусов нацио-
нальных языков и др. частных корпусов, экспе-
риментальный подход пока остается вне поля
современных информационно-технологических
способов познания языковой реальности. В то же
время многие отечественные лингвистические
школы за десятилетия их существования накопи-
ли (и продолжают накапливать) огромные мас-
сивы информации, полученной эксперименталь-
ными методами и представленной, как правило, в
бумажном формате в словарях, картотеках, анке-
тах экспериментов и др. Ценность данной ин-
формации огромна, поэтому появляется насущ-
ная задача введения данной информации в науч-
ный оборот.
Таким образом, основной задачей современ-
ной экспериментальной лингвистики, на наш
взгляд, является создание доступных и понятных
широкому кругу лингвистов технологий и со-
зданных на их основе программных средств, по-
могающих лингвисту-экспериментатору решать
собственно научные задачи, поставленные в

каждом отдельном исследовании. Среди частных
исследовательских задач можно выделить сле-
дующие:
1) разработка классификатора лингвистиче-
ских экспериментов (для того чтобы с по-
мощью создаваемых технологий охватить
как можно больше экспериментальных ис-
следований);
2) решение проблемы репрезентативности
экспериментальных выборок и проблемы
достоверности результатов в целом;
3) решение проблемы хранения данных и ор-
ганизации доступа к ним;
4) разработка инструментария сбора, обра-
ботки и анализа данных;
5) решение проблемы взаимосвязи научных
результатов.
Одна часть этих задач группируется вокруг
деятельности лингвиста-экспериментатора, вто-
рая часть – вокруг деятельности испытуемых, а
третья связана с совместной деятельностью ис-
следователя и информанта.

Исследования в об-
ласти text mining в связи с появившейся возмож-
ностью обрабатывать огромные массивы тексто-
вой информации, представленной в социальных
медиа, привели к созданию многочисленных си-
стем, связанных с мониторингом социальных се-
тей, блогов и СМИ. Среди отечественных систем
можно назвать SemanticForce (http://www.semanticforce.net),
Медиалогию (http://www.mlg.ru),
IQbuzz (http://www.iqbuzz.ru), Buzzlook (http://

buzzlook.ru), Constrim DataRetriever (http://www.
cdretr.com). Среди зарубежных аналогов можно
отметить Vennmaker (http://www.vennmaker.com),
Socialmention (http://socialmention.com), Alterian
(http://www.alterian.com), J.D. Power and Associates
(http://businesscenter.jdpower.com), Salesforce (http://

www.salesforce.com).

Разнообразие методов и подходов к обработ-
ке и анализу текста (распространенных особен-
но широко в англоязычном секторе ресурсов,
каталогов и программных средств) рассчитано
на целевую аудиторию, представленную пре-
имущественно специалистами в областях при-
кладной математики, искусственного интеллек-
та, маркетинга, с одной стороны, и связей с об-
щественностью, социологии и т.п. – с другой, а
также прикладной лингвистики, ориентирован-
ной на решение задач в перечисленных обла-
стях.

 

Конечно, для нас прежде всего представляют
интерес разработки в области семантического
анализа русскоязычных текстов. На специализи-
рованных порталах, посвященных компьютерной
лингвистике, в частности, на портале Диалог
(http://www.dialog-21.ru) и отечественных катало-
гах лингвистических ресурсов NLPub (http://

nlpub.ru) и др. представлены как перечни отдель-
ных аспектов семантического анализа, так и про-
граммные средства, созданные для работы в дан-
ных областях.

Если в области корпусной лингвистики есть
существенные достижения в виде многочислен-
ных корпусов, в том числе открытых (в частно-
сти, представленных на порталах http://www.
ruscorpora.ru, http://opencorpora.org, http://nlpub.ru,
http://lexrus.ru, http://spokencorpora.ru, http://

rusling.narod.ru и мн. др.), то в сфере эксперимен-
тальной лингвистики присутствуют преимуще-
ственно ресурсы, представляющие результаты
ассоциативных экспериментов (http://it-claim.ru/
Projects/ASIS/index.htm, http://tesaurus.ru/dict/
dict.php, http://adictru.nsu.ru).

Существующие ассоциативные словари
фиксируют только обобщенные данные о реак-
циях (R) на слова-стимулы (S), например:
РОДИНА – мать (65), моя (19); зовет (6); люби-
мая, одна, СССР (5); Отчизна (4) и т.д. [Русский
ассоциативный словарь: электр. ресурс]. Отсут-
ствует возможность обращения к первичным
данным, т.е. к реакциям отдельных информан-
тов, что значительно сужает область применения
данных ресурсов.

Методика проведения ассоциатив-
ных экспериментов с одной реакцией на стимул
дает возможность получения от каждого инфор-
манта нескольких десятков пар S – R за сеанс.
Для изучения проблем языкового сознания, язы-
ковой личности и др. особый интерес представ-

ляют «персонологические» (индивидуальные)
распределения языкового материала, а не усред-
ненные данные по всему корпусу.

Мемы&медиавирусы

Loading...