суббота, 5 сентября 2015 г.

ИНФОРМАЦИОННЫЕ ПОТОКИ И СЛОЖНЫЕ СЕТИ (Д.В. ЛАНДЭ)

БОЛЬШАКОВА Елена Игоревна
КЛЫШИНСКИЙ Эдуард Станиславович
ЛАНДЭ Дмитрий Владимирович
НОСКОВ Алексей Анатольевич
ПЕСКОВА Ольга Вадимовна
ЯГУНОВА Елена Викторовна
 
 
 
Автоматическая обработка текстов на естественном языке 
и компьютерная лингвистика

 

 

Теория  информации,  которая  ранее  находила  свое  основное
применение  в  области    передачи  данных,  становится  полезной  и  для  анализа 
текстовых массивов, динамически порождаемых в сетях. 

 

Ландэ Д.В. Моделирование динамики информационных потоков // Фундаментальные исследования. – 2012. – № 6 –3 – С. 652-654
URL:
Предусматривается, что новостные сообщения обладают свойством старения, т.е.
теряют свою актуальность со временем. Все информационное пространство можно с
достаточной  мерой  условности  разделить  на  две  составляющие  –  стабильную  и
динамическую,  которые  имеют  очень  разные  характеристики  своего  развития.  В
частности,  процесс  старения  информации  в  известной  модели  Бартона-Кеблера
описывается уравнением, которое состоит  из двух компонент:

 

image


где  m(t)   –  часть  полезной  информации  в  общем  потоке  через  время  T,    первое
вычитаемое    соответствует  стабильным  ресурсам,  а  второе  –  динамическим,
новостным. Это уравнение также в полной мере соответствует объемам информации,
которые  формируются  в  информационном  пространстве  по  определенными
тематиками,  которые  время  от  времени  возникают  и  исчезают.  Стабильная
составляющая  информационного  пространства  содержит  информацию
«долгосрочного»  плана,  в  то  время,  как  динамическая  составляющая  содержит
ресурсы, которые постоянно обновляются. Некоторая часть последней составляющей
впоследствии  вливается  в  стабильную,  однако  большая  часть  «исчезает»  из
информационного  пространства  или  попадает  в  сегмент  так  называемой  его
«скрытой» части, не доступной пользователям с помощью обычных информационно-
поисковых систем (ИПС).

 

Под  тематическим  информационным  потоком  будем  понимать
последовательность  сообщений,  соответствующих  определенной  тематике.

Информационный  поток,  измеряемый  количеством  сообщений,  является
величиной относительно стабильной. Изменяются во времени лишь объемы массивов
сообщений, соответствующие той или иной тематике, той или иной информационной

системе.  Другими  словами,  рост  количества  публикаций  по  одной  теме  при
ограниченной  способности  их  генерации  (что  вполне  соответствует
действительности) сопровождается уменьшением публикаций на другие темы, так что
для каждого промежутка времени T  имеем:

 

image

где  ni (t)  – количество публикаций в единицу времени по теме  i , а  M  – общее
количество  всех  возможных  тем.  То  есть  для  локальных  временных  промежутков
можно наблюдать так называемый «тематический баланс».

Основной  интерес  в  такой  формулировке  представляет  изучение  динамики
отдельного тематического потока, который описывается плотностью ni (t) .

 

Теоретически  можно  допустить,  что  множества  публикаций,  ассоциируемых  с
определенным  набором  тематик,  пересекаются,  то  есть  существуют  публикации,
которые могут быть отнесены одновременно к нескольким различным тематикам. В
реальности  такая  политематичность  действительно  наблюдается,  она  является
эффектом, который необходимо учитывать, но  в первом приближении будем считать,
что его вклад не искажает общей картины.

 

Каждая  тематика  также  имеет  ряд  характерных  свойств,  которые  допускают
некоторую  классификацию,  например,  на  основе  особенностей  ее  образования  и
воспроизведения во времени:
−  публикации  на  «разовую»  тему,  временная  зависимость  количества  которых
резко растет, выходит на насыщение, а затем убывает и далее асимптотически
стремиться к нулю;
−  публикации  по  темам,  которые  периодически  появляются  в  общем
информационном потоке, а затем через некоторое время практически исчезают
из него;
−  публикации  по  теме,  временная  зависимость  количества  которых  колеблется
вокруг некоторого значения и никогда не исчезает полностью

 

Таким  образом  сообщения  могут  подразделяться  на  аналогичные  категории,
причем каждая из них имеет собственную специфику развития во времени.
Еще  сложнее  выглядит  синхронное  изменение  количества  сообщений  из
нескольких тематических информационных потоков. Их поведение четко напоминает
процессы  взаимодействия  популяций  в  биоценозе.  Так,  например,  в  ряде  случаев
увеличение  числа  публикаций  по  одной  теме  сопровождается  сокращением  числа
публикаций  по  другим  темам. Общая  динамика  в  этом  случае может  описываться
системой уравнений, каждое из которых относится к отдельному монотематическому
потоку. Подчеркнем, что общие политематические потоки являются стационарными
по  количеству  публикаций,  динамика же  в  основном  определяется  «конкурентной
борьбой» отдельных тематик.

 

Вместе  с  тем  в  практическом  плане  часто  оказывается  полностью
удовлетворительным упрощеное понимание информационного потока как некоторой
зависимой от времени величины n(t) , которая описывается уравнением:

 

image

 

В  мноргочисленной  литературе  описаны  много  разновидностей  систем
«конкурентной борьбы» для разных модификаций модели в  зависимости от целого

ряда предположений о реальных условиях протекания процессов. В самом простом
виде такие уравнения могут иметь следующий вид:

 

image

 

Приведенная  система  уравнений  описывает  перераспределение  публикаций
между  тематиками,  образующими  фиксированный  набор.  Но  в  реальной  жизни
тематики  (сюжеты)  появляются  и  со  временем  исчезают,  потому  необходимо
ввести  в  эти  уравнения  соответствующие  коррективы.  Это  можно  сделать  по-
разному, например, определив коэффициенты  pi  и  rij   зависящими от времени так,
чтобы  каждый  сюжет имел  собственный максимум  активности на определенном
промежутке времени.

 

Анализ  динамики  тематических  информационных  потоков,  которые
генерируются  в  веб-пространстве  становится  сегодня  одним  из  наиболее
информативных методов исследования   актуальности тех или других тематических
направлений  [5].  Эта  динамика  обусловлена  факторами,  много  из  которых  не
поддаются  точному  анализу.  Однако  общий  характер  временной  зависимости
количества  тематических  публикаций  в  Интернете  все  же  допускает  построение
математических моделей.

 

Традиционными  считаются  два  класса  моделей  информационных  потоков:
линейные и экспоненциальные. Оба класса имеют существенную ограниченность –
монотонный  характер  временной  зависимости.  То  есть  они  мало  пригодны  для
изучения  реальной  динамики  сетевых  информационных  потоков  в  течение
длительных интервалов времени.

 

В  некоторых  случаях  динамика  тематических  информационных  потоков,
выражаемых  количеством  публикаций  за  определенный  период,  их
интенсивностью, обусловленной, например, изменением активности тематики  (ее
повышением или старением),  происходит линейно, то есть количество сообщений
в момент времени t  можно, соответственно, представить формулой:
y(t) = y(t0)+v(t −t0), 
где  t0   –  стартовое  время  отсчета,  y(t)   –  количество  сообщений  к  моменту
времени  t ,  v  –  средняя  скорость  увеличения  (уменьшения)  интенсивности
тематического информационного потока.

 

Важные  характеристики  информационного  потока  могут  быть  количественно
оценены флуктуацией  этого потока – изменением  среднеквадратичного отклонения
σ(t) , вычисляемого по формуле:

 

image

 

Если эта величина изменяется пропорционально квадратному корню  от времени,
то  процесс  изменения  количества  публикаций  по  избранной  теме  можно  считать
процессом  с  независимыми  приращениями.  При  этом  связями  с  предыдущими
тематическими публикациями можно пренебречь. 
В  случае,  когда  среднеквадратичное  отклонение  пропроционально  некоторой
степени  от  времени:  σ(t)∝tµ (1/2≤µ≤1),  чем  большее  значение  µ ,  тем  выше
корреляция  между  текущими  и  предыдущими  сообщениями  в  информационном
потоке.

 

В некоторых случаях процесс изменения актуальности тематики (увеличения или
уменьшения  количества  тематических  сообщений  в  информационном  потоке  в
единицу  времени)  аппроксимируется  экспоненциальной  зависимостью,  которая
выражается формулой:
y(t) = y(t0)exp[λ(t −t0)],  
где  λ   –  среднее  относительное  изменение  интенсивности  тематического
информационного потока.
В реальности актуальность тематики является дискретной величиной,  измеряемой
в  моменты  времени  t0,...,tn ,  которая  лишь  аппроксимируется  приведенной  выше
зависимостью. В рамках данной модели справедливо:
y(ti )/y(ti−1) = y(t0)exp[λ(ti −t0)]=
= y(t0)exp[λ(ti −ti−1+ti−1−t0)]= y(ti−1)exp[λ(ti −ti−1)].
Откуда:
image

 

image

В этом случае также, если σ(t)  изменяется пропорционально корню квадратному
от  времени,  то  можно  говорить  о  процессе  с  независимыми  приращениями  –
корреляция  между  отдельными  сообщениями  несущественна.  В  случае  наличия
значительной зависимости сообщений наблюдается соотношение:  σ(t)∝tµ ,   причем
значение  µ   превышает  1/2,  но ограниченно 1.

 

Значениеµ ,  которое  превышает  1/2,  свидетельствует  о  наличие  долгосрочной
памяти  в  информационном  потоке.  Такой  класс  процессов  получил  название
автомодельных,  для  которых  предусматривается  корреляция  между  количеством
сообщений, публикуемых в разные моменты времени.

 

Логистическая модель
В  отличие  от  модели  Бартона-Кеблера  в  реальной  динамике  информационных
потоков  имеют  место  процессы  как  роста,  так  и  спада  количества  документов.
Поэтому для построения реалистичной картины, безусловно, необходимо применять
более гибкие модели.

 

В первую  очередь,  стоит  сказать,  что  документы  в информационном потоке  во
многих отношениях напоминают популяции живых организмов. Они в определенном
смысле  «рождаются»,  «умирают»  и  дают  «потомство»  (документы,  содержащиет
информацию,  ранее  появившуюся  в  других  документах).  В  современной  научной
литературе  понятие  популяции  часто  используется  в  широком  смысле,  и  потому
полностью обосновано введение его и при моделировании информационных потоков.

 

 

Логистическую модель можно рассматривать как обобщение экспоненциальной
модели Мальтуса, предусматривающей пропорциональность скорости роста функции
y(t)  в каждый момент времени ее значению:
image
где k  – некоторый коэффициент

Наиболее  простым  обобщением  закона  Мальтуса,  позволяющим  уйти  от
неограниченного  роста  решения,  является  замена  постоянного  коэффициента  k 
некоторой функцией времени  k(t). Естественно, эта функция должна быть выбрана
таким образом, чтобы  выполнялись условия:
−  решение уравнения имело бы приемлемое поведение;
−  структура  функции  имела  бы  определенный  смысл  с  точки  зрения
исследуемого явления.

 

Главная  идея  логистической  модели  заключается  в  том,  что  для  ограничения
скорости  роста  на  функцию  y(t)   накладывается  дополнительное  условие,  в
соответствии с которым ее значением не должно превышать некоторую величину [6].
Для этого выберем k(t) такого вида:
k(t) =k ⋅[N−ry(t)],   
где  N  – предельное значение, которое функция  y(t)  не может превысить,  
коэффициент, который описывает негативные для данной тенденции процессы,  k  –
коэффициент  пропорциональности.

 

image

Модель, основанная на приведенном выше уравнении, называется логистической.
Несмотря  на  мнимую  простоту,  подобное  обобщение  закона  Мальтуса  никоим
образом  не  является  примитивным.  Напротив,  оно  позволяет  явно  включить  в
описание  динамики  популяций  исключительно  важную  обратную  связь.
Логистическое  уравнение, можно  считать феноменологическим:  исследователям  не
обязательно знать, как действуют конкретные механизмы, которые по мере роста  y(t) 
снижают скорость ее изменения.

 

Приведенное  выше  логистическое  уравнение  имеет  два  равновесных  решения:
y(t)=0 и  y(t)=N . С формальной точки зрения первое из них неустойчиво, однако на
практике  это  не  совсем  так.  Дело  в  том,  что  реальные  объемы  информационных
потоков выражаются дискретными числами, и если в какой-то момент  y(t)  принимает
значение, меньшее единицы, то в дальнейшем расти оно уже не сможет.  Поэтому в
реальности решение  y(t) =0 также можно считать равновесным.

 

Второе  же  решение  y(t)=N   является  равновесным  в  любом  смысле.
Действительно,  при  y(t)>N     включаются  механизмы  спада  зависимости,  а  при
y(t)<N ,  соответственно, роста.

 

Рассмотрим,  как  логистическая  модель  может  применяться  во  время  анализа
информационных  потоков,  а  именно  определение  минимального  начального
количества  c сообщений (которое можно, например, выделить для начала некоторой
информационной  операции).   Пусть    x   –    объем  тематического  информационного
потока.    На  динамику  этой  величины  осуществляется  влияние  других  тематик,
уменьшающих ее распространение, которое описывается  таким образом:  x& = x−x2 −c.  
Вычисления показывают, что поведение системы резко изменяется при некотором
критическом значении c.

 

Очевидно,  что  при  наличии  благоприятных  внешних  условий  (при  некоторой
плотности  ресурса)  объем  информационного  потока  растет  свободно,  что
способствует  логистическому  росту.  В  этом  случае  даже  более  сложные  модели
должны давать результаты, подобные приведенным. С другой стороны это означает,
что  основные  параметры  для  конкретизации  общей  модели  могут  определяться  в
результате анализа  упрощенной логистической модели. 

 

Следовательно,  логистическая  модель  успешно  описывает  достижение
тематическим информационным потоком некоторого равновесного состояния.

 

image

 

image

 

Подчеркнем,  что  содержательно  величина  p   определяет  нормируемую
вероятность появления публикации в единицу времени независимо от актуальности
темы.  Этот  фактор  отображает  фоновые  механизмы  генерации  информации
(типичным  примером  может  быть  механическая  перепечатка  материалов  из
престижных  информационных  источников).  Величина  же  D    характеризует
непосредственное  влияние  актуальности  данной  темы. Параметр  q    характеризует
уменьшение скорости роста количества публикаций и  является величиной,  обратной
к асимптотическому значению зависимости u(t)  при D=0.

image

Приведеные  выше  нелинейные  дифференциальные  уравнения  являются
вариантами записи уравнения Бернулли:
= 2 + ,
y' ay by
которое линеаризуется стандартной заменой   z =1/ y:
z '+bz+a=0.

 

image

 

Таким  образом,  модель  описывает  зависимость,  которая  имеет  S–подобную
(логистическую) форму, представленную на рис. 6.1.

image

Заметим,  что  решение  не  зависит  от  значения  n0 ,  что  свидетельствует  о
несущественности начальных условий для информационной динамики. Каким бы не
было  начальное  количество  публикаций,  насыщение  будет  определяться
исключительно  параметрами,  которые  характеризуют  фоновую  скорость  роста
количества  публикаций,  количественную  меру  актуальности  и  негативные  для
процесса факторы.

 

image

Представим теперь выражение для  u(t)  следующем виде:

 

image

 

image

image

 

Как и ожидалось, величина  vs  также не зависит ни от начального условия, ни от
условия  «сшивки»  с  функцией  u(t)   на  границе  областей.  Как  видно,    полученная
зависимость  имеет  область  насыщения  us   при  t ≤λ   и  асимптотикуvs ,  которая
описывает постепенное уменьшение числа публикаций до фонового уровня. То есть
она,  по  крайней  мере,  на  качественном  уровне,  согласовывается  с  общими
соображениями  о  характере  информационной  динамики,  полученными  на  основе
опытных  данных. Кроме того, на локальных участках она неплохо аппроксимируется
линейной и экспоненциальной моделями.

 

В  случае  информационных  потоков,  которые  ассоциируются  с  конкретными
темами,  необходимо  описывать  динамику  каждого  из  таких  потоков  отдельно,
принимая  во  внимание  то,  что  рост  одного  из  них  автоматически  приводит  к
уменьшению других и наоборот. Поэтому  ограничение на количество сообщений по
всем тематикам распространяется и на совокупность всех монотематических потоков. 
   224     
В  случае  изучения  общего  информационного  потока  наблюдается  явление
«перетекания»   публикаций из одних, теряющих актуальность тематик,  в другие. 
Общая динамика должна описываться системой уравнений, каждое из которых
относится  к  отдельному  монотематическому  потоку.  Подчеркнем,  что  общие
политематические  потоки  являются  стационарными  по  количеству  публикаций,
динамика же в основном определяется «конкурентной борьбой» отдельных тематик.
Приведенную  выше  систему  уравнений    «конкурентной  борьбы»  в  рамках
обобщенной логистической модели можно представить в таком виде:

image

В этих соотношениях коэффициенты  pi  и  Di  имеют тот же смысл, что и ранее, а
λ   являются  точками,  в  которых  соответствующие  Di   достигают  максимальных
i
значений.

Мемы&медиавирусы

Loading...