четверг, 29 сентября 2016 г.

закон Ципфа-Мандельброта

Закон Ципфа

 



Закон Ципфа: График для частот слов из статей русской ВП с рангами от 3 до 170
Закон Ципфа («ранг—частота») —эмпирическая закономерностьраспределения частоты словестественного языка: если все словаязыка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.
 
https://en.wikipedia.org/wiki/Zipf%E2%80%93Mandelbrot_law
 

В 1999 году экономист Ксавье Габэ написал научный труд, в которой описывал закон Ципфа как “закон силы”.
Габэ отметил, что этот закон сохраняется, даже если города растут в хаотическом порядке. Но эта ровная структура ломается, как только вы переходите к городам, не входящим в разряд мегаполисов. Небольшие города с численностью населения около ста тысяч человек, по всей видимости, подчиняются другому закону и показывают более объяснимое распределение размеров.
 
image
Можно задаться вопросом, что же имеется в виду под определением «город»? Ведь, например, Бостон и Кембридж считаются двумя разными городами, так же, как Сан-Франциско и Окленд, разделённые водой. У двух шведских географов тоже возник такой вопрос, и они стали рассматривать так называемые «естественные» города, объединённые населением и дорожными связками, а не политическими мотивами. И они обнаружили, что даже такие «естественные» города подчиняются закону Ципфа.
закон Ципфа не имеет аналога в природе. Это социальное явление и оно имеет место только на протяжении последних ста лет.  
Всё, что мы знаем, это то, что закон Ципфа действует и для других социальных систем, включая экономическую и лингвистическую. Таким образом, возможно, есть какие-то общие социальные правила, создающие этот странный закон, и когда-нибудь мы сможем их понять. Тот, кто разгадает этот ребус, возможно, обнаружит ключ к предсказанию намного более важных вещей, чем рост городов. Закон Ципфа может быть лишь небольшим аспектом глобального правила социальной динамики, которое определяет то, как мы общаемся, торгуем, образуем сообщества и многое другое.http://www.softmixer.com/2013/12/blog-post_9294.html
 
СИНЕРГЕТИКА И ЯЗЫКОЗНАНИЕ Евин Игорь Алексеевич Институт машиноведения им. А.А.Благонравова РАН http://old.bfrz.ru/news/iazuki_texstu/17_04_2006/evin_17_04_2006.pdf
 
В 2001 году была сконструирована лингвистическая сеть для английского языка, в которой узлами являются слова. Два слова считаются связанными между собой, если оба слова могут появиться в предложениях рядом или если они несут приблизительно одинаковый смысл. Было обнаружено, что такая сеть, содержащая 440902 слова, имеет высокий коэффициент кластеризации C = 437.0 и два режима степенного закона распределения. Слова с числом связей распределены с показателем степени 3 k < 10 γ = 56.1 , а слова с 3 5 10 k << 10 описываются степенным законом с γ = 7.2 . Такая лингвистическая сеть обладает свойствами «тесного мира» с длиной примерно два с половиной слова. То есть, любое слово этого огромного лексикона может быть достигнуто от любого другого слова менее чем через три промежуточных слова. Несомненно, существованию столь короткого расстояния способствует то обстоятельство, что многие слова естественного языка имеют несколько смыслов (свойство неоднозначности естественных языков). Такая архитектура сетей естественных языков увеличивает эффективность поиска информации, поскольку даже очень разные слова разделена в такой сети всего 2-3 словами и это гарантирует быстрый поиск, что в свою очередь обеспечивает быстроту процесса генерации устной речи.
Согласно теории информации Клода Шеннона (Claude Shannon) цель коммуникации – максимизация информации I(S,R)=H(S) – H(SlR) S – сигналы R – стимулы H(R ) – энтропия стимула H(RlS) – средняя энтропия, связанная с интерпретацией сигнала Сигналы принадлежат набору S={s1,…,si,…,sn}, а стимулы – набору R={r1,…,rj,…,rm}. Мы будем подразумевать под сигналами слова, а под стимулами – смыслы этих слов. Например, слово «ворона» может быть ассоциировано со зрительным образом (объектом соответствующей формы) или со звуковым образом (карканьем). Связь между сигналами и стимулами определяется n*m бинарной матрицей A={ai,j}, в которой ai,j=1, если si и rj связаны между собой и ai,j=0 в противоположном случае. Авторами модели показано, что закон Ципфа можно получить из условного максимума передаваемой информации I(S,R), когда наложено ограничение на величину энтропии сигнала H(S), которую можно рассматривать как меру затрат на коммуникацию Обозначим Es и Eh усилия говорящего и слушающего соответственно. Мерой Es можно взять число слов в лексиконе говорящего, а мерой Eh степень неоднозначности сообщения для слушающего. Веса усилий говорящего и слушающего в коммуникацию можно описать следующей линейной функцией Ω( λ)= λ Es+(1- λ ) Eh , 0<λ<1
Минимальные усилия говорящего соответствует случаю, когда одно единственное слово соответствует множеству объектов извне (Рисунок 3а), но это означает, что для слушающего это наиболее неоднозначная лексическая сеть и поэтому слушающие должен приложить огромные усилия чтобы разрешить эту неоднозначность. Противоположный случай показан на рисунке 3с: он соответствует минимальным усилиям для слушающего, поскольку говорящий использует одно слово для одного объекта и следовательно отсутствует какая-либо неоднозначность (неоднозначность равна нулю). Но это соответствует максимальным усилиям для говорящего.

image_thumb1

Рисунок 3. А) Докритические значения параметра λ, когда словам говорящего соответствует множество смыслов В) Критическое значение параметра λ, соответствующее возникновению безмасштабной сети языка и закону Ципфа, который описывает частоту появления слов в сообщении. С) Надкритическое значение параметра λ соответствует искусственным языкам (например, языкам программирования) когда имеет место взаимно-однозначное соответствие между словами и смыслами
Настраивая λ , мы может двигаться от одного предельного случая к другому предельному случаю. А что означает промежуточное состояние? В промежуточном состоянии с λ= λc происходит резкий переход от некоммуникативной сети, в которой одному сигналу соответствует много объектов, к сети с взаимнооднозначным соответствием сигнала к объекту. Это и есть фазовый переход, аналогичный физическому фазовому переходу. В таком фазовом переходе (3в) мы обнаруживаем типичные для всех фазовых переходах количественные закономерности, в первую очередь закон Ципфа
Феноменологически возникновение сознания можно описать как фазовый переход на основе элементарной катастрофы «сборка» (Рисунок 4). Управляющий параметр λ представляет собой среднее число нейронов, возбуждающихся одним нейроном мозга В модели Феррер-и-Канчо и Соле язык возникает скачком, а не постепенно. То есть не существует промежуточного состояния между богатством человеческого языка и ограниченными сигнальными возможностями некоторых животных. Когда этот скачок произошел, частота использования различных слов во всех языках, как оказалось, подчиняется одному и тому же закону – степенному закону Ципфа.
Рисунок 4. Возникновение языка как коммуникативный фазовый переход. < > - усредненная взаимная информация Адаптировано из работы Fereer-i-Cancho R., Sole R.(2003) Least Effort and the Origins of Scaling in Human Language. PNAS, vol.100, No 3, 788-791, рисунок 1

image_thumb3
Если мы поставим в соответствие число всех связей данного слова в лингвистической сети к частоте его появления в тексте (а такое соответствие имеет место для всех языков), то обнаруженный в таких сетях степенной закон будет иметь место именно в критической точке. Литература Ferrer-i-Cancho, R., Sole, R., 2003, PNAS, vol.100, 788-791]. Ferrer-i-Canch, R., 2005, European Physical Journal B, 47(3):449-457 Ferrer-i-Cancho, R., Sole, R., Kohler, R., 2004, Physical Review E, 69, 05915

















Мемы&медиавирусы

Loading...