Многие законы, к числу которых относится и закон Парето возникли благодаря математическому языку.
Одна из фундаментальных фраз математики - уравнение прямой.
Это уравнение - y=a+bx
Линейное уравнение позволяет закодировать закон изменения некоторой величины минимальным количеством символов. Причем как в алгебраической нотации (всего 7 символов), так и в геометрической нотации (просто линия).
Конечно, это здорово, если ту или иную закономерность удается описать линейным уравнением.
Поэтому мы всегда пытаемся построить линейное регрессионное уравнение, оценить степень приближения, попытаться почувствовать - можно ли избежать нелинейности. Даже если нелинейность существенна, на практике удается использовать линейное уравнение (например, линии поддержки и сопротивления, линии каналов в техническом анализе фондовых рынков).
Есть еще одно интересное применения линейной модели в описании нелинейных явлений.
Давайте прологорифмируем оси у и х.
Мы получим новые, логарифмические оси.
Построим линейную модель в новых осях.
Например, получим - u=c+d*v.
Пусть это уравнение хорошо приближает экспериментальные данные.
Вспомним, что мы работаем с логарифмами.
Тогда, на самом деле в исходных координатах наше уравнение выглядит так - ln(y)=c+d*ln(x).
Это уже нелинейное уравнение.
Экспоненцирование дает другую форму этого уравнения - у=ехр(с)*x**d.
где знак "**" обозначает возведение в степень.
Могущество ума налицо - мы вышли в нелинейный мир.
И в этой формуле содержится и закон Парето и еще ряд замечательных результатов.
Часто также пользуются квадратичным приближением: у=а+bx+gx**2
Квадратичное приближение конечно лучше приближает экспериментальные данные, так содержит в себе и линейное приближение и небольшую поправку с помощью квадрата независимой переменной.
Если же построить в логарифмических осях квадратичное приближение, то можно проявить еще бОльшее могущество разума. Правда, инструментальное, но тем не менее.
Итак
Пусть наше уравнение в логарифмических осях выглядит так
u=c+d*v+g*v**2.
В обычных осях закон будет выглядеть как
y=exp( c)*(x**d)*exp(g*lnx*lnx)=
=exp( c)*(x**d)*(x**(g*lnx))=
=exp( c)*(x**(d+g*lnx))
То есть, структурное уравнение (константы а=exp( c ))
показывает зависимость показателя степени.
***
В конце 1940-х Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом.
Расположим слова некоторого большого текста в порядке убывания частоты их встречаемости.
Присвоим самому частому слову ранг 1, следующему - ранг 2 и так далее.
Попытаемся найти закон, связывающий частоту появления слова и ранг этого слова.
Ципф нашел, что такой закон может быть выражен в виде
fr = c,
где f – частота встречаемости слова в тексте;
r – ранг (порядковый номер) слова в списке;
с – некая постоянная величина.
Позднее Б. Мандельброт предложил теоретическое обоснование закона Ципфа. Он сравнивал письменный язык с кодированием, в котором все знаки имеют определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к зависимости, аналогичной закону Ципфа:
f* r**d = c ,
где d – величина (близкая к единице), которая может изменяться в зависимости от свойств текста.
Такие зависимости были найдены и в других проявлениях человеческой деятельности.
К числу таких, например, относится
- распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.),
- распределение городов США по численности населения (Дж. Ципф, 1949 г.),
- распределение населения по размерам дохода (В. Парето, 1897 г.),
- распределение биологических родов по численности видов (Дж. Уиллис, 1922 г.).
- и еще ... т.п... (смотрите статьи про гиперболические законы)
Причина "хороших" законов коренится в удачной фразе математического языка, здорово описывающей отобранные факты.
Математический язык: логарифмируем оси и строим прямую, аппроксимируя нанесенные на график точки.
Но...
Было "замечено", что коэффициент d – величина переменная. Постоянство коэффициента d сохраняется только на "среднем" участке графика распределения.
Тогда пришлось внести модификации.
Носитель распределения (ну просто ось х) разбили на три части: от 0 до r1, от r1 до r2, и от r2 до бесконечности.
Участок распределения с d = const назвали центральной зоной рангового распределения (значение аргумента на этом участке изменяется от r1 до r2). Значениям аргумента от 0 до r1 присвоили название "зона ядра рангового распределения", а значениям аргумента от r2 до бесконечности или некоторого очень большого r3 – название "зоны усечения".
А почему такой закон, а нет ли еще каких-нибудь зон?
Может они есть, а может нет...
Можно утверждать, что это чисто гадательный вопрос и не стоит им заниматься.
Было удобно разбить - и разбили!
----
Примечание
В теории вероятности есть такое понятие - предельный закон распределения.
Нормальный закон распределения - пример такого распределения.
Предельный закон распределения есть распределение суммы большого числа случайных величин.
Суммировать можно величины как с конечной, так и с бесконечной дисперсией.
Сумма случайных величин с конечной дисперсией стремиться к нормальному закону распределению.
А вот суммы величин с бесконечной дисперсией имеют распределение, которое не выражается в элементарных функциях, но может быть представлено с некоторой долей условности гиперболическими законами, к числу которых относятся и закон Ципфа, и закон Лотки, и распределение Парето. Впрочем, характеристическая функция любого предельного закона все же записывается в элементарных функциях.
----
Вернемся к условностям закона Парето, а точнее к классу гиперболических законов, они же степенные законы распределения.
Условность этих законов состоит в том, что эти законы хорошо описывают "среднюю" часть распределения.
И вот тут начинаются неприятности.
У законов с так называемыми толстыми хвостами (что и является признаком очень большой или бесконечной дисперсии) средняя часть по сравнению с хвостом несет меньшую часть информации о представляемом явлении по сравнению с информацией в хвосте распределения.
Но никого это не беспокоит (по неведению или по недостатку прилежания) и появляются бизнес-книги о пользе закона Парето 80/20.
Примечание. Студенты естественно-научных факультетов иронично называют этот закон пивным: 20% студентов выпивают 80% процентов пива!
Неведение состоит о том, что вероятность события, приходящегося на отброшенные 20% может превосходить все допустимые (с точки зрения риск-менеджмента) нормы. Настолько превосходить, что забвение 20% оборачивается техногенными или социальными катастрофами.
Ибо 80% выполненной и остановленной на этом работы гарантирует на 80% аварию или катастрофу еще при жизни производителя работ.
А это уже неприятно, так как отвечать придется при жизни.
***
***
То есть наука есть
- проблема реальности (какой кусок мира рассматривать)
- проблема предмета (какие главные две-три особенности из куска мира взять в качестве предмета)
- проблема метода (как исследовать две-три особенности из куска мира, чтобы они предсказывали в основном поведение того куска мира, на которые нацелилась данная наука)
Так вот когда пишеть "Пусть..", это значит наука как наука состоялась. Она определила реальность, определила предмет и определила метод. И ей глубоко наплевать на поведение реальности до тех, пока сносно предсказывается поведение реальности.
В чистом виде это присутствует в механике. Ну нет в природе тех объектов, тех законов, которые установила механика в чистом виде. Но не сжимается пружина по закону Гука. Ну маятник не качается по синусоиде. И гироскоп не имеет идеального распределения масс, в результате чего возникает прецессия.
Но механика так четко определила предмет своего рассмотрения и метод, что реальность просто не может выскользнуть из тисков механики запросто так, а только фракталами и странными аттракторами, иначе никак.
Но ведь выскальзывает же!
Одна из фундаментальных фраз математики - уравнение прямой.
Это уравнение - y=a+bx
Линейное уравнение позволяет закодировать закон изменения некоторой величины минимальным количеством символов. Причем как в алгебраической нотации (всего 7 символов), так и в геометрической нотации (просто линия).
Конечно, это здорово, если ту или иную закономерность удается описать линейным уравнением.
Поэтому мы всегда пытаемся построить линейное регрессионное уравнение, оценить степень приближения, попытаться почувствовать - можно ли избежать нелинейности. Даже если нелинейность существенна, на практике удается использовать линейное уравнение (например, линии поддержки и сопротивления, линии каналов в техническом анализе фондовых рынков).
Есть еще одно интересное применения линейной модели в описании нелинейных явлений.
Давайте прологорифмируем оси у и х.
Мы получим новые, логарифмические оси.
Построим линейную модель в новых осях.
Например, получим - u=c+d*v.
Пусть это уравнение хорошо приближает экспериментальные данные.
Вспомним, что мы работаем с логарифмами.
Тогда, на самом деле в исходных координатах наше уравнение выглядит так - ln(y)=c+d*ln(x).
Это уже нелинейное уравнение.
Экспоненцирование дает другую форму этого уравнения - у=ехр(с)*x**d.
где знак "**" обозначает возведение в степень.
Могущество ума налицо - мы вышли в нелинейный мир.
И в этой формуле содержится и закон Парето и еще ряд замечательных результатов.
Часто также пользуются квадратичным приближением: у=а+bx+gx**2
Квадратичное приближение конечно лучше приближает экспериментальные данные, так содержит в себе и линейное приближение и небольшую поправку с помощью квадрата независимой переменной.
Если же построить в логарифмических осях квадратичное приближение, то можно проявить еще бОльшее могущество разума. Правда, инструментальное, но тем не менее.
Итак
Пусть наше уравнение в логарифмических осях выглядит так
u=c+d*v+g*v**2.
В обычных осях закон будет выглядеть как
y=exp( c)*(x**d)*exp(g*lnx*lnx)=
=exp( c)*(x**d)*(x**(g*lnx))=
=exp( c)*(x**(d+g*lnx))
То есть, структурное уравнение (константы а=exp( c ))
показывает зависимость показателя степени.
***
В конце 1940-х Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом.
Расположим слова некоторого большого текста в порядке убывания частоты их встречаемости.
Присвоим самому частому слову ранг 1, следующему - ранг 2 и так далее.
Попытаемся найти закон, связывающий частоту появления слова и ранг этого слова.
Ципф нашел, что такой закон может быть выражен в виде
fr = c,
где f – частота встречаемости слова в тексте;
r – ранг (порядковый номер) слова в списке;
с – некая постоянная величина.
Позднее Б. Мандельброт предложил теоретическое обоснование закона Ципфа. Он сравнивал письменный язык с кодированием, в котором все знаки имеют определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к зависимости, аналогичной закону Ципфа:
f* r**d = c ,
где d – величина (близкая к единице), которая может изменяться в зависимости от свойств текста.
Такие зависимости были найдены и в других проявлениях человеческой деятельности.
К числу таких, например, относится
- распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.),
- распределение городов США по численности населения (Дж. Ципф, 1949 г.),
- распределение населения по размерам дохода (В. Парето, 1897 г.),
- распределение биологических родов по численности видов (Дж. Уиллис, 1922 г.).
- и еще ... т.п... (смотрите статьи про гиперболические законы)
Причина "хороших" законов коренится в удачной фразе математического языка, здорово описывающей отобранные факты.
Математический язык: логарифмируем оси и строим прямую, аппроксимируя нанесенные на график точки.
Но...
Было "замечено", что коэффициент d – величина переменная. Постоянство коэффициента d сохраняется только на "среднем" участке графика распределения.
Тогда пришлось внести модификации.
Носитель распределения (ну просто ось х) разбили на три части: от 0 до r1, от r1 до r2, и от r2 до бесконечности.
Участок распределения с d = const назвали центральной зоной рангового распределения (значение аргумента на этом участке изменяется от r1 до r2). Значениям аргумента от 0 до r1 присвоили название "зона ядра рангового распределения", а значениям аргумента от r2 до бесконечности или некоторого очень большого r3 – название "зоны усечения".
А почему такой закон, а нет ли еще каких-нибудь зон?
Может они есть, а может нет...
Можно утверждать, что это чисто гадательный вопрос и не стоит им заниматься.
Было удобно разбить - и разбили!
----
Примечание
В теории вероятности есть такое понятие - предельный закон распределения.
Нормальный закон распределения - пример такого распределения.
Предельный закон распределения есть распределение суммы большого числа случайных величин.
Суммировать можно величины как с конечной, так и с бесконечной дисперсией.
Сумма случайных величин с конечной дисперсией стремиться к нормальному закону распределению.
А вот суммы величин с бесконечной дисперсией имеют распределение, которое не выражается в элементарных функциях, но может быть представлено с некоторой долей условности гиперболическими законами, к числу которых относятся и закон Ципфа, и закон Лотки, и распределение Парето. Впрочем, характеристическая функция любого предельного закона все же записывается в элементарных функциях.
----
Вернемся к условностям закона Парето, а точнее к классу гиперболических законов, они же степенные законы распределения.
Условность этих законов состоит в том, что эти законы хорошо описывают "среднюю" часть распределения.
И вот тут начинаются неприятности.
У законов с так называемыми толстыми хвостами (что и является признаком очень большой или бесконечной дисперсии) средняя часть по сравнению с хвостом несет меньшую часть информации о представляемом явлении по сравнению с информацией в хвосте распределения.
Но никого это не беспокоит (по неведению или по недостатку прилежания) и появляются бизнес-книги о пользе закона Парето 80/20.
Примечание. Студенты естественно-научных факультетов иронично называют этот закон пивным: 20% студентов выпивают 80% процентов пива!
Неведение состоит о том, что вероятность события, приходящегося на отброшенные 20% может превосходить все допустимые (с точки зрения риск-менеджмента) нормы. Настолько превосходить, что забвение 20% оборачивается техногенными или социальными катастрофами.
Ибо 80% выполненной и остановленной на этом работы гарантирует на 80% аварию или катастрофу еще при жизни производителя работ.
А это уже неприятно, так как отвечать придется при жизни.
***
Послесловие.
Если бы жили бы в каком-нибудь криволинейном мире, в котором прямая линия, соединяющая две точки, не была бы кратчайшим расстоянием, то распределение Парето в этом мире было бы такой же диковинкой, как бета-распределение, частным случаем которого и является распределение Парето.***
Реплика "Пусть и наука"
"Пусть... " это как раз и есть наивысшее достижение науки.То есть наука есть
- проблема реальности (какой кусок мира рассматривать)
- проблема предмета (какие главные две-три особенности из куска мира взять в качестве предмета)
- проблема метода (как исследовать две-три особенности из куска мира, чтобы они предсказывали в основном поведение того куска мира, на которые нацелилась данная наука)
Так вот когда пишеть "Пусть..", это значит наука как наука состоялась. Она определила реальность, определила предмет и определила метод. И ей глубоко наплевать на поведение реальности до тех, пока сносно предсказывается поведение реальности.
В чистом виде это присутствует в механике. Ну нет в природе тех объектов, тех законов, которые установила механика в чистом виде. Но не сжимается пружина по закону Гука. Ну маятник не качается по синусоиде. И гироскоп не имеет идеального распределения масс, в результате чего возникает прецессия.
Но механика так четко определила предмет своего рассмотрения и метод, что реальность просто не может выскользнуть из тисков механики запросто так, а только фракталами и странными аттракторами, иначе никак.
Но ведь выскальзывает же!
Комментариев нет:
Отправить комментарий