Интернет кажется абсолютно хаотической средой, бесконтрольно расширяющейся сетью, которая не подчиняется никаким правилам. Но еще в 90-е ученые обнаружили закономерности в том, как сайты и страницы взаимодействуют друг с другом.
Чтобы описать интернет как единую систему, ученые использовали математический объект — веб-граф. В этой модели не важно ни содержание, ни внешний вид, ни тематика сайтов — только связи между ними. Точнее гиперссылки, которые ведут с одного сайта на другой и в целом навигируют пользователя по интернет-пространству.
Веб-граф выглядит как точки, соединенные друг с другом стрелочками. Каждая вершина — это тот или иной сайт, а стрелочки (их называют «рёбрами» графа) — гиперссылки внутри страниц. Учитывая, что сайтов и страниц в интернете — десятки миллиардов (одна только «Википедия» насчитывает порядка 10 миллионов страниц), представить их все на одной картинке невозможно. Но такая, пусть и абстрактная, модель позволяет рассмотреть интернет как единый природный объект и выявить правила, которым он подчиняется.
Первое правило — безмасштабность
Первое исследование интернета провели физики Альберт-Ласло Барабаши (Albert-László Barabási) и Река Альберт (Réka Albert). В 1999 году они предложили концепцию безмасштабных сетей, которая достаточно точно описывает многие естественно возникающие сети: социальные коммуникации, экономические транзакции, биологические процессы, и, самое главное, сеть Интернет. Эта концепция предполагает, что несмотря на появление всё новых и новых сайтов и «протухание» старых, сам веб-граф остается устойчивым, а количество его вершин и связей между ними увеличиваются пропорционально, то есть с некоторым постоянным множителем (он примерно равен 10).
Второе правило — теория шести рукопожатий
Из предыдущей закономерности вытекает еще одно правило, которое можно сформулировать как «теорию шести рукопожатий». В контексте социальных связей это значит, что одного человека от другого (несмотря на статус, географические положение и так далее) отделяет всего шесть знакомых. То же самое работает и с сайтами: перейти с одного на любой другой (например, с ITMO.NEWS — на сайт Московского зоопарка) можно не более чем за шесть кликов по гиперссылкам.
Третье правило — «деньги к деньгам»
Это правило Барабаши и Альберт назвали «теорией предпочтительного соединения». Это значит, что чем более цитируется некоторый сайт в настоящее время, тем больше вероятность, что вновь появляющиеся сайты будут цитировать его же. Аналогию можно увидеть в народной мудрости «деньги к деньгам» — чем больше суммы на текущем счету человека, тем быстрее они прибавляются.
Можно представить себе ситуацию зарождения интернета. Сначала был всего лишь один сайт — он мог сослаться только на самого себя. Второй сайт мог ссылаться уже и на себя, и на первый сайт. Третий сайт — мог сослаться на себя, на предшественника и на прародителя. В этом мысленном эксперименте видно, что самый первый сайт набирает вес с каждой итерацией. В теории графов это называется «степенью вершины графа», то есть количеством ссылок на определенный сайт. В приведенном примере у самого первого сайта степень будет равна трём (потому что на него ссылается он сам, второй сайт и третий сайт), степень второго — одному, а степень третьего — нулю (на него не ссылается никто).
Математические формулы против спамеров
Перечисленные правила и формулы взяли на вооружение поисковые системы. Например, Yandex Research уже несколько лет проводит совместное с МФТИ исследование, которое в том числе помогает бороться со спамерами и совершенствовать алгоритмы поиска.
Одна из таких проблем — это так называемые «линковые кольца», то есть сайты с искусственной накруткой. Спамерские сайты поднимают цитируемость друг друга с помощью плотной сети гиперссылок — это искусственно поднимает их рейтинг в выдаче поисковика.
Исследователи Яндекса и МФТИ изучают подозрительные сайты с помощью веб-графов и математических формул, выведенных Барабаши и Альберт. Работает это так: сначала считается степень вершин в сетке связанных гиперлинками сайтов (то есть сколько раз был процитирован каждый из сайтов). Далее суммируется число рёбер между ними. И если реальное число ребёр сильно превышает ожидаемое (то есть выведенное из формул), значит, это спамерская структура.
Несмотря на то, что все эти правила были выведены еще в 1999 году, когда число сайтов не превышало 20 миллионов, они продолжают работать и сейчас, когда количество сайтов в интернете давно перевалило за десятки миллиардов. Собственно, как и любые законы физики. Все это подтверждает тезис о том, что интернет, несмотря на всю свою искусственность и сложность устройства, ― такая же часть природы и может быть описан, посчитан и структурирован.
Полную запись лекции можно посмотреть по ссылке.