Как алгоритм pageranking справляется с веб-страницей без исходящих ссылок?
Я узнаю об алгоритме PageRanking, так что извините за некоторые вопросы новичка. Я понимаю, что значение PR вычисляется для каждой страницы путем суммирования входящих ссылок на саму себя.
Теперь меня беспокоит заявление, в котором говорится, что «значения PageRank суммируются к единице» в Википедии .
Как показано в Примере Википедии, если каждая страница имеет исходящую ссылку, то суммирование целых вероятностей с каждой страницы должно быть единицей. Однако если на странице нет исходящей ссылки, такой как страница а в Примере, то суммирование не должно иметь значения 1, верно ?
Таким образом, должен ли алгоритм Pagerank предполагать, что каждая страница имеет хотя бы одну исходящую ссылку ? Не мог бы кто-нибудь подробнее рассказать, как Pageranking справляется со страницами без каких-либо входящих или исходящих ссылок ? Как будут соответственно меняться формулы ? Спасибо
algorithm search-engine google-search pagerank2 ответа
- чтобы установить соединение с некоторой веб-страницей в python
Я должен работать над проектом, в котором я должен установить связь с веб-страницей, чтобы я мог собрать фрагменты схемы xml dtd с этой страницы и применить к ней свой алгоритм поиска, который ищет ключевые слова, введенные пользователем. Я уже создал алгоритм в python , но не знаю, как установить…
- Как я могу подсчитать количество исходящих ссылок на странице?
Обучение выскабливанию с помощью Ruby. Я пытаюсь подсчитать количество исходящих ссылок на данной странице, но не знаю, как сказать Ruby, что я хочу подсчитать только исходящие ссылки. Мой текущий код: require open-uri # Collect info puts What is your URL? url = gets.chomp puts Your URL is #{url}…
12
Поскольку Page-rank описан в оригинальной статье и в статье Википедии, он действительно не определен, когда out-degree(v)=0
для некоторых v
, так как вы получаете P(v,u)=d/n+(1-d)*0/0
— который не определен
Узел, который не имеет исходящего края, называется висячим узлом , и есть в основном 3 распространенных способа позаботиться о них:
- Исключите такие узлы из графика (и повторяйте процесс итеративно до тех пор, пока не останется висячих узлов.
- Считайте, что эти страницы ссылаются на страницы, которые ссылались на них (т. е. — для каждого ребра
(u,v)
, еслиout-degree(v) = 0
, считайте(v,u)
ребром). - Свяжите висячий узел со всеми страницами (включая себя обычно) и эффективно сделайте вероятность случайного прыжка с этого узла 1.
О странице без входящего узла — это не должно быть проблемой, потому что все идеально определено. Такой узел будет иметь ранг страницы ровно
-потому что вы можете добраться до него только случайным серфингом с любого узла — и это вероятность оказаться в нем.
Надеюсь, это ответ на ваш вопрос!
Поделиться amit 02 февраля 2014 в 07:08
2
Алгоритм PageRank ранжирует страницу на основе входящих ссылок на эту страницу. Исходящие ссылки с этой страницы помогают определить PageRank других страниц, на которые она ссылается. Этот процесс повторяется многократно, чтобы определить PageRank.
На каждой итерации значение добавляется к странице a PageRank, если есть входящие ссылки с других страниц. Добавленная стоимость страницы а — это PageRank страницы В, которая содержит входящую ссылку на страницу а, деленную на общее количество исходящих ссылок на странице В.
Таким образом, отсутствие исходящих ссылок не повлияет на PageRank страницы А. Эффект отсутствия исходящих ссылок заключается только в том, что страница а не добавит ценности к PageRank любых других страниц. Напротив, если нет входящих ссылок на страницу B, она будет иметь базовую (очень низкую) PageRank, потому что она никогда не получает добавленной стоимости от входящих ссылок.
Поделиться davemb83 02 февраля 2014 в 06:12
Похожие вопросы:
Справляется ли механизм сборки мусора PHP с рекурсивной проблемой ссылок?
В perl это вызовет рекурсивную ссылку : $a = \$a; И число ссылок $a никогда больше не достигнет 0 … Есть ли у PHP аналогичная проблема? Если нет, то как PHP gc справляется с этим?
как найти общее количество no.of входящих и исходящих ссылок веб-сайта с помощью php?
как найти общее количество no.of входящих и исходящих ссылок веб-сайта с помощью php?
Как создать окончательный jquery-скрипт для отслеживания исходящих ссылок в Google Analytics?
Я нашел несколько сценариев jquery для отслеживания исходящих ссылок в Google Analytics. Но все они, кажется, имеют некоторые недостатки:…
чтобы установить соединение с некоторой веб-страницей в python
Я должен работать над проектом, в котором я должен установить связь с веб-страницей, чтобы я мог собрать фрагменты схемы xml dtd с этой страницы и применить к ней свой алгоритм поиска, который ищет…
Как я могу подсчитать количество исходящих ссылок на странице?
Обучение выскабливанию с помощью Ruby. Я пытаюсь подсчитать количество исходящих ссылок на данной странице, но не знаю, как сказать Ruby, что я хочу подсчитать только исходящие ссылки. Мой текущий…
Расширения браузера Chrome: Как активировать действие страницы для всех исходящих ссылок определенной страницы?
Отслеживание исходящих ссылок не работает
Я пытаюсь отслеживать события в Google analytics для исходящих ссылок, и это, похоже, не работает. Ссылки, которые не выводят вас с сайта, работают нормально, но не исходящие ссылки. Я прикрепляю…
Отслеживание исходящих ссылок и ‘undefined’ ссылок
Я установил следующий код отслеживания исходящих ссылок на веб-сайте, который хорошо работает. Проблема в том, что это вызывает проблему с точками в слайдере изображения также на сайте (используя…
Google Analytics-отслеживание исходящих ссылок с перенаправлением
Я настроил Google Analytics для отслеживания исходящих ссылок . Однако я также установил плагин WordPress под названием Amazon Link Localizer , который изменяет исходящий URL таким образом, что его…
Уникальный стиль только для исходящих ссылок указывающих на определенный сайт
Я хочу назначить правило подчеркивания CSS для исходящих партнерских обратных ссылок, указывающих на определенный веб-сайт. Каждая из этих обратных ссылок уникальна, но корневой домен один и тот же….
Что такое PageRank страницы сайта и как его узнать
В последнее время многие забыли о таком термине как PageRank, который несколько лет назад применяла поисковая система Google и даже позволяла увидеть величину данного показателя для отдельно взятого сайта. Отметим, что несмотря на то, что указанный параметр уже не отображается поисковиком, он не потерял своей значимости и играет важную роль в продвижении электронных ресурсов. Именно поэтому тему следует рассмотреть внимательнее.
Зачем нужен PageRank
Прежде всего разберемся с определением.
PageRank страницы — это алгоритм ссылочного ранжирования, именно он показывает ее значимость, в частности, для поисковиков. Важность определяется цифрой от 0 до 10. При этом если между 0 и 1 отличие небольшое, то между 8 и 9 оно будет огромным, потому как баллы рассчитываются по логарифмической шкале.
Зависит значимость страницы и рассматриваемый показатель от числа и качества ссылок, ведущих на нее. Чем чаще ссылаются на конкретный источник ресурсы, тем более авторитетным он считается. Соответственно, PageRank будет выше.
До 2014 года PR для нужной страницы можно было без проблем найти в Google Toolbar. Потом он перестал обновляться, поэтому функция вызывала мало интереса. С 2016 года система и вовсе не отображает параметр.
Многие владельцы интернет-ресурсов посчитали, что PageRank, как показатель авторитетности электронных страниц, попросту перестал существовать. Но это мнение опровергли сами представители Google. Они сообщили, что скрыли значения с целью предотвращения искусственной накрутки баллов. Только PageRank, как и ранее, играет важную роль в оценке качества и важности страниц, обязательно учитывается поисковиком при определении позиции ресурса в результатах выдачи.
Конечно, понимая значимость показателя, большинство владельцев электронных ресурсов задается вопросом относительно того, как его узнать и можно ли вообще это сделать? Имея на руках актуальное количество баллов, удается оценить привлекательность площадки для поисковика, предпринять эффективные меры для ее повышения.
Как формируется PageRank
Зная, что такое PageRank Google, есть смысл разобраться в том, как он формируется. Сразу обозначим, что информации по этой теме мало, но все же удается найти определенные принципы и формулы.
PageRank формируется по числу внутренних и внешних ссылок, а также по степени их важности. Он определяется для каждой страницы отдельно, а не в целом для сайта. При подсчете баллов учитываются следующие факторы:
- число и качество внешних ссылок;
- количество исходящих ссылок;
- PR каждой ссылающейся странички.
Формула расчета выглядит так:
PR(A) = (1-d) + d (PR(T1) / C(T1) + … + PR(Tn) / C(Tn)).
Рассмотрим обозначения и их расшифровку:
- PR(A) — вес PageRank страницы, который нам необходим;
- d — коэффициент затухания. Зачастую используют 0,85;
- PR(T1) — вес PageRank страницы, ссылающейся на страницу A;
- C(T1) — количество ссылок с этой страницы;
- PR(Tn) / C(Tn) — расчеты для каждой страницы, указывающей на A.
Как упоминалось выше, максимально возможный PR — 10, минимально — 0.
Расчеты отнимают немало времени, но удается получить интересующий показатель и оценить авторитетность ресурса, степень доверия к нему. Единственное, что нельзя учесть — были ли какие-то изменения в данной области в последнее время, насколько точным является параметр.
В чем отличия PageRank от тИЦ (ИКС)
Мы рассмотрели способ оценки качества ресурса, которым пользуется поисковая система Google. Что-то подобное есть и у Яндекса. Ранее это был тИЦ — тематический индекс цитирования. Он тоже определялся уровнем авторитетности отдельно взятого интернет-ресурса. Тот, в свою очередь, зависел от количества ссылок на него с других сайтов, их качества.
Что касается расчета тИЦ, то кроме количества ссылающихся на основной портал ресурсов, учитывалась и тематическая близость этих страниц. Она во многом повлияла на итоговый показатель. Кроме того, сторонние сайты, использующие ссылки, должны были быть обязательно проиндексированными Яндексом.
тИЦ определялся общим весом ссылающихся интернет-ресурсов. На его показатели не влияли:
- порталы, на которых пользователь может оставить собственную ссылку без ведома администрации;
- внутренние ссылки сайта;
- площадки, размещенные на бесплатном хостинге. Исключение составляли только ресурсы, которые есть в Яндекс.Каталоге.
В 2018 году поисковая система Яндекс сообщила пользователям о том, что тИЦ больше не будет рассчитываться, отображаться и играть какую-то роль в оценке авторитетности интернет-площадок. Вместо него 31 августа 2018 года ввели ИКС — индекс качества сайта. Он отличается от прежнего способа оценки учетом дополнительных критериев, таких как:
- трафик;
- кликабельность объектов — CTR;
- число отказов;
- постоянная аудитория;
- продолжительность и особенности просмотров;
- прямые переходы;
- число пользователей, которые вернулись к результатам поиска.
Конечно, точность оценки в данной ситуации заметно выше, ведь учитывается целый ряд дополнительных параметров. И самим владельцам интернет-ресурсов следует быть теперь более внимательными и ответственными, чтобы делать свои проекты популярными и авторитетными.
В качестве заключения отметим, что цели определения PageRank, тИЦ и ИКС одинаковые — оценка качества сайта и степени доверия к нему. Отличия заключаются только в порядке самого оценивания и количестве учитываемых факторов. Безусловно, по числу критериев, которые берутся во внимание при подсчете баллов, выигрывает ИКС. Но преимущество PR заключается в том, что повысить его проще.
PageRank оказывает прямое влияние на ранжирование сайта — это безоговорочно. По нему поисковые системы (ПС) выстраивает ресурсы в списке выдачи. Принцип оценки прост — чем чаще пользователи ссылаются на площадку, тем она качественнее. Что касается ИКС, пока этот показатель не оказывает прямого влияния на позицию сайта в итогах поиска. Но он свидетельствует о качестве ресурса и ссылочной массы, поэтому играет важную роль.
Последнее отличие заключается в том, что PR определяется для страницы отдельно, а ИКС — для сайта в целом.
Как увеличить PageRank
Узнав, что такое PageRank и тИЦ, рассмотрим способы повышения PR, ведь они существуют и в довольно большом количестве.
Начнем с внутренних ссылок, которые также влияют на показатели, и доступны владельцу сайта, а, следовательно, работать с ними проще всего. Необходимо оценить особенности перелинковки. Если все страницы ресурса ссылаются друг на друга, PR распределяется равномерно, но ссылки утрачивают часть своего веса из-за числа. Подобную структуру не следует применять для крупных порталов с большим количеством страниц.
По отношению к сайтам, имеющим иерархическую структуру, самый большой вес дается на главную страницу. Если с нее очень много переходов, то авторитет страниц будет уменьшаться. Следовательно, необходимо взять под контроль уровень вложенности. Каждая посадочная страница должна открываться не больше чем за три клика от главной. Это оптимальное решение.
Что касается внешних ссылок, нужно проследить за тем, чтобы они располагались на разных доменах. Если их разместить на одном сайте, на единой страничке, на интересующий нас показатель это никак не повлияет, работа будет проделана зря.
Обязательно нужно учитывать число переходов по обратной ссылке. Чем интереснее и полезнее контент страницы, тем лучше. В таком случае удастся увеличить вес обратной ссылки.
Не стоит забывать и о расположении ссылочного текста. Чем ближе к началу материала он находится, тем эффективнее работает. Даже если пользователь не дочитает статью до конца, ссылку он обязательно увидит и перейдет на нее, если заинтересуется. На этом моменте остановимся детальнее. Речь идет об околоссылочном тексте. Он должен быть понятным и привлекательным, пояснять, что человек найдет на предлагаемой странице.
Важно знать, что ссылки с тегом «nofollow» поисковая система не берет во внимание. Следовательно, содержимое комментариев на чужих блогах никак не повлияет на рассматриваемый показатель.
Задаваясь вопросом отбора сайтов и страниц для размещения бэклинков, следует учитывать такие критерии:
- соответствие тематики. Отдавать предпочтение нужно ресурсам, интересным для вашей целевой аудитории. Тогда размещенные здесь ссылки увеличат PR, привлекут целевых пользователей;
- авторитет странички. Даже если сайты не считаются авторитетными, но материалы с определенных страниц активно цитируют, ссылки с таких ресурсов окажутся очень ценными;
- число исходящих ссылок. Если с одной страницы их будет очень много, то значимость соответственно упадет;
- посещаемость. Чем она выше, тем выгоднее работать с такой площадкой. Ссылки будут иметь немалый вес.
Это основные моменты, о которых стоило узнать, задаваясь вопросом повышения PageRank.
Как проверить PageRank страницы сайта
Учитывая, что в Google уже не удается проверить интересующий показатель, решение задачи у владельцев интернет-ресурсов начало вызывать ряд вопросов. На самом деле, получить актуальную цифру, узнав вес страницы, сегодня все-таки реально. В этом помогают специальные системы, например, Free Link Checker, Netpeak Spider. Подобных проектов очень много и нужно выбрать среди них тот, который окажется максимально удобным, информативным и точным.
Выше мы приводили пример расчета PR. Но отметим, что компания Google, скорее всего, систематически меняет принципы определения показателя, добавляет новые критерии. Следовательно, полученные на специализированных площадках цифры не могут быть на 100% точными, но в целом помогают сориентироваться в оценке страниц, понять, нужно ли проводить доработку для продвижения ресурса. Также расчеты позволяют определить висячий узел. Это страницы, не имеющие исходящих ссылок. Они не передают вес, а теряют его, нарушают равномерное распределение ссылочного веса по сайту.
Запомнить
PageRank страницы — это важный показатель, позволяющий оценить значимость ресурса для поисковиков, его авторитетность. Он дает возможность понять, требует ли сайт доработки, исправить имеющие место недочеты. Несмотря на то, что тулбарный PR в Google уже устранен и не отображается в свободном доступе, сам показатель продолжает оставаться значимым и учитывается поисковой системой при оценке конкретной площадки. Именно поэтому есть смысл рассчитать PageRank, заняться его повышением при низких показателях.
{«0»:{«lid»:»1573230077755″,»ls»:»10″,»loff»:»»,»li_type»:»em»,»li_name»:»email»,»li_ph»:»Email»,»li_req»:»y»,»li_nm»:»email»},»1″:{«lid»:»1596820612019″,»ls»:»20″,»loff»:»»,»li_type»:»hd»,»li_name»:»country_code»,»li_nm»:»country_code»}}
Истории бизнеса и полезные фишки
как правильно оптимизировать ваш сайт
Зачем нужен внутренний аудит? Ваш сайт скрывает много неиспользуемых возможностей. Важно их найти и задействовать, чтобы подняться в поисковой выдаче. Это в свою очередь повысит трафик и конверсию. Поэтому не спешите закупаться ссылками, сперва определите состояние вашего сайта.
Desktop vs. SaaS — что выбрать?
Когда речь заходит о внутреннем аудите своими руками, вам не обойтись без хорошего ПО. Выбор лежит между SaaS и desktop продуктом. Конкретно под внутреннюю оптимизацию лучше заточены десктопы в силу своей скорости и детальности анализа. Их сейчас немало, но отличия существенны: начиная от места обработки информации (только на операционке, только на жёстком диске или на операционке и жёстком — это напрямую влияет на скорость аудита), заканчивая адекватным юзабилити. В этой статье мы рассмотрим внутренний аудит с помощью одного из десктопов — Netpeak Spider.
Структура страниц
Сперва рекомендуем провести мониторинг архитектуры сайта:
- Расстояние между главной и основными страницами должно исчисляться 1 кликом.
- Глубина сайта должна быть продумана (пользователь не проходит квесты в поиске нужной страницы). Волшебной формулы расчёта нет. Просто постарайтесь максимально упростить задачу пользователя в поиске информации.
Программное исполнение
- Код ответа сервера: 200, 301/302, 4xx, 5xx. Очень часто случается, что склейку страницы проводят с помощью 302 редиректа — не надо так. Постоянное перенаправление проводим с помощью 301-го, временное — 302-го. Совсем «не ок», когда внутренние ссылки на вашем сайте ведут к несуществующей странице с 404-й ошибкой.
- Дубли. Даже самый качественный контент можно убить, не проставив на частично похожих или повторяющихся страницах canonical. В таком случае вас ожидает ухудшение индексации, выявление нерелевантной страницы роботом (он выбирает на своё усмотрение), утрата доли естественных ссылок (пользователи ссылаются на дублированную страницу).
- Sitemap. Поисковому роботу нередко тяжело проиндексировать весь сайт (в особенности, если у вас крупный интернет-магазин). В таком случае направьте его, указав с помощью sitemap, что именно нужно индексировать.
- Robots.txt. Неверно прописанный robots.txt может закрыть доступ к целым тематическим категориям. И тогда вам не поможет ни уникальный контент, ни правильная разметка — всё это тщетно, если страницы скрыты от поисковых роботов.
- Висячие узлы. Внутренние ссылки позволяют пользователю ориентироваться в структуре сайта, направляют по его страницам. Висячими узлами называют ссылки на такие страницы, которые сами никуда не ведут. В итоге вы теряете ссылочный вес и повышаете вероятность потери пользователей, которые просто уйдут на другие сайты.
- Внутренний PageRank. Вам нужно знать, как распределяется ссылочный вес в пределах вашего сайта. Так вы пойметес, какие страницы, являясь неважными, напрасно получают избыточный вес. Грамотная схема перелинковки внутри сайта может сэкономить приличный бюджет.
Проверить PageRank можно так:
Контент
- Заголовки h2-h6. Здесь важно избегать дублирования заголовков, наличия нескольких сразу или полного их отсутствия.
Это не критические ошибки, но ваш контент наверняка направлен на информирование и привлечение пользователей. Скорее всего, не видя заголовка и не понимая, о чём статья, юзер просто закроет страницу. О спам-заголовках и вовсе промолчим. Здесь и так всё понятно: ни в коем случае.
- Оформление текста. Даже если у вас уникальный и крутой контент, это не гарантирует, что пользователь его прочтёт. Ему может просто не понравиться оформление текста. Так что структурируйте его, выделяйте заголовки, подзаголовки, прикрепляйте изображения. Помните: вы пишете для людей.
- Заспамленность. Проводя «сео-оптимизацию своего сайта бесплатно за 2 минуты», помните, что «сео-оптимизация сайта бесплатно за 2 минуты» должна обходиться без избытка ключевых слов.
- Изображения. Отсутствие атрибута ALT (подписи к изображению), непроработанные километровые инфографики без сжатия, замедляющие загрузку страницы, — это не понравится ни вашим пользователям, ни поисковикам.
Подытожим. Проводя внутренний аудит, обязательно проверяйте:
- структуру сайта, глубину ключевых для продвижения страниц;
- дубли, коды ответа сервера, robots.txt, sitemap, висячие узлы;
- оформление и заспамленность контента;
- распределение ссылочного веса с помощью внутреннего PageRank.
Не забывайте, что внутренний аудит следует проводить регулярно. Проверяйте изменения в перелинковке сайта, возможном дублировании страниц и их canonical — всё это непосредственно влияет на место вашего сайта в поисковой выдаче. В этой статье мы рассмотрели некоторые важные параметры, однако внутри программы Netpeak Spider их больше 60-ти. Изучайте их, экспериментируйте, применяйте.
А как считаете вы, какие параметры аудита заслуживают первостепенного внимания?
закрывать или нет? — SEO словарь веб-студии Муравейник
В данной статье разберем, что делать с висячими узлами на сайте. Подписчик спрашивает: «Интересно узнать про висячие узлы. Так ли необходимо закрывать их или не так много веса по ним уходит?».
Что такое висячие узлы?
Если вы обойдете сайт каким-нибудь краулером (программой для сканирования сайта), он построит паутинку из ссылочных связей внутри сайта: страница А ссылается на страниц В, та в свою очередь на страницу С, а последняя жадничает и ни на кого не ссылается. И вот это вещь с нессылающейся ни на кого страницей называется «висячим узлом».
На данный момент висячии узлы встречается не так часто на реальных сайтах — просто потому, что структура стандартного построения сайта поменялась. Например, раньше, в двухтысячных годах, очень часто делали версию для печати. Нельзя было нормально печатать страницу, просто нажав на кнопку. Сейчас это можно сделать с помощью стилей, а тогда то ли нельзя было, то ли так не делали. И поэтому делалась отдельная страница для печати: то есть была какая-нибудь статья, и в уголке принтер был нарисован, на него кликали и попадали на страницу для печати. Так как эта страница была без обвязки — без менюшки, технических элементов, — то ссылок с нее обычно не было, то есть она как раз была висячим узлом. И таких страниц было очень много. И в те времена об этой проблеме можно было говорить.
Сейчас такие страницы обычно означают, что на сайте есть какая-нибудь проблема. Висячий узел — это признак того, что какая-то техническая страница попала на индексацию и никак не закрыта. И как правило это те, которые не должны ранжироваться.
Поэтому, если вы нашли у себя такой висячий узел, то сразу проверяете, нужна ли такая страница в поиске, будет ли она полезна пользователям. И обычно ответ — нет. И если так, то просто закрываете ее от индексации и дело с концом.
Влияют ли они на вес
Когда мы считаем условный классический PageRank, а именно сколько страниц вашего сайта накапливает на себе веса, который может передать дальше. Он ей помогает ранжироваться, и она передает его дальше. И что происходит в этот момент? Когда вы составили перелинковку страниц, то есть они у вас ссылаются друг на друга, то если говорить про классический PageRank, который имеет несколько проходов, происходит такой момент: страница А ссылается на В и передает ему вес с некоторым дисконтом. Грубо говоря: на А был вес ,она передала В 0,85, то есть чуть меньше. Когда страница В ссылается на С, то еще чуть меньше, но плюс свой вес. То есть таким образом с некоторым дисконтом оно начинает разгонять друг друга, и если много раз так происходит, то дисконтирование каждый такой круг передачи будет все меньше и меньше веса передавать. Поэтому, когда рассчитывается PageRank в разных анализаторах, то кто-то делает один проход (один такой круг), кто-то 2-3, но никто не делает 100, потому что смысла это не имеет, каждый раз будет затухание.
Что происходит, когда в этой красивой системе ссылок страниц друг на друга появляются висячие узлы? То есть, когда цикл прерывается, и страница С перестает ссылаться на А? Тогда страница С набирает на себя вес, но никому его не передает, и в этом случае цикличность перестает работать и не добавляет свой вклад в вес других страниц, на которые могла бы ссылаться. Причем, если брать вариант из 3 страниц, то здесь все понятно: все получили свой вес. Но когда сайт большой и много страниц, которые не передали другим свой вес, то в целом общий вес, который сосредоточен на сайте — немножко меньше. Не в 2-3 раза, а на 10%, например.
Формально это немного мешает продвижению: страницы на себя вес забрали, а другим не отдали. То есть, условная страница отдала 1/20 веса, а могла бы 1\19, если бы «жадины» среди них не было. А учитывая, что висячие узлы обычно ненужные для продвижения страницы, то вообще вес утек на них просто в никуда.
Поэтому сами эти страницы вес не уводят, но немного на них утекает, однако для продвижения это практически никак не заметно. Так что с точки зрения веса это проблем особых не приносит, а вот с точки зрения того, что это как правило мусорные страницы, которые в индексе не нужны — на это стоит обратить внимание. То есть висячие узлы — это не такая большая проблема, как принято об этом говорить.
PageRank — определение термина. SEO-википедия
Определение
PageRank представляет собой алгоритм ссылочного ранжирования веб-страницы, который показывает ее значимость для поисковой системы Гугл. Ранее можно было просчитать показатель для любого отдельного сайта, однако на данный момент он уже не отображается. Тем не менее, своей значимости в оптимизации и продвижении сайтов не утратил.
Необходимость подсчета
PageRankВажность страницы для поисковой системы определялась оценкой от 0 до 10. Так, между 0 и 1 было незначительное отличие в целом, а между 8 и 9 колоссальное, так как оценка рассчитывалась исходя из логарифмической шкалы.
PageRank зависит от качества и количества ссылочной массы, которая приводит на страницу. Так, чем чаще пользователи ссылаются на веб-ресурс, тем быстрее растет его авторитет в глазах поисковой системы.
До 2014 года показатель для любой взятой страницы можно было посчитать в Google Toolbar, а после 2016 он перестал отображаться. Разработчики корпорации Гугл намеренно скрыли показатель, чтобы исключить случаи искусственной накрутки баллов. Тем не менее показатель продолжает использоваться и позволяет оценить качество и пользу страницы для пользователей, поэтому является одним из основных факторов ранжирования для поисковой системы.
Осознавая, насколько PageRank важен для продвижения сайта, многие веб-специалисты пытаются узнать, как его отобразить. Конечно, точно зная количество баллов отдельной страницы, можно предпринять целенаправленные и эффективные действия для улучшения ее качества.
Особенности формирования
PageRankК сожалению, Гугл скрывает данные о том, как работает алгоритм, поэтому сведения предоставлены в урезанном формате.
Так, специалисты полагают, что показатель формируется исходя из количества линков (внутренних и внешних), а также степени их важности. При этом PageRank высчитывается отдельно для всех страниц веб-ресурса, а не в целом.
Во время присвоения оценки учитываются такие моменты:
- качество и количество ссылочной массы;
- число именно исходящих линков;
- PageRank ссылающейся веб-страницы.
Итак, формулу расчета можно представить в таком виде:
PR(A) = (1-d) + d (PR(T1) / C(T1) + … + PR(Tn) / C(Tn)).
Из нее показатель d — это коэффициент затухания, который по умолчанию выставляют 0,85, PR(T1) –вес PageRank веб-страницы, которая ведет на некую страницу А, C(T1) – число ссылок со страницы, а PR(Tn) / C(Tn) – отдельные подсчеты показателя для каждой страницы, ссылающейся на А.
Да, формула довольно сложная и требует внимательных и продолжительных расчетов. Однако благодаря им можно получить значение действительно ценного показателя, который отображает авторитетность веб-сайта и известной поисковой системы.
Показатель PageRank напрямую влияет на ранжирование ресурса при формировании поисковой выдачи. Да, именно по нему Гугл формирует перечень выдачи, помещая сайты с наиболее высокими оценками выше других. Принцип построения простой и понятный – чем чаще посетители ссылаются на ресурс, тем более он востребован и интересен.
Способы увеличения
PageRankСуществует несколько способов увеличения показателя.
1. Внутренние ссылки. Для этого веб-специалист анализирует характер перелинковки. Так, если все страницы сайта ссылаются друг на друга, то показатель равномерно распределяется, однако при этом страдает часть ссылочного веса. Такой способ не подойдет для крупных проектов, где предусмотрено значительное число страниц. Так, веб-ресурсы с иерархической структурой характеризуются тем, что наибольший вес имеет главная страница. Так, если с нее большинство переходов, то авторитет других страниц будет падать. Веб-специалист должен корректировать уровень вложенности – посадочные страницы должны открываться не более чем за 3 клика от основной.
2. Внешние ссылки. Последние должны быть качественными и соответствовать таким условиям:
- быть релевантными общей теме ресурса;
- поддерживать авторитет страницы;
- чем меньше исходящих ссылок с одной веб-страницы, тем больше ее значимость;
- чем выше посещаемость страниц, тем больший вес имеют внешние ссылки и, следовательно, тем выгоднее работать с веб-ресурсом.
Как узнать
PageRank страницыДля того чтобы получить актуальные данные и узнать, какой у веб-страницы вес, можно воспользоваться сторонними ресурсами, такими как Free Link Checker, Netpeak Spider и т. д.
Также выше мы предоставили формулу для приблизительно подсчета баллов PR. Необходимо заметить, что корпорация Гугл, вероятно, регулярно пересматривает алгоритм вычисления показателя, вносит изменения. Поэтому результаты, полученные благодаря сторонним ресурсам, не могут быть абсолютно точными. И все же они позволяют ориентироваться в баллах веб-страницы, понимать общее направление работы и политики продвижения. Также благодаря анализу удается выявить так званый «висячий узел» – страницы, которые вовсе не имеют исходящих ссылок.
Последние не передают никакого веса, в результате чего его теряют, чем препятствуют равномерному распределению ссылочной массы в целом по ресурсу.
Итак, PageRank страницы является критерием ее значимости для поисковых систем, показателем, влияющим на авторитетность сайта у пользователей. На данный момент в открытом доступе PR в Гугл не представлен, и тем не менее посчитать его можно с помощью специальной формулы и сторонних площадок, что позволяет управлять оптимизацией сайта.
Две техники SEO, которые дадут рост трафика уже через месяц. Читайте на Cossa.ru
Показываем, как с помощью рассчитанной на основе алгоритма PageRank перелинковки и рассчитанных на основе алгоритма BM25 текстов повысить позиции сайта по ключевым словам и привлечь больше трафика.
Техника 1. Перелинковка сайта на основе PageRank
Перед перелинковкой мы внимательно изучили статью Александра Садовского «Растолкованный PageRank» и решили применить знания на сайте клиента.
Внутренняя перелинковка — это метод внутренней оптимизации сайта, выполняемый для перераспределения ссылочного веса сайта на продвигаемые страницы. Статический вес сайта всегда равен 100%. Когда одна страница ссылается на другую, она передает некоторую часть своего веса, так называемый ссылочный сок. Таким образом, чем больше ссылочного сока передается страницам, тем более важными они считаются и для посетителей, и для поисковых систем.
Проще говоря, перелинковка выполняет две задачи.
- Внутренние ссылки передают вес с одной страницы на другую.
- Направляют посетителей на важные и ценные страницы.
Алгоритм перелинковки сайта
Рассмотрим алгоритм перелинковки на примере сайта производителя плитки ПВХ для промышленных и спортивных помещений.
1. Выбираем страницы, которые хотим видеть в топе поисковых систем.
В нашем случае это:
- главная;
- полы ПВХ для цеха, склада, производства;
- плитка ПВХ для тренажерного зала;
- полы для гаража, автосервиса и паркинга;
- полы для бассейна, душевой, ванной комнаты;
- плитка ПВХ для офиса;
- полы для кафе и ресторанов;
- полы для ледовых дворцов;
- полы для магазинов и супермаркетов;
- плитка ПВХ для автосервиса;
- полы для технических этажей.
2. Далее узнаём по каждой странице, какие ссылки ведут на страницу и со страницы.
Для этого можно использовать различные сервисы, например: сервис saitreport.ru или программы Xenu1 и PageWeight. Не забываем, что нам нужны только открытые для индексации ссылки, никаких тегов nofollow и noindex там быть не должно. Закрытые ссылки не участвуют в передаче внутреннего веса и нужны исключительно для удобства пользователя, помогая найти нужный раздел, склонить к прочтению дополнительной информации и уменьшить количество отказов.
3. Теперь рассчитываем текущее распределение веса по всему сайту.
Берём отчёт по внутренним ссылкам, которые мы получили в Xenu1 или PageWeight, и вносим данные в таблицу. Мы использовали отчёт по ссылкам в Saitereport.
Так выглядит отчёт по внутренним ссылкам в Excel с Saitereport.
Отчёт по внутренним ссылкам
Для этого используем Excel. Открываем калькулятор, по горизонтали и вертикали вносим все страницы, которые есть на сайте. Для удобства это можно сделать по определённой иерархии. Таких страниц 45 с каждой стороны.
Текущее распределение ссылочного веса по сайту
Заполнили таблицу и получили PageRank для каждой страницы. Квадратики с заливкой показывают, что на определённую страницу ссылаются отдельные страницы. На скриншоте видно, что вес всех страниц практически одинаковый, все страницы ссылаются друг на друга в приблизительно одинаковом количестве, а некоторые не продвигаемые страницы имеют непомерно высокий вес.
Наша задача — сделать такую перелинковку на сайте, чтобы вес был самым высоким на продвигаемых страницах.
Выполнять нужную перелинковку нам поможет та же таблица в Excel.
Запомним, каких ссылок быть не должно:
- Висячих узлов: страниц без исходящих ссылок.
- Зацикливающих страниц: ссылающихся на самих себя.
- Дублирующих ссылок.
- Ссылок на не продвигаемые и страницы с ответом 404.
- Несвязных узлов: страницы без входящих ссылок.
После нескольких итераций у нас получилось такое распределение веса: главная и продвигаемые страницы получили в среднем 7,6% ссылочного веса, в сумме — почти 84% всего PageRank сайта. Остальные страницы сайта получили около 0,5%. То есть модель перелинковки, согласно теории PageRank, сделана правильно. Вес сосредоточен на продвигаемых страницах!
Готовая модель перелинковки
Техника 2. Подготовка текстов на основе алгоритма семантического анализа
Следующий этап — это проведение оптимизации текстов по вхождению ключевых слов.
Для этого мы выполнили семантический анализ всех текстов: определили соответствие поискового запроса документу как на продвигаемых, так и на служебных страницах. Мы применили метод оценки релевантности TF-IDF.
Метод заключается в следующем: чем больше частота запроса в документе, тем значимей будет данный текст по отношению к запросу. То есть вероятность показа этого текста по запросу возрастает. Например:
|
Предложения в тексте | Всего слов | Плитка | ПВХ | Покрытие |
|
---|---|---|---|---|---|---|
Текстура плитки ПВХ ЭКО-ТЕХНО имеет выступающие прямоугольники | 7 | 1 | 1 |
|
||
Плитка обеспечивает сцепление для транспортных средств и для пешеходов | 9 | 1 |
|
|
||
ПВХ-покрытия не взаимодействуют с кислотами, щёлочами, маслами, бензином и другой активной «химией» | 11 |
|
1 | 1 | ||
Плитка ПВХ легко режется | 4 | 1 | 1 |
|
||
Итого | 31 | 3 | 3 | 1 |
Например, из этой таблицы мы понимаем, что запрос «покрытие» используется 1 раз, в то время как «плитка» и «ПВХ» используется по 3 раза. Мы можем заменить вхождение слова «плитка» на слово «покрытие». В таком случае не будет заспамленности, и эту страницу можно будет продвигать по двум запросам — «плитка ПВХ» и «покрытие ПВХ».
В текстах мы выявили чрезмерную заспамленность по ключевым словам. Чтобы уменьшить вхождение фраз, а также расширить его, мы воспользовались подбором ключевых слов Yandex.Wordstat, выделили нужные ключевые запросы и внедрили их в тексты, а чрезмерное количество одинаковых ключевиков — уменьшили. Затем написали подробное техническое задание копирайтеру. Полное ТЗ находится в GoogleDocs. Не все ключевые слова были использованы копирайтером в тексте, так как текст был бы слишком ими перенасыщен. А тексты в первую очередь должны быть написаны для людей.
Результат
В среднем трафик с поисковых систем увеличился на 16% в июне по сравнению с апрелем. Сравнивали с апрелем, потому что в апреле такое же количество дней, как в июне, и столько же праздников. К тому же, в мае и происходили все действия, которые могли повлиять на точность данных. В итоге грамотная внутренняя перелинковка и написанные для людей уникальные тексты, ранжирование которых можно улучшить при помощи TF-IDF, дают прирост органического трафика.
Сравнение поискового трафика
Также выросли позиции по основным ключевым словам. Многие запросы стали видны в топ-100.
- Зелёный цвет — позиции выросли.
- Красный — снизились.
- Без заливки — остались неизменными.
Позиции в поисковой системе
Вывод
Даже если у вас на сайте выполнена базовая внутренняя оптимизация сайта: прописаны title и description, написаны уникальные тексты, грамотная перелинковка сайта всё равно может быть полезна. Она принесёт увеличение органического трафика уже при первой полной переиндексации сайта. Главное помнить, что перелинковка должна быть удобной и пользователям и не создаваться исключительно для перераспределения веса.
Что касается текстов — пишите их в первую очередь для людей и только потом, применяя метод TF-IDF, отрабатывайте их для поисковых систем. Такой подход точно даст результат, так как тексты будут читабельными и поисковый робот будет их правильно трактовать.
Читайте также: 11 советов SEO-шнику, которому попался сложный клиент
Мнение редакции может не совпадать с мнением автора. Ваши статьи присылайте нам на [email protected]. А наши требования к ним — вот тут.
Примеры ошибок, которые исправляются в процессе внутренней оптимизации сайта
Примеры ошибок, которые исправляются в процессе работы:
Битые ссылки
PageRank висячие узлы
Дубликаты страниц
Дубликаты текста
Дубликаты Title
Отсутствующий или пустой Title
Дубликаты Description
Отсутствующий или пустой Description
Битый редирект
Бесконечный редирект
Макс. количество редиректов
Редирект, заблокированный в robots.txt
Редиректы с неправильным форматом URL
Неправильный формат тега Base
Макс. длина URL
Страницы без внутренних ссылок
Ссылки с неправильным форматом URL
Битые изображения
Canonical, заблокированный в robots.txt
Несколько тегов Title
Несколько тегов Description
Отсутствующий или пустой h2
Несколько заголовков h2
Дубликаты h2
Мин. размер контента
PageRank перенаправления
3xx редиректы
Цепочка редиректов
Refresh редиректы
Цепочки Canonical
Редирект на внешний сайт
Некорректную блокировку в robots.txt
Некорректную блокировку в Meta Robots
Некорректную блокировку в X-Robots-Tag
Изображения без атрибута ALT
Макс. размер изображений
5xx ошибки: Server Error
Большое время ответа сервера
Неправильный формат AMP HTML
Кодированные URL
Дубликаты Canonical URL
Отсутствие связей PageRank
Одинаковые Title и h2
Макс. длина Title
Короткий Title
Макс. длина Description
Короткий Description
Макс. длина h2
Макс. размер HTML
Макс. размер контента
Мин. соотношение Text/HTML
Nofollow в Meta Robots
Nofollow в X-Robots-Tag
Неканонические страницы
Не HTTPS-протокол
Макс. количество внутренних ссылок
Макс. количество внешних ссылок
Внутренние nofollow ссылки
Внешние nofollow ссылки
robots.txt
sitemap.xml
Сбор данных о пользовательском интересе в предметной области;
Формирования кластеров поисковых запросов;
Проверка качества и фильтрация семантического ядра;
Распределение запросов по страницам и составление технического задания для текстов;
Разработка, утверждение и размещение Title, h2 и мета продвигаемых страниц;
Написание, утверждение и размещение текстов для продвигаемых страниц;
Диагностика коммерческих факторов;
Оценка поведенческих факторов на основании данных Яндекс.Метрики;
Проверка логики структуры сайта на основании данных о пользовательском спросе.
Страница не найдена — Khoury College Development
В мире, где информатика (CS) присутствует повсюду, CS для всех. CS пересекает все дисциплины и отрасли.
Колледж компьютерных наук Хури стремится к созданию и развитию разнообразной инклюзивной среды.
Первый в стране колледж компьютерных наук, основанный в 1982 году, Khoury College вырос в размерах, разнообразии, образовательных программах и передовых исследовательских достижениях.
В наших региональных кампусах, расположенных в промышленных и технологических центрах, Khoury College предлагает сильные академические программы в ярких городах для жизни, работы и учебы.
Колледж Хури — это сообщество людей, посвятивших себя обучению, наставничеству, консультированию и поддержке студентов по каждой программе.
Программы награждения колледжей и университетов проливают свет на выдающихся преподавателей, студентов, выпускников и партнеров по отрасли.
Наши исследования в реальном мире, выдающиеся преподаватели, выдающиеся спикеры, динамичные выпускники и разнообразные студенты рассказывают свои истории и попадают в новости.
В колледже Хури обучение происходит в классе и за его пределами.Мероприятия в нашей сети кампусов обогащают образовательный опыт.
Информатика повсюду.Студенты колледжа Хури занимаются соответствующей работой, исследованиями, глобальными исследованиями и опытом оказания услуг, которые помогают им расти.
Студенты магистратуры углубляют свои знания благодаря проектной работе, профессиональному опыту работы и исследовательской работе.
Работа над исследованиями с преподавателями занимает центральное место в опыте докторантуры.Докторанты колледжа Хури также могут заниматься исследованиями вместе с партнерами по отрасли.
Преподаватели и студенты колледжа Хури проводят эффективную работу по различным дисциплинам. Обладая широтой областей исследований, мы каждый день решаем новые проблемы в сфере технологий.
Наши институты и исследовательские центры объединяют ведущих академических, промышленных и государственных партнеров, чтобы использовать возможности вычислений.
Исследовательские проекты, разработанные и возглавляемые преподавателями мирового класса Khoury College, привлекают студентов и других исследователей к получению новых знаний.
Исследовательские лаборатории и группы сосредотачиваются на наборе проблем в конкретном контексте, предлагая исследования и сотрудничество.
Эта новая инициатива направлена на устранение рисков для конфиденциальности и личных данных коллективными усилиями на низовом уровне с упором на прозрачность и подотчетность.
Современные помещения, бесшовные системы, инновационные лаборатории и помещения позволяют нашим преподавателям и студентам проводить передовые исследования.
Колледж Хури гордится нашим коллективным и инклюзивным сообществом. Каждый день мы стремимся создавать программы, которые приветствуют самых разных студентов в CS.
Более 20 компьютерных клубов в колледже Хури и Северо-Востоке предлагают что-то для каждого студента.Мы всегда рады новым членам на всех уровнях.
Студенты учатся в современных классах, конференц-залах для совместной работы, а также в ультрасовременных лабораториях и исследовательских центрах.
Сети обеспечивают безопасную и бесперебойную работу кода, современное и надежное оборудование, а наша квалифицированная системная команда управляет поддержкой и обновлениями.
Заинтригованы колледжем Хури и высшим образованием на северо-востоке? Начните здесь, чтобы увидеть общую картину — академические науки, экспериментальное обучение, студенческую жизнь и многое другое.
Готовы сделать следующий шаг в технической карьере? Наши магистерские программы сочетают в себе академическую строгость, высокое качество исследований и значимые возможности для получения опыта.
Добро пожаловать в магистерскую программу Align, предназначенную для людей, готовых добавить информатику (CS) к своим навыкам или переключиться на новую карьеру в сфере технологий.
Будучи докторантом Хури, вы погрузитесь в строгий учебный план, будете сотрудничать с известными преподавателями и окажете влияние в выбранной вами области исследования.
Где бы вы ни находились на пути бакалавриата Хури, у нас есть консультанты, ресурсы и возможности, которые помогут вам добиться успеха и сделать информатику для всех.
Где бы вы ни находились в аспирантуре Хури, наши консультанты, информационные ресурсы и возможности помогут вам выработать индивидуальный путь.
На любом этапе пути Align — и в любом из наших кампусов — консультанты, ресурсы и возможности Khoury поддержат ваш путь к карьере в сфере технологий.
Консультанты и преподаватели помогут вам сориентироваться в докторантуре в колледже Хури — от исследовательских пространств и междисциплинарных проектов до студенческой жизни и ресурсов.
Преподаватели и сотрудники вносят исключительный вклад в Колледж Хури — и в будущее информатики. Мы здесь, чтобы поддержать вас на каждом шагу.
Произошла ошибка при настройке вашего пользовательского файла cookie
Произошла ошибка при настройке вашего пользовательского файла cookieЭтот сайт использует файлы cookie для повышения производительности.Если ваш браузер не принимает файлы cookie, вы не можете просматривать этот сайт.
Настройка вашего браузера для приема файлов cookie
Существует множество причин, по которым cookie не может быть установлен правильно. Ниже приведены наиболее частые причины:
- В вашем браузере отключены файлы cookie. Вам необходимо сбросить настройки своего браузера, чтобы он принимал файлы cookie, или чтобы спросить вас, хотите ли вы принимать файлы cookie.
- Ваш браузер спрашивает вас, хотите ли вы принимать файлы cookie, и вы отказались.Чтобы принять файлы cookie с этого сайта, используйте кнопку «Назад» и примите файлы cookie.
- Ваш браузер не поддерживает файлы cookie. Если вы подозреваете это, попробуйте другой браузер.
- Дата на вашем компьютере в прошлом. Если часы вашего компьютера показывают дату до 1 января 1970 г., браузер автоматически забудет файл cookie. Чтобы исправить это, установите правильное время и дату на своем компьютере.
- Вы установили приложение, которое отслеживает или блокирует установку файлов cookie.Вы должны отключить приложение при входе в систему или уточнить у системного администратора.
Почему этому сайту требуются файлы cookie?
Этот сайт использует файлы cookie для повышения производительности, запоминая, что вы вошли в систему, когда переходите со страницы на страницу. Чтобы предоставить доступ без файлов cookie потребует, чтобы сайт создавал новый сеанс для каждой посещаемой страницы, что замедляет работу системы до неприемлемого уровня.
Что сохраняется в файле cookie?
Этот сайт не хранит ничего, кроме автоматически сгенерированного идентификатора сеанса в cookie; никакая другая информация не фиксируется.
Как правило, в файлах cookie может храниться только информация, которую вы предоставляете, или выбор, который вы делаете при посещении веб-сайта. Например, сайт не может определить ваше имя электронной почты, пока вы не введете его. Разрешение веб-сайту создавать файлы cookie не дает этому или любому другому сайту доступа к остальной части вашего компьютера, и только сайт, который создал файл cookie, может его прочитать.
Разъяснение по рейтингу страницы. Рейтинг страницы Google и как извлечь из него максимальную пользу.
PageRank — это числовое значение, которое показывает, насколько важна страница в Интернете. Google считает, что когда одна страница ссылается на другую страницу, она фактически голосует за другую страницу. Чем больше голосов отдано за страницу, тем важнее она должна быть. Кроме того, важность страницы, на которой проводится голосование, определяет, насколько важно само голосование. Google рассчитывает важность страницы на основе поданных за нее голосов.Насколько важен каждый голос, учитывается при подсчете PageRank страницы.
PageRank — это способ Google определить важность страницы. Это важно, потому что это один из факторов, определяющих рейтинг страницы в результатах поиска. Это не единственный фактор, который Google использует для ранжирования страниц, но он очень важен.
С этого момента мы будем иногда называть PageRank «PR».
Примечания:
Не все ссылки учитываются Google. Например, они отфильтровывают ссылки из известных ферм ссылок.Некоторые ссылки могут привести к наложению санкций на сайт со стороны Google. Они справедливо полагают, что веб-мастера не могут контролировать, какие сайты ссылаются на их сайты, но они могут контролировать, на какие сайты они ссылаются. По этой причине ссылки на сайт не могут нанести вред сайту, но ссылки с сайта могут быть вредными, если они ведут на сайты, на которые были внесены санкции. Так что будьте осторожны с тем, на какие сайты вы ссылаетесь. Если у сайта есть PR0, это обычно штраф, и было бы неразумно ссылаться на него.
Для расчета PageRank страницы учитываются все ее входящие ссылки.Это ссылки внутри сайта и ссылки извне.
PR (A) = (1-d) + d (PR (t1) / C (t1) +… + PR (tn) / C (tn))
Это уравнение, которое вычисляет PageRank страницы. Это оригинал, который был опубликован при разработке PageRank, и, вероятно, Google использует его вариант, но они не сообщают нам, что это такое. Однако это не имеет значения, поскольку это уравнение достаточно хорошее.
В уравнении «t1 — tn» — это страницы, ссылающиеся на страницу A, «C» — это количество исходящих ссылок, которые имеет страница, а «d» — коэффициент демпфирования, обычно равный 0.85.
Мы можем думать об этом проще:
PageRank страницы = 0,15 + 0,85 * («доля» PageRank каждой страницы, которая ссылается на нее)
«share» = PageRank страницы, на которую ссылаются. деленное на количество исходящих ссылок на странице.
Страница «голосует» за количество PageRank каждой страницы, на которую она ссылается. Количество PageRank, за которое он должен проголосовать, немного меньше его собственного значения PageRank (его собственное значение * 0,85). Это значение поровну распределяется между всеми страницами, на которые оно ссылается.
Из этого можно сделать вывод, что ссылка со страницы с PR4 и 5 исходящими ссылками стоит больше, чем ссылка со страницы с PR8 и 100 исходящими ссылками. PageRank страницы, которая ссылается на вашу, важен, но также важно количество ссылок на этой странице. Чем больше ссылок на странице, тем меньшее значение PageRank получит от нее ваша страница.
Если бы различия в значении PageRank между PR1, PR2,… ..PR10 были равны, то этот вывод был бы верным, но многие люди считают, что значения между PR1 и PR10 (максимум) установлены в логарифмической шкале, и есть очень веская причина верить в это.Никто за пределами Google не знает наверняка, так или иначе, но высока вероятность, что шкала логарифмическая или аналогичная. Если это так, это означает, что для перехода страницы на следующий уровень PageRank требуется гораздо больше дополнительного PageRank, чем для перехода с предыдущего уровня PageRank. Результатом является обратный предыдущий вывод, так что ссылка со страницы PR8, которая имеет много исходящих ссылок, стоит больше, чем ссылка со страницы PR4, на которой есть только несколько исходящих ссылок.
Какой бы масштаб ни использовал Google, мы можем быть уверены в одном.Ссылка с другого сайта увеличивает PageRank нашего сайта. Только не забывайте избегать ссылок со ссылочных ферм.
Обратите внимание, что когда страница голосует за свое значение PageRank другим страницам, ее собственный PageRank не уменьшается на значение, которое она голосует. Страница, проводящая голосование, не сообщает свой PageRank и в итоге ничего не остается. Это не передача PageRank. Это просто голосование в соответствии со значением PageRank страницы. Это похоже на собрание акционеров, где каждый акционер голосует в соответствии с количеством принадлежащих ему акций, но сами акции не раздаются.Но даже в этом случае страницы косвенно теряют некоторый PageRank, как мы увидим позже.
Хорошо, пока? Хорошо. Теперь посмотрим, как на самом деле производятся расчеты.
Для расчета страницы ее существующий PageRank (если он есть) полностью игнорируется, и выполняется новый расчет, при котором страница полагается исключительно на PageRank, «проголосовавший» за нее ее текущими входящими ссылками, который мог измениться с момента последний раз, когда рассчитывался PageRank страницы.
Уравнение ясно показывает, как рассчитывается PageRank страницы.Но что не сразу очевидно, так это то, что это не сработает, если расчет будет выполнен только один раз. Предположим, у нас есть 2 страницы, A и B, которые ссылаются друг на друга, и ни на одной из них нет никаких других ссылок. Вот что происходит: —
- Шаг 1. Рассчитайте PageRank страницы A по значению входящих ссылок
Страница A теперь имеет новое значение PageRank. В расчетах использовалось значение входящей ссылки со страницы B. Но страница B имеет входящую ссылку (со страницы A), и ее новое значение PageRank еще не определено, поэтому новое значение PageRank страницы A основано на неточных данных и не может быть точным.
- Шаг 2: Рассчитайте PageRank страницы B по значению входящих ссылок
Страница B теперь имеет новое значение PageRank, но оно не может быть точным, поскольку при вычислении использовалось новое значение PageRank входящей ссылки со страницы A, что неточно.
Это ситуация «Уловки 22». Мы не можем вычислить PageRank A, пока не узнаем PageRank B, и мы не сможем вычислить PageRank B, пока не узнаем PageRank A.
Теперь, когда обе страницы имеют новые рассчитанные значения PageRank, не можем ли мы просто снова запустить вычисления, чтобы получить точные значения? Нет.Мы можем снова запустить вычисления, используя новые значения, и результаты будут более точными, но мы всегда будем использовать неточные значения для вычислений, поэтому результаты всегда будут неточными.
Проблема решается многократным повторением вычислений. Каждый раз выдает немного более точные значения. Фактически, полная точность никогда не может быть достигнута, потому что расчеты всегда основаны на неточных значениях. От 40 до 50 итераций достаточно, чтобы достичь точки, когда любые дальнейшие итерации не приведут к значительным изменениям значений.Именно это делает Google при каждом обновлении, и это причина того, что обновления занимают так много времени.
Следует иметь в виду, что результаты, которые мы получаем в результате вычислений, являются пропорциями. Затем цифры должны быть сопоставлены со шкалой (известной только Google), чтобы получить фактический PageRank каждой страницы. Даже в этом случае мы можем использовать вычисления для распределения PageRank внутри сайта вокруг его страниц, чтобы одни страницы получали более высокую его долю, чем другие.
Примечание:
Вы можете встретить объяснения PageRank, где указано то же уравнение, но результат каждой итерации вычислений добавляется к существующему PageRank страницы.Новое значение (результат + существующий PageRank) затем используется при совместном использовании PageRank с другими страницами. Эти объяснения неверны по следующим причинам:
Они цитируют то же опубликованное уравнение, но затем меняют его с
PR (A) = (1-d) + d (……) на PR (A) = PR (A) + (1-d) + d (……)
Это неверно и не обязательно.
Мы рассмотрим, как организовать ссылки так, чтобы одни страницы имели большую долю PageRank, чем другие. Добавление к существующему PageRank страницы с помощью итераций дает другие пропорции, чем когда уравнение используется в том виде, в котором оно опубликовано.Поскольку добавка не является частью опубликованного уравнения, результаты неверны, и дозирование неточно.
Согласно опубликованному уравнению, вычисляемая страница начинается с нуля на каждой итерации. Он полагается исключительно на свои входящие ссылки. Идея «добавить к существующему рейтингу страницы» этого не делает, поэтому ее результаты обязательно неверны.
Внутренние ссылки
Факт:
У веб-сайта есть максимальное количество PageRank, которое распределяется между его страницами по внутренним ссылкам.
Максимальный PageRank на сайте равен количеству страниц на сайте * 1. Максимум увеличивается за счет входящих ссылок с других сайтов и уменьшается за счет исходящих ссылок на другие сайты. Мы говорим об общем PageRank на сайте, а не о PageRank какой-либо отдельной страницы. Не верьте мне на слово. Вы можете прийти к такому же выводу, используя карандаш, бумагу и уравнение.
Факт:
Максимальное количество PageRank на сайте увеличивается с увеличением количества страниц на сайте.
Чем больше страниц у сайта, тем больше у него PageRank. Опять же, используя карандаш, бумагу и уравнение, вы можете прийти к такому же выводу. Помните, что учитываются только те страницы, о которых знает Google.
Факт:
Из-за плохой ссылки можно не достичь максимального PageRank сайта, но невозможно его превысить.
Плохие внутренние ссылки могут привести к тому, что сайт не будет соответствовать максимальному значению, но никакая внутренняя структура ссылок не может привести к тому, что сайт превысит его.Единственный способ увеличить максимум — добавить больше входящих ссылок и / или увеличить количество страниц на сайте.
Предупреждения:
Хотя я настоятельно рекомендую создавать и добавлять новые страницы для увеличения общего PageRank сайта, чтобы его можно было направить на определенные страницы, есть определенные типы страниц, которые не следует добавлять. Это страницы, которые все идентичны или почти идентичны и известны как «вырезки для печенья». Google считает их спамом, и они могут вызвать тревогу, которая приведет к наказанию страниц и, возможно, всего сайта.Страницы, полные хорошего контента, являются обязательными.
Что мы можем сделать с этим «общим» рейтингом страниц?
Мы собираемся рассмотреть несколько примеров расчетов, чтобы увидеть, как можно манипулировать PageRank сайта, но перед этим я должен указать, что страница будет включена в индекс Google только в том случае, если одна или несколько страниц в Интернете ссылка на него. Это согласно Google. Если страница отсутствует в индексе Google, никакие ссылки с нее не могут быть включены в расчеты.
В примерах мы проигнорируем этот факт, главным образом потому, что другие документы типа «PageRank Explained» игнорируют его в расчетах, и это может сбивать с толку при сравнении документов.Калькулятор работает в двух режимах: — Простой и Реальный. В простом режиме вычисления предполагают, что все страницы находятся в индексе Google, независимо от того, ссылаются ли на них какие-либо другие страницы. В реальном режиме при расчетах не учитываются страницы, на которые нет ссылок. В этих примерах показаны результаты, рассчитанные в простом режиме. pagerank, page rank
Давайте рассмотрим трехстраничный сайт (страницы A, B и C) без внешних ссылок. Мы присвоим каждой странице начальный PageRank, равный 1, хотя не имеет значения, начинаем ли мы каждую страницу с 1, 0 или 99.За исключением нескольких миллионных пунктов PageRank, после многих итераций конечный результат всегда один и тот же. Начиная с 1, требуется меньше итераций для достижения подходящего результата рейтинга страниц, чем при запуске с 0 или любого другого числа. Вы можете использовать карандаш и бумагу, чтобы следить за этим, или вы можете следить за ним с помощью калькулятора.
Максимальный PageRank сайта — это величина PageRank на сайте. В данном случае у нас есть 3 страницы, поэтому максимальное количество сайтов — 3.
В настоящее время ни одна из страниц не ссылается на другие страницы и ни одна из них не ссылается на них.Если вы произведете расчет один раз для каждой страницы, вы обнаружите, что каждая из них получит PageRank 0,15. Независимо от того, сколько итераций вы выполняете, PageRank каждой страницы остается на уровне 0,15. Общий PageRank на сайте = 0,45, тогда как он может быть 3. Сайт серьезно тратит большую часть своего потенциального PageRank.
Пример 1
Теперь начнем снова с присвоением каждой странице PR1. Свяжите страницу A со страницей B и запустите вычисления для каждой страницы. В итоге получаем: —
Page A = 0.15
Страница B = 1
Страница C = 0,15
Страница A «проголосовала» за страницу B, и, как следствие, PageRank страницы B увеличился. Это хорошо выглядит для страницы B, но это всего лишь одна итерация — мы не учли ситуацию с уловкой 22. Посмотрите, что происходит с цифрами после дополнительных итераций: —
После 100 итераций цифры следующие: —
страница A = 0,15
страница B = 0,2775
страница C = 0,15
Это все еще выглядит хорошо для страницы B, но далеко не так хорошо, как это было. Эти цифры более реалистичны.Общий PageRank на сайте теперь составляет 0,5775 — немного лучше, но все же лишь часть того, что могло бы быть.
Примечание:
Технически эти конкретные результаты неверны из-за особой обработки, которую Google применяет к оборванным ссылкам, но они служат для демонстрации простых вычислений.
Пример 2
Попробуйте эту связь. Свяжите все страницы со всеми страницами. Каждая страница снова начинается с PR1. Это дает: —
Page A = 1
Page B = 1
Page C = 1
Теперь мы достигли максимума.Независимо от того, сколько итераций выполняется, каждая страница всегда заканчивается PR1. Те же результаты получаются при связывании в цикл. Например. От A до B, от B до C и от C до D. Просмотрите это в калькуляторе.
Это продемонстрировало, что из-за плохих ссылок довольно легко потерять PageRank, а с помощью хороших ссылок мы можем полностью раскрыть потенциал сайта. Но мы не особенно хотим, чтобы все страницы сайта имели равную долю. Мы хотим, чтобы одна или несколько страниц имели большую долю за счет других. Типы страниц, которые мы можем захотеть иметь более крупную долю, — это индексная страница, центральные страницы и страницы, оптимизированные для определенных условий поиска.У нас всего 3 страницы, поэтому мы передадим рейтинг PageRank на страницу индекса — страницу A. Это будет служить для демонстрации идеи направления.
Пример 3
А теперь попробуйте это. Свяжите страницу A как с B, так и с C. Также свяжите страницы B и C с A. Начиная с PR1 на всех этапах, после 1 итерации результаты будут: —
Страница A = 1,85
Страница B = 0,575
Страница C = 0,575
и после 100 итераций результаты будут следующими: —
страница A = 1.459459
страница B = 0,7702703
страница C = 0,7702703
В обоих случаях общий PageRank на сайте равен 3 (максимум), поэтому ни один не тратится зря.Также в обоих случаях вы можете видеть, что страница A имеет гораздо большую долю PageRank, чем две другие страницы. Это потому, что страницы B и C передают PageRank A, а не другим страницам. Мы направили значительную часть рейтинга страниц в нужное место.
Пример 4
Наконец, сохраните предыдущие ссылки и добавьте ссылку со страницы C на страницу B. Начните снова с PR1 со всех сторон. После 1 итерации: —
Страница A = 1.425
Страница B = 1
Страница C = 0.575
По сравнению с цифрами 1 итерации в предыдущем примере, страница A потеряла некоторый PageRank, страница B немного увеличила, а страница C осталась прежней. Страница C теперь делится своим «голосом» между A и B. Ранее A получал все голоса. Вот почему страница A проиграла, а страница B выиграла. и после 100 итераций: —
Page A = 1.298245
Page B = 0.9999999
Page C = 0.7017543
Когда пыль улеглась, страница C потеряла немного PageRank, потому что, разделив свой голос между A и B, вместо отдавая все это А, А меньше может отдать С в связи A–> C.Таким образом, добавление дополнительной ссылки со страницы вызывает косвенную потерю PageRank страницы, если какая-либо из страниц, на которые она ссылается, возвращает ссылку. Если страницы, на которые он ссылается, не возвращают ссылку, потери PageRank не произошло бы. Чтобы сделать его более сложным, если ссылка возвращается даже косвенно (через страницу, которая ссылается на страницу, которая ссылается на страницу и т. Д.), Страница потеряет немного PageRank. Это не очень важно для внутренних ссылок, но имеет значение при переходе на страницы за пределами сайта.
Пример 5: новые страницы
Добавление новых страниц на сайт — важный способ увеличения общего PageRank сайта, поскольку каждая новая страница добавляет в среднем 1 к общей сумме. После добавления новых страниц их новый PageRank может быть направлен на важные страницы. Мы воспользуемся калькулятором, чтобы продемонстрировать это.
Давайте добавим 3 новые страницы в Пример 3 [просмотр]. Три новые страницы, но они пока ничего для нас не делают. Небольшое увеличение Total и 0 новых страниц.15, как мы увидим, нереалистичны. Так что давайте свяжем их с сайтом.
Свяжите каждую из новых страниц с важной страницей, страницей A [просмотр]. Обратите внимание, что общий PageRank удвоился с 3 (без новых страниц) до 6. Обратите внимание также на то, что PageRank страницы A почти удвоился.
Есть одна проблема с этой моделью. Новые страницы — сироты. Они не попадут в индекс Google, поэтому они не будут добавлять какой-либо PageRank к сайту и не будут передавать какой-либо PageRank на страницу A. На каждую из них должна быть ссылка хотя бы с одной другой страницы.Если страница A является важной страницей, то, как ни удивительно, лучше всего для размещения ссылок использовать страницу A [просмотр]. Вы можете поиграть со ссылками, но, с точки зрения страницы А, для них нет лучшего места.
Не рекомендуется размещать на одной странице ссылки на большое количество страниц, поэтому, если вы добавляете много новых страниц, разложите ссылки. Скорее всего, на сайте более одной важной страницы, поэтому обычно целесообразно распространять ссылки на новые страницы и с них. Вы можете использовать калькулятор, чтобы поэкспериментировать с мини-моделями сайта, чтобы найти лучшие ссылки, которые дают наилучшие результаты для его важных страниц.
Сводка примеров
Вы можете видеть, что, организовав внутренние ссылки, можно направить PageRank сайта на выбранные страницы. Внутренние ссылки могут быть организованы в соответствии с потребностями сайта в PageRank, но это полезно только в том случае, если Google знает о страницах, поэтому постарайтесь убедиться, что Google просматривает их.
Входящие и исходящие ссылки
Примеры можно было бы привести, но, вероятно, будет проще прочитать о них (ниже) и «поиграть» с ними в калькуляторе.
Вопросы
Если на странице есть несколько ссылок на другую страницу, все ли ссылки засчитываются?
Например, если страница A ссылается один раз на страницу B и 3 раза на страницу C, получает ли страница C 3/4 общего рейтинга страницы A?
Концепция PageRank заключается в том, что страница голосует за одну или несколько других страниц. В исходном документе PageRank ничего не говорится о странице, дающей более одного голоса за одну страницу. Идея, похоже, противоречит концепции PageRank и, безусловно, открыта для манипуляций путем нереалистичного распределения голосов за целевые страницы.Например. если необходима исходящая ссылка или ссылка на неважную страницу, добавьте несколько ссылок на важную страницу, чтобы минимизировать эффект.
Поскольку мы вряд ли получим окончательный ответ от Google, разумно предположить, что страница может отдать только один голос за другую страницу и что дополнительные голоса за ту же страницу не учитываются.
Когда страница ссылается на себя, засчитывается ли ссылка?
Опять же, концепция состоит в том, что страницы голосуют за другие страницы.В исходном документе ничего не говорится о страницах, голосующих за себя. Идея, кажется, противоречит концепции, и, кроме того, это был бы еще один способ манипулировать результатами. Таким образом, по этим причинам разумно предположить, что страница не может голосовать за себя и что такие ссылки не учитываются.
Висячие ссылки
«Висячие ссылки — это просто ссылки, указывающие на любую страницу без исходящих ссылок. Они влияют на модель, потому что непонятно, куда распределять их вес, а их очень много.Часто эти висячие ссылки — это просто страницы, которые мы еще не загрузили ………. Поскольку висячие ссылки не влияют напрямую на рейтинг любой другой страницы, мы просто удаляем их из системы, пока не будут рассчитаны все рейтинги страниц. После того, как все рейтинги PageRank рассчитаны, их можно добавить обратно, не оказывая существенного влияния на ситуацию ».
— выдержка из оригинального отчета о рейтинге страниц, подготовленного основателями Google Сергеем Брином и Лоуренсом Пейджем.
Висячая ссылка — это ссылка на страницу, с которой нет ссылок, или ссылка на страницу, которую Google не проиндексировал.В обоих случаях Google удаляет ссылки вскоре после начала вычислений и восстанавливает их незадолго до завершения вычислений. Таким образом, их влияние на PageRank других страниц минимально.
Результаты, показанные в примере 1 (правая диаграмма), неверны, потому что на странице B нет ссылок, идущих от нее, и поэтому ссылка со страницы A на страницу B болтается и будет удалена из вычислений. Результаты вычислений покажут, что все три страницы имеют 0,15.
Для функциональности сайта может быть достаточно ссылки на страницы, на которые нет ссылок, идущих с них, без потери PageRank с других страниц, но это будет пустой тратой потенциального PageRank.Взгляните на этот пример. Потенциал сайта равен 5, потому что на нем 5 страниц, но без ссылки на страницу E у сайта только 4,15.
Свяжите страницу A со страницей E и щелкните Рассчитать. Обратите внимание, что общее количество сайтов сильно уменьшилось. Но поскольку новая ссылка болтается и будет удалена из вычислений, мы можем проигнорировать новую сумму и предположить, что предыдущая 4.15 верна. Это эффект функционально полезных, висящих ссылок на сайте. Нет общей потери PageRank.
Тем не менее, часть потенциальной общей суммы сайта все еще тратится, поэтому свяжите страницу E с страницей A и нажмите Рассчитать. Теперь у нас есть максимальный PageRank, который возможен для 5 страниц. Ничего не теряется.
Хотя с функциональной точки зрения ссылки на страницы внутри сайта без повторной ссылки на них могут быть функциональными, это плохо для PageRank. Бессмысленно тратить PageRank без надобности, поэтому всегда следите за тем, чтобы каждая страница сайта ссылалась хотя бы на одну другую страницу сайта.
Входящие ссылки
Входящие ссылки (ссылки на сайт извне) — это один из способов увеличения общего рейтинга страницы. Другой — добавить больше страниц. Не имеет значения, откуда берутся ссылки. Google признает, что веб-мастер не может контролировать другие сайты, ссылающиеся на сайт, и поэтому сайты не подвергаются наказанию из-за того, откуда берутся ссылки. Из этого правила есть исключение, но оно редкое и не касается данной статьи. Веб-мастер не может сделать это случайно.
PageRank страницы, на которую указывает ссылка, важен, но не менее важно и количество ссылок, идущих с этой страницы. Например, если вы единственная ссылка со страницы с низким PR2, вы получите инъекцию 0,15 + 0,85 (2/1) = 1,85 на свой сайт, тогда как ссылка со страницы PR8, на которой есть еще 99 ссылок от этого повысится PageRank вашего сайта на 0,15 + 0,85 (7/100) = 0,2095. Понятно, что ссылка PR2 намного лучше — или нет? См. Здесь возможную причину, почему это не так.
После того, как PageRank вводится на ваш сайт, вычисления производятся снова, и PageRank каждой страницы изменяется.В зависимости от внутренней структуры ссылок, PageRank некоторых страниц увеличивается, некоторых не изменяется, но ни одна страница не теряет PageRank.
Полезно иметь входящие ссылки на страницы, на которые вы направляете свой PageRank. Инъекция PageRank на любую другую страницу будет распространяться по сайту через внутренние ссылки. Важные страницы получат прирост, но не такой большой, как когда на них есть прямые ссылки. Страница, которая получает входящую ссылку, получает наибольший выигрыш.
Легко представить наш сайт как небольшую автономную сеть страниц. Когда мы делаем расчеты PageRank, мы имеем дело с нашей небольшой сетью. Если мы делаем ссылку на другой сайт, мы теряем часть PageRank нашей сети, а если мы получаем ссылку, к ней добавляется PageRank нашей сети. Но это не так. Для расчета PageRank существует только одна сеть — каждая страница, которую Google имеет в своем индексе. Каждая итерация расчета выполняется во всей сети, а не на отдельных веб-сайтах.
Поскольку вся сеть взаимосвязана, и каждая ссылка и каждая страница играют свою роль в каждой итерации вычислений, для нас невозможно рассчитать влияние входящих ссылок на наш сайт с какой-либо реальной точностью.
Исходящие ссылки
Исходящие ссылки снижают общий рейтинг страницы. Они пропускают PageRank. Чтобы противостоять утечке, постарайтесь убедиться, что ссылки являются взаимными. Из-за PageRank страниц на каждом конце внешней ссылки и количества ссылок, исходящих с этих страниц, взаимные ссылки могут повышать или терять PageRank.Вам нужно быть внимательным при выборе места для обмена ссылками.
Когда PageRank просачивается с сайта через ссылку на другой сайт, это затрагивает все страницы во внутренней структуре ссылок. (Это не всегда отображается после 1 итерации). Страница, с которой вы ссылаетесь, имеет значение, какие страницы больше всего страдают. Без программы для выполнения вычислений конкретных структур ссылок трудно выбрать правильную страницу для ссылки, но обобщение состоит в том, чтобы ссылаться на страницу с самым низким PageRank.
Многие веб-сайты должны содержать некоторые исходящие ссылки, которые не имеют ничего общего с PageRank. К сожалению, все «нормальные» исходящие ссылки дают утечку PageRank. Но есть «ненормальные» способы ссылки на другие сайты, которые не приводят к утечкам. PageRank просачивается, когда Google распознает ссылку на другой сайт. Ответ — использовать ссылки, которые Google не распознает и не считает. К ним относятся действия формы и ссылки, содержащиеся в коде javascript.
Действия с формойАтрибут «действие» формы не обязательно должен быть URL-адресом сценария синтаксического анализа формы.Он может указывать на любую html-страницу на любом сайте. Попытайся.
Пример:
Чтобы быть действительно скрытным, атрибут действия может быть в некотором коде javascript, а не в теге формы, и код javascript может быть загружен из файла ‘js’, хранящегося в каталоге, который запрещен для паука Google файл robots.txt.
JavascriptПример: Щелкните здесь
Как и действие формы, незаметно загружать код javascript, содержащий URL-адреса, из отдельный файл ‘js’ и еще более хитрый, если файл хранится в каталоге, который роботами robots.txt файл.
Атрибут relПо состоянию на 18 января 2005 года Google вместе с другими поисковыми системами распознает новый атрибут тега привязки. Атрибут «rel» используется следующим образом: —
текст ссылки
Атрибут указывает Google полностью игнорировать ссылку. Ссылка не повлияет на PageRank целевой страницы и не повлияет на ее рейтинг.Как будто ссылки не существует. С этим атрибутом больше нет необходимости в javascript, формах или любом другом методе скрытия ссылок от Google.
Во-первых, позвольте мне более подробно объяснить, почему значения, отображаемые на панели инструментов Google, не являются фактическими показателями PageRank. Согласно уравнению и создателям Google, миллиарды страниц в сети в среднем имеют рейтинг страницы 1,0 на страницу. Таким образом, общий PageRank в сети равен количеству страниц в сети * 1, что соответствует большому количеству PageRank, разбросанных по сети.
Диапазон панели инструментов Google составляет от 1 до 10. (Иногда они показывают 0, но это число не считается результатом расчета PageRank). Что делает Google, так это делит полный диапазон фактического рейтинга страницы в Интернете на 10 частей — каждая часть представлена значением, как показано на панели инструментов. Таким образом, значения на панели инструментов показывают только то, в какой части общего диапазона находится PageRank страницы, а не сам фактический PageRank. Цифры на панели инструментов — это просто метки.
Разделение всего диапазона на 10 равных частей — вопрос спорный — Google не говорит.Но поскольку гораздо сложнее переместить точку панели инструментов на более высокий уровень, чем на более низкий уровень, многие люди (включая меня) считают, что деления основаны на логарифмической шкале или чем-то очень похожем, а не на равных. деления линейной шкалы.
Предположим, что это логарифмическая шкала с основанием 10 и что требуется 10 правильно связанных новых страниц, чтобы переместить важную страницу сайта на 1 пункт панели инструментов. Потребуется 100 новых страниц, чтобы переместить его на другую точку, 1000 новых страниц, чтобы переместить его еще на одну, 10 000 страниц и т. Д.Вот почему продвигаться вверх по нижнему пределу намного легче, чем по верхнему пределу.
На самом деле база вряд ли будет 10. Некоторые думают, что она находится в районе отметки 5 или 6, а может быть, даже меньше. Даже в этом случае становится все труднее перемещаться вверх на точку панели инструментов на верхнем конце шкалы.
Обратите внимание, что по мере увеличения количества страниц в сети увеличивается и общий PageRank в Интернете, а по мере увеличения общего PageRank позиции разделов в общей шкале должны изменяться.В результате на некоторых страницах точка панели инструментов отсутствует без «видимой» причины. Если бы реальный PageRank страницы был только чуть выше деления на шкале, добавление новых страниц в сеть привело бы к небольшому смещению этого деления вверх, и страница оказалась бы чуть ниже деления. Индекс Google всегда увеличивается, и они более или менее ежемесячно пересматривают каждую из страниц. Он известен как «танец Google». Когда танец закончится, на некоторых страницах появится точка панели инструментов. Несколько новых страниц может быть всем, что нужно, чтобы вернуть точку после следующего танца.
Значение панели инструментов является хорошим индикатором PageRank страницы, но оно указывает только на то, что страница находится в определенном диапазоне общей шкалы. Одна страница PR5 может быть чуть выше раздела PR5, а другая страница PR5 может быть чуть ниже раздела PR6 — почти целое разделение (точка панели инструментов) между ними.
Советы
Доменные имена и имена файлов
Для паука www.domain.com/, domain.com/, www.domain.com/index.html и domain.com/index.html — разные URL-адреса и , следовательно, разные страницы.Серферы попадают на главную страницу сайта независимо от того, какой из URL-адресов используется, но пауки видят их как отдельные URL-адреса, и это имеет значение при вычислении PageRank. Лучше стандартизировать URL-адрес, который вы используете для домашней страницы сайта. В противном случае каждый URL-адрес может иметь разный PageRank, тогда как весь он должен был перейти только на один URL-адрес.
Если задуматься, как паук может узнать имя файла страницы, которую он возвращает при запросе www.domain.com/? Не может. Имя файла может быть index.html, index.htm, index.php, default.html и т. д. Паук не знает. Если вы сделаете ссылку на index.html внутри сайта, паук сможет сравнить две страницы, но это маловероятно. Итак, это 2 URL-адреса, и каждый получает рейтинг PageRank от входящих ссылок. Стандартизация URL домашней страницы гарантирует, что присвоенный ей PageRank не будет передан призрачным URL.
Пример. Зайдите на мой сайт UK Holidays и UK Holiday Accommodation — как вам такой красивый текст ссылки;). Обратите внимание, что URL-адрес в адресной строке браузера содержит «www.». Если у вас установлена панель инструментов Google, вы увидите, что на странице указан PR5. Теперь удалите www. часть URL-адреса и снова получить страницу. На этот раз у него PR1, и все же это одна и та же страница. Фактически, PageRank предназначен для невидимой страницы с набором фреймов.
Когда эта статья была впервые написана, URL без www имел PR4 из-за использования разных версий URL ссылок на сайте. Это привело к разделению PageRank страницы между двумя страницами (двумя версиями) и, следовательно, между двумя сайтами.Это не лучший способ сделать это. С тех пор я привел в порядок внутренние ссылки и снизил версию без www до PR1, так что PageRank на сайте в основном остается в www. версия, но где-то должен быть сайт, который ссылается на нее без «www». это вызывает PR1.
Представьте себе страницу www.domain.com/index.html. Индексная страница содержит ссылки на несколько относительных URL-адресов; например products.html и details.html. Паук видит эти URL-адреса как www.domain.com/products.html и www.domain.com/details.html. Теперь давайте добавим абсолютный URL для другой страницы, только на этот раз мы опустим www. часть — domain.com/anotherpage.html. Эта страница ссылается на страницу index.html, поэтому паук видит страницы индекса как domain.com/index.html. Хотя для паука это та же индексная страница, что и первая, это другая страница, потому что она находится в другом домене. А теперь посмотрите, что происходит. Каждый из относительных URL-адресов на странице индекса также отличается, потому что он принадлежит домену domain.com/.Следовательно, структура ссылок растрачивает потенциальный PageRank сайта, распределяя его между страницами-призраками.
Добавление новых страниц
Возможен негативный эффект от добавления новых страниц. Возьмите совершенно нормальный сайт. У него есть некоторые входящие ссылки с других сайтов, и его страницы имеют некоторый PageRank. Затем на сайт добавляется новая страница, на которую ссылаются одна или несколько существующих страниц. Новая страница, конечно же, будет получать PageRank от существующих страниц сайта.Эффект состоит в том, что пока общий PageRank на сайте увеличивается, одна или несколько существующих страниц будут терять PageRank из-за того, что новая страница получает прибыль. До определенного момента, чем больше добавляется новых страниц, тем больше потери для существующих страниц. На больших сайтах этот эффект вряд ли будет заметен, но на более мелких — скорее всего.
Таким образом, хотя добавление новых страниц действительно увеличивает общий PageRank на сайте, в результате некоторые страницы сайта теряют PageRank.Ответ заключается в том, чтобы связать новые страницы таким образом внутри сайта, чтобы важные страницы не пострадали, или добавить достаточно новых страниц, чтобы компенсировать эффект (что иногда может означать добавление большого количества новых страниц), или лучше тем не менее, получите еще несколько входящих ссылок.
Разное
Панель инструментов Google
Если в вашем браузере установлена панель инструментов Google, вы будете привыкать видеть PageRank каждой страницы при просмотре веб-страниц. Но не все всегда так, как кажется.Многие страницы, для которых Google отображает PageRank, не были проиндексированы в Google и, конечно же, не имеют собственного PageRank. Что происходит, так это то, что одна или несколько страниц на сайте проиндексированы и был рассчитан PageRank. Показатель PageRank для страниц сайта, которые не были проиндексированы, распределяется на лету — только для вашей панели инструментов. Самого рейтинга PageRank не существует.
Это важно знать, чтобы избежать обмена ссылками со страницами, которые действительно не имеют собственного рейтинга PageRank.Перед обменом найдите страницу в Google, чтобы убедиться, что она проиндексирована.
Подкаталоги
Некоторые люди считают, что Google понижает PageRank страницы на значение 1 для каждого уровня подкаталога ниже корневого. Например. если значение страниц в корневом каталоге обычно составляет около 4, то страницы в следующем ниже уровне каталога обычно будут около 3 и так далее по уровням. Другие люди (в том числе и я) этого совершенно не принимают. В любом случае, поскольку некоторые «пауки» стараются избегать глубоких подкаталогов, обычно считается полезным сохранять структуры каталогов неглубокими (каталоги на один или два уровня ниже корневого).
ODP и Yahoo!
Раньше считалось, что Google повысил рейтинг страниц для сайтов, перечисленных в Yahoo! и ODP (также известный как DMOZ), но в наши дни общее мнение таково, что это не так. Несомненно, для сайтов, перечисленных в этих каталогах, есть рост PageRank, но теперь считается, что причина этого заключается в следующем: —
Google сканирует каталоги, как и любой другой сайт, и их страницы имеют приличный PageRank, и поэтому они хороши входящие ссылки иметь.В случае ODP каталог Google является копией каталога ODP. Каждый раз, когда сайты добавляются и удаляются из ODP, они добавляются и удаляются из каталога Google при следующем обновлении. Запись в каталоге Google — еще одна хорошая входящая ссылка для повышения PageRank. Кроме того, данные ODP используются для поиска на множестве веб-сайтов — больше входящих ссылок!
Объявления в ODP бесплатны, но, поскольку сайты проверяются вручную, это может занять довольно много времени.Чем раньше будет представлен рабочий сайт, тем лучше. Советы по отправке в DMOZ см. В этой статье DMOZ.
(PDF) Вычисление рейтинга страниц с особым вниманием к «болтающимся узлам»
[7] С. Брин и Л. Пейдж, Анатомия крупномасштабной гипертекстовой поисковой машины в Интернете, Comput.
Сети и системы ISDN, 30 (1998), стр. 107–117.
[8] А. З. Бродер, Р. Лемпель, Ф. Магоул и Дж. Педерсен, Эффективное приближение PageRank
кпосредством агрегирования графов, в Proc.Тринадцатая Международная конференция по всемирной паутине
(WWW2004), ACM Press, 2004, стр. 484–485.
[9] Т. Дайар и У. Дж. Стюарт, Квази-сшиваемость, ограничивающие снизу матрицы связи и
почти полностью разложимых цепей Маркова, SIAM J. Matrix Anal. Appl., 18 (1997),
pp. 482–498.
[10] Дж. М. Делкорсо, А. Гулл
ı и Ф. Романи, Быстрое вычисление PageRank с помощью разреженной линейной системы
, Internet Mathemtics, 2 (2005), стр.251–273.
[11] Н. Эйрон, К. С. МакКерли и Дж. А. Томлин, Ранжирование границы сети, в Proc. Тринадцатая
Международная конференция по всемирной паутине (WWW2004), ACM Press, 2004, стр. 309–18.
[12] Л. Элд
ru, Собственные значения матрицы Google, Tech. Представитель LiTH-MAT-R-04-01, кафедра
математики, Университет Линчёпинг, 2004.
[13] Д. Глейх, Л. Жуков, П. Берхин, Быстрый параллельный PageRank: линейная система подход,
тех.rep., Yahoo !, 2004.
[14] Г. Голуб и К. Грейф, Алгоритм типа Арнольди для вычисления PageRank, BIT, 46,
(2006), стр. 759–771.
[15] Голубь Г. и Ван Лоан, Матричные вычисления, Издательство Университета Джона Хопкинса,
Балтимор, третье издание, 1996 г.
[16] А. Гулли и А. Синьорини, Индексируемая сеть — это больше, чем 11,5 миллиардов страниц, в Proc.
Четырнадцатая международная конференция World Wide Web (WWW2005), ACM Press, 2005,
стр.902–903.
[17] Л. Гурвиц, Ж. Леду, Марковское свойство функции цепи Маркова: подход линейной алгебры
, Linear Algebra Appl., 404 (2005), стр. 85–117.
[18] Z. Gy¨
ongyi, Х. Гарсия-Молина и П. Дж., Борьба со спамом с помощью TrustRank, в Proc.
Тридцатая конференция VLDB, ACM Press, 2004, стр. 576–587.
[19] Т. Хавеливала, С. Д. Камвар, Второе собственное значение матрицы Google, техн. rep.,
Кафедра компьютерных наук, Стэнфордский университет, 2003 г.
[20] Т. Х. Хавеливала, С. Д. Камвар, Д. Кляйн, К. Д. Мэннинг и Г. Х. Голуб, Com-
определение PageRank с использованием степенной экстраполяции, Tech. Rep. 2003-45, Стэнфордский университет,
http://dbpubs.stanford.edu/pub/2003-45, июль 2003.
[21] Р.А. Хорн и С. Серра-Капиццано, канонические и стандартные формы для некоторых ранг один
пертурбаций и приложение к (сложной) проблеме Google PageRanking, 2006.
[22] ICF Ipsen, S. Kirkland, Анализ сходимости алгоритма обновления PageRank,
Langville and Meyer, SIAM J.Матрица Анал. Appl., 27 (2006), стр. 952–967.
[23] И. К. Ф. Ипсен и Р. С. Уиллс, Математические свойства и анализ рейтинга страниц Google,
Bol. Soc. Esp. Мат. Апл., 34 (2006), с. 191–196.
[24] Р. У. Джерниган и Р. Х. Баран, Проверка кумуляции в цепях Маркова, Statistics & Prob-
capacity Letters, 64 (2003), стр. 17–23.
[25] С. Д. Камвар, Т. Х. Хавеливала, Г. Х. Голуб, Адаптивные методы вычисления
PageRank, Linear Algebra Appl., 386 (2004), стр. 51–65.
[26] С. Д. Камвар, Т. Х. Хавеливала, К. Д. Мэннинг и Г. Х. Голуб, Методы экстраполяции
для ускорения вычислений PageRank, Proc. Двенадцатая международная конференция World Wide Web
(WWW2003), Торонто, 2003 г., ACM Press, стр. 261–270.
[27] Дж. Г. Кемени и Дж. Л. Снелл, Конечные цепи Маркова, Компания Ван Ностранд Рейнхольд,
1960.
[28] А. Н. Лэнгвилл и К. Д. Мейер, Deeper inside PageRank, Internet Mathematics, (2004),
с.355–400.
[29], Google’s PageRank and Beyond: The Science of Search Engine Rankings, Princeton
University Press, Philadelphia, 2006.
[30], Изменение порядка для проблемы PageRank, SIAM J. Sci. Comput., 27 (2006), pp. 2112–
2120.
[31], Обновление цепей Маркова с учетом рейтинга страниц Google, SIAM J. Matrix Anal.
Appl., 27 (2006), стр. 968–987.
[32] К. П. Ли, Г. Х. Голуб и С. А. Зениос, Быстрый двухэтапный алгоритм для вычисления PageR-
ank и его расширений, tech.rep., Стэнфордский университет, 2003.
[33] Л. Пейдж, С. Брин, Р. Мотвани и Т. Виноград, Рейтинг цитирования PageRank: Обеспечение порядка
в Интернете. http://dbpubs.stanford.edu/pub/1999-66, 1999.
[34] С. Серра-Капиццано, Джордан каноническая форма матрицы Google: потенциальный вклад
в вычисление PageRank, SIAM J. Матрица Анал. Appl., 27 (2005), стр. 305–312.
[35] Р. С. Уиллс, Google’s PageRank: математика, лежащая в основе поисковой системы Math.Intelligencer, 28
16
Улучшенный подход к проблемам PageRank
Мы представляем раздел веб-страниц, который особенно подходит для PageRank. проблемы, в которых граф веб-ссылок имеет структуру вложенных блоков. На основе на разделение веб-страниц, висячие узлы, общие узлы и общие узлов, матрицу гиперссылок можно переупорядочить в более простую блочную структуру. Затем на основе метода параллельных вычислений мы предлагаем алгоритм для Проблемы с рейтингом страниц.В этом алгоритме размерность линейной системы становится меньше, и вектор для общих узлов в каждом блоке может быть вычислен отдельно на каждой итерации. Численные эксперименты показывают, что такой подход ускоряет вычисление PageRank.
1. Введение
Быстрый рост всемирной паутины создал потребность в инструментах поиска. Одним из самых известных алгоритмов веб-поиска является алгоритм Google PageRank [1]. Алгоритм Google PageRank основан на модели случайного пользователя [1], которую можно рассматривать как стационарное распределение цепи Маркова.Одновременно с моделью случайного серфера в [2] был изобретен другой, но тесно связанный подход — алгоритм HITS. Другая модель SALSA [3] включала идеи как HITS, так и PageRank для создания другого рейтинга веб-страниц.
В этой статье мы сосредоточимся на алгоритме Google PageRank. Давайте представим некоторые обозначения алгоритма Google PageRank. Мы можем смоделировать сеть как ориентированный граф с веб-страницами как узлами и гиперссылками как направленными ребрами. Если на графике есть ссылка со страницы на страницу, то для страницы у нее есть исходящая ссылка на страницу, а для страницы — входящая ссылка со страницы.Затем мы можем определить элементы матрицы гиперссылок следующим образом.
Если веб-страница имеет исходящие ссылки, то для каждой ссылки со страницы на другую страницу элементом матрицы является. Если нет ссылки со страницы на страницу, то элемент равен 0. Скаляр — это количество исходящих ссылок со страницы. Таким образом, каждая ненулевая строка суммируется до 1. Если на странице вообще нет исходящих ссылок (например, pdf, изображения или аудиофайла), она называется висячим узлом, и все элементы в th строке устанавливаются на 0. .
Проблема в том, что если хотя бы один узел имеет нулевую исходящую степень, то есть нет исходящих каналов, тогда цепь Маркова поглощает, поэтому требуется модификация. Чтобы решить эту проблему, основатели Google, Брин и Пейдж предлагают заменить каждую нулевую строку (соответствующую висящему узлу) разреженной матрицы гиперссылок плотным неотрицательным вектором (; — вектор-столбец всех единиц, а также может быть персонализированный вектор, см. [4, 5]) и создайте новую стохастическую матрицу, обозначенную,.В векторе элемент, если строка th соответствует висящему узлу, и 0 в противном случае. Другая проблема заключается в том, что в нашем определении пока нет ничего, что гарантирует сходимость алгоритма PageRank или уникальность вектора PageRank с матрицей. В общем случае, если матрица неприводима, эту проблему можно решить. Таким образом, Брин и Пейдж добавили еще одну плотную матрицу возмущений, которая создает прямые связи между каждой страницей, чтобы сделать матрицу несократимой.Тогда стохастическая неприводимая матрица называется матрицей Google и задается формулой где (типичное значение составляет от 0,85 до 0,95. Это показано в [6], которое управляет скоростью сходимости алгоритма PageRank). Математически вектор PageRank — это стационарное распределение так называемой матрицы Google.
Теперь у нас есть много методов для определения вектора PageRank, например, знаменитый Power Method [1, 7, 8]. Из-за огромного размера сети (более 3 миллиардов страниц) это вычисление может занять несколько дней.В [9] Arasu et al. использовали значения из текущей итерации по мере их появления, а не только значения из предыдущей итерации. Они также предположили, что использование структуры сети «галстук-бабочка» [10] будет полезно для вычисления PageRank. В [11] Kamvar et al. представлены различные методы экстраполяции. В [12] Авраченков и др. показали, что методы Монте-Карло уже дают хорошую оценку PageRank для относительно важных страниц после одной итерации. Gleich et al.в [13] представлен внутренний и внешний итерационный алгоритм для ускорения вычислений PageRank. Другими словами, из-за наличия болтающихся узлов Ли и др. [14] разделил сеть на висячие и неразветвленные узлы и применил к этому разделу метод агрегирования.
Недавно была замечена структура графа веб-ссылок. Kamvar et al. в [4] блестяще использовал блочную структуру Интернета для вычисления PageRank. Они также воспользовались тем фактом, что страницы с более низким рейтингом имеют тенденцию сходиться быстрее, и предложили адаптивные методы в [15].Основываясь на характеристиках графа веб-ссылок, исследование распараллеливания PageRank можно найти в [16–21]. В [21] Manaskasemsak и Rungsawang обсуждали распараллеливание степенного метода. В [17] Gleich et al. представил метод для сравнения различных формулировок линейных систем с точки зрения производительности параллельной работы. Cevahir et al. в [16] предложили методы разделения и перераспределения на основе сайтов для параллельного вычисления PageRank. Некоторые специальные модели для параллельного PageRank были предложены в [18–20].
В нашей статье мы объединяем идеи существования висячих узлов и блочной структуры сети и используем новую структуру для матрицы гиперссылок. Затем применяются некоторые методы параллельных вычислений для ускорения вычисления PageRank за счет разделения узлов. Во-первых, мы представляем, что наша цель — вычислить PageRank неразветвленных узлов в линейной системе для задачи Google [22] (раздел 2). Во-вторых, в соответствии с разделением веб-страниц мы получаем специальную структуру матрицы гиперссылок, а затем предлагаем алгоритм (раздел 3).Наконец, мы проводим анализ наших алгоритмов и приводим некоторые численные результаты (разделы 4 и 5).
2. Проблема
Обычно задача Google состоит в том, чтобы решить собственный вектор матрицы в следующем уравнении: Здесь мы вводим некоторые теоремы, чтобы показать, что проблема Google может оказаться линейной системной проблемой, и для этого нужно только вычислить ненормализованный подвектор PageRank неразветвленных узлов. Далее матрица обозначает единичную матрицу.
Теорема 1 (см. [22, линейная система для задачи Google]). Предположим, что матрица является матрицей гиперссылок. Решая линейную систему, и позволяя производить вектор PageRank.
Поскольку матрица коэффициентов в (3) является -матрицей (теорема 8. (4.2) в [23]), а также невырожденной и неприводимой, то решение линейной системы в теореме 1 существует и единственно.
Строки в матрице, соответствующие висячим узлам, будут нулевыми.Исключение «болтающихся узлов» из вычисления PageRank — это естественно и эффективно. Это можно сделать, разделив веб-узлы на неразветвленные узлы и висячие узлы. Это похоже на метод «объединения» всех висячих узлов в один узел [24]. Предположим, что строки и столбцы переставлены в соответствии с разделом, тогда строки, соответствующие висячим узлам, находятся в нижней части матрица: где — множество неразветвленных узлов, а — множество болтающихся узлов.
Тогда матрица коэффициентов в (3) принимает вид а обратная матрица — Следовательно, ненормализованный вектор PageRank в (4) можно записать как Затем Лэнгвилл и Мейер [22] предложили два переупорядоченных алгоритма PageRank для вычисления вектора PageRank. Один из них — это алгоритм 1, называемый алгоритмом переупорядоченного рейтинга страниц, а другой — алгоритмом переупорядоченного рейтинга страниц. Однако, к сожалению, в некоторых случаях переупорядоченный алгоритм PageRank не обязательно является улучшением алгоритма 1.
|
В этом переупорядоченном алгоритме PageRank 1 единственная система, которая должна быть решена, — это. Алгоритм переупорядочения PageRank 2 основан на процессе поиска нулевых строк, который может повторяться рекурсивно на все меньших и меньших подматрицах, продолжаясь до тех пор, пока не будет создана подматрица, не имеющая нулевых строк.Для заинтересованных читателей детали алгоритмов переупорядочения PageRank можно найти в [22]. Однако такая структура сети, которую они используют в алгоритме переупорядочения PageRank 2, непрактична, поскольку переупорядочивание веб-матрицы в соответствии с этой структурой требует поиска в глубину, что является непомерно дорогостоящим в сети. Другими словами, даже несмотря на то, что некоторые матрицы гиперссылок могут подходить для переупорядоченного алгоритма PageRank, для некоторых матриц гиперссылок структура может не существовать. Таким образом, переупорядоченный алгоритм PageRank 2 не будет иметь преимущества перед алгоритмом 1 в этом наихудшем случае.Точно так же мы можем прийти к такому же выводу в их экспериментах. Таким образом, мы возвращаемся к (4) и переупорядочиваем структуру матрицы, чтобы ускорить вычисление вектора PageRank. Целевая функция принимает вид где матрица коэффициентов является нетривиальной главной главной подматрицей матрицы и неособа (теорема 6. (4.16) из [23]).
|
3.1. Блочная структура Интернета
В [4] отмечено, что при сортировке по унифицированному расположению ресурса (URL) граф веб-ссылок имеет вложенную блочную структуру: подавляющее большинство гиперссылок связывают страницы на хосте с другими страницами на тот же хозяин. Это свойство было продемонстрировано при исследовании на реалистичных наборах данных. Итак, в следующих разделах мы рассмотрим ткани, имеющие блочную структуру. Для упрощения обозначений, без потери общности, мы будем предполагать, что граф веб-ссылок имеет блочную структуру блоков:.Таким образом, матрица гиперссылок Затем мы отделяем свисающие узлы от каждого из блоков. Таким образом, мы получаем новые блоки, которые являются исходными блоками с удаленными висячими узлами. Набор узлов — это, где и — набор висящих узлов. Строки и столбцы можно переставлять, делая строки, соответствующие висячим узлам внизу матрицы, точно так же, как (4) в разделе 2: В приведенном выше уравнении подматрица равна
3.2. Разделение общих узлов
Чтобы исследовать детали веб-структуры, мы можем увидеть эксперименты в [4]. Они использовали граф ссылок LARGEWEB [25] и рассмотрели версию LARGEWEB с удаленными висячими узлами, которая содержит примерно 70 M узлов, с более чем 600 M ребрами и требует 3,6 ГБ памяти. Они разделили ссылки в графе на «внутрихостовые» ссылки, что означает ссылки со страницы на другую страницу на том же хосте, и «межхостовые» ссылки, что означает ссылки со страницы на страницу на другом хосте.Посредством подсчета количества двух разных ссылок по отдельности таблица 2 в [4] показывает, что 93,6% ссылок в наборах данных являются внутрихостовыми, а 6,4% — межхостовыми, что означает, что большая часть ссылок является внутрихостовыми, и только одна меньшинство ссылок — это межхостовые ссылки. Они также нашли тот же результат, разбив ссылки по разным доменам. Этот результат приводит к более глубокому изучению структуры матрицы гиперссылок. То есть, если страницы сгруппированы по домену, хосту или другим параметрам, график для страниц будет отображаться в виде блочной структуры.Затем в каждом подблоке меньшая часть узлов имеет связи с другими блоками, и в этой статье мы называем их общими узлами. Определение общего узла дается следующим образом.
Определение 2 (общий узел). Предположим, что граф веб-ссылок с удаленными висячими узлами имеет блоки. Если узел в блоке () имеет хотя бы одну исходящую ссылку на другой другой блок (,) или входящую ссылку из другого другого блока (,), мы называем это общим узлом.
Если узел в графе веб-ссылок не является висячим узлом или общим узлом, мы называем его общим узлом.Узлы в графе веб-ссылок делятся на три класса: висячий узел, общий узел и общий узел. В частности, общие узлы и общие узлы относятся к неразветвленным узлам.
В блоках нет болтающихся узлов, поэтому мы рассматриваем возможность отделения всех общих узлов от блоков и формирования нового блока, обозначенного значком. Следовательно, набор узлов равен. Новый блок () — это блок с удаленными общими узлами. Таким образом, любая подматрица гиперссылок, соответствующая двум разным блокам, становится нулевой матрицей, потому что нет взаимосвязей между разными блоками в.
На рисунке 1 показан простой пример, иллюстрирующий изменение после разделения общих узлов. На рис. 1 (а) есть четыре блока,, и в графе веб-ссылок, и каждый из них имеет ссылки на другие. Однако на рис. 1 (b) после отделения общих узлов от четырех блоков и объединения общих узлов в блок, обозначенный значком, между четырьмя новыми блоками нет связей. Связи существуют только между этим и четырьмя новыми блоками. После выполнения вышеизложенного матрица гиперссылок, соответствующая разделу веб-узлов, имеет следующую структуру: Тогда подматрица, соответствующая гиперссылкам между неразветвленными узлами, оказывается Очевидно, что после разделения общих узлов структура приведенной выше матрицы кажется намного проще, чем предыдущая в (11).
(a) Структура до разделения
(b) Структура после разделения
(a) Структура до разделения
(b) Структура после разделения
3.3. Алгоритм PageRank
Обратите внимание, что матрица в (13) имеет ненулевые подматрицы только в диагонали, последней строке и последнем столбце. Эта специальная структура может уменьшить количество вычислений на каждой итерации. Позволять потом Матрица коэффициентов имеет следующую структуру: Поэтому после исключения Гаусса можно записать как где и делятся на общие и общие разделы.Единственная система, которую необходимо решить, — это (17).
Обратите внимание, что матрица является блочно-диагональной матрицей. Следовательно, подвекторы, которые разделены в соответствии с количеством и размером блоков, могут вычисляться независимо на каждой итерации. Например, на итерации вычислите и разделите на в соответствии с количеством и размером блоков, тогда для векторов у нас есть следующая функция: или же
В результате система PageRank в (8) может быть сокращена до меньшей линейной системы в формулировке (17), в которой подвекторы могут вычисляться независимо на каждой итерации с помощью (20).Таким образом, теперь у нас есть алгоритм, основанный на разделении общих узлов. Между тем, этот алгоритм является расширением метода висящих узлов из раздела 2.
4. Анализ алгоритма 2
Как мы знаем, некоторые графы веб-ссылок имеют структуру вложенных блоков. Тогда, согласно определению общего узла, нетрудно найти общие узлы среди различных блоков. Это может быть сделано путем поиска ненулевых элементов на подматрицах в (10) (,,).Например, если th запись отлична от нуля, то узлы th и узлы th являются общими узлами. Этот процесс может быть повторен на разных подматрицах одновременно с использованием разных компьютеров. В конце соберите общие узлы с разных компьютеров и избавьтесь от повторяющихся узлов, а затем мы получим последний набор общих узлов. Поскольку размерность намного меньше, и мы можем использовать параллельный поиск, шаг 1 в алгоритме 2 не займет много времени для разделения общих узлов.
Обратите внимание, что нет никаких связей между новыми блоками после разделения общих узлов, как и нулевые подматрицы в матрице в (12). Фактически, шаг 3 в алгоритме 2 сокращает затраты времени на большие матрицы, превращая большую матрицу во множество меньших подматриц. Он показывает, что векторы,, могут быть вычислены отдельно, а результаты используются вместе для получения нового вектора для следующей итерации. Параллельное вычисление на этом этапе может сэкономить много времени.
Поскольку точность на каждой итерации не требуется, мы можем вычислить с помощью.Более того, ее можно решить любым подходящим прямым или итеративным методом. Между тем, в [22] они обнаружили, что методы ускорения [9, 11, 15, 26], такие как экстраполяция и предварительные кондиционеры, могут применяться к небольшой системе для достижения еще большего ускорения.
5. Численные эксперименты
5.1. Experiment Foundation
В этом разделе мы даем пример для представления наших алгоритмов.
Пример . Мы рассматриваем три эксперимента, основанные на трех графах веб-ссылок: графике 1, графике 2 и графике 3.Мы предполагаем, что каждый из графов содержит 200 узлов и четыре блока; более того, размер блоков одинаков на каждом графике. Согласно нашему определению веб-страниц, в сети есть три класса страниц: висячие узлы, общие узлы и общие узлы. Чтобы провести сравнение экспериментов, мы предполагаем, что количество оборванных узлов эквивалентно на этих трех графиках. Затем мы устанавливаем разные пропорции общих узлов и общих узлов в этих трех графах.Не умаляя общности, мы предполагаем, что существует три вида пропорций: это 3: 7 на графике 1, 5: 5 на графике 2 и 7: 3 на графике 3, что указывает на то, что количество общих узлов относительно уменьшается. и количество общих узлов относительно увеличивается. Мы также предполагаем, что в каждом графе соотношение между общими узлами и общими узлами в каждом подблоке аналогично соотношению во всем графе веб-ссылок. Между тем, в этих трех графах веб-ссылок выбор общих узлов и ссылок внутри и между субблоками является случайным.
Для точечного графика этих трех графов веб-ссылок, если существует связь от узла к узлу, то точка окрашивается; в противном случае точка белая. Мы гарантируем, что эти три графа веб-ссылок удовлетворяют трем символам в [4]. (1) В сети есть определенная блочная структура. (2) Отдельные блоки намного меньше, чем вся сеть. (3) Есть четкие вложенные блоки .
Например, на рисунке 2 это граф 3, который содержит 200 страниц и имеет структуру вложенных блоков из четырех блоков.Пропорция составляет 7: 3 по всему графику.
Затем в каждом эксперименте мы разделяем узлы на висячие узлы, общие узлы и остальные (общие узлы). Результатом этого процесса является разложение матрицы. На рисунке 3 показано изменение структуры в (4) после этого процесса, который основан на наборе данных с рисунка 2. Рисунок 3 (a) — это граф веб-ссылок до переупорядочения, а рисунок 3 (b) — новый график веб-ссылок после переупорядочения. Этот процесс сводится к простому переупорядочиванию индексов цепи Маркова.Это показывает, что характер новой структуры лучше, чем первоначальной.
(a) Граф веб-ссылок подматрицы до переупорядочения
(b) График веб-ссылок подматрицы после переупорядочения
(a) График веб-ссылок подматрицы до переупорядочения
(b) График веб-ссылок подматрицы после переупорядочения
5.2. Экспериментальные результаты и анализ
На основе трех наборов экспериментальных данных мы сравниваем алгоритм 2 с двумя другими алгоритмами: исходным PageRank и переупорядоченным PageRank.Мы предполагаем коэффициент масштабирования и допуск сходимости. Результаты экспериментов показаны на рисунке 4 и в таблице 1. Рисунки 4 (a), 4 (b) и 4 (c) представляют собой сравнение трех алгоритмов ускорения сходимости в трех отдельных экспериментах. Это показывает, что алгоритм 2 обладает как хорошей способностью к поиску вектора PageRank, так и жесткой скоростью сходимости по сравнению с переупорядоченным PageRank. Это потому, что размерность линейной системы для алгоритма 2 меньше, чем размерность линейной системы для переупорядоченного PageRank.Результат в таблице 1 подразумевает, что для алгоритма 2 требуется больше итераций, чем для метода Power. Однако, поскольку в алгоритме 2 используются параллельные вычисления, алгоритм 2 может значительно ускорить время вычисления PageRank. Для следующей работы попробуем поэкспериментировать на реальных данных.
Приведенный выше код представляет собой функцию, реализованную в библиотеке networkx.
Ниже приведен результат, который вы получите на IDLE после необходимых установок.
|