Google отказалась комментировать утечку документации поискового алгоритма

Эксперт в области SEO Рэнд Фишкин рассказал, что сотрудники Google поделились с ним внутренней документацией, описывающей работу поискового алгоритма компании. Однако сам IT-гигант не намерен комментировать утечку.

Данные о «хороших» и «плохих» кликах, включая их продолжительность / sparktoro.com

Другой эксперт, Майк Кинг, опубликовал подробности утечки. По его мнению, кто-то из стажёров Google по ошибке автоматически опубликовал документацию на GitHub. Судя по истории коммитов, соответствующий код был добавлен в марте 2024 года.

ipullrank.com

Всего в документации описано более 14 тысяч атрибутов. 

Фишкин утверждает, что источник передал ему 2500 страниц документов в надежде, что сообщение об утечке поможет опровергнуть «ложь», которой поделились сотрудники Google о работе алгоритма. По его словам, в документах описывается поисковый API Google и разбирается, какая информация доступна сотрудникам.

Детали, которыми поделился Фишкин, носят технический характер. Утечка описывает, какие данные Google собирает с веб-страниц, сайтов и поисковых систем, и даёт косвенные подсказки экспертам по SEO о том, на чём делает акцент компания.

Так, в ней описывается, как и какие данные собирает и использует Google, какие сайты по деликатным темам ранжируются лучше, как Google обрабатывает небольшие веб-сайты и многое другое. По словам экспертов, некоторые из этих данных противоречат публичным заявлениям представителей Google. Они также отмечают, что алгоритм Google — это, по сути, серия микросервисов, в которых многие функции предварительно обрабатываются и становятся доступными во время выполнения для формирования результатов поиска.

Один из примеров Фишкина демонстрирует, используются ли вообще данные Google Chrome для ранжирования. Представители компании неоднократно заявляли, что они не учитывают такие данные. Однако Chrome упоминается в разделах, посвящённых отображению веб-сайтов в поиске. 

Кроме того, там упоминается система NavBoost, которая подсчитывает клики, сегментирует данные по странам и устройствам, оценивает отдельно домены, поддомены и URL-адреса. Также может применяться модификатор Panda, который оценивает сайты на основе нескольких показателей, связанных с поведением пользователей. Этот модификатор можно применять на уровне домена, поддомена или подкаталога. Суть в том, что для лучшей выдачи нужно получать больше кликов, используя более широкий набор запросов.

Ещё один вопрос заключается в том, какую роль играет E-E-A-T в ранжировании. E-E-A-T (опыт, знания, авторитетность и надёжность) — показатель Google, используемый для оценки качества результатов. Представители компании ранее заявляли, что E-E-A-T не является фактором ранжирования. Однако в документах он есть. E-E-A-T позволяет понижать выдачу при ссылках на нерелевантный сайту контент, отсутствие привязки по геолокации, а также при публикации сомнительного контента, например, порно.

Однако эксперты рассказали, как Google собирает данные об авторе со страницы и верифицирует его. В основном, это работает для новостных статей и научных публикаций. Не факт, что авторство играет роль в ранжировании, однако Google, по крайней мере, отслеживает этот атрибут. Представители компании ранее настаивали на том, что авторство не влияет на рейтинг. Атрибут «siteAuthority», очевидно, предназначен для ранжирования источников по авторитетности.

Кроме того, в работе алгоритма, похоже, используется, функция Twiddlers для переранжирования. Она работает аналогично тому, как фильтры и действия в WordPress. Twiddlers может предлагать ограничения по категориям и даже убирать из поиска небольшие сайты.

При этом файловая система Google способна сохранять версии страниц с течением времени подобно Wayback Machine. Вероятно, при обработке данных рассматриваются только 20 последних версий страницы.

Наконец, Google подсчитывает количество токенов и соотношение общего количества слов в тексте к количеству уникальных токенов. Существует максимальное количество токенов, поэтому авторам следует размещать наиболее важный контент как можно выше. Длинные заголовки страниц не подходят для увеличения количества кликов, но они работают для повышения рейтинга.

Фишкин указывает на проблему, связанную с тем, что многие издатели контента никогда не сомневались в поисковой политике Google: «Исторически сложилось так, что некоторые из самых громких голосов поисковой индустрии и наиболее плодовитые издатели были счастливы некритически повторять публичные заявления Google. Они пишут заголовки типа “Google утверждает, что XYZ — правда”, а не “Google утверждает, что XYZ”. Факты говорят об обратном».

Google не ответила на запросы The Verge относительно документов и не стала опровергать их реальность. Фишкин сообщил, что компания не оспаривала достоверность утечки, но её сотрудник попросил его изменить некоторые формулировки.

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии