Автор: Mario Fischer

Оригинальная статья: https://searchengineland.com/how-google-search-ranking-works-445141

Глубокий анализ работы сложной системы ранжирования Google и компонентов, таких как Twiddlers и NavBoost, влияющих на результаты поиска.

Должно быть ясно всем, что утечка документации Google и публичные документы из антимонопольных слушаний на самом деле не говорят нам точно, как работает ранжирование.

Структура органических результатов поиска теперь настолько сложна – не в последнюю очередь из-за использования машинного обучения – что даже сотрудники Google, работающие над алгоритмами ранжирования, говорят, что больше не могут объяснить, почему результат находится на первом или втором месте. Мы не знаем веса многих сигналов и их точного взаимодействия.

Тем не менее, важно ознакомиться со структурой поисковой системы, чтобы понять, почему хорошо оптимизированные страницы не ранжируются или, наоборот, почему иногда кажущиеся короткими и неоптимизированными результаты появляются в верхней части рейтинга. Самый важный аспект заключается в том, что вам нужно расширить свой взгляд на то, что действительно важно.

Вся доступная информация ясно показывает это. Любой, кто хотя бы немного связан с ранжированием, должен включить эти выводы в собственный образ мышления. Вы увидите свои веб-сайты с совершенно другой точки зрения и включите дополнительные метрики в свои анализы, планирование и решения.

Честно говоря, чрезвычайно сложно нарисовать действительно достоверную картину структуры систем. Информация в интернете довольно различна в своей интерпретации и иногда отличается терминами, хотя подразумевается одно и то же.

Пример: система, отвечающая за построение SERP (страницы результатов поиска), которая оптимизирует использование пространства, называется Tangram. Однако в некоторых документах Google она также называется Tetris, что, вероятно, является отсылкой к известной игре.

На протяжении недель детальной работы я просматривал, анализировал, структурировал, отбрасывал и много раз реструктурировал почти 100 документов.

Эта статья не претендует на исчерпывающую или строгую точность. Она представляет мои лучшие усилия (т.е. «насколько я знаю и верю») и немного духа расследования инспектора Коломбо. Результат – то, что вы видите здесь.

как работает рейтинг Google
Графический обзор того, как работает рейтинг Google, созданный автором статьи.

Новый документ ожидает визита Googlebot

Когда вы публикуете новый веб-сайт, он не индексируется немедленно. Google должен сначала узнать о URL. Обычно это происходит либо через обновленную карту сайта, либо через ссылку, размещенную там с уже известного URL.

Часто посещаемые страницы, такие как главная страница, естественно, быстрее доносят эту информацию о ссылках до Google.

Система Trawler извлекает новый контент и отслеживает, когда нужно повторно посетить URL для проверки обновлений. Этим управляет компонент под названием планировщик. Store server решает, будет ли URL передан дальше или помещен в песочницу.

Google отрицает существование этой песочницы, но недавние утечки предполагают, что (подозреваемые) спам-сайты и сайты с низкой ценностью помещаются туда. Следует отметить, что Google, по-видимому, пропускает некоторый спам, вероятно, для дальнейшего анализа, чтобы обучить свои алгоритмы.

Наш вымышленный документ проходит этот барьер. Исходящие ссылки из нашего документа извлекаются и сортируются на внутренние и внешние исходящие. Другие системы в первую очередь используют эту информацию для анализа ссылок и расчета PageRank. (Подробнее об этом позже).

Ссылки на изображения передаются ImageBot, который вызывает их, иногда со значительной задержкой, и они помещаются (вместе с идентичными или похожими изображениями) в контейнер изображений. Trawler, по-видимому, использует собственный PageRank для корректировки частоты обхода. Если веб-сайт имеет больше трафика, эта частота обхода увеличивается (ClientTrafficFraction).

Alexandria: Великая библиотека

Система индексирования Google, называемая Alexandria, присваивает каждому фрагменту контента уникальный DocID. Если контент уже известен, например, в случае дубликатов, новый ID не создается; вместо этого URL связывается с существующим DocID.

Важно: Google различает URL и документ. Документ может состоять из нескольких URL, содержащих похожий контент, включая разные языковые версии, если они правильно помечены. Сюда также сортируются URL с других доменов. Все сигналы от этих URL применяются через общий DocID.

Для дублирующегося контента Google выбирает каноническую версию, которая появляется в поисковых рейтингах. Это также объясняет, почему другие URL иногда могут ранжироваться аналогично; определение «оригинального» (канонического) URL может меняться со временем.

Каноническая страница
*Рисунок 1: Alexandria собирает URL-адреса для документа.

Поскольку в нашем случае существует только одна версия нашего документа в сети, ему присваивается собственный DocID.

Отдельные сегменты нашего сайта просматриваются на предмет релевантных ключевых фраз и помещаются в поисковый индекс. Там «список попаданий» (все важные слова на странице) сначала отправляется в прямой индекс, который суммирует ключевые слова, встречающиеся на странице несколько раз.

Теперь происходит важный шаг. Отдельные ключевые фразы интегрируются в словарный каталог инвертированного индекса (словарного индекса). Слово «карандаш» и все важные документы, содержащие это слово, уже перечислены там.

Проще говоря, поскольку наш документ заметно содержит слово «карандаш» несколько раз, он теперь перечислен в словарном индексе со своим DocID под записью «карандаш».

DocID присваивается алгоритмически рассчитанный IR (информационно-поисковый) балл для слова «карандаш», который позже используется для включения в Posting List. В нашем документе, например, слово «карандаш» было выделено жирным шрифтом в тексте и содержится в H1 (хранится в AvrTermWeight). Такие и другие сигналы увеличивают IR балл.

Google перемещает документы, считающиеся важными, в так называемый HiveMind, то есть в основную память. Google использует как быстрые SSD, так и обычные HDD (называемые TeraGoogle) для долгосрочного хранения информации, которая не требует быстрого доступа. Документы и сигналы хранятся в основной памяти.

Примечательно, что эксперты оценивают, что до недавнего бума ИИ около половины мировых веб-серверов размещались в Google. Обширная сеть взаимосвязанных кластеров позволяет миллионам блоков основной памяти работать вместе. Один инженер Google однажды отметил на конференции, что теоретически основная память Google могла бы хранить весь веб.

Интересно отметить, что ссылки, включая обратные ссылки, хранящиеся в HiveMind, по-видимому, имеют значительно больший вес. Например, ссылки с важных документов получают гораздо большее значение, в то время как ссылки с URL в TeraGoogle (HDD) могут иметь меньший вес или, возможно, вообще не учитываться.

  • Совет: Предоставляйте своим документам правдоподобные и последовательные значения даты. Используются, среди прочего, BylineDate (дата в исходном коде), syntaticDate (извлеченная дата из URL и/или заголовка) и semanticDate (взятая из читаемого содержания).
  • Подделка актуальности путем изменения даты, безусловно, может привести к понижению рейтинга (demotion). Атрибут lastSignificantUpdate фиксирует, когда последнее значительное изменение было внесено в документ. Исправление мелких деталей или опечаток не влияет на этот счетчик.

Дополнительная информация и сигналы для каждого DocID динамически хранятся в репозитории (PerDocData). Многие системы обращаются к этому позже, когда дело доходит до тонкой настройки релевантности. Полезно знать, что там хранятся последние 20 версий документа (через CrawlerChangerateURLHistory).

Google имеет возможность оценивать и анализировать изменения с течением времени. Если вы хотите полностью изменить содержание или тему документа, теоретически вам нужно создать 20 промежуточных версий, чтобы переопределить старые сигналы контента. Вот почему возрождение просроченного домена (домена, который ранее был активен, но с тех пор был заброшен или продан, возможно, из-за несостоятельности) не дает никакого преимущества в ранжировании.

Если Admin-C домена меняется и его тематическое содержание меняется одновременно, машина может легко распознать это в этот момент. Google тогда устанавливает все сигналы на ноль, и предположительно ценный старый домен больше не предлагает никаких преимуществ перед полностью новым зарегистрированным доменом.

Документы судов Google
Рисунок 2: В дополнение к утечкам, документы с доказательствами из слушаний и судебных процессов в США против Google являются полезным источником для исследования. Вы даже можете найти там внутренние электронные письма.

QBST: Кто-то ищет "карандаш"

Когда кто-то вводит «карандаш» в качестве поискового запроса в Google, начинает работу QBST. Поисковая фраза анализируется, и если она содержит несколько слов, релевантные из них отправляются в словарный индекс для извлечения.

Процесс взвешивания терминов довольно сложен и включает такие системы, как RankBrain, DeepRank (ранее BERT) и RankEmbeddedBERT. Затем релевантные термины, такие как «карандаш», передаются в Ascorer для дальнейшей обработки.

Ascorer: Создается "зеленое кольцо"

Ascorer извлекает топ-1000 DocID для «карандаш» из инвертированного индекса, ранжированных по IR-баллу. Согласно внутренним документам, этот список называется «зеленым кольцом». В отрасли он известен как posting list.

Ascorer является частью системы ранжирования, известной как Mustang, где происходит дальнейшая фильтрация с помощью таких методов, как дедупликация с использованием SimHash (своего рода отпечаток документа), анализ пассажей, системы для распознавания оригинального и полезного контента и т.д. Цель состоит в том, чтобы сократить 1000 кандидатов до «10 синих ссылок» или «синего кольца».

Наш документ о карандашах находится в posting list, в настоящее время на 132 месте. Без дополнительных систем это была бы его окончательная позиция.

Superroot: Превратить 1000 в 10!

Система Superroot отвечает за повторное ранжирование, выполняя прецизионную работу по сокращению «зеленого кольца» (1000 DocID) до «синего кольца» с только 10 результатами.

Twiddlers и NavBoost выполняют эту задачу. Здесь, вероятно, используются и другие системы, но их точные детали неясны из-за расплывчатой информации.

Система Mustang и Superroot
Рисунок 3: Mustang генерирует 1000 потенциальных результатов, а Superroot фильтрует их до 10 результатов.
  • Google Caffeine больше не существует в этой форме. Осталось только название.
  • Google теперь работает с бесчисленными микросервисами, которые общаются друг с другом и генерируют атрибуты для документов, используемые в качестве сигналов различными системами ранжирования и повторного ранжирования, и с помощью которых нейронные сети обучаются делать прогнозы.

Фильтр за фильтром: Twiddlers

Различные документы указывают на то, что используются несколько сотен систем Twiddler. Представьте Twiddler как плагин, похожий на те, что используются в WordPress.

Каждый Twiddler имеет свою собственную специфическую цель фильтрации. Они спроектированы таким образом, потому что их относительно легко создать, и они не требуют изменений в сложных алгоритмах ранжирования в Ascorer.

Изменение этих алгоритмов сложно и потребовало бы обширного планирования и программирования из-за потенциальных побочных эффектов. Напротив, Twiddlers работают параллельно или последовательно и не знают о деятельности других Twiddlers.

Существует в основном два типа Twiddlers.

  • PreDoc Twiddlers могут работать со всем набором из нескольких сотен DocID, поскольку им требуется мало дополнительной информации или она вообще не требуется.
  • Напротив, Twiddlers типа «Lazy» требуют больше информации, например, из базы данных PerDocData. Это занимает, соответственно, больше времени и более сложно.По этой причине PreDocs сначала сокращают posting list до значительно меньшего количества записей, а затем начинают работу с более медленными фильтрами. Это экономит огромное количество вычислительной мощности и времени.

Некоторые Twiddlers корректируют IR-балл, либо положительно, либо отрицательно, в то время как другие напрямую изменяют позицию в рейтинге. Поскольку наш документ новый в индексе, Twiddler, предназначенный для того, чтобы дать недавним документам лучший шанс на ранжирование, может, например, умножить IR-балл на коэффициент 1.7. Эта корректировка может переместить наш документ с 132-го места на 81-е.

Другой Twiddler повышает разнообразие (strideCategory) в SERP, обесценивая документы с похожим содержанием. В результате несколько документов впереди нас теряют свои позиции, позволяя нашему документу о карандашах подняться на 12 позиций до 69-го места. Кроме того, Twiddler, который ограничивает количество страниц блогов до трех для определенных запросов, повышает наш рейтинг до 61-го места.

типы Twiddlers
Рисунок 4: Два типа Twiddlers — более 100 из них сокращают потенциальные результаты поиска и пересортируют их.

Наша страница получила ноль (что означает «Да») для атрибута CommercialScore. Система Mustang идентифицировала намерение продажи во время анализа. Google, вероятно, знает, что за поисками «карандаш» часто следуют уточненные поиски типа «купить карандаш», указывающие на коммерческое или транзакционное намерение. Twiddler, разработанный для учета этого поискового намерения, добавляет релевантные результаты и повышает нашу страницу на 20 позиций, перемещая нас на 41-е место.

В игру вступает еще один Twiddler, применяющий «штраф третьей страницы», который ограничивает страницы, подозреваемые в спаме, максимальным рангом 31 (Страница 3). Лучшая позиция для документа определяется атрибутом BadURL-demoteindex, который предотвращает ранжирование выше этого порога. Для этой цели используются такие атрибуты, как DemoteForContent, DemoteForForwardlinks и DemoteForBacklinks. В результате три документа выше нас понижаются, позволяя нашей странице подняться на 38-ю позицию.

Наш документ мог бы быть обесценен, но для простоты предположим, что он остается незатронутым. Рассмотрим последний Twiddler, который оценивает, насколько релевантна наша страница о карандашах нашему домену на основе эмбеддингов. Поскольку наш сайт посвящен исключительно письменным принадлежностям, это работает в нашу пользу и негативно влияет на 24 других документа.

Например, представьте сайт сравнения цен с разнообразным набором тем, но с одной «хорошей» страницей о карандашах. Поскольку тема этой страницы значительно отличается от общей направленности сайта, она будет обесценена этим Twiddler.

Атрибуты, такие как siteFocusScore и siteRadius, отражают это тематическое расстояние. В результате наш IR-балл еще раз повышается, а другие результаты понижаются, перемещая нас на 14-е место.

Как упоминалось, Twiddlers служат для широкого спектра целей. Разработчики могут экспериментировать с новыми фильтрами, множителями или специфическими ограничениями позиций. Даже возможно ранжировать результат специально либо перед, либо после другого результата.

Один из просочившихся внутренних документов Google предупреждает, что определенные функции Twiddler должны использоваться только экспертами и после консультации с основной поисковой командой.

«Если вы думаете, что понимаете, как они работают, поверьте нам: вы не понимаете. Мы тоже не уверены, что понимаем.» – Просочившийся документ «Краткое руководство по Twiddler – Superroot»

Есть также Twiddlers, которые только создают аннотации и добавляют их к DocID на пути к SERP. Например, в сниппете появляется изображение, или заголовок и/или описания динамически переписываются позже.

Если вы задавались вопросом, почему во время пандемии национальный орган здравоохранения вашей страны (например, департамент здравоохранения и социальных служб в США) постоянно занимал первое место в поисках по COVID-19, это было из-за Twiddler, который повышает официальные ресурсы на основе языка и страны, используя queriesForWhichOfficial.

У вас мало контроля над тем, как Twiddler переупорядочивает ваши результаты, но понимание его механизмов может помочь вам лучше интерпретировать колебания рейтинга или «необъяснимые рейтинги». Ценно регулярно просматривать SERP и отмечать типы результатов.

Например, видите ли вы последовательно только определенное количество форумов или постов в блогах, даже с разными поисковыми фразами? Сколько результатов являются транзакционными, информационными или навигационными? Повторяются ли одни и те же домены или они варьируются при небольших изменениях в поисковой фразе?

Если вы заметите, что в результатах включено только несколько интернет-магазинов, может быть менее эффективно пытаться ранжироваться с аналогичным сайтом. Вместо этого рассмотрите возможность сосредоточиться на более информационно-ориентированном контенте. Однако не спешите делать выводы, так как система NavBoost будет обсуждаться позже.

Оценщики качества Google и RankLab

Несколько тысяч оценщиков качества работают на Google по всему миру, чтобы оценивать определенные результаты поиска и тестировать новые алгоритмы и/или фильтры, прежде чем они станут «живыми».

Google объясняет: «Их оценки не влияют напрямую на ранжирование».

Это по сути верно, но эти голоса действительно имеют значительное косвенное влияние на рейтинги.

Вот как это работает: оценщики получают URL или поисковые фразы (результаты поиска) от системы и отвечают на предопределенные вопросы, обычно оцениваемые на мобильных устройствах.

Например, им могут задать вопрос: «Ясно ли, кто написал этот контент и когда? Обладает ли автор профессиональным опытом по этой теме?» Ответы на эти вопросы сохраняются и используются для обучения алгоритмов машинного обучения. Эти алгоритмы анализируют характеристики хороших и заслуживающих доверия страниц в сравнении с менее надежными.

Этот подход означает, что вместо того, чтобы полагаться на членов поисковой команды Google для создания критериев ранжирования, алгоритмы используют глубокое обучение для выявления паттернов на основе обучения, предоставленного человеческими оценщиками.

Давайте рассмотрим мысленный эксперимент для иллюстрации. Представьте, что люди интуитивно оценивают контент как заслуживающий доверия, если он включает фотографию автора, полное имя и ссылку на биографию в LinkedIn. Страницы, не имеющие этих особенностей, воспринимаются как менее надежные.

Если нейронная сеть обучается на различных особенностях страницы вместе с этими оценками «Да» или «Нет», она определит эту характеристику как ключевой фактор. После нескольких положительных тестовых прогонов, которые обычно длятся не менее 30 дней, сеть может начать использовать эту особенность как сигнал ранжирования. В результате страницы с изображением автора, полным именем и ссылкой на LinkedIn могут получить повышение в рейтинге, возможно, через Twiddler, в то время как страницы без этих особенностей могут быть обесценены.

Официальная позиция Google о том, что они не фокусируются на авторах, может соответствовать этому сценарию. Однако просочившаяся информация раскрывает такие атрибуты, как isAuthor и концепции, такие как «отпечаток автора» через атрибут AuthorVectors, который делает идиолект (индивидуальное использование терминов и формулировок) автора различимым или идентифицируемым – опять же через эмбеддинги.

Оценки оценщиков компилируются в балл «удовлетворенности информацией» (IS). Хотя многие оценщики вносят свой вклад, балл IS доступен только для небольшой доли URL. Для других страниц с похожими паттернами этот балл экстраполирует для целей ранжирования.

Google отмечает: «Много документов не имеют кликов, но могут быть важными». Когда экстраполяция невозможна, система автоматически отправляет документ оценщикам для генерации балла.

Термин «золотой» упоминается в связи с оценщиками качества, предполагая, что может существовать золотой стандарт для определенных документов или типов документов. Можно сделать вывод, что соответствие ожиданиям человеческих тестеров может помочь вашему документу соответствовать этому золотому стандарту. Кроме того, вероятно, что один или несколько Twiddlers могут предоставить значительное повышение DocID, считающимся «золотыми», потенциально продвигая их в топ-10.

Оценщики качества обычно не являются штатными сотрудниками Google и могут работать через внешние компании. Напротив, собственные эксперты Google работают в RankLab, где они проводят эксперименты, разрабатывают новые Twiddlers и оценивают, улучшают ли эти или уточненные Twiddlers качество результатов или просто фильтруют спам.

Проверенные и эффективные Twiddlers затем интегрируются в систему Mustang, где используются сложные, вычислительно интенсивные и взаимосвязанные алгоритмы.

Но чего хотят пользователи? NavBoost может это исправить!

Наш документ о карандашах еще не полностью преуспел. В рамках Superroot, еще одна основная система, NavBoost, играет значительную роль в определении порядка результатов поиска. NavBoost использует «срезы» для управления различными наборами данных для мобильного, настольного и локального поиска.

Хотя Google официально отрицал использование кликов пользователей для целей ранжирования, документы FTC раскрывают внутреннее электронное письмо, инструктирующее, что обработка данных о кликах должна оставаться конфиденциальной.

Это не следует ставить в вину Google, так как отрицание использования данных о кликах включает два ключевых аспекта. Признание использования данных о кликах могло бы вызвать возмущение в СМИ по поводу проблем конфиденциальности, изображая Google как большого брата, который следит за тобой. Однако намерение использования данных о кликах заключается в получении статистически релевантных метрик, а не в мониторинге отдельных пользователей. Хотя защитники данных могут рассматривать это по-другому, эта перспектива помогает объяснить отрицание.

Документы FTC подтверждают, что данные о кликах используются для целей ранжирования и часто упоминают систему NavBoost в этом контексте (54 раза на слушании 18 апреля 2023 года). Официальное слушание в 2012 году также показало, что данные о кликах влияют на рейтинги.

Влияние кликов на рейтинг
Рисунок 5: С августа 2012 года (!) стало официально ясно, что данные о кликах изменяют рейтинг.

Было установлено, что как поведение при кликах на результаты поиска, так и трафик на веб-сайтах или веб-страницах влияют на рейтинги. Google может легко оценивать поисковое поведение, включая поиски, клики, повторные поиски и повторные клики, непосредственно в SERP.

Были предположения, что Google мог бы делать выводы о поведенческих данных домена из Google Analytics, что привело некоторых к отказу от использования этой системы. Однако эта теория имеет ограничения.

Google Analytics не предоставляет доступ ко всем данным о транзакциях для домена. Что еще более важно, с более чем 60% людей, использующих браузер Google Chrome (более трех миллиардов пользователей), Google собирает данные о значительной части веб-активности.

Это делает Chrome ключевым компонентом в анализе веб-движений, как подчеркивалось на слушаниях. Кроме того, сигналы Core Web Vitals официально собираются через Chrome и агрегируются в значение «chromeInTotal».

Негативная публичность, связанная с «мониторингом», является одной из причин отрицания, в то время как другая — опасение, что оценка данных о кликах и движении могла бы поощрить спамеров и трикстеров фабриковать трафик с помощью бот-систем для манипулирования рейтингами. Хотя отрицание может быть разочаровывающим, лежащие в основе причины, по крайней мере, понятны.

  • Некоторые из метрик, которые хранятся, включают badClicks (плохие клики) и goodClicks (хорошие клики). Время, которое пользователь проводит на целевой странице, и информация о том, сколько других страниц он просматривает там и в какое время (данные Chrome), скорее всего, включены в эту оценку.
  • Короткий заход на результат поиска и быстрое возвращение к результатам поиска с последующими кликами на другие результаты может увеличить количество плохих кликов. Результат поиска, который получил последний «хороший» клик в сессии поиска, записывается как lastLongestClick (последний самый длинный клик).
  • Данные сжимаются (т.е. конденсируются), чтобы они были статистически нормализованы и менее подвержены манипуляциям.
  • Если страница, кластер страниц или стартовая страница домена в целом имеет хорошие метрики посетителей (данные Chrome), это оказывает положительное влияние через NavBoost. Анализируя модели движения внутри домена или между доменами, даже возможно определить, насколько хорошо пользовательское руководство через навигацию.
  • Поскольку Google измеряет целые поисковые сессии, теоретически даже возможно в экстремальных случаях распознать, что совершенно другой документ считается подходящим для поискового запроса. Если пользователь покидает домен, на который он кликнул в результатах поиска, в рамках поиска и переходит на другой домен (потому что он мог быть даже связан оттуда) и остается там как распознаваемый конец поиска, этот «конечный» документ может быть выдвинут вперед через NavBoost в будущем, при условии, что он доступен в наборе кольца выбора. Однако это потребовало бы сильного статистически значимого сигнала от многих пользователей.

Давайте сначала рассмотрим клики в результатах поиска. Каждая позиция в рейтинге SERP имеет среднюю ожидаемую кликабельность (CTR), служащую эталоном производительности. Например, согласно анализу Йоханнеса Беуса, представленному на этом году на CAMPIXX в Берлине, органическая Позиция 1 получает в среднем 26,2% кликов, в то время как Позиция 2 получает 15,5%.

Если фактический CTR сниппета значительно ниже ожидаемого, система NavBoost регистрирует это расхождение и, соответственно, корректирует рейтинг DocID. Если результат исторически генерирует значительно больше или меньше кликов, чем ожидалось, NavBoost переместит документ вверх или вниз в рейтинге по мере необходимости (см. Рисунок 6).

Этот подход имеет смысл, потому что клики по существу представляют собой голос пользователей о релевантности результата на основе заголовка, описания и домена. Эта концепция даже подробно описана в официальных документах, как показано на Рисунке 7.

Влияние CTR
Рисунок 6: Если «ожидаемый_CRT» значительно отклоняется от фактического значения, рейтинги корректируются соответствующим образом. (Источник данных: J. Beus, SISTRIX, с редакционными наложениями)
Дело против google
Рисунок 7: Слайд из презентации Google (Источник: судебное доказательство – UPX0228, США и истцы против Google LLC)
Влияние CTR
Дело против google

Поскольку наш документ о карандашах все еще новый, данных о CTR пока нет. Неясно, игнорируются ли отклонения CTR для документов без данных, но это кажется вероятным, так как цель состоит в том, чтобы учитывать обратную связь пользователей. Альтернативно, CTR может изначально оцениваться на основе других значений, аналогично тому, как обрабатывается фактор качества в Google Ads.

  • SEO-эксперты и аналитики данных давно сообщают, что они заметили следующий феномен при комплексном мониторинге собственных показателей кликабельности: если документ для поискового запроса впервые появляется в топ-10 и CTR значительно ниже ожиданий, вы можете наблюдать падение в рейтинге в течение нескольких дней (в зависимости от объема поиска).
  • Наоборот, рейтинг часто повышается, если CTR значительно выше по отношению к рангу. У вас есть только короткое время, чтобы отреагировать и скорректировать сниппет, если CTR низкий (обычно путем оптимизации заголовка и описания), чтобы собрать больше кликов. В противном случае позиция ухудшается, и впоследствии ее не так легко восстановить. Считается, что за этим феноменом стоят тесты. Если документ доказывает свою эффективность, он может остаться. Если пользователям он не нравится, он снова исчезает. Связано ли это на самом деле с NavBoost, неясно и окончательно недоказуемо.

На основе просочившейся информации, кажется, что Google использует обширные данные из «окружения» страницы для оценки сигналов для новых, неизвестных страниц.

Например, NearestSeedversion предполагает, что PageRank домашней страницы HomePageRank_NS передается новым страницам, пока они не разовьют собственный PageRank. Кроме того, pnavClicks, по-видимому, используется для оценки и присвоения вероятности кликов через навигацию.

Расчет и обновление PageRank требует времени и вычислительно интенсивен, поэтому вместо этого, вероятно, используется метрика PageRank_NS. «NS» означает «ближайшее семя», что означает, что набор связанных страниц разделяет значение PageRank, которое временно или постоянно применяется к новым страницам.

Вероятно, что значения с соседних страниц также используются для других критических сигналов, помогая новым страницам подниматься в рейтинге, несмотря на отсутствие значительного трафика или обратных ссылок. Многие сигналы не атрибутируются в реальном времени, но могут включать заметную задержку.

  • Google сам привел хороший пример свежести во время слушания. Например, если вы ищете «Кубок Стэнли», результаты поиска обычно показывают знаменитый кубок. Однако, когда активно проходят хоккейные игры Кубка Стэнли, NavBoost корректирует результаты, чтобы отдать приоритет информации об играх, отражая изменения в поисковом и кликовом поведении.
  • Свежесть не относится к новым (т.е. «свежим») документам, а к изменениям в поисковом поведении. По данным Google, каждый день в SERP происходит более миллиарда (это не опечатка) новых поведений! Так что каждый поиск и каждый клик способствует обучению Google. Предположение, что Google знает все о сезонности, вероятно, неверно. Google распознает тонкие изменения в поисковых намерениях и постоянно адаптирует систему – что создает иллюзию, что Google действительно «понимает», чего хотят пользователи.

Метрики кликов для документов, по-видимому, хранятся и оцениваются в течение 13 месяцев (один месяц перекрытия в году для сравнений с предыдущим годом), согласно последним выводам.

Поскольку наш гипотетический домен имеет сильные метрики посетителей и существенный прямой трафик от рекламы, как известный бренд (что является положительным сигналом), наш новый документ о карандашах выигрывает от благоприятных сигналов более старых, успешных страниц.

В результате NavBoost поднимает наш рейтинг с 14-го на 5-е место, помещая нас в «синее кольцо» или топ-10. Этот список топ-10, включая наш документ, затем передается на Google Web Server вместе с другими девятью органическими результатами.

  • Вопреки ожиданиям, Google на самом деле не выдает много персонализированных результатов поиска. Тесты, вероятно, показали, что моделирование поведения пользователей и внесение изменений в него дает лучшие результаты, чем оценка личных предпочтений отдельных пользователей.
  • Это замечательно. Прогноз через нейронные сети теперь лучше подходит нам, чем наша собственная история серфинга и кликов. Однако индивидуальные предпочтения, такие как предпочтение видеоконтента, все еще включены в персональные результаты.

GWS: Где все заканчивается и начинается заново

Google Web Server (GWS) отвечает за сборку и доставку страницы результатов поиска (SERP). Это включает 10 синих ссылок, а также рекламу, изображения, виды Google Maps, разделы «Люди также спрашивают» и другие элементы.

Система Tangram занимается оптимизацией геометрического пространства, рассчитывая, сколько места требует каждый элемент и сколько результатов помещается в доступные «коробки». Система Glue затем располагает эти элементы на своих правильных местах.

Наш документ о карандашах, в настоящее время находящийся на 5-м месте, является частью органических результатов. Однако система CookBook может вмешаться в последний момент. Эта система включает FreshnessNode, InstantGlue (реагирует в периоды 24 часов с задержкой около 10 минут) и InstantNavBoost. Эти компоненты генерируют дополнительные сигналы, связанные с актуальностью, и могут корректировать рейтинги в последние моменты перед отображением страницы.

Давайте представим, что начинается немецкая телевизионная программа о 250 годах Faber-Castell и мифах, окружающих слово «карандаш». В течение нескольких минут тысячи зрителей хватаются за свои смартфоны или планшеты, чтобы искать онлайн. Это типичный сценарий. FreshnessNode обнаруживает всплеск поисков «карандаш» и, отмечая, что пользователи ищут информацию, а не совершают покупки, соответственно, корректирует рейтинги.

В этой исключительной ситуации InstantNavBoost удаляет все транзакционные результаты и заменяет их информационными в реальном времени. InstantGlue затем обновляет «синее кольцо», вызывая выпадение нашего ранее ориентированного на продажи документа из топ-рейтингов и замену его более релевантными результатами.

происхождение слова карандаш
Рисунок 8: Телевизионная программа о происхождении слова «карандаш», посвященная 250-летию Faber-Castell, известного немецкого производителя карандашей.

Как бы это ни было печально, этот гипотетический конец нашего путешествия по рейтингу иллюстрирует важный момент: достижение высокого рейтинга не заключается исключительно в наличии отличного документа или внедрении правильных SEO-мер с высококачественным контентом.

На рейтинги могут влиять различные факторы, включая изменения в поисковом поведении, новые сигналы для других документов и меняющиеся обстоятельства. Поэтому важно осознавать, что наличие отличного документа и хорошая работа с SEO — это лишь часть более широкого и динамичного ландшафта ранжирования.

Процесс составления результатов поиска чрезвычайно сложен и подвержен влиянию тысяч сигналов. С многочисленными тестами, проводимыми в прямом эфире SearchLab с использованием Twiddler, даже обратные ссылки на ваши документы могут быть затронуты.

Эти документы могут быть перемещены из HiveMind на менее критичные уровни, такие как SSD или даже TeraGoogle, что может ослабить или устранить их влияние на рейтинги. Это может сместить шкалы рейтинга, даже если ничего не изменилось в вашем собственном документе.

Джон Мюллер из Google подчеркнул, что падение в рейтинге часто не означает, что вы сделали что-то не так. Изменения в поведении пользователей или другие факторы могут изменить то, как работают результаты.

Например, если со временем пользователи начинают предпочитать более подробную информацию и более короткие тексты, NavBoost автоматически скорректирует рейтинги. Однако IR-балл в системе Alexandria или Ascorer остается неизменным.

Один ключевой вывод заключается в том, что SEO должно пониматься в более широком контексте. Оптимизация заголовков или контента не будет эффективной, если документ и его поисковое намерение не совпадают.

Влияние Twiddlers и NavBoost на рейтинги часто может перевешивать традиционные оптимизации на странице, на сайте или вне сайта. Если эти системы ограничивают видимость документа, дополнительные улучшения на странице будут иметь минимальный эффект.

Однако наше путешествие не заканчивается на низкой ноте. Влияние телепрограммы о карандашах временное. Когда всплеск поисков утихнет, FreshnessNode больше не будет влиять на наш рейтинг, и мы вернемся на 5-е место.

Когда мы перезапускаем цикл сбора данных о кликах, ожидается CTR около 4% для Позиции 5 (основано на данных Йоханнеса Беуса из SISTRIX). Если мы сможем поддерживать этот CTR, мы можем ожидать, что останемся в топ-10. Всё будет хорошо.

Ключевые выводы для SEO

  • Диверсифицируйте источники трафика: Убедитесь, что вы получаете трафик из различных источников, не только из поисковых систем. Трафик из менее очевидных каналов, таких как социальные медиа платформы, также ценен. Даже если crawler Google не может получить доступ к определенным страницам, Google всё равно может отслеживать, сколько посетителей приходит на ваш сайт через такие платформы, как Chrome или прямые URL.
  • Развивайте узнаваемость бренда и домена: Всегда работайте над укреплением узнаваемости вашего бренда или доменного имени. Чем больше людей знакомы с вашим именем, тем вероятнее они кликнут на ваш сайт в результатах поиска. Ранжирование по многим длиннохвостым ключевым словам также может повысить видимость вашего домена. Утечки предполагают, что «авторитет сайта» является сигналом ранжирования, поэтому создание репутации вашего бренда может помочь улучшить ваши позиции в поиске.
  • Понимайте поисковые намерения: Чтобы лучше удовлетворять потребности ваших посетителей, попытайтесь понять их поисковые намерения и путь. Используйте такие инструменты, как Semrush или SimilarWeb, чтобы увидеть, откуда приходят ваши посетители и куда они идут после посещения вашего сайта. Анализируйте эти домены – предлагают ли они информацию, которой не хватает вашим целевым страницам? Постепенно добавляйте этот недостающий контент, чтобы стать «конечным пунктом назначения» в поисковом путешествии ваших посетителей. Помните, Google отслеживает связанные поисковые сессии и точно знает, что ищут пользователи и где они искали.
  • Оптимизируйте ваши заголовки и описания для улучшения CTR: Начните с анализа вашего текущего CTR и внесите изменения для повышения привлекательности кликов. Написание нескольких важных слов с заглавной буквы может помочь им выделиться визуально, потенциально повышая CTR; протестируйте этот подход, чтобы увидеть, работает ли он для вас. Заголовок играет критическую роль в определении того, хорошо ли ранжируется ваша страница по поисковой фразе, поэтому его оптимизация должна быть главным приоритетом.
  • Оценивайте скрытый контент: Если вы используете аккордеоны для «скрытия» важного контента, который требует клика для раскрытия, проверьте, имеют ли эти страницы показатель отказов выше среднего. Когда пользователи не могут сразу увидеть, что они находятся в нужном месте, и им нужно кликать несколько раз, вероятность негативных сигналов от кликов увеличивается.
  • Удаляйте неэффективные страницы: Страницы, которые никто не посещает (веб-аналитика) или которые не достигают хорошего ранжирования в течение длительного времени, следует удалить при необходимости. Плохие сигналы также передаются соседним страницам! Если вы публикуете новый документ в «плохом» кластере страниц, у новой страницы мало шансов. «deltaPageQuality» фактически измеряет качественную разницу между отдельными документами в домене или кластере.
  • Улучшайте структуру страницы: Четкая структура страницы, простая навигация и сильное первое впечатление необходимы для достижения высоких рейтингов, часто благодаря NavBoost.
  • Максимизируйте вовлеченность: Чем дольше посетители остаются на вашем сайте, тем лучше сигналы отправляет ваш домен, что приносит пользу всем вашим подстраницам. Стремитесь быть конечным пунктом назначения, предоставляя всю информацию, которая им нужна, чтобы посетителям не пришлось искать в другом месте.
  • Расширяйте существующий контент, а не постоянно создавайте новый: Обновление и улучшение вашего текущего контента может быть более эффективным. ContentEffortScore измеряет усилия, вложенные в создание документа, причем такие факторы, как высококачественные изображения, видео, инструменты и уникальный контент, все вносят вклад в этот важный сигнал.
  • Согласовывайте ваши заголовки с контентом, который они представляют: Убедитесь, что (промежуточные) заголовки точно отражают текстовые блоки, которые следуют за ними. Тематический анализ, использующий такие техники, как эмбеддинги (векторизация текста), более эффективен в определении того, правильно ли соответствуют заголовки и контент, по сравнению с чисто лексическими методами.
  • Используйте веб-аналитику: Такие инструменты, как Google Analytics, позволяют эффективно отслеживать вовлеченность посетителей и выявлять и устранять любые пробелы. Обратите особое внимание на показатель отказов ваших целевых страниц. Если он слишком высок, исследуйте потенциальные причины и примите корректирующие меры. Помните, Google может получить доступ к этим данным через браузер Chrome.
  • Нацеливайтесь на менее конкурентные ключевые слова: Вы также можете сосредоточиться сначала на хорошем ранжировании по менее конкурентным ключевым словам и таким образом легче накапливать положительные пользовательские сигналы.
  • Культивируйте качественные обратные ссылки: Сосредоточьтесь на ссылках с недавних или высокотрафиковых страниц, хранящихся в HiveMind, так как они предоставляют более ценные сигналы. Ссылки со страниц с малым трафиком или вовлеченностью менее эффективны. Кроме того, обратные ссылки со страниц в той же стране и тематически связанных с вашим контентом более полезны. Имейте в виду, что существуют «токсичные» обратные ссылки, которые негативно влияют на ваш рейтинг, и их следует избегать.
  • Обращайте внимание на контекст вокруг ссылок: Текст до и после ссылки, а не только сам анкорный текст, учитывается при ранжировании. Убедитесь, что текст естественно обтекает ссылку. Избегайте использования общих фраз типа «нажмите здесь», которые неэффективны уже более двадцати лет.
  • Учитывайте ограничения инструмента Disavow: Инструмент Disavow, используемый для аннулирования плохих ссылок, вообще не упоминается в утечке. Кажется, что алгоритмы его не учитывают, и он служит в основном документальной цели для борцов со спамом.
  • Учитывайте экспертизу автора: Если вы используете ссылки на автора, убедитесь, что они также признаны на других веб-сайтах и демонстрируют соответствующую экспертизу. Иметь меньше, но высококвалифицированных авторов лучше, чем иметь много менее авторитетных. Согласно патенту, Google может оценивать контент на основе экспертизы автора, различая экспертов и дилетантов.
  • Создавайте эксклюзивный, полезный, всеобъемлющий и хорошо структурированный контент: Это особенно важно для ключевых страниц. Продемонстрируйте свою подлинную экспертизу по теме и, если возможно, предоставьте доказательства этого. Хотя легко заставить кого-то написать контент просто чтобы что-то было на странице, установка высоких ожиданий по ранжированию без реального качества и экспертизы может быть нереалистичной.

*Версия этой статьи была первоначально опубликована на немецком языке в августе 2024 года в Website Boosting, выпуск 87.

Поделиться
Репостнуть
Твитнуть