Новая модель корреляции для определения факторов ранжирования

Новая модель корреляции для определения факторов ранжирования

Корреляционные исследования были главной темой в SEO-сообществе в течение многих лет. Каждый раз, когда выходило новое исследование, хор критиков напоминал нам об одной вещи, которую они запомнили из такого предмета, как статистика: «корреляция не равна причинности». И это, безусловно, правда.

Тем не менее, корреляционные исследования нельзя назвать бесполезными только потому, что они не обязательно выявляют причинно-следственные связи (т.е. реальные факторы ранжирования). Эти исследования нужны, поскольку они обнаруживают или подтверждают корреляты.

Согласно определению, коррелят – любая из двух переменных или факторов, которые систематически связаны друг с другом; то есть они «коррелируют».

В случае ранжирования, переменной, с которой связаны корреляты, является порядок результатов поиска на странице. Известными коррелятами являются, например, входящие ссылки и репосты в соцсетях.

Корреляционные исследования также показывают направление этой связи. Например, продажи мороженого имеют положительную корреляцию с температурой, а зимние куртки – отрицательную. Это значит, что когда температура повышается, то продажи мороженого растут, а зимних курток – падают.

Наконец, корреляционные исследования помогают нам исключить предполагаемые факторы ранжирования. Этот аспект часто упускается из виду, но это невероятно важная часть корреляционных исследований. Исследования, которые дают отрицательный результат, зачастую так же ценны, как и те, что дают положительный. Используя корреляционные исследования в Moz, мы смогли исключить многие потенциальные факторы, такие как плотность ключевых слов и метатег keyword.

К сожалению, на этом ценность корреляционных исследований заканчивается. В частности, мы всё ещё хотим знать, является ли коррелят причиной позиций в ранжировании или нет (тогда связь является ложной). Хороший пример ложной связи – это утверждение о том, что рост продаж мороженого вызывает увеличение случаев утопления. В реальности летняя жара повышает и продажи мороженого, и активность купальщиков. Больше плавания – больше утоплений. Поэтому, хотя продажи мороженого коррелируют с утоплениями, связь между ними является ложной. Продажи мороженого не вызывают утоплений.

Как установить разницу между причинно-следственными и ложными связями? Мы знаем, что причина возникает до её следствия, а это значит, что каузальная переменная должна предсказывать будущее изменение. Это та основа, на которой мы построили следующую модель.

Альтернативная модель для корреляционных исследований

Мы предложили альтернативную методологию для проведения корреляционных исследований. С её помощью вместо измерения корреляции между фактором (например, ссылками или репостами) и SERP, мы можем измерять корреляцию между фактором и изменениями в SERP с течением времени.

Этот процесс работает примерно так:

  1. Собираем SERP в день 1.
  2. Собираем данные по количеству ссылок для каждого URL в этой SERP.
  3. Ищем любые пары соседних URL, позиции которых не согласуются с количеством ссылок. Например, если у URL на позиции 2 меньше ссылок, чем у URL на позиции 3.
  4. Регистрируем эту аномалию.
  5. Собираем ту же SERP через 14 дней.
  6. Смотрим, скорректировалась ли аномалия (URL, который был на позиции 3, опередил URL, который был на позиции 2).
  7. Повторяем по 10 тыс. ключевых слов и тестируем ряд факторов (ссылки, репосты и т.д.).

В чём преимущества этой методологии? Отслеживая изменения с течением времени, мы можем видеть, является ли фактор ранжирования (коррелят) ведущей или отстающейфункцией. Отстающая функция автоматически может быть исключена из причинных, поскольку она проявляется после изменения в ранжировании. Ведущий фактор может оказаться как каузальным, так и ложным – по другим причинам.

Следуя этой методологии, мы протестировали 3 разных коррелята, выявленных в исследованиях факторов ранжирования: репосты в Facebook, количество ссылающихся корневых доменов и авторитетность страницы (Page Authority).

На первом шаге мы собрали 10 тыс. SERP по ключевым словам, выбранным в случайном порядке с помощью Moz Keyword Explorer.

Затем мы зафиксировали количество репостов в Facebook, ссылающихся корневых доменов и авторитетность страницы по каждому URL. Мы также отметили каждый пример, где два соседних URL (например, позиции 2 и 3 или 7 и 8) занимали не свои места согласно ожидаемому порядку, предсказанному корреляционным фактором. Например, если URL на 2-й позиции имел 30 репостов, а на 3-й – 50, то мы регистрировали эту пару.

Наконец, две недели спустя мы собрали те же SERP и определили процент случаев, когда Google менял URL местами в этих парах, чтобы их позиции соответствовали ожидаемой корреляции. Мы также рандомно выбрали пары URL-адресов, чтобы получить базовую процентную вероятность того, что два соседних URL могут меняться позициями.

Результаты

Важно отметить, что лидирующий фактор очень редко проявляется в анализе, подобном этому. Хотя данный метод проработанный и логичный, это не так просто, поскольку фактор предсказывает будущее – а это предполагает, что в некоторых случаях мы будем знать о нём до Google.

Основополагающее предположение заключается в том, что в некоторых случаях мы видели фактор ранжирования до того, как его увидел Googlebot. При этом в двухнедельный период Google может наверстать упущенное и скорректировать неправильно организованные результаты. Но это редкий случай, поскольку Google сканирует интернет быстрее, чем кто-либо ещё.

Однако при достаточном числе наблюдений, мы должны быть способны увидеть статистически значимое различие между отстающими и лидирующими результатами.  При этом данная методология только определяет, когда фактор является и лидирующим, и Moz Link Explorer обнаружил релевантный фактор раньше, чем Google. 

Контроль

Чтобы обеспечить контроль, мы в случайном порядке выбрали пары соседних URL в первом наборе результатов поиска и определили вероятность того, что второй URL обойдёт первый в финальной выборке SERP.

Примерно в 18,93% случаев URL, которые ранжировались на более низких позициях, затем опережали те URL, что ранжировались выше. Установив контрольный уровень, мы можем определить, является ли любой из потенциальных коррелятов ведущим фактором, т.е. возможной причиной улучшения позиций в ранжировании. Для этого мы будем сравнивать их результаты с рандомом.

Репосты в Facebook

Репосты в Facebook показали наихудшие результаты по всем трём протестированным переменным. Они также демонстрировали худшие результаты, чем рандом (18,31% против 18,93%), а это значит, что случайно выбранные пары были более склонны поменяться местами, чем те, где количество репостов у второго, было больше, чем у первого.

Впрочем, это неудивительно, поскольку в отрасли уже пришли к общему мнению о том, что социальные сигналы являются отстающими факторами. Это значит, что трафик из более высоких позиций обеспечивает большее количество репостов, а не репосты приводят к более высоким позициям в ранжировании. Соответственно, можно ожидать, что позиции поменяются прежде, чем мы увидим прирост в социальных сигналах.

Количество ссылающихся корневых доменов (RLD)

Этот фактор показал значительно лучшие результаты, чем репосты – 20,5%. Как мы указывали ранее, этот тип анализа определяет только, когда фактор является и лидирующим, и Moz Link Explorer выявил его раньше, чем Google. Тем не менее, с величиной Р <0,0001 и доверительным интервалом в 95% этот результат является статистически значимым. Это значит, что RLD будет предсказывать будущие изменения в ранжировании примерно на 1,5% лучше, чем рандом.

Авторитетность страницы (РА)

Этот фактор показал наилучшие результаты по выборке. При коэффициенте в 21,5% авторитетность страницы предсказывала изменения в SERP на 2,6% лучше, чем рандом. Это сильный признак ведущего фактора, который значительно превосходит репосты в социальных сетях и наилучшую «сырую» прогнозную метрику – количество ссылающихся корневых доменов.

И это не удивительно. Данный показатель создан для предсказания позиций в ранжировании, поэтому мы могли ожидать, что PA превзойдёт «сырые» метрики в определении того, когда может произойти изменение в ранжировании.

Однако это не говорит о том, что Google использует Moz Page Authority для ранжирования сайтов. Это показывает, что PA –  относительно хорошая приблизительная оценка тех ссылочных метрик, которые Google использует для определения позиций сайтов.

Заключение

Существует множество разных вариантов проведения экспериментов, которые можно использовать для улучшения исследований в области факторов ранжирования. Описанная в статье модель – это лишь один из тех методов, которые могут помоч<>ь в определении различий между причинными факторами и отстающими коррелятами.

При этом экспериментальный дизайн не обязан быть слишком сложным, а статистика для определения надёжности не должна быть передовой. Хотя машинное обучение способно значительно улучшить наши прогнозные модели, простой статистики вполне достаточно, когда мы устанавливаем основы.

About the Author

Leave a Reply