A/B тест — это просто / Хабр
A/B тестирование — это мощный маркетинговый инструмент для повышения эффективности работы вашего интернет-ресурса. С помощью A/B тестов повышают конверсию посадочных страниц, подбирают оптимальные заголовки объявлений в рекламных сетях, улучшают качество поиска.
Мне часто приходится сталкиваться с задачами организации A/B тестирования в различных интернет-проектах. В этой статье хочу поделиться необходимыми базовыми знаниями для проведения тестов и анализа результатов.
Зачем нужны А/B тесты?
Итак, представим ситуацию, наш проект запущен в жизнь, на нем собирается трафик, пользователи активно используют ресурс. И в один прекрасный день мы решили что-то поменять, например, разместить всплывающий виджет для удобства подписки на новости.
Наше решение — это интуитивное предположение о том, что пользователям ресурса станет проще подписываться на новые материалы, мы ожидаем повышения числа подписчиков.
Наши предположения и гипотезы строятся на основе личного опыта и наших взглядов, которые совсем не обязательно совпадают со взглядами аудитории нашего ресурса. Другими словами, наше предположение вовсе не означает, что после внесения изменений мы получим желаемый эффект. Для проверки таких гипотез мы и проводим A/B тесты.
Как проводим тесты?
Идея A/B тестирования очень проста. Пользователи ресурса случайным образом делятся на сегменты. Один из сегментов остается без изменений — это контрольный сегмент “A”, на основе данных по этому сегменту мы будем оценивать эффект от вносимых изменений. Пользователям из сегмента “B” показываем измененную версию ресурса.
Для снижения влияния внешних факторов, таких как рекламные кампании, день недели, погода или сезонность, замеры в сегментах важно делать параллельно, т.е. в один и тот же период времени.
Кроме того, очень важно исключить и внутренние факторы, которые также могут существенно исказить результаты теста. Таким факторами могут быть действия операторов call-центра, служба поддержки, работа редакции, разработчики или администраторы ресурса. В Google Analytics для этого можно воспользоваться фильтрами.
Число пользователей в сегментах не всегда удается сделать равным, в связи с этим метрики, как правило, выбираются относительные, т.е. без привязки к абсолютным значениям аудитории в сегменте. Нормирование осуществляется либо на число посетителей, либо на число просмотров страниц. Например, такими метриками могут быть средний чек или CTR ссылки.
Одной из причин делить аудиторию непропорционально может быть существенное изменение в интерфейсе. Например, полное обновление устаревшего дизайна сайта, изменение системы навигации или добавление всплывающей формы для сбора контактной информации. Такие изменения могут привести как к положительным, так и к отрицательным эффектам в работе ресурса.
Если есть опасение, что изменение может иметь сильное негативное влияние, например, привести к резкому оттоку аудитории, то, на первом этапе, имеет смысл тестовый сегмент делать не очень большим. В случае отсутствия негативного эффекта, размер тестового сегмента можно постепенно увеличить.
Что улучшаем?
Если вы собираетесь провести A/B тестирование на своем ресурсе, то наверняка у вашего проекта уже сформированы основные показатели, которые необходимо улучшить. Если таких показателей еще нет, тогда самое время о них задуматься.
Показатели прежде всего определяются целями проекта. Ниже приведу несколько популярных метрик, которые используются в интернет-проектах.
Конверсия
Конверсия вычисляется как доля от общего числа посетителей, совершивших какое-либо действие. Действием может быть заполнение формы на посадочной странице, совершение покупки в интернет-магазине, регистрация, подписка на новости, клик на ссылку или блок.
Экономические метрики
Как правило, эти метрики применимы для интернет-магазинов: величина среднего чека, объем выручки, отнесенный на число посетителей интернет-магазина.
Поведенческие факторы
К поведенческим факторам относят оценку заинтересованности посетителей в ресурсе. Ключевыми метриками являются: глубина просмотра страниц — число просмотренных страниц, отнесенное к числу посетителей на сайте, средняя продолжительность сессии, показатель отказов — доля пользователей, покинувших сайт сразу после первого захода, коэффициент удержания (можно считать, как 1 минус % новых пользователей).
Анализ результатов
Отлично, ключевые показатели определены, тест запущен и мы получили первые данные. В этот момент, особенно если данные соответствуют нашим ожиданиям, возникает соблазн сделать поспешные выводы о результатах тестирования.
Торопиться не стоит, значения наших ключевых показателей могут меняться день ото дня — это значит, что мы имеем дело со случайными величинами. Для сравнения случайных величин оценивают средние значения, а для оценки среднего значения требуется некоторое время, чтобы накопить историю.
Эффект от внесения изменения определяют как разность между средними значениями ключевого показателя в сегментах. Тут возникает следующий вопрос, насколько мы уверены в достоверности полученного результата? Если мы еще раз проведем тест, то какова вероятность того, что мы сможем повторить результат?
Ниже на картинках приведены примеры распределения значений показателя в сегментах.
Графики распределения характеризуют частоту появления того или иного значения случайной величины в выборке. В данном случае все значения распределены вокруг среднего.
На обеих картинках
Данный пример хорошо иллюстрирует, что разности средних значений недостаточно для того, чтобы считать результат достоверным, необходимо также оценить площадь пересечения распределений.
Чем меньше пересечение, тем с большей уверенностью мы можем сказать, что эффект действительно значим. Эта “уверенность” в статистике называется значимостью результата.
Как правило, для принятия положительного решения об эффективности изменений уровень значимости выбирают равным 90%, 95% или 99%. Пересечение распределений при этом равно соответственно 10%, 5% или 1%. При невысоком уровне значимости существует опасность сделать
Несмотря на важность этой характеристики, в отчетах по A/B тестам, к сожалению, часто забывают указать уровень значимости, при котором был получен результат.
Кстати, на практике примерно 8 из 10 A/B тестов не являются статистически значимыми.
Стоит отметить, что чем больше объем трафика в сегментах, тем меньше разброс среднесуточных значений показателя. При небольшом трафике из-за большего разброса значений случайной величины потребуется больше времени для проведения эксперимента, но в любом случае это лучше, чем вовсе не проводить эксперимент.
Оценить значимость результатов
Для сравнения случайных величин математики придумали целый раздел под названием проверка статистических гипотез. Гипотез всего две: “нулевая” и “альтернативная”. Нулевая гипотеза предполагает, что разница между средними значениями показателя в сегментах незначительна. Альтернативная гипотеза предполагает наличие существенной разницы между средними значениями показателя в сегментах.
Для проверки гипотез существует несколько статистических тестов. Тесты зависят от характера измеряемого показателя. В общем случае, если мы считаем среднесуточные значения, можно воспользоваться тестом Стьюдента. Этот тест хорошо зарекомендовал себя для небольших объемов данных, т.к. учитывает размер выборки при оценке значимости.
В качестве примера приведу сравнение средней длительности сессии в сегментах на одном из ресурсов, для которых я проводил эксперимент: studentttest.xls.
Тест Стьюдента — универсален, его можно применять как для измерений конверсии, так и для таких количественных показателей как средний чек, средняя глубина просмотра или время, проведенное пользователем на сайте.
В случае, если вы измеряете только конверсию, то вы имеете дело с бинарной слуайной величиной, которая принимает только два значения: посетитель “сконвертировался” и “не сконвертировался”. Для оценки статистической значимости в этом случае можно воспользоваться он-лайн калькулятором.
Инструменты
Для организации теста необходим инструмент, позволяющий разметить аудиторию по сегментам и посчитать значения ключевых показателей отдельно в каждом сегменте.
Если ваши ресурсы позволяют, то такой инструмент можно реализовать самостоятельно на основе анализа логов действий пользователей. Если ресурсы ограничены, то стоит воспользоваться сторонним инструментом. Например, в Google Analytics есть возможность задавать пользовательские сегменты.
Существует ряд сервисов, которые позволяют полностью автоматизировать процесс тестирования, например, тотже Google Analytics Experiements, примеры других сервисов можно найти в обзоре.
А дальше?
В статье приведены базовые знания, необходимые для проведения A/B тестов и анализа результатов. Следующий шаг — это продуктовая аналитика. В завершении хочу поделиться ссылкой на отличную презентацию по продуктовой аналитике с примерами A/B тестирования от Курышева Евгения.
6 простых шагов — Академия Яндекса
A/B-тестирование — это неотъемлемая часть процесса работы над продуктом. Это эксперимент, который позволяет сравнить две версии чего-либо, чтобы проверить гипотезы и определить, какая версия лучше. Должны ли кнопки быть черными или белыми, какая навигация лучше, какой порядок прохождения регистрации меньше всего отпугивает пользователей? Продуктовый дизайнер из Сан-Франциско Лиза Шу рассказывает о простой последовательности шагов, которые помогут провести базовое тестирование.
Кому нужно A/B-тестирование
- Продакт-менеджеры могут тестировать изменения ценовых моделей, направленные на повышение доходов, или оптимизацию части воронки продаж для увеличения конверсии.
- Маркетологи могут тестировать изображения, призывы к действию (call-to-action) или практически любые другие элементы маркетинговой кампании или рекламы с точки зрения улучшения метрик.
- Продуктовые дизайнеры могут тестировать дизайнерские решения (например, цвет кнопки оформления заказа) или использовать результаты тестирования для того, чтобы перед внедрением определить, будет ли удобно пользоваться новой функцией.
Вот шесть шагов, которые нужно пройти, чтобы провести тестирование. В некоторые из пунктов включены примеры тестирования страницы регистрации выдуманного стартапа.
1. Определите цели
Определите основные бизнес-задачи вашей компании и убедитесь, что цели A/B-тестирования с ними совпадают.
Пример: Допустим, вы менеджер продукта в «компании X» на стадии стартапа. Руководству нужно добиться роста количества пользователей. В частности, компания стремится к росту количества активных пользователей (метрика DAU), определяемых как среднее количество зарегистрированных пользователей сайта в день за последние 30 дней. Вы предполагаете, что этого можно добиться либо путем улучшения показателей удержания (процент пользователей, возвращающихся для повторного использования продукта), либо путем увеличения числа новых регистрирующихся пользователей.
В процессе исследования воронки вы замечаете, что 60% пользователей уходят до завершения регистрации. Это означает, что можно повысить количество регистраций, изменив страницу регистрации, что, в свою очередь, должно помочь увеличить количество активных пользователей.
2. Определите метрику
Затем вам нужно определить метрику, на которую вы будете смотреть, чтобы понять, является ли новая версия сайта более успешной, чем изначальная. Обычно в качестве такой метрики берут коэффициент конверсии, но можно выбрать и промежуточную метрику вроде показателя кликабельности (CTR).
Пример: В нашем примере в качестве метрики вы выбираете долю зарегистрированных пользователей (registration rate), определяемую как количество новых пользователей, которые регистрируются, поделенное на общее количество новых посетителей сайта.
3. Разработайте гипотезу
Затем нужно разработать гипотезу о том, что именно поменяется, и, соответственно, что вы хотите проверить. Нужно понять, каких результатов вы ожидаете и какие у них могут быть обоснования.
Пример: Допустим, на текущей странице регистрации есть баннер и форма регистрации. Есть несколько пунктов, которые вы можете протестировать: поля формы, позиционирование, размер текста, но баннер на главной странице визуально наиболее заметен, поэтому сначала надо узнать, увеличится ли доля регистраций, если изменить изображение на нём.
Общая гипотеза заключается в следующем: «Если изменить главную страницу регистрации, то больше новых пользователей будут регистрироваться внутри продукта, потому что новое изображение лучше передает его ценности».
Нужно определить две гипотезы, которые помогут понять, является ли наблюдаемая разница между версией A (изначальной) и версией B (новой, которую вы хотите проверить) случайностью или результатом изменений, которые вы произвели.
- Нулевая гипотеза предполагает, что результаты, А и В на самом деле не отличаются и что наблюдаемые различия случайны. Мы надеемся опровергнуть эту гипотезу.
- Альтернативная гипотеза — это гипотеза о том, что B отличается от A, и вы хотите сделать вывод об её истинности.
Решите, будет ли это односторонний или двусторонний тест. Односторонний тест позволяет обнаружить изменение в одном направлении, в то время как двусторонний тест позволяет обнаружить изменение по двум направлениям (как положительное, так и отрицательное).
4. Подготовьте эксперимент
Для того, чтобы тест выдавал корректные результаты сделайте следующее:
- Создайте новую версию (B), отражающую изменения, которые вы хотите протестировать.
- Определите контрольную и экспериментальную группы. Каких пользователей вы хотите протестировать: всех пользователей на всех платформах или только пользователей из одной страны? Определите группу испытуемых, отобрав их по типам пользователей, платформе, географическим показателям и т. п. Затем определите, какой процент исследуемой группы составляет контрольная группа (группа, видящая версию A), а какой процент — экспериментальная группа (группа, видящая версию B). Обычно эти группы одинакового размера.
- Убедитесь, что пользователи будут видеть версии A и B в случайном порядке. Это значит, у каждого пользователя будет равный шанс получить ту или иную версию.
- Определите уровень статистической значимости (α). Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0.05. Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью. Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.
- Определите минимальный размер выборки. Калькуляторы есть здесь и здесь, они рассчитывают размер выборки, необходимый для каждой версии. На размер выборки влияют разные параметры и ваши предпочтения. Наличие достаточно большого размера выборки важно для обеспечения статистически значимых результатов.
- Определите временные рамки. Возьмите общий размер выборки, необходимый вам для тестирования каждой версии, и разделите его на ваш ежедневный трафик, так вы получите количество дней, необходимое для проведения теста. Как правило, это одна или две недели.
Пример: На существующем сайте в разделе регистрации мы изменим главную страницу — это и будет нашей версией B. Мы решаем, что в эксперименте будут участвовать только новые пользователи, заходящие на страницу регистрации. Мы также обеспечиваем случайную выборку, то есть каждый пользователь будет иметь равные шансы получить A или B, распределенные случайным образом.
Важно определить временные рамки. Допустим, ежедневно на нашу страницу регистрации в среднем приходит трафик от 10 000 новых пользователей, это означает, что только 5000 пользователей могут увидеть каждую версию. Тогда минимальный размер выборки составляет около 100 000 просмотров каждой версии. 100 000/ 5000 = 20 дней — столько должен продлиться эксперимент.
5. Проведите эксперимент
Помните о важных шагах, которые необходимо выполнить:
- Обсудите параметры эксперимента с исполнителями.
- Выполните запрос на тестовой закрытой площадке, если она у вас есть. Это поможет проверить данные. Если ее нет, проверьте данные, полученные в первый день эксперимента.
- В самом начале проведения тестирования проверьте, действительно ли оно работает.
- И, наконец, не смотрите на результаты! Преждевременный просмотр результатов может испортить статистическую значимость. Почему? Читайте здесь.
6. Анализируйте результаты. Наконец-то самое интересное
Вам нужно получить данные и рассчитать значения выбранной ранее метрики успеха для обеих версий (A и B) и разницу между этими значениями. Если не было никакой разницы в целом, вы также можете сегментировать выборку по платформам, типам источников, географическим параметрам и т. п., если это применимо. Вы можете обнаружить, что версия B работает лучше или хуже для определенных сегментов.
Проверьте статистическую значимость. Статистическая теория, лежащая в основе этого подхода, объясняется здесь, но основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связана с изменениями или это результат случайности или естественных изменений. Это определяется путем сравнения тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.
Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.
Если p-значение больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу о том, что A и B не отличаются друг от друга.
A/B-тестирование может дать следующие результаты:
- Контрольная версия, А выигрывает или между версиями нет разницы. Если исключить причины, которые могут привести к недействительному тестированию, то проигрыш новой версии может быть вызван, например, плохим сообщением и брендингом конкурентного предложения или плохим клиентским опытом.
В этом сценарии вы можете углубиться в данные или провести исследование пользователей, чтобы понять, почему новая версия не работает так, как ожидалось. Это, в свою очередь, поможет собрать информацию для следующих тестов.
- Версия B выигрывает. A/B-тест подтвердил вашу гипотезу о лучшей производительности версии B по сравнению с версией A. Отлично! Опубликовав результаты, вы можете провести эксперимент на всей аудитории и получить новые результаты.
Заключение
Независимо от того, был ли ваш тест успешным или нет, относитесь к каждому эксперименту как к возможности для обучения. Используйте то, чему вы научились, для выработки вашей следующей гипотезы. Вы можете, например, использовать предыдущий тест или сконцентрироваться на другой области, требующей оптимизации. Возможности бесконечны.
A/B тесты — что это такое и как использовать?
Недавно вместе с Валерием Белокуровым, Product Analyst в Яндексе, мы проводили вебинар «Разбираемся с нуля в А/Б-тестах». Смотрите запись этого онлайн-интенсива 😉
Что такое АБ-тест
Рассматривать понятие АБ-теста начнем с простой схемы. Она состоит из трех элементов:
- аудитория;
- исходная и экспериментальная страницы;
- магия.
Например, есть лендинг по производству и продаже пластиковых окон, на который идет трафик с контекстной рекламы (аудитория). Владелец посмотрел вебинар и узнал, что сейчас в тренде не прямоугольные кнопки, которые установлены на сайте, а круглые. Последние увеличивают конверсию, то есть дают больше заказов.
Но это лишь субъективное представление, задача — проверить в действительности, поможет ли замена прямоугольных кнопок на круглые повысить конверсию. То есть необходимо внести правки, дать потенциальным клиентам «попробовать» измененный лендинг. Тогда удастся получить объективные данные об изменении конверсии (исходная и экспериментальная страницы).
Оценивать можно как на всей аудитории, так и на ее части. Второй вариант более предпочтительный, ведь тогда негативный результат минимально скажется на объеме заказов. Поэтому опытные аналитики проводят тестирование на 5-10% аудитории.
что такое сплит-тесты сайтов, их проведение в Google Analytics
Цель работы коммерческого сайта – превратить как можно большее число пользователей в покупателей товаров или услуг. Владелец наполняет магазин товарами по адекватным ценам и полезным контентом. Но даже самые хорошие страницы нуждаются в повышении конверсии. Часто оптимизацию осуществляют вслепую, основываясь на своих наблюдениях и интуиции. Такие методы не всегда справляются с задачей. A/B тестирование позволяет оценить эффективность изменений в цифрах. Грамотное применение метода к интернет-магазину повышает его прибыльность.
Что такое сплит-тест или А/Б тестирование
Сплит-тестирование (split testing) – инструмент маркетинга. Этот метод призван оценивать и сравнивать результативность сайта. При этом рассматриваются количественные характеристики двух (или более) веб-страниц магазина.
Другое обозначение метода – AB тестирование, – проще поясняет его суть. Посетителям сайта последовательно предлагается два варианта страницы. Версии отличаются между собой одним или несколькими элементами. Путем повторения показов набирается статистика. Изучается, как влияют изменения на целевые характеристики ресурса. Учитывается, какие именно изменения вызывают больший интерес потенциальных покупателей.
Как проводят A/B тесты
Создаются страницы А и В с незначительными отличиями в оформлении. Их показывают однородной аудитории. Выбирается необходимое число показов. Оно должно быть достаточным для получения достоверных статистических данных. Для каждой попытки выводится коэффициент конверсии. Затем определяется наиболее привлекательная для клиентов версия страницы. Именно эта версия будет наиболее эффективной в смысле продаж.
Цели и преимущества метода
Тест нужен, чтобы извлечь из существующего трафика максимум пользы. С его помощью можно добиться повышение конверсии. Причем, оно не будет затратным. За платный же трафик приходится отдавать немалые суммы. Каким образом тестирование способно принести рост прибыли? Все экономические показатели интернет-магазина чутко реагируют на малейшие изменения сайта. Эти показатели: объем продаж, лиды, доходность.
Изменениям может подвергаться любой элемент сайта:
- Заголовки и подзаголовки,
- Информационный контент,
- Фразы и кнопки, призывающие посетителя к действию,
- Ссылки,
- Фото, видео,
- Отзывы пользователей.
С этими объектами проводят А/В-тест в самом простом варианте. Более сложные сплит-тесты изучают также влияние других характеристик на поведение клиента. Это могут быть цены, условия доставки, срок бесплатного тестирования продукта. Клиенты обычно активно отзываются на акции, специальные предложения. Маркетолог прогнозирует, чего ожидать от изменений на страницах. Делая поправки, он должен понимать, почему они могут сработать. Тестирование призвано проверить эти прогнозы.
Для эффективного использования методики необходимо назначить продолжительность тестирования. Оно должно продолжаться не меньше двух недель, и не дольше трех месяцев. Данные о результатах можно получать на e-mail. Еще одно преимущество сплит-теста – существование готовых сервисов. Они дают возможность специалисту самостоятельно устанавливать долю трафика для участия в эксперименте.
Сплит-тестирование для интернет-магазина
Как работает описанная методика в интернет-магазине? Понимание дает простой пример. Владелец ресурса решил использовать для магазина новый логотип. Но он сомневается в эффективности такого изменения. Не отпугнет ли обновление потенциальных клиентов? Специалист предлагает посетителям поочередно две версии главной страницы: старую А и новую В. A/B тест позволит определить, какая из них больше нравится посетителям сайта.
Анализ нужен для увеличения продаж. Поэтому важно правильно выбрать изучаемые параметры. Для результативного проведения А/В тестирования необходимо иметь хорошую посещаемость сайта. Только тогда можно проанализировать реакцию большого числа пользователей в короткий срок. По окончании времени тестирования важно правильно подсчитать конверсии на страницах А и В. Для этого фиксируют количество звонков, заявок, предоставляемых купонов. По этим параметрам оценивается число продаж. Косвенные показатели: скачивание прайса, время пребывания на странице.
Ошибочное применение методики тестирования может привести к неверным выводам.
- Посещаемость и время проведения теста. Достоверные результаты получаются, если каждую страницу посещает несколько тысяч человек.
- Чистота эксперимента. Нужно тщательно проследить, какие источники трафика использовались при тестировании. Возможно, какой-то из них не был учтен (одноразовая акция или рекламная кампания).
- Поспешность выводов. Они могут основываться на ошибочных подсчетах конверсии.
Чтобы избежать возникновения проблем, достаточно воспользоваться предлагаемыми программными решениями.
Инструменты для проведения А/В тестирования
Сплит-тестирование интернет-магазина удобно проводить при помощи готового функционала. Его предлагает сервис статистики для сайтов Google Analytics. Наиболее распространен среди веб-мастеров бесплатный ресурс Google Content Experiment. Этот эффективный и удобный инструмент для А/В тестов наследует сервису Google Website Optimizer. Функционал полностью интегрирован в Google Analitics. Этот факт позволяет специалисту перейти на собственную отчетность, обходя ПО разработчиков магазинов.
Достоинства Google Analytics:
- Есть возможность создать до 5 анализируемых страниц. Причем, каждая имеет свой URL адрес. При этом исключается переадресация, которая обычно раздражает посетителей. Таким образом, А/В тест не окажет отрицательного влияния на реакцию пользователей.
- Трафики исходной и альтернативной страниц можно объединить.
- Google Analitics предоставляет право клиенту поставить конкретную цель отслеживания конверсии. Опция Google Content Experiment «Отслеживание событий» позволяет самостоятельно определить понятие конверсии. Ею может быть клик или переход на сайт по ссылке извне. Веб-специалист определяет также процент посетителей для участия в тестировании.
- Сервис Google Analytics прост, разработана его русскоязычная версия с удобным интерфейсом.
Как воспользоваться инструментом Content Experiment? Достаточно сделать всего несколько шагов. В меню выбрать пункт «Поведение», в нем раздел «Эксперименты». Здесь можно дать тестированию название и задать параметры: цель отслеживания; процент трафика; адреса страниц. Программа выдает код тестирования, который нужно копировать на свой сайт. Отчеты по тестам можно просмотреть в разделе «Параметры визитов».
Подробно этот процесс мы описали в статье о проведении A/B тестов на платформе InSales.
При помощи сплит-тестирования владелец интернет-магазина предоставляет посетителю право выбирать лучшее решение. Исходя из результатов эксперимента, страницы приобретают наиболее привлекательный для клиентов внешний вид и наполнение. Сплит-тестирование дает маркетологу отличный шанс увидеть свой сайт глазами посетителя. Узнав предпочтения аудитории, легко увеличить конверсию сайта, а значит, и прибыль с него.
70 ресурсов, которые послужат хорошим стартом для начинающих / Хабр
Сделать веб-сайт доходным можно двумя способами. Первый – привлекать больше трафика, второй – повышать конверсию, т.е. побуждать большее количество посетителей становиться покупателями. Скорее всего, вы уже слышали о том, что трафик можно просто купить – сотни интернет-ресурсов предлагают эту услугу. А не лучше ли оптимизировать конверсию? Как узнать, что именно нужно проверить, и как провести A/B тестирование?А/В тестированию и оптимизации уровня конверсии посвящено бесчисленное количество ресурсов. Однако, очень редко на сайтах подробно разбирается весь этот процесс целиком от самого начала («Что и как тестировать?») и до конца («Как улучшить конверсию?»).
Дисклэймер: В своем блоге мы очень любим «коллекционировать» статьи, когда в одном месте собрана тщательно отобранная информация о нескольких инструментах и платформах для привлечения трафика на сайт и повышения конверсии. Когда на прошлой неделе NEIL PATEL, гуру в области usability, конверсии и т.п. решил поделиться своим опытом и выложил в широкий доступ свои «A/B тестирование: 70 ресурсов…», мы сразу же решили перевести этот, без преувеличения, кладезь информации для интернет-маркетологов. И теперь уже предоставляем его на ваш суд (вот только за точность перевода отдельных фраз не судите строго).
Что такое А/В тестирование?
Для начала вы должны разобраться, что такое А/В тестирование вообще и для чего оно вам. Вам нужно будет также ознакомиться с некоторой терминологией из данной области, например, А/В тестирование еще называют оптимизацией уровня конверсии.
1. Введение в оптимизацию уровня конверсии – здесь вы узнаете не только об оптимизации уровня конверсии, но и о том, почему это является необходимым.
2. Словарь А/В тестирования – в блоге объясняются технические термины, с которыми вам придется столкнуться.
3. Что такое А/В тестирование? – несколько графических диаграмм, которые объясняют механизм работы А/В теста.
4. Полное руководство по оптимизации посадочной страницы. Лендинговые страницы – это главная составляющая А/В тестирования. Они позволяют подстраиваться под конкретный тип посетителя сайта.
Что и как тестировать?
После того, как вы узнали об А/В тестировании, прочитайте следующие статьи – они помогут разобраться с тем, что и как тестировать.
5. Идеи для А/В тестирования – в статье даны три способа быстрой генерации идей для А/В теста.
6. Как составить А/В тест, используя количественные данные – видео-ролик, из которого вы научитесь анализировать данные и составлять по ним тесты.
7. Как использовать количественные данные для составления тестов – нельзя полагаться исключительно на цифры. Опрос посетителей – хороший способ узнать о том, что именно нуждается в проверке.
8. Качественные вопросы, которые помогут составить хороший А/В тест – если вы пока не знаете, какие вопросы задавать посетителям, прочитайте эту статью.
Как выбирать самые подходящие тесты? Приоритетность
Даже когда вы уже знаете, что именно вам нужно протестировать, нельзя просто запустить тест – необходим план. Есть ресурсы, которые помогут вам его составить.
9. Как составить мощный план А/В тестирования, который принесет результаты – на А/В тестировании можно запросто потерять прибыль. Если снова и снова проводить тесты, которые не приносят результатов, это негативно скажется на доходах. Поэтому убедитесь в том, что у вас есть план, прежде, чем запускать процесс, — это снижает вероятность провала.
10. Три схемы правильного выстраивания приоритетов среди тестов – не все тесты одинаково полезны. Одни обладают более высокой результативностью, чем другие. Поэтому так важно выстроить приоритетность тестирования.
11. Как провести А/В тестирование с максимальной прибылью – если вы новичок, нужно сконцентрироваться на прибыли. Со временем увеличивать доходы становится все труднее, но в самом начале резко увеличить размер прибыли не так сложно.
12. А/В тест или мультивариативный тест: что лучше? – если вам нужно протестировать много изменений, вам, возможно, лучше подойдет мультивариативный тест.
Как проводить тестирование?
Итак, начинаем…
13. Как провести свой первый А/В тест – я написал целую статью о том, как в первый раз проводить тестирование. Если будете следовать моей схеме, то все у вас получится с самого начала.
14. Сплит-тестирование 101 – данное руководство сделает успешным ваш первый опыт тестирования.
15. Как начать: 5 простых шагов – принципы А/В тестирования можно изложить простым языком. Данное руководство расскажет о пяти шагах к успешному началу.
16. Как за 10 минут составить А/В тест, используя Google Analytics — в Google Analytics есть бесплатное приложение для А/В тестирования. Учебное пособие научит вас им пользоваться.
Инструменты и ресурсы
Хотя А/В тестирование – сравнительно новый метод, но появился он не вчера. За время его существования накопилось уже достаточное количество инструментов и ресурсов, которые послужат вам подспорьем.
17. Which test won – на этом веб-сайте представлены тысячи А/В тестов разных компаний. Они даже указывают на то, какой тест принес прибыль (и в каком размере).
18. User Testing – польза обратной связи на сайте неоспорима: так вы поймете, из-за чего именно люди неохотно покупают у вас. Находясь на вашем сайте, пользователи могу зарегистрироваться и предоставлять обратную связь в реальном времени (в России в чем то схожий инструмент предоставляет Fabuza).
19. Crazy Egg – это приложение показывает, по каким ссылкам переходят пользователи и как они ведут себя на сайте. Например, насколько далеко вниз прокручивают страницу – из этого можно понять, находится ли призыв к действию слишком высоко или слишком низко на странице. Вы также увидите, переходят ли пользователи по ссылкам, которые никуда не ведут.
20. Google Experiments – если захотите провести А/В тестирование бесплатно, можете воспользоваться приложением, встроенным в Google Analytics. Оно не самое простое в использовании, зато за него не надо платить.
21. Optimizely – один из самых лучших инструментов для А/В тестирования. Если вы – не разработчик, у вас все равно получится изменить сайт с помощью редактора WSIWYG и проводить тесты.
22. Unbounce – лендинговые страницы удивительным образом увеличивают продажи. С помощью Unbounce лендинги удобно создавать и мгновенно тестировать.
23. Bounce Exchange – если ваш сайт построен в соответствии с принципами лидогенерации, то с помощью данного сервиса вы легко сможете увеличить продажи на 10-20%.
24. Hellobar – теперь с помощью этого бесплатного инструмента вы сможете направлять своих пользователей на страницы, которые лучше всего продают.
25. ConversionXL – замечательный блог о том, что тем или иным образом связано с конверсией. Здесь рассказывается обо всем: можно найти как полезные советы, так и ссылки на полезные ресурсы, рекомендации, касающиеся самого тестирования.
26. Qualaroo – один из моих любимых инструментов качественного анализа. Он позволяет задавать пользователям простые вопросы, которые дают понять, что именно на вашем сайте препятствует продажам.
27. KISSmetrics – проводя тест, вам нужна оптимизация не просто ради увеличения уровня конверсии, а ради увеличения прибыли. KISSmetrics поможет в этом.
28. Полное руководство для оптимизации конверсии – детальное описание механизма А/В тестирования длиной более 30 000 слов.
29. Bryan Eisenberg – хотите почитать хорошую книгу или блог о тестировании – обращайтесь сюда.
Как анализировать результаты
Теперь, когда вы начали свой первый А/В тест, пора учиться анализировать результаты.
30. Как долго проводить тестирование? – прежде, чем анализировать результаты, убедитесь, что тестирование проводилось на протяжении достаточного времени, иначе точная картина результатов не успеет сформироваться.
31. Как анализировать результаты тестирования через Google Analytics – если вы пользуетесь Google Analytics, то воспользуйтесь разнообразными сведениями, которые предоставляет данный сервис.
32. Использование первичных и вторичных показателей конверсии – замечательная статья о том, что именно искать в результатах теста.
33. Калькулятор А/В тестов – простой инструмент, который показывает, какой именно тест оказался успешным.
Как создать контент, который бы увеличил конверсию
Один из лучших способов увеличить процент конверсии – это экспериментировать с вариантами и тестировать все в них, начиная с заголовков, а заканчивая, собственно, текстом рекламных призывов. Предлагаем несколько ресурсов, которые научат вас создать контент, повышающий конверсию.
34. Полное руководство к копирайтингу – если хотите стать экспертом в создании текстов, вам стоит почитать данное руководство.
35. Онлайн копирайтинг сайта с отличной конверсией – 5 основных уроков по результатам 250 сплит-тестов на основе успешных сайтов.
36. Гарантированный метод кардинального улучшения копирайтинга – на данном сайте есть несколько замечательных статей и учебников о том, как создать для сайта контент с высокой конверсией.
37. Маленькие изменения – радикальные улучшения – как легкая корректировка на сайте мощно влияет на продажи. 57-минутное видео раскрывает секреты компании, которая увеличила уровень конверсии на 45%.
38. Учебник копирайтинга – когда сроки поджимают и срочно нужна помощь, посмотрите это видео – это хорошая основа для грамотного копирайтинга.
39. Как небольшие изменения на сайтах приводят к большим прибылям – несколько примеров того, как нужно модифицировать контент, чтобы продажи в режиме онлайн выросли.
А/В тестирование для мобильных приложений
Мобильные устройства значительно меньше компьютера, поэтому приложения для них должны отображать ваш сайт, учитывая этот фактор. Предлагаем несколько советов по улучшению мобильной версии.
40. Советы А/В тестирования для мобильных приложений – прежде, чем начать тестировать мобильную версию сайта, прочитайте данную статью.
41. 10 советов для оптимизации мобильного приложения – на этом видео Стивен Коллинз научит вас, как оптимизировать уровень конверсии для мобильного приложения или игры.
42. Android против iPhone – пользователи могут заходить на ваш сайт с разных устройств, и для каждого из них сайт должен быть оптимально удобным. Статья расскажет об А/В тестировании двух наиболее популярных типов телефонов.
43. А/В тестирование для мобильных приложений – тестировать мобильные версии сайта – не то же самое, что тестировать мобильные приложения. Статья поможет разобраться в этих тонкостях.
А/В тестирование для электронной торговли
Для разных сайтов – разные тесты. Предлагаем несколько ресурсов для владельцев коммерческих сайтов.
44. А/В тестирование для повышения доходности – замечательная электронная книга, которая доходчиво расскажет о том, как улучшить коммерческий сайт. В книге также освещаются возможные недочеты в процессе проверки.
45. 10 стоящих тестов для электронной коммерции – одна из крупнейших платформ электронной торговли, BigCommerce, предлагает 10 тестов, которые стоит провести на своем сайте.
46. А/В тестирование изображений продукта – изображение вашего товара на сайте влияет на то, насколько охотно его покупают. Статья поможет выбрать оптимальные изображения продуктов.
47. Оптимизация электронной торговли от экспертов – 20 профессионалов делятся секретами того, как повысить онлайн продажи.
48. А/В тестирование текста для рекламных кнопок – узнайте, как максимально увеличить эффективность кнопок, призывающих к действию (от «купить сейчас» до «добавить в корзину»).
А/В тестирование SaaS-приложений
Если вы пользуетесь SaaS-приложением или ваша бизнес-модель это подписка, то воспользуйтесь следующими советами:
49. Как можно протестировать SaaS приложение и получить необходимые результаты – простая инфографика для тех, кто пользуется SaaS бизнес-моделью и хочет улучшить конверсию.
50. Как построить и оптимизировать воронку конверсии – когда дело касается приложений SaaS, то не всегда достаточно просто оптимизировать дизайн. Тестирование воронки конверсий может невероятно повысить поток клиентов.
51. Почему не стоит тестировать ценовую политику при помощи А/В тестов – оптимизацию ценовой политики не провести с помощью одного только сплит-теста. По предложенной в статье схеме вам нужно будет оптимизировать доходы, а не конверсию.
52. Почему А/В тестирование лендингов необходимо для любой SaaS компании – если вы стоите бизнес на SaaS модели, вам не обойтись без лендингов. В статье объясняется причина этого и шаги, которые помогут в дальнейшем действовать успешно.
53. Qualaroo для SaaS – качественная обратная связь – один из лучших способов повысить продажи. Статья научит пользователей SaaS бизнес-модели тому, что и как делать.
54. Чему научили меня $252 000, потраченные на оптимизацию конверсии – я нанял консультантов по оптимизации конверсии для проведения А/В тестирования своего SaaS бизнеса. И вот какие уроки я извлек.
А/В тестирование лидогенерации
Лидогенерация и склонение пользователя купить что-то непосредственно у вас на сайте – две разные вещи. Предлагаем несколько ресурсов о том, как провести А/В тестирование лидогенерации.
55. 30 моментов для тестирования в лидогенерации – не знаете, с чего начать? Данный ресурс подкинет идею для тестирования вашей лидогенерации.
56. Как изменение названия журнала увеличило поток пользователей на 232% — кто бы мог подумать, что, всего лишь изменив заглавное изображение, можно так резко повысить посещаемость.
57. Как А/В тестировать форму лидогенерации – корректируя количество и расположение полей формы, вы можете повысить ее привлекательность для потенциальных клиентов.
58. Как компания увеличила поток клиентов на 262% — идеи лучше всего брать из результативного опыта других компаний.
59. Уроки лидогенерации на основе А/В тестов – прежде, чем вы начнете тестировать свои формы лидогенерации, почитайте, как это делали другие, об их ошибках и успехах.
60. 4 А/В теста лидогенерации – презентация в PowerPoint, которая расскажет о 4 тестах, которые были весьма успешны.
61. 10 А/В тестов, которые поднимают продажи – новые идеи (начиная от призывов к действию на формах лидогенерации, а заканчивая количеством контента над формами).
62. Три теста на практичность, которые утроят конверсию лидогенерации – тесты на практичность дадут вам новые идеи о том, как увеличить поток пользователей.
А/В тестирование электронных рассылок
Неважно, что у вас за бизнес, в любом случае электронные рассылки помогут многократно увеличить продажи. Можно протестировать эффективность каждого элемента: от заголовков писем до призывов к действию и, собственно, текстов писем.
63. Кампании электронных рассылок, которые повышают конверсию – если вы еще плохо знакомы с А/В тестами, прочитайте данную статью прежде, чем тестировать свои рассылки.
64. Как провести сплит-тест своих рассылок – приводятся советы о том, как создать оптимальную тему письма и даже о том, как протестировать текст рассылки.
65. А/В тестирование: советы для электронных писем и лендингов – недостаточно просто улучшить конверсию электронных рассылок. Вам необходимо также оптимизировать и лендинговые страницы, на которые переходят с писем.
66. Уроки по тестированию тем электронных писем – команда Coschedule рассказывает, что они узнали в результате 4-месячного тестирования об эффективности тем писем.
67. Как придумывать такие темы для писем, которые увеличат количество открытых писем на 203% — уроки, которые я получил во время А/В тестирования шаблонов писем на Quick Sprout.
Ошибки при А/В тестировании
Помните, что ошибки неизбежны. Однако, учась как на своих, так и на чужих ошибках, вы повышаете свои шансы на успех.
68. 4 А/В теста, которые убьют ваш бизнес – проведение неправильных тестов может навредить делу. Избегайте этих 4-х тестов.
69. 12 ошибок А/В тестирования, которые повторяют снова и снова – даже если кто-то это делает, не значит, что это стоит делать вам.
70. 7 ляпсусов А/В тестирования, которые допускают даже эксперты – избегайте этих ошибок.
Заключение
Теперь, когда вы знаете практически все об А/В тестировании, можете приступать непосредственно к тестированию и оптимизации, главное — постарайтесь не совершать ошибок, свойственных начинающим оптимизаторам конверсии.
Успехов вам и высокой конверсии!
Почему A/B-тесты уменьшают конверсию — опыт российской компании Driveback
В Driveback мы постоянно сталкиваемся с необходимостью проведения A/B-тестов для проверки тех или иных гипотез. На проведении многих A/B-тестов настаивают наши клиенты. Нередко мы тратим по несколько часов, чтобы объяснить, почему тот или иной тест делать абсолютно бессмысленно.
В своей практике мы крайне редко встречали маркетологов, которые бы до конца осознавали, как правильно делать A/B-тесты. Хуже того, большинство из них делают тесты абсолютно неправильно.
В этой статье мы постараемся показать, как неправильно проведенные A/B-тесты c виду могут показать превосходные результаты, которые, однако, будут всего лишь иллюзией успеха. В лучшем случаев, это приведет к бесполезным изменениям на сайте, и потере времени и денег. В худшем — к изменениям, которые в действительности могут повредить конверсии и прибыли.
Базовые понятия
Начать стоит прежде всего с базовых понятий, которые известны каждому математику, но забыты многими новоиспеченными специалистами по модному нынче A/B-тестированию.
Это такие понятия, как « статистическая мощность», «статистическая значимость», «множественные сравнения» и «регрессия». Понимая эти принципы вы сможете защититься от дезинформации и заблуждений, которые наводнили индустрию A/B-тестирования, и отличать иллюзорные результаты от реальных.
Статистическая мощность
Статистическая мощность — это всего-навсего вероятность (в процентах) того, что тест определит разницу между двумя вариантами, если эта разница действительно существует.
Предположим, вы хотите определить, есть ли разница между ростом женщин и мужчин. Если вы измерите всего лишь одну женщину и всего лишь одного мужчину, может оказаться так, что вы не заметите того факта, что мужчины выше женщин. Быть может вам попалась волейболистка и мужчина роста ниже среднего.
Однако, измерив достаточное количество разных мужчин и женщин, вы придете к выводу, что на самом деле мужчины выше. Все это потому, что статистическая мощность увеличивается при увеличении размера выборки.
Абсолютно таким же образом это работает и в применении к конверсии интернет-магазинов и других веб-сайтов. Допустим, мы хотим проверить, увеличится ли конверсия, если интернет-магазин будет давать скидку 10% на определенный вид товаров. Будет ли виден прирост в конверсии, зависит от статистической мощности теста. Чем выше мощность — тем выше вероятность, что вы увидите реальный результат.
В своей практике мы неоднократно сталкивались с ситуацией, когда в первую неделю A/B-теста со значительным перевесом «выигрывал» вариант №1.
Результат после двух дней тестирования и 33 тысячи посетителей в каждую ветку
Однако после достижения достаточной статистической мощности результат выравнивался, и далее уже с абсолютным постоянством выигрывал вариант №2.
Результат после двух недель тестирования и 400 тысяч посетителей в каждую ветку
Какой же размер выборки можно считать достаточным
Достаточный размер статистической выборки напрямую зависит от следующих величин:
- Статистической мощности, которой мы хотим достигнуть.
- Статистической значимости (речь о ней пойдет ниже).
- Величины эффекта (для интернет-магазинов это может быть разница в конверсиях).
Мы рекомендуем не доверять тестам, статистическая мощность которых ниже 80-90%. Полагаясь на результаты таких тестов вы можете существенно навредить своей конверсии.
Для подсчета оптимального размера выборки можно использовать калькулятор на нашем сайте.
Важно. Размер выборки в каждую ветку A/B-теста необходимо определить еще до начала теста и не менять до его окончания! Ниже мы опишем, почему это крайне важно.
Статистическая значимость
Допустим, что A/B-тест был проведен в соответствии с требованиями, описанными выше. Достигнута необходимая статистическая мощность и, наконец, можно посмотреть на результаты теста. Теперь необходимо определить, является ли тот результат, который показывает тест, статистически значимым. Простыми словами это означает: каков шанс того, что разница видна там, где ее на самом деле нет.
Или еще проще — какова вероятность того, что мы бы увидели подобный результат, если бы вместо A/B-теста проводили A/A-тест (тестирование варианта сайта против себя же самого).
Если такая вероятность мала — результаты теста можно считать статистически значимыми. Если она велика — результат может быть чистой случайностью (погрешностью) и ему не стоит доверять.
Мы придерживаемся строгого мнения, что уровень статистической значимости должен быть минимум 95%. Таким образом, шанс увидеть результат там, где его на самом деле нет — всего 5% (p-value = 5%).
Именно проверка статистической значимости результата помогает определить настоящего «победителя».
Для определения статистической значимости можно использовать множество калькуляторов. Один из них вы можете найти у нас на сайте.
Самая критическая и распространенная ошибка в A/B-тестировании — останавливать тест, как только становится заметно, что один из вариантов побеждает с существенным отрывом.
Даже если результат при этом является статистически значимым — это верный путь получить false-positive (ложноположительный) результат. Как мы уже писали ранее, несмотря на то, что результат проходит тест на статистическую значимость, это не значит, что он верный. Вполне возможно он ошибочен, так как не достигнут необходимый размер выборки.
Мы понимаем, что крайне сложно удержаться вдали от Google Analytics и подождать месяц, пока тест не будет завершен, не заглядывая в результаты раньше времени. Однако именно это спасет вас от серьезных ошибок.
Это легко проверить проводя A/A-тест (тестировани
Инструменты A/B-тестирования в таргетированной рекламе — Маркетинг на vc.ru
Сравнение возможностей встроенных инструментов рекламных систем.
Привет, vc.ru! Меня зовут Али Байчибаев, я специалист по таргетированной рекламе. Вместе с командой сервиса «Везёт» мы запустили сотни, если не тысячи, кампаний в самых разных рекламных сетках — и давно поняли, что без тестирования креативов и прочих параметров никуда.
Я остановлюсь на самом популярном методе проверки маркетинговых гипотез — на A/B-тестировании — и поговорю о возможностях его проведения внутри систем таргетированной рекламы (в данном случае это традиционные Facebook, MyTarget и ВК).
Встроенные инструменты — это простой способ получить достоверные результаты «не отходя от кассы»: не занимаясь ручными расчетами и не привлекая аналитиков. Особенно такие инструменты пригодятся новичкам или небольшим командам.
Но нужно быть внимательным при подготовке эксперимента, его проведении и интерпретации результатов. Давайте разбираться, как это работает в каждой из сетей.
Из всех трёх рекламных сетей в Facebook самая проработанная система тестирования.
Cплит-тестирование можно запустить уже на этапе создания рекламной кампании. Доступные для изменения переменные:
- Креатив.
- Модель оптимизации рекламных объявлений.
- Параметры аудитории.
- Места размещения (плейсменты).
Важно! Здесь вы можете протестировать изменения именно на уровне групп объявлений: их аудитория автоматически делится на пропорциональные части и не пересекается.
Интерфейс запуска сплит-тестирования на экране создания кампании.
Кроме тестирования на уровне адсетов, в интерфейсе Facebook есть специальный раздел Test And Learn (у некоторых он уже переименован в Experiments), в котором доступны для запуска:
- A/B Test — A/B-тестирование.
- Holdout Test (Conversion Lift) — тестирование контрольной выборки.
- Brand Survey (Brand Lift) — исследование узнаваемости бренда.
- Campaign Budget Optimization Lift — тестирование оптимизации бюджета кампании.
Из этих четырёх тестов нас в первую очередь интересует первый — остальные скорее основаны на прогнозируемых характеристиках, а некоторые из них и вовсе долгое время были недоступны для запуска в России.
Собственно, A/B-тестирование в разделе Experiments в терминологии Facebook — это тест, похожий на сплит-тест, про который я говорил чуть выше: аудитория разделяется на непересекающиеся части. Основное отличие в том, что здесь возможно тестировать изменения не на уровне адсетов, а уже на уровне кампаний. Другими словами, можно тестировать практически произвольный набор характеристик как в настройках адсета, так и в настройках кампании. Нужно лишь следить за тем, чтобы количество результатов по обеим кампания не было слишком маленьким.
По окончании тестирования Facebook покажет вам результат в виде красивого графика и табличек.
6 простых шагов — Академия Яндекса
A / B-тестирование — это неотъемлемая часть процесса работы над продуктом. Это эксперимент, который позволяет сравнить две версии чего-либо, чтобы гипотезы и определить, какая версия лучше. Должны ли кнопки быть черными или белыми, какая навигация лучше, какой порядок прохождения регистрации меньше всего отпугивает пользователей? Продуктовый дизайнер из Сан-Франциско Лиза рассказывает о простых шагах, которые помогут базовое тестирование.
Кому нужно A / B-тестирование
- Продакт-менеджеры могут тестировать изменения ценовых моделей, повышение доходов, оптимизацию части воронки продаж для увеличения конверсии.
- Маркетологи могут тестировать изображения, призывы к действию (призыв к действию) или практически любые другие элементы маркетинговой кампании или рекламы с точки зрения улучшения метрик.
- Продуктовые дизайнеры могут тестировать дизайнерские решения (например, цвет кнопки оформления заказа) или использовать результаты тестирования для того, чтобы перед внедрением определить, будет ли удобно пользоваться новой функцией.
Вот шесть шагов, которые нужно пройти, чтобы провести тестирование. В некоторых из примеров тестирования страницы регистрации выдуманного стартапа.
1. Определите
Определите основные бизнес-задачи компании и убедитесь, что цели с ними совпадают.
Пример: Допустим, вы менеджер продукта в «компании X» на стадии стартапа. Руководству нужно роста количества пользователей.В частности, компания стремится к росту количества активных пользователей (метрика DAU), определяемых как среднее количество зарегистрированных пользователей сайта в день за последние 30 дней. Вы предполагаете, что этого можно добиться путем улучшения показателей удержания (процент пользователей, возвращающихся для повторного использования продукта), либо увеличения числа новых регистрирующихся пользователей.
В процессе исследования воронки вы замечаете, что 60% пользователей уходят до завершения регистрации.Это означает, что можно повысить количество регистраций, изменив страницу регистрации, что, в свою очередь, должно помочь увеличить количество активных пользователей.
2. Определите метрику
Затем вам нужно определить метрику, которую вы будете смотреть, чтобы понять, какую новую версию сайта более успешной, чем первоначальная. Обычно в качестве такого метрики берут коэффициент конверсии, но можно выбрать и промежуточную метрику вроде показателя кликабельности (CTR).
Пример: В данном примере в качестве метрики вы выбираете учет зарегистрированных пользователей (коэффициент регистрации), определяемое как количество новых пользователей, которые регистрируются, поделенное на общее количество новых посетителей сайта.
3. Разработайте гипотезу
Затем нужно разработать гипотезу о том, что именно поменяется, и, соответственно, что вы хотите проверить. Нужно понять, каких результатов вы ожидаете и какие у них могут быть обоснования.
Пример: Допустим, на текущей странице регистрации есть баннер и форма регистрации. Есть несколько пунктов, которые можно протестировать: поля формы, позиционирование, размер текста, но баннер на главной странице визуально наиболее заметен, чтобы узнать, увеличится ли доля регистраций, если изменить изображение на нём.
Общая гипотеза заключается в следующем: «Если изменить главную страницу регистрации, то больше новых пользователей будут регистрироваться внутри продукта, потому что новое изображение лучше передает его ценности».
Нужно проверить две гипотезы, которые помогут понять, какая разница между версией A (новой, которую вы хотите проверить) случайностью или результатом изменений, которые вы произвели.
- Нулевая гипотеза предполагает, что результаты, А и В на самом деле не отличаются и что наблюдаемые случайны. Мы надеемся опровергнуть эту гипотезу.
- Альтернативная гипотеза — это гипотеза о том, что B отличается от A, и вы хотите сделать вывод об истинности.
Решите, будет ли это односторонний или двусторонний тест. Односторонний тест позволяет изменить в одном направлении, в то время как двусторонний тест позволяет изменить изменение по двум направлениям (как положительное, так и отрицательное).
4. Результаты Подготовьте эксперимент
Для того, чтобы тест выдавал корректные сделайте следующее:
- Создайте новую версию (B), отражающую изменения, которые вы хотите протестировать.
- Определите контрольную и экспериментальную группу. Каких пользователей вы хотите протестировать: всех пользователей на всех платформах или только пользователей из одной страны? Определите группу испытуемых, отобрав их по типам пользователей, платформе, географическим показателям и т. п. Затем определите, какой процент исследуемой группы составляет контрольная группа (группа, видящая версия A), а какой процент — экспериментальная группа (группа, видящая версия B).Обычно эти группы одинакового размера.
- Убедитесь, что пользователи будут видеть версию A и B в случайном. Это значит, у каждого пользователя будет равный шанс получить ту или иную версию.
- Определите уровень статистической значимости (α) . Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0,05. Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью.Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.
- Определите минимальный размер выборки. Калькуляторы есть здесь и здесь, они находятся размер выборки, величина для каждой версии. На размер выборки разные параметры и ваши предпочтения. Наличие достаточно большого размера выборки важно для обеспечения статистически значимых результатов.
- Определите временные рамки. Возьмите общий размер выборки, необходимое вам для тестирования каждой версии, и разделите его на ваш ежедневный трафик, так вы получите количество дней, необходимое для проведения теста.Как правило, это одна или две недели.
Пример: На существующем сайте регистрации мы изменим главную страницу — это и будет версией B. Мы решаем, что в эксперименте будут участвовать только новые пользователи, заходящие на страницу регистрации. Мы также обеспечиваем случайную выборку, то есть каждый пользователь будет иметь равные шансы получить A B, распределенными случайным образом.
Важно определить временные рамки. Допустим, ежедневно на нашу страницу регистрации в среднем приходит трафик от 10 000 новых пользователей, это означает, что только 5000 пользователей могут увидеть каждую версию.Тогда минимальный размер выборки составляет около 100 000 просмотров каждой версии. 100 000/5000 = 20 дней — столько должен продлиться эксперимент.
5. Проведите эксперимент
Помните о важных шагах, которые необходимо выполнить:
- Обсудите параметры эксперимента с исполнителями.
- Выполните запрос на тестовой закрытой площадке, если она у вас есть. Это поможет проверить данные. Если ее нет, проверьте данные, полученные в первый день эксперимента.
- В самом начале тестирования проверьте, действительно ли оно работает.
- И, наконец, не смотрите на результаты! Преждевременный просмотр результатов может испортить статистическую значимость. Почему? Читайте здесь.
6. Анализируйте анализируйте. Наконец-то самое интересное
Вам нужно получить данные и рассчитать значения выбранной ранее метрики для разных значений (A и B) и разницу между этими значениями.Не было никакой разницы в целом, вы также можете сегментировать выбор по платформам, типам источников, географическим параметрам и т. Д. п., если это применимо. Вы можете построить, что версия B работает лучше или хуже для сегментов.
Проверьте статистическую значимость. Статистическая теория, лежащая в основе этого подхода, объясняется здесь, но основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связями с изменениями или это результат случайности или естественных изменений.Это определяется путем сравнения тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.
Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.
Если p-значение больше или равный уровень значимости, мы не можем отвергнуть нулевую гипотезу о том, что A и B не отличаются друг от друга.
A / B-тестирование может дать следующие результаты:
- Контрольная версия, А выигрывает или между версиями нет разницы.. . Причины, вызывающие недействительность, вызваны тем, что проигрыш новой версии может быть вызван, например, плохим сообщением и брендингом конкурентного предложения или плохим клиентским опытом.
В этой сценарии вы можете углубиться в данные или провести исследование пользователей, чтобы понять, почему новая версия не работает так, как ожидалось. Это, в свою очередь, поможет собрать информацию для следующих тестов.
- Версия B выигрывает. A / B-тест подтвердил вашу гипотезу о лучшей производительности версии B по версией А. Отлично! Опубликовав результаты, вы можете провести эксперимент на всю аудиторию и получить новые результаты.
Заключение
Независимо от того, был ли ваш тест успешным или нет, относитесь к каждому эксперименту как к возможности для обучения. Используйте то, чему вы научились, для выработки вашей следующей гипотезы. Вы можете, например, использовать предыдущий тест или сконцентрироваться на другой области, требуемой оптимизации.Возможности бесконечны.
.A / B тест — это просто / Хабр
A / B тестирование — это мощный маркетинговый инструмент для повышения эффективности работы вашего интернет-ресурса. С помощью тестов A / B повышают конверсию посадочных страниц, подбирают оптимальные заголовки объявлений в рекламных сетях, улучшают качество поиска.
Мне часто приходится сталкиваться с задачами организации A / B тестирования различных интернет-проектов. В этой статье хочу поделиться необходимыми базовыми знаниями для тестирования и анализа результатов.
Зачем нужны А / B тесты?
Итак, представим ситуацию, наш проект запущен в жизнь, на нем трафик, использует активно использовать ресурс. И в один прекрасный день мы решили что-то поменять, например, link всплывающий виджет для удобства подписки на новости.
Наше решение — это интуитивное предположение о том, что пользователям будет проще подписаться на новые материалы, мы ожидаем повышения подписчиков.
Наши предположения и гипотезы строятся на основе личного опыта и наших взглядов, которые совсем не совпадают со взглядами аудитории нашего ресурса.Другими словами, наше предположение не означает, что после внесения изменений мы получим желаемый эффект. Для проверки таких гипотез мы и проводим A / B-тесты.
Как проводим тесты?
Идея A / B тестирования очень проста. Пользователи ресурса случайным образом делятся на сегменты. Один из сегментов остается без изменений — это контрольный сегмент «A», на основе данных по этому сегменту мы будем оценивать эффект от вносимых изменений. Пользователям из сегмента «Б» показываем измененную версию ресурса.
Чтобы получить статистически значимый результат, очень важно исключить влияние сегментов друг на друга, т.е. пользователь должен быть отнесен строго к сегменту. Это можно сделать, например, записав метку сегмента в печенье.
Для влияния внешних факторов , таких как рекламные кампании, погода или сезонность, условия в сегменте важно делать параллельно, т.е. в один и тот же период времени.
Кроме того, внутренние факторы , которые также исказить результаты теста.Таким факторами могут быть действия операторов call-центра, служба поддержки, работа редакции, разработчики или администраторы ресурса. В Google Analytics для этого воспользуйтесь фильтрами.
Число пользователей в отношениях не всегда удается сделать равным, в связи с этим метрики, как правило, выбираются, т.е. без привязки к абсолютным значениям сегмента в сегменте. Нормирование осуществляется либо на число посетителей, либо на число просмотров страниц. Например, такими метриками могут быть средние чек или CTR ссылки.
Одной из причин делить аудиторию непропорционально может быть существенное изменение в интерфейсе. Например, полное обновление устаревшего дизайна сайта, изменение системы навигации или добавление всплывающей формы для сбора контактной информации. Такие изменения как к положительным, так и к отрицательным эффектам в работе ресурса.
Если есть опасение, это изменение может иметь сильное негативное влияние, например, привести к резкому оттоку аудитории, то, на первом этапе, имеет смысл тестовый сегмент делать не очень большим.В случае отсутствия негативного эффекта, размер тестового сегмента можно постепенно увеличить.
Что улучшаем?
Если вы собираетесь провести A / B тестирование на своем ресурсе, то наверняка у вашего проекта уже сформированы основные показатели, которые необходимо улучшить. Если таких показателей еще нет, тогда самое время о них задуматься.
Показатели прежде всего целями проекта. Ниже приведу несколько популярных метрик, которые используются в интернет-проектах.
Конверсия
Конверсия вычисляется как доля общего числа посетителей, совершивших какое-либо действие. Действием может быть заполнение формы на посадочной странице, совершение покупки в интернет-магазине, регистрация, подписка на новости, клик на ссылку или блок.
Экономические метрики
Как правило, эти метрики применимы для интернет-магазинов: величина среднего чека , объем выручки, отнесенный на число посетителей интернет-магазина.
Поведенческие факторы
К поведенческим факторам относят оценку заинтересованности посетителей в ресурсе. Ключевые показатели — это: глубина просмотра страниц — число пользователей, просмотр страниц, отнесенное к количеству посетителей на сайте, средняя продолжительность сессии , показатель отказов — доля пользователей, покинувших сайт сразу после первого захода, коэффициент удержания (можно считать, как 1 минус% новых пользователей).
Одного показателя не всегда достаточно для оценки эффекта от вносимых изменений. Например, после изменений на сайте интернет-магазина средний чек может уменьшиться, но общая выручка вырасти за счет повышения конверсии посетителя в покупателя. В связи с этим, важно контролировать несколько ключевых показателей.
Анализ результатов
Отлично, ключевые показатели, испытанные, мы получили первые данные. В этот момент, особенно если данные соответствуют нашим ожиданиям, возникают соблазн сделать поспешные выводы о результатах тестирования.
Торопиться не стоит, значения наших ключевых показателей могут меняться день ото дня — это значит, что мы имеем дело со случайными величинами. Для сравнения случайных величин оценивают средние значения, а для оценки среднего значения требуется некоторое время, чтобы накопить историю.
Эффект от внесения изменения определяют как разность между средними значениями ключевого показателя в сегментах. Тут возникает следующий вопрос, насколько мы уверены в достоверности полученного результата? Если мы еще раз проведем тест, то какова вероятность того, что мы сможем повторить результат?
Ниже на картинках примеры распределения показателя в сегментах.
Графики распределения характеризуют частоту появления или иного значения случайной величины в выборке. В данном случае все значения распределены вокруг среднего.
На обеих картинках средние значения показателя в соответствующих сегментах одинаковы, картинки отличаются только разбросом значений .
Данный пример хорошо показывает, что разности средних значений недостаточно для того, чтобы считать результат достоверным , необходимо также оценить пересечение распределений.
Чем меньше пересечение, тем с большей уверенностью мы можем сказать, что эффект действительно значим. Эта «уверенность» в статистике называется значимостью результата.
Как правило, для принятия положительного решения об эффективности изменения уровня значимости выбирают равным 90%, 95% или 99%. Пересечение распределений при этом равно соответственно 10%, 5% или 1%. При невысоком уровне значимости существует опасность сделать ошибочные выводы об эффекте, полученном в результате изменения.
0000002 Несмотря на эти характеристики, в отчетах по A / B тестам, к сожалению, забывают указать уровень значимости, при котором часто был получен результат.Кстати, на практике примерно 8 из 10 A тестов не статистически значимыми.
Стоит отметить, что чем больше объем трафика в сегментах, тем меньше разброс среднесуточных показателей показателя. Приом трафик из-за б о льшего разброса значений случайной необходимости больше времени для проведения эксперимента, но в любом случае это лучше, чем не провести эксперимент.
Оценить значимость результатов
Для сравнения случайных величин математики придумали целый раздел под проверкой статистических гипотез. Гипотез всего две: «нулевая» и «альтернативная». Нулевая гипотеза предполагает, что разница между средними значениями показателя в сегментах незначительна. Альтернативная гипотеза предполагает наличие существенной разницы между средними значениями показателя в сегментах.
Для проверки гипотез существует несколько статистических тестов.Тесты зависят от характера измеряемого показателя. В общем случае, если мы считаем среднесуточные значения, можно воспользоваться тестом Стьюдента. Этот тест хорошо зарекомендовал себя для небольших объемов данных, т.к. учитывает размер выборки при оценке значимости.
В качестве примера сравнение средней длительности сеанса в сегментах на одном из ресурсов, для которых я проводил эксперимент: studentttest.xls.
Тест Стьюдента — универсален, его можно применить как измерения для конверсии, так и для таких количественных показателей как средний чек, средняя глубина просмотра или время, проведенное на сайте.
В случае, если вы измеряете только конверсию, вы имеете дело с бинарной слуайной величиной, которая принимает только два значения: посетитель «сконвертировался» и «не сконвертировался». Для оценки статистической значимости в этом случае можно воспользоваться он-лайн калькулятором.
Инструменты
Для организации теста необходим инструмент, позволяющий разметить аудиторию по сегментам и посчитать значения ключевых показателей отдельно в каждом сегменте.
Если ваши ресурсы позволяют, то такой инструмент можно реализовать самостоятельно на основе анализа логов действий пользователей.Если ресурсы ограничены, то стоит использовать сторонним инструментом. Например, в Google Analytics есть возможность задавать пользовательские сегменты.
Существует ряд сервисов, которые позволяют полностью автоматизировать процесс тестирования, например, тотже Google Analytics Experiements, примеры других сервисов можно найти в обзоре.
А дальше?
В статье приведены базовые знания, необходимые для проведения A / B-тестов и анализа результатов. Следующий шаг — это продуктовая аналитика.В завершение хочу поделиться ссылкой на отличную презентацию по продуктовой аналитике с примерами A / B тестирования от Курышева Евгения. .
A / B-тесты — что это такое и как использовать?
Генерирование новых идей — неотъемлемая часть развития любого продукта. Разумеется, не каждая идея повысит конверсию, увеличит аудиторию или положительно повлияет на другую метрику. Как тогда быстро проверять идеи и гипотезы? Существует множество инструментов, но один из самых популярных — A / B-тесты, которые пойдет речь в этой статье.
Недавно вместе с Валерием Белокуровым, аналитиком по продукту в Яндексе, мы провели вебинар «Разбираемся с нуля в А / Б-тестах». Смотрите запись этого онлайн-интенсива 😉
Что такое АБ-тест
Рассматривать понятие АБ-теста с простой схемы.Она состоит из трех элементов:
- аудитория;
- исходная и экспериментальная страницы;
- магия.
Например, есть лендинг по производству и продаже пластиковых окон, на который идет трафик с контекстной рекламы (аудитория).Владелец посмотрел вебинар и узнал, что сейчас в тренде не прямоугольные кнопки, которые установлены на сайте, а круглые. Последние увеличивают конверсию, то есть дают больше заказов.
Но это лишь субъективное представление, задача — проверить в действительности, поможет ли замена прямоугольных кнопок на круглые повысить конверсию. То есть необходимо внести правки, дать потенциальным клиентам «попробовать» измененный лендинг.Тогдастся получить объективные данные об изменении конверсии (исходная и экспериментальная страницы).
Оценивать как на всю аудиторию, так и на ее части. Второй вариант более предпочтительный, ведь тогда негативный результат минимально скажется на объем заказов. Поэтому опытные аналитики проводят тестирование на 5-10% аудитории.
Создается вторая версия лендинга с круглыми кнопками и на нее направляется 5-10% трафика с контекстной рекламой, потенциальные клиенты получают возможность и поработать с обновленной версией.
Следующий блок — магия. На этом этапе анализируют поведение пользователей и на основе полученных данных принимают решение. Например, раньше конверсия была 3-5%, а после замены кнопок увеличилась до 8-10%. Тогда весь трафик с контекстной рекламы переводят на новую версию и радуются прибыли.
Выбор системы аналитики зависит от ключевой метрики.В случае с лендингом по пластиковым окнам использование Яндекс.Метрики (вообще, это популярный инструмент и его использование во многих тестах).
Таким образом, A / B-тесты — сравнение исходной версии (сайта, приложения и т.п.) с новой на группе пользователей, оценка изменений ключевых метрик и принятие конечного решения о внесении правок.
Кому и для чего нужны АБ-тесты
A / B-тесты нужны всем — продакт-менеджеров, маркетологам, продуктовым дизайнерам, вебмастерам и т.п. Если говорить проще, то в этом инструменте нуждаются все, кто хочет улучшить свой продукт, делать его удобнее и приятнее для целевой аудитории.
АБ-тестирование необходимо для получения объективной информации о всевозможных способах улучшения версии продукта. Но это не всегда история успешных тестов и постоянный рост. В первую очередь надо думать, как не сделать проект хуже.И в этом A / B тесты помогает как нельзя лучше.
Объективные данные позволяют быстрее продвигаться на рынке. Ведь кто, как не пользователи, лучше знают, что им нужно здесь и сейчас. В развитии продукта опираться лишь на с
.Простой гид по байесовскому А / B-тестированию на Python — Академия Яндекса
A / B-тестирование — это неотъемлемая часть работы над продуктом. С его помощью можно проверить гипотезу о том, поменяется ли выбранная продуктовая метрика, если изменить что-то в продукте, — например, увеличится ли количество пользователей, если изменить дизайн страницы регистрации. Для этого сравниваются результаты в тестовой и контрольной группе пользователей: первая выборка показывает новое решение.
При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно соответствует нововведениям в продукте, а является ли случайностью. Для этого можно использовать (частотный) или байесовский подход к A / B-тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A / B-тестирование и разобраться в его работе.
Сразу к коду
Здесь приведено решение для байесовского A / B-тестирования — код которого можно сразу применить для своего проекта. Во второй части статьи описываются детали, которые лучше понять его работу и принципы, которые за ним стоят.
В приведенном коде не используются приближения: методыте-Карло по схеме марковских цепей (MCMC) или любые другие стохастические процессы. Поэтому для того, чтобы его применить, вам не понадобится вероятностный фреймворк программирования.
Сперва представим полученные в результате A / B-данных тестирования: например, по конверсии (CR) пользователей веб-страницы, представленной в таблице:
Таблица 1: показы страницы и конверсия для контрольной и тестовой группдля работы приведён ниже . Чтобы воспользоваться им, нужно скачать библиотеку SciPy и компилятор Numba с платформой Anaconda, и подставить числа, полученные в ходе тестирования.
из scipy.stats import beta импортировать numpy как np из calc_prob импорт calc_prob_between # Это известные данные: показы и конверсии для контрольного и тестового набора imps_ctrl, convs_ctrl = 16500, 30 imps_test, convs_test = 17000, 50 # здесь мы создаем бета-функции для двух наборов a_C, b_C = convs_ctrl + 1, imps_ctrl-convs_ctrl + 1 beta_C = beta (a_C, b_C) a_T, b_T = convs_test + 1, imps_test-convs_test + 1 beta_T = beta (a_T, b_T) # расчет подъемника лифт = (beta_T.среднее () - beta_C.mean ()) / beta_C.mean () # расчет вероятности того, что Test будет лучше, чем Control prob = calc_prob_between (beta_T, beta_C) print (f "Вариант тестирования повысил коэффициент конверсии на {lift * 100: 2.2f}% с вероятностью {prob * 100: 2.1f}%.") #output: Тестовый вариант повышает коэффициент конверсии на 59,68% с вероятностью 98,2%.
Содержание импортируемого модуля calc_prob.py:
from math import lgamma из Numba import jit # определение используемых функций @jit def h (a, b, c, d): число = lgamma (a + c) + lgamma (b + d) + lgamma (a + b) + lgamma (c + d) den = lgamma (a) + lgamma (b) + lgamma (c) + lgamma (d) + lgamma (a + b + c + d) вернуть нп.ехр (число - ден) @jit def g0 (a, b, c): return np.exp (lgamma (a + b) + lgamma (a + c) - (lgamma (a + b + c) + lgamma (a))) @jit def hiter (a, b, c, d): пока d> 1: d - = 1 вывести h (a, b, c, d) / d def g (a, b, c, d): вернуть g0 (a, b, c) + sum (hiter (a, b, c, d)) def calc_prob_between (beta1, beta2): вернуть g (beta1.args [0], beta1.args [1], beta2.args [0], beta2.args [1])
Как видно из данных первой таблицы выбор тестовой группы работает лучше, чем выбор контрольной: можно увидеть почти 60% увеличение конверсии с 98% вероятностью.
Результат легко интерпретировать, не правда ли? А теперь перейдём к деталям.
Объяснение
В приведенном коде инициализируются две бета-функции (по одному для каждого случая), в которых подставляются числа:
Они моделируют данные A / B теста, поведение функций при разных значениях показано на гифке:
Каждая последующая функция строится с учётом новых данных: и пока данных нет, она выглядит как прямая. А чем больше информации, тем более точный результат мы получаем, и тем более острый пик у распределения.
На этом этапе у вас, скорее всего, возник вопрос: почему существует такая функция, которая создана для A / B-тестов?
Ответ кроется в теореме Байеса. Обычно используют различные методы приближения, используя методы, используемые, например, Монте-Карло по схеме марковских цепей (MCMC).
Но A / B-тесты — это тот удачный случай, в котором есть точное решение, основанное на сопряжённом априорном распределении. Когда это применимо, то апостериорная (после эксперимента) функция всегда принадлежит к той же семейству, что и априорная (до учёта результатов эксперимента), и можно итеративно прийти к финальной функции.
А / B-тесты — это случайные эксперименты с ровно двумя возможными исходами, и они используются для испытаний Бернулли, а cопряжённым априорным распределением для них служит бета-распределение. Таким образом бета-распределение можно использовать таким образом, как в приведённом коде. Если у вас остались сомнения, то с деталями математических доказательств можно ознакомиться здесь (примечание Академии — мы заменили исходную ссылку на подробный материал от руководителя Центра глубинного обучения и байесовских методов Дмитрия Ветрова).
Давайте вернёмся к нашему примеру и рассмотрим два распределения:
import matplotlib.pyplot as plt def calc_beta_mode (a, b): '' 'эта функция вычисляет режим (пик) бета-распределения' '' возврат (a-1) / (a + b-2) def plot (бета-версии, имена, linf = 0, lsup = 0,01): '' 'эта функция строит бета-распределение' '' x = np.linspace (linf, lsup, 100) для f имя в zip (бета-версии, имена): y = f.pdf (x) # это для вычисления значения PDF в указанных точках x y_mode = calc_beta_mode (ф.args [0], f.args [1]) y_var = f.var () # дисперсия бета-распределения plt.plot (x, y, label = f "{name} образец, коэффициент конверсии: {y_mode: 0.1E} $ \ pm $ {y_var: 0.1E}") plt.yticks ([]) plt.legend () plt.show () plot ([beta_C, beta_T], names = ["Контроль", "Тест"])
Можно заметить, что пики распределений соответствуют значениям, подсчитанным традиционным способом:
Значения конверсии для контрольной и тестовой группРазница между традиционным (частотным) и байесовным подходом заключается в том, что во втором случае вместо числа мы получаем конверсии плотности вероятности.И благодаря этому становится просто подсчитать вариацию конверсии, которую тоже можно увидеть на верхнем графике.
Кроме того, можно вычислить, насколько выше конверсия для тестовой группы, чем для контрольной:
На этом этапе нужно оценить достоверность результата. Как? Подсчитав вероятность того, что одна пенопласт лучше другой.
Заметим, что при традиционном (частотном) подходе так сделать не получится. В этом случае нужно подсчитать p-значение, проверить, принадлежит ли оно определенному промежутку (обычно для подтверждения значимости гипотезы p должно быть строго меньше 0,05) и объявить клиенту или менеджер, что «с 95% доверительным интервалом, мы можем отвергнуть нулевую гипотезу ».«Эта гипотеза лучше предыдущей с вероятностью в 95%», что они бы на самом деле хотели услышать.
При байесовском же подходе мы можем свободно говорить, что одна гипотеза лучше другой. В самом деле, у нас есть функции плотности вероятности, которые описывают нашу конверсию, а вероятность того, что одна гипотеза лучше, задаётся площадью под графиком.
Приведем пример: чтобы вероятность того, что конверсия для тестовой группы выше 0,003, нужно подсчитать площать фигуру под графиком на отрезке от 0,003 до 1 (установленный интеграл на этом промежутке).
На Python подсчитать этот интеграл (без использования приближений) можно с помощью библиотеки Mpmath:
из mpmath import betainc p = betainc (a_T, b_T, 0.003,1, регуляризованный = True) #result: 0.4811256685381254
В этом примере мы рассматриваем только одно распределение (для тестовой группы), но для того, чтобы точно оценить прирост в метриках, нужно рассмотреть оба распределения — и для тестовой, и для контрольной группы. Чтобы это визуализировать, нужно ещё добавить одно измерение.Как следствие, вероятность, которую нам нужно измерить, будет описываться уже не площадью, а объёмом. В этом случае — объёмом под совместным распределением контрольной и тестовой групп.
Совместное распределение для двух групп. Слева — 3D-визуализация. Справа — вид сверху. Серая заливка (или линия в случае плоского изображения) отделяет зону, на которой результаты для тестовой группы лучше, чем для контрольной.
Приведённую визуализацию можно представить как изображение горы и её вид со спутника сверху.А серая линия на правом графике может служить как граница между землей, принадлежащей тестовой группе (верхний треугольник), и землей контрольной группы. При этой интерпретации вопрос стоит так: насколько большая часть принадлежит одной из групп?
Код для создания похожей визуализации можно взять отсюда:
import seaborn as sns импортировать панд как pd импортировать numpy как np imps_ctrl, convs_ctrl = 16500, 30 imps_test, convs_test = 17000, 50 # здесь мы создаем бета-функции для двух наборов a_C, b_C = convs_ctrl + 1, imps_ctrl-convs_ctrl + 1 a_T, b_T = convs_test + 1, imps_test-convs_test + 1 val_C = np.random.beta (a_C, b_C, 1000000) val_T = np.random.beta (a_T, b_T, 1000000) vals = np.vstack ([val_C, val_T]). T предел = 0,004 df = pd.DataFrame (vals, columns = ['Control', 'Test']) df = df [df ['Control']подсчитать площадь фигуры на картинке выше, часто используют методы аппроксимации (например, Чтобы методы Монте-Карло). Простое решение для нашего случая уже описывалось во второй главе книги Джона Кука в 2005 году.А код в модуле calc_prob.py воспроизводит это решение.
В нашем случае результаты теста равной 0,98, что означает результаты тестовой группы с 98% вероятностью лучше, чем результаты контрольной.
Подчеркнем, что если бы в результате построения графиков, «гора» делилась бы ровно пополам, то результаты двух групп были бы равнозначными. А если бы большая часть «горы» принадлежала контрольной группе, то это означало бы, что по результатам А / B-тестирования лучше остановиться на первоначальном решении и ничего не менять.
Как видите, несмотря на то, что код для проведения байесовского A / B-довольно тестирования, чтобы понять, как он работает, нужно углубляться в детали и ориентироваться в математической статистике.
.