A/B Тест
Вариант A (контроль)
Вариант B (тест)
Статистическая значимость — вероятность того, что разница между вариантами не случайна. Для принятия решений рекомендуется достоверность не менее 95%.
p-value — вероятность получить наблюдаемую (или большую) разницу случайно. Если p < 0.05, результат считается статистически значимым.
Уровни достоверности: 90% — низкая уверенность, 95% — стандарт для большинства тестов, 99% — высокая уверенность для критически важных решений.
Минимальный размер выборки: для конверсий 1–5% рекомендуется минимум 1 000–10 000 посетителей на каждый вариант. Чем меньше разница между вариантами, тем больше трафика потребуется.
A/B тестирование: статистическая значимость и размер выборки
A/B тестирование — это метод сравнения двух вариантов (контрольного и тестового) для определения, какой из них работает лучше. Этот подход применяется для оптимизации конверсии сайтов, email-рассылок, рекламных объявлений и элементов интерфейса. Главное условие корректного теста — достижение статистической значимости результатов.
Что такое статистическая значимость
Статистическая значимость показывает вероятность того, что разница между вариантами не является случайной. Стандартный порог — 95% (p-value < 0.05). Это означает, что с вероятностью 95% наблюдаемое различие реально, а не вызвано случайными колебаниями. Чем выше порог, тем надёжнее результат, но тем больше трафика потребуется для его достижения.
Как определить размер выборки
Размер выборки зависит от трёх факторов:
- Базовая конверсия — текущий показатель конверсии контрольного варианта. Чем он ниже, тем больше наблюдений нужно.
- Минимальный детектируемый эффект (MDE) — минимальное изменение, которое вы хотите обнаружить. При MDE в 1% потребуется значительно больше трафика, чем при MDE в 10%.
- Статистическая мощность — обычно 80%. Это вероятность обнаружить реальную разницу, если она существует.
Типичные ошибки A/B тестирования
Первая и самая частая ошибка — преждевременная остановка теста. Если результат «выглядит убедительно» через два дня, это не значит, что он статистически значим. Дождитесь расчётного размера выборки. Вторая ошибка — запуск слишком многих тестов одновременно на перекрывающихся аудиториях: варианты начинают влиять друг на друга. Третья проблема — игнорирование сезонности и внешних факторов: тестируйте минимум полную неделю, чтобы учесть различия в поведении по дням.
Для точной атрибуции результатов A/B тестов по рекламным каналам используйте UTM-метки — они помогут разделить трафик и понять, в каком сегменте аудитории вариант сработал лучше.
Полезные статьи
LTV: как рассчитать пожизненную ценность клиента
Что такое LTV, как его рассчитать разными методами и почему это ключевая метрика для принятия бизнес-решений.
CPM, CPC и CPA: модели оплаты интернет-рекламы
Подробный разбор моделей оплаты интернет-рекламы: CPM, CPC и CPA. Формулы расчёта, реальные примеры и рекомендации по выбору модели для разных целей.