Перейти к содержимому
useToolz онлайн-инструменты

A/B Тест

Вариант A (контроль)

Вариант B (тест)

A:
B:
Разница (lift)
Достоверность
Результат

Статистическая значимость — вероятность того, что разница между вариантами не случайна. Для принятия решений рекомендуется достоверность не менее 95%.

p-value — вероятность получить наблюдаемую (или большую) разницу случайно. Если p < 0.05, результат считается статистически значимым.

Уровни достоверности: 90% — низкая уверенность, 95% — стандарт для большинства тестов, 99% — высокая уверенность для критически важных решений.

Минимальный размер выборки: для конверсий 1–5% рекомендуется минимум 1 000–10 000 посетителей на каждый вариант. Чем меньше разница между вариантами, тем больше трафика потребуется.

A/B тестирование: статистическая значимость и размер выборки

A/B тестирование — это метод сравнения двух вариантов (контрольного и тестового) для определения, какой из них работает лучше. Этот подход применяется для оптимизации конверсии сайтов, email-рассылок, рекламных объявлений и элементов интерфейса. Главное условие корректного теста — достижение статистической значимости результатов.

Что такое статистическая значимость

Статистическая значимость показывает вероятность того, что разница между вариантами не является случайной. Стандартный порог — 95% (p-value < 0.05). Это означает, что с вероятностью 95% наблюдаемое различие реально, а не вызвано случайными колебаниями. Чем выше порог, тем надёжнее результат, но тем больше трафика потребуется для его достижения.

Как определить размер выборки

Размер выборки зависит от трёх факторов:

  • Базовая конверсия — текущий показатель конверсии контрольного варианта. Чем он ниже, тем больше наблюдений нужно.
  • Минимальный детектируемый эффект (MDE) — минимальное изменение, которое вы хотите обнаружить. При MDE в 1% потребуется значительно больше трафика, чем при MDE в 10%.
  • Статистическая мощность — обычно 80%. Это вероятность обнаружить реальную разницу, если она существует.

Типичные ошибки A/B тестирования

Первая и самая частая ошибка — преждевременная остановка теста. Если результат «выглядит убедительно» через два дня, это не значит, что он статистически значим. Дождитесь расчётного размера выборки. Вторая ошибка — запуск слишком многих тестов одновременно на перекрывающихся аудиториях: варианты начинают влиять друг на друга. Третья проблема — игнорирование сезонности и внешних факторов: тестируйте минимум полную неделю, чтобы учесть различия в поведении по дням.

Для точной атрибуции результатов A/B тестов по рекламным каналам используйте UTM-метки — они помогут разделить трафик и понять, в каком сегменте аудитории вариант сработал лучше.

Увеличенное изображение