Перейти к содержимому
useToolz онлайн-инструменты

A/B Тест

Войдите или зарегистрируйтесь, чтобы сохранять инструменты в избранное

Калькулятор статистической значимости A/B теста

Необходимый размер выборки (на каждый вариант)

Вариант A (контроль)

Вариант B (тест)

A:
B:
Разница (lift)
Достоверность
Результат

Статистическая значимость — вероятность того, что разница между вариантами не случайна. Для принятия решений рекомендуется достоверность не менее 95%.

p-value — вероятность получить наблюдаемую (или большую) разницу случайно. Если p < 0.05, результат считается статистически значимым.

Уровни достоверности: 90% — низкая уверенность, 95% — стандарт для большинства тестов, 99% — высокая уверенность для критически важных решений.

Минимальный размер выборки: для конверсий 1–5% рекомендуется минимум 1 000–10 000 посетителей на каждый вариант. Чем меньше разница между вариантами, тем больше трафика потребуется.

Калькулятор A/B тестов: статистическая значимость и выборка

Онлайн-калькулятор A/B тестов определяет статистическую значимость результатов и рассчитывает необходимый размер выборки. Узнайте, победил ли вариант B контрольный — с математической точностью.

Что такое A/B тест

A/B тест (сплит-тест) — метод сравнения двух вариантов (A и B), при котором аудитория случайным образом делится между ними, а результаты измеряются по единой метрике. Вариант A — контрольный (текущий), вариант B — тестируемое изменение. После накопления достаточного количества данных делается вывод, какой вариант лучше.

A/B тесты применяются для оптимизации лендингов, email-рассылок, рекламных объявлений, ценообразования, UI-элементов и любых других гипотез, которые можно измерить количественно.

Статистическая значимость

Статистическая значимость (p-value) показывает вероятность того, что наблюдаемая разница между вариантами вызвана случайностью. Стандартный порог — p < 0.05, что соответствует 95% уровню достоверности. Это означает: вероятность случайного результата не превышает 5%.

p-valueДостоверностьРекомендация
< 0.0199%+Высокая уверенность в результате
0.01–0.0595–99%Стандартный порог, результат достоверен
0.05–0.1090–95%Слабая значимость, нужно больше данных
> 0.10< 90%Результат недостоверен, не принимайте решений

Не путайте статистическую значимость с практической значимостью: разница в 0.01% конверсии статистически значима при миллионной выборке, но практически бессмысленна.

Расчёт размера выборки

Размер выборки зависит от трёх параметров:

  • Базовая конверсия — текущий показатель варианта A
  • Минимальный детектируемый эффект (MDE) — минимальное улучшение, которое вам важно зафиксировать
  • Статистическая мощность — вероятность обнаружить реальный эффект (обычно 80%)

Примерная формула для двухвыборочного z-теста:
n ≈ 16 × σ² / δ²
где σ — стандартное отклонение, δ — ожидаемая разница между вариантами.

Практическое правило: при базовой конверсии 2% и MDE 10% (т.е. ожидаемая конверсия B = 2.2%) для каждого варианта потребуется около 15 000–20 000 посетителей.

Правила проведения A/B тестов

Тестируйте одну переменную

Изменяйте только один элемент за раз. Если одновременно поменять заголовок, кнопку и цвет фона — невозможно определить, что именно повлияло на результат.

Не останавливайте тест досрочно

Один из самых распространённых ошибок — прерывание теста, как только результаты «выглядят хорошо». Это приводит к ложноположительным результатам. Определите длительность теста заранее, основываясь на расчёте выборки, и придерживайтесь её.

Учитывайте сегментацию

Результат может различаться для разных сегментов аудитории (мобильные/десктоп, новые/вернувшиеся пользователи). Анализируйте подгруппы, но учитывайте риск множественных сравнений.

Используйте AA-тест перед AB

Перед основным тестом запустите AA-тест: оба варианта идентичны. Если он показывает значимую разницу — в системе ошибка (неравномерное разделение трафика, проблема с куками).

Частые вопросы

Сколько вариантов можно тестировать одновременно?

Технически можно тестировать A/B/C/D… (многовариантный тест), но каждый дополнительный вариант увеличивает требуемую выборку. При малом трафике лучше тестировать попарно.

Как долго должен идти тест?

Минимум 1–2 полных недельных цикла (7–14 дней), чтобы охватить всю неделю. Трафик неравномерен: понедельник отличается от выходных, и короткий тест может поймать нерепрезентативный период.

Что если тест показал нейтральный результат?

Нейтральный результат тоже ценен: он говорит, что гипотеза не подтвердилась, и позволяет двигаться к следующей. Документируйте все тесты — отрицательные результаты помогают не повторять неудачные гипотезы.

Смотрите также: калькулятор ROI, юнит-экономика.

Увеличенное изображение