A/B テストは計画が 9 割

2024-02-19

計画不足な A/B テスト

計画が作り込まれていない A/B テストでは、テストの実行や施策採否の意思決定が行き当たりばったりになりやすいです。よくあるのは以下のような間違いです。

  • 指標を決めていなかったし、有意差が出るものを探そう。
  • 有意差が出ないしテスト期間を延長しよう。
  • テスト期間の途中だけど有意差が検出されたし中断しよう。

テスト計画を作っていなかったがゆえに、その場その場の判断を下してしまっています。さらには有意差を絶対視しすぎてしまい、結果的に α エラー (偽陽性)のリスクを高めてしまっています。

予め決めておきたいこと

以下の 3 つは A/B テストの根幹をなすものであるため、予め決めておきましょう。

  • ターゲット指標
  • 意思決定シナリオ
  • テスト期間

ターゲット指標

ターゲット指標とは、パターン同士を比較する際に用いる数値指標のことです。施策を通して向上させたい指標は何なのかを考えましょう。例として以下のようなものが挙げられます。

  • クリック率
  • 会員登録率
  • 購入金額
  • 視聴回数

ひとつに絞り込めれば理想ですが、実際には単一の指標で意思決定できるほど単純ではないと思います。とはいっても指標数が増えればその分意思決定シナリオ (後述) も複雑になるため、3 つくらいに抑えたいところです。

意思決定シナリオ

パターンごとの指標値を比較して、勝利パターンを決定します。仮説検定を行い、有意差が検出されるかどうかを見るのが普通でしょう。有意差が検出された場合に勝利パターンを採用するというのは、自然な意思決定ですね。

では有意差が検出されなかった場合はどうすれば良いのでしょうか。有意差が検出されるまでテスト期間を延長するのは、はじめに述べたようにアンチパターンです。これでは有意差ありきで考えていることになり、偽陽性のリスクを高めるだけです。有意差が検出されなかったとしても、統計的には差があるとは言えないという結論が得られたことには変わりありません。そんな場合でも、以下のようにどちらの意思決定を行うのかを予め決めておきましょう。

  • 有意差が無い場合は、現行パターンで据え置く。
  • 実装がシンプルになるため、新パターンが有意に悪くない限りは採用する。

ターゲット指標を複数設定した場合も同様です。指標 X では新パターンが勝ったけど、指標 Y では新パターンが負けた、というような場合に現行パターンと新パターンのどちらを選択するのかも考えておきたいです。しかし、指標ごとの変動幅の大小関係によっても結論は変わってくるでしょうし、すべてのケースを網羅することはできません。そのため、最低限以下のようなルールを定めておくのが良いでしょう。

  • 基本的には指標 X を重視する。
    • つまり指標 X で勝っていれば、指標 Y で負けていても、新パターンを採用する。
  • ただし、あまりにも指標 Y の毀損幅が大きい場合には、現行パターンのままとする。

「あまりにも大きい」という基準については、複数の関係者間でコンセンサスが取れるものを設定できると良いですね。

テスト期間

テスト期間も予め決めておきたいもののひとつではありますが、なかなか難しいのも事実です。まず、曜日の影響を取り除くために、1 週間単位で考えるのが良いでしょう。例えば平日と土日とでユーザー集合の傾向が異なる場合、平日の 5 日間だけでテストを実施してしまうと、バイアスの入ったデータになってしまいます。2 週間を基準にし、施策によって 3 週間や 4 週間、もしくは 1 週間にカスタマイズするのが良いと思います。

まとめ

ターゲット指標と意思決定シナリオ、そしてテスト期間が決まれば、あとはそれに沿って実施するのみです。施策担当者の手ごころが加わることもありません。チーム内でテンプレート化することができれば、属人性を排除することもできます。はじめから完璧な A/B テスト計画を作り上げることは難しいため、関係者とも協力しつつ、テンプレートを作成していくことをおすすめします。