テスト期間が終了するまでは検定しちゃだめです

A/B テストを開始すると、どうしても気になってダッシュボードを確認してしまうのはよくあることだと思います。とくに自ら考えた渾身の施策の場合なんかは、うまくいってほしいという気持ちがより強くなってしまうんじゃないでしょうか。施策のパフォーマンスが、自信や、ましてや人事評価にまで繋がるとなれば、気になるのは仕方ありません。

しかし、A/B テスト期間の途中で検定をしてはいないでしょうか？テスト期間を満了する前に検定をしてしまうと、間違った判断を下す確率を増大させてしまいます。

多重検定

ここに、 $5\%$ の確率ではずれるくじがあるとします。このくじを 1 回引いたとき、はずれる確率はいくらでしょうか。当然 $5\%$ ですね。

ではこのくじを 2 回引いたとき、1 回以上はずれる確率はいくらでしょうか。こんな問題昔解いたなーと遠い目をしている方もいるでしょう。2 回とも当たる確率は $95\% \times 95\% = 90.25\%$ なので、1 回以上はずれる確率は $9.75\%$ と計算できますね。

仮説検定も同様です。有意水準を $5\%$ にした場合、α エラーという間違いを犯す確率を $5\%$ に設定していることになります。1 回の仮説検定で α エラーを引き起こす確率は 5% ですが、2 回の仮説検定のうち 1 回以上 α エラーを引き起こす確率は $9.75\%$ に上昇します。

このことを多重検定の問題などといいます。たとえば以下のようなステップを踏むと、多重検定となってしまい、有意差が検出されやすくなってしまいます。

指標 X で検定してみたけど有意差が出なかった。
次に指標 Y で検定してみたら有意差が出たため、施策を採用することにした。

テスト期間の途中で検定をした場合

テスト期間の途中で検定をした場合も多重検定の問題が発生します。

例えばもともと 2 週間のテスト期間を設けていたとしましょう。本来は 2 週間後に 1 回の検定を行うだけのはずですが、以下のように 1 週間後にも検定してしまうことによって、結果的に複数回の検定を行うことになってしまいます。

1 週間後に検定を行う
- 有意差が検出されたらテストを終了する
- 有意差が検出されなかったらテストを続行する
2 週間後にも検定を行う

それぞれの検定の有意水準を $5\%$ に設定していた場合、一連のプロセスにおける α エラーを犯す確率は $9.75\%$ となります。つまり本来はテスト対象の施策に効果が無い場合に、効果があるものと誤った判断を下してしまう確率が $10\%$ 近くに上昇してしまうということです。

まとめ

多重検定の問題は知っていないとやってしまいがちな失敗パターンのひとつでしょう。施策がうまくいかなかったとしても、それ自身が学びになります。その学びを次の施策へと活かすことが大切です。