ランダムサンプリングで選択バイアスを予防しよう

選択バイアスとは

選択バイアスとは、本来知りたい集団と実際に集めたサンプルとで傾向が異なることをいいます。

例えば政治家が有権者の意見を聞くために街頭調査を行うようなことがあります。そこで得られたデータを材料にして、演説を行ったり国会で答弁したりなどは、よくあることでしょう。

通常このような場合、本来知りたい集団というのは有権者全体のはずです。しかし街頭調査というのは、ある街角をある時間帯に通りがかっただけの有権者に意見を聞いているにすぎません。都心の交差点で調査を行ったのだとすれば、田舎に暮らしている人とは傾向の異なる意見が集まるでしょうし、平日の日中に調査を行ったのだとすれば、オフィスで働いている人の意見を反映できないでしょう。

全国の有権者は住んでいる場所や生活スタイル、政治に対する考え方などはばらばらです。街頭調査はその一部の属性を持った人だけにしぼって行っているわけですから、それが全国の有権者の意見であるとは言えないでしょう。

このように、本来知りたい集団 (全国の有権者) と、実際に集めたサンプル (街角で回答した有権者) とで傾向が異なることで、データ (政治に対する意見) が偏ってしまうことを選択バイアスと言います。

ランダムサンプリング

ではどうすべきかというと、ランダムサンプリングをしましょう。つまり、本来知りたい集団からランダムにサンプルを選び出すということです。

街角調査の例で言えば、有権者全体から調査対象をランダムに選び、その人達から意見を聞きます。ランダムサンプリングにより、サンプルが特定の属性に偏ることがなくなります。全体集合のミニチュア版が得られるようなイメージですね。

常にランダムサンプリングすべきか

ただ、場合によってはランダムサンプリングは非常に高コストです。有権者をランダムに選んではがきを送り、意見を収集するというのは毎度毎度はやってられません (回答してくれないかもしれないという別の問題もあります)。

そのため、ランダムサンプリングは大事な意思決定を行うような場面で採用すると良いでしょう。たとえばプロダクト開発でのユーザーインタビューは、ユーザーの選定をランダムに行えていなくても問題ありません。そもそも謝礼を提示してインタビューに応じてもらう、という時点でバイアスは避けられません。むしろわざわざインタビューに応じてくれるユーザーはプロダクトに対して熱意を持った人である可能性が高いため、そのようなユーザーからこそ積極的に意見を聞くべきでしょう。

また、ユーザーインタビューはあくまでビジネスインサイトを得るためのものです。施策の採用などの重要な意思決定が伴う場合に、より精度の高い方法 (ランダムサンプリングによる調査や A/B テストなど) を行うのが良いです。

政治や医学においては、社会的影響度の大きさや後戻りのしづらさから、精度の高いデータを集めて慎重に意思決定を行う必要があります。一方でビジネスの現場においては、領域にもよるでしょうがひとつひとつの意思決定にそこまでの精度は必要ないことが多いでしょう。

バイアスの無いデータを得るためにランダムサンプリングを行うのが理想ですが、実務上はコストと必要な精度のバランスを取ることが肝要です。