データ分析の敵、バイアス

2024-03-25

バイアスとは

統計学というのは、データの背後にある真実を読み解こうとする学問です。しかし真の分布や真の関係性は直接観測できるわけではなく、あくまでデータを通して間接的に調べることしかできません。それゆえ、統計分析により得られた値は、本来知りたい真の値とはズレている可能性があります。プラスのズレとマイナスのズレが均質的に現れるのであれば問題ないのですが、系統的に偏ったズレとなることもあります。この偏りや歪みのことをバイアスといいます。

分類の仕方もいろいろありますが、バイアスが生じるタイミングにより、以下の 3 つに大別されます。

バイアスタイミング
選択バイアスサンプルを収集するとき
情報バイアスアンケートなどで値を測定するとき
交絡バイアス統計解析にかけるとき

選択バイアス

5 年に 1 回数百億円をかけて行われているのが国勢調査です。この調査は全数調査で行うことが統計法によって決められています。

しかし、すべての統計分析が全数調査により行われるわけではありません。スマートフォンのシェアを調べるために、国民全員に聞いて回るのは莫大なコストがかかってしまいます。新薬の効果を検証するために、いきなり全人類に投薬するのはコストだけでなく倫理的にも問題があります。未来のデータなど、そもそも収集することが技術的に不可能なものもあります。

ほとんどの統計分析では、一部のサンプルだけからデータを集計する標本調査が行われます。ただし、信頼性の高い標本調査を行うためには、標本が母集団を精度良く代表している必要があります。「代表する」というのは、母集団と標本の傾向や性質が等しいことをいいます。つまりは、標本が母集団のミニチュアにになっていて欲しいわけですね。

標本の偏りにより生じるバイアスのことを選択バイアスといいます。標本の選び方に偏りがあるため、選択バイアスと呼ばれています。

いくつか例を紹介します。

自己選択バイアス

体脂肪の減少効果がある薬を開発しているとします。臨床研究を行うために実験参加者を募集しました。この実験に参加したいと考える人は、もともと健康についての関心が高い可能性があります。すると、薬の効果が本来よりも高く見積もられてしまうかもしれません。これを自己選択バイアスといいます。

berkson's bias

クリニックへの来院者や入院患者を対象とした研究では、当然ながら有病率などの観点で母集団とは傾向が異なります。これを berkson's bias といいます。

脱落バイアス

長期にわたる研究では、被験者の死亡や、他の要因による脱落が生じます。もともとの被験者集合には偏りが無かったとしても、最後まで実験に参加できた被験者集合にはバイアスが生じている可能性があります。これを脱落バイアスといいます。

情報バイアス

いくら偏りのない標本が得られたとしても、そこから得られるデータに偏りがあれば、これまた分析はうまくいきません。計測時やアンケート収集時に数値に偏りが発生することが考えられます。このような測定時の数値の偏りにより生じるバイアスのことを情報バイアスといいます

測定者バイアス

測定者バイアスとは、文字通り測定者に由来するバイアスです。化学の実験で、メスシリンダーに入った液体の容量を読み取る際は、真横から見るように教わりましたよね。もし実験者に斜め上から見る癖があった場合、常に多めに見積もられてしまう偏りが発生します。

社会的望ましさバイアス

心理学や社会学の研究では質問票も多く用いられます。例えば飲酒と外向性の関連を見るような研究では、飲酒の頻度や量を問う質問が考えられます。回答者の中には、毎日のように飲酒をしていたとしても、恥ずかしさから正直に答えることができず、少なめに申告することがあるでしょう。他にも運動習慣や所得などの答えにくい質問について、社会的な良し悪しを勘案し、実態とは異なる回答をすることがありえます。このようなバイアスを社会的望ましさバイアスといいます。

リコールバイアス

リコールバイアスは思い出しバイアスとも呼ばれ、過去の記憶を問うような質問に対する回答に現れる偏りや歪みです。例えば何らかの疾病に罹患している人は、過去の服薬の記憶をより強く持っていることがあります。人によって記憶の強さや正確性に違いがあるため、それがバイアスとして現れます。

交絡バイアス

統計的に因果関係を調べる分野に因果推論があります。疫学研究でよく引き合いに出されるのが、喫煙歴と肺癌リスクの関係です。喫煙をすると肺癌になるのか、という因果関係が興味の対象です。ビジネスの現場でも、広告を打つと売上は伸びるのか、などの因果関係を知りたい場面は多くあるでしょう。

因果推論でとくに発生しやすいバイアスが、共通原因 (= 交絡因子) を考慮しないことにより現れる交絡バイアスです。より体力のある子供のほうがより学力も高い、という関係が、実は親の教育方針という共通原因による見かけのものだった、ということがありえます。教育熱心な親を持つ子供は、習い事や学習塾に通うことが多く、結果的に体力も学力も高くなるわけです。他にも、年齢も交絡になりえますね。学年が上がれば体力も学力も総じて向上していきます。