陽性と陰性の確率がそれぞれ50%の場合に最も検査の価値が高い

検査の結果には陽性と陰性しかないんだからそれぞれ50%、のような発言をみかけました。どうも文脈としては、検査をうけなければ100%陰性なので検査をうけないという話のようです。
けれども、もし本当に陽性と陰性がそれぞれ50%なのであれば、それは一番検査の価値が高いので、検査を受けるべきだと思います。

たとえば、極端な例として100%陽性になる検査があるとします。たとえば「血液があるかどうか」という検査は、生きている人間なら100%陽性になります。そういう検査は受けなくても結果がわかるので必要がないですね。逆に100%陰性になる検査も受ける必要がありません。

少し確率をいじって、10%が陽性で90%が陰性の場合はどうでしょうか。この場合、陽性がでれば価値が高いですが、多くの場合は陰性で、検査の結果で陰性だとしても「やっぱりね」となるので検査全体の価値はそこまで高くないです。
お年玉くじ付き年賀状をもらって「どうせはずれだから結果をみない」となるのも似たようなものです。この場合は当たる額も影響するのだけど。

で、確率をいじっていくと、50%が陽性で50%が陰性という場合が一番検査の価値が高くなります。どちらが出てもおかしくない、という場合ですね。
サッカーの試合でも、一方が圧倒的に強ければ(弱ければ)見なくても結果がわかるので試合を見ないですが、勝つか負けるかわからないとなると試合を見たくなります。

こういった場合に、その情報の価値を計算する 情報量 という考え方があります。
情報量というのは、簡単にいうと「びっくり度合い」です。その結果を見たときにどのくらいびっくりするかというものです。10%が陽性で90%が陰性の場合、陰性がでてもびっくりしないですが、陽性がでるとびっくりします。その検査の結果の陰性というのは「やっぱりね」なのでびっくりせず情報量が低いです。一方で陽性だと「なんと!」となって情報量が高いです。

計算としては、その結果がでる確率をpとすると情報量は log \frac{1}{p}となります。簡単にいえば、確率が低いほど情報量が高くなって0に近いとかなり大きい値になり1に近いと0になる計算です。

そして、結果すべての情報量の平均を平均情報量とかエントロピーといいます。
陽性の確率をp1、陰性の確率をp2にしたとき、平均情報量は p_1 log \frac{1}{p_1} + p_2 log \frac{1}{p_2}になります。
10%が陽性で90%が陰性であればp1=0.1, p2=0.9で、logの底を10としたとき、 \frac{1}{10} log 10 +  \frac{9}{10} log \frac{10}{9} \risingdotseq 0.14になります。50%が陽性で50%が陰性であれば \frac{1}{2} log 2 +  \frac{1}{2} log 2 = log 2 \risingdotseq 0.3となります。結果が半々のほうが平均情報量が高い、エントロピーが高いということになります。つまり検査の価値が高いということですね。

実際に検査体制がととのってないときには、検査の価値を高めるために、肺に影があるなどcoivd19の可能性が高い場合にはPCR検査をすることなく陽性とみなしたり、症状がない場合には検査をしないのような対策をして、検査をする場合の平均情報量が高くなるような工夫をしていましたね。

ところで、エントロピーが高いというのは全体的にびっくり度合いが高いということです。そして片付いた部屋はエントロピーが低く、散らかった部屋はエントロピーが高いということになっています。
これは、片付いた部屋で何かを手にとっても予測の範囲であることが多いのでびっくりしないですが、ちらかった部屋で何かを手にとったとき「おー、こんなものがある!」のようにびっくりすることが多いことからもわかりますね。
検査のエントロピーは高くするべきですが、部屋のエントロピーは低くしましょう。