ドクターサロン

池田

臨床試験成績を理解する上で、最低限知っておいたほうがよい統計についての質問です。そもそも統計は何のために用いられているのでしょうか。

佐藤

医学の世界において統計をどうやって用いるかというと、データはばらつきがあるので、そのばらつきを理解した上でデータをどうやって要約するか、それがわれわれは非常に重要だと考えています。

池田

統計の取り方、評価の仕方は非常に複雑だと私も受け取っています。臨床試験をするときに、これを使おう、こういった解析をしようというスタンダードは決まっているのでしょうか。

佐藤

ランダム化比較試験などでは、ある程度の方法は決まっていますが、研究の計画やデータの取り方に依存します。われわれは常にそれに適した一番良い統計手法を考えるようにしています。

池田

例えば、あるがんで、良性の患者300人、悪性の患者100人のマーカーの測定値に基づき両者を区別する方法を用意してほしいというと、目的としては、悪性はすぐに切ってしまおう、良性であればフォローアップでもいい。そういう、スパッと竹を割ったような評価は可能でしょうか。

佐藤

そういう場合ですと、ある統計モデルをつくります。その上で、あるマーカーとあるマーカーを組み合わせると、数学的な式が出来上がる。そうすると、この場合は悪性、この場合は良性という感度、特異度のようなものが出てくるので、それで計算して、うまく判別することができる。これは判別分析という統計手法です。臨床医から持ってこられたものに対し、その目的に合ったかたちで計算する、あるいは統計的な方法を考えるのがわれわれ生物統計専門家の仕事と考えています。

池田

モデルをつくっておき、その精度を調べるようなかたちですが、そのときにどうしてもp値が出てきます。このp値は、どのように解釈すればよいでしょうか。

佐藤

今の判別分析だと、判別できたか、できなかったかという概念なので、感度、特異度で評価するため、p値は計算できません。今のようなものをつくると、臨床医から「このp値は幾つですか」と言われても、われわれは「こういうものにはp値はありません」としか答えようがなく、そうすると「p値がなくても統計ですか」と聞かれることが多いです。そのあたりに、生物統計専門家と臨床医の統計に関する考え方のずれがあるのかと思います。

池田

p値にこだわりますよね。何か有意差は出ているのだろうけれども、それぞれの試験により意味が異なってくるのでしょうか。

佐藤

p値とは何かというと、一番簡単なのは、コインを投げると、コインは表と裏しかないので、確率的には1/2、50%です。そうすると、コインが公正かどうかを調べたい場合、10回投げてすべて表が出ると、確率としては1/2の10乗なので、0.1%ぐらいになります。

それが10回も立て続けに出るということは、いかさまのコインではないかと、たぶん皆さん思いますよね。それはまさに非常にまれな現象が起きた。こういうまれな現象が起こった確率がp値そのものです。要は、観測された結果が偶然起こる可能性が低い。それが何らかの効果に差が存在するというのが、臨床試験の中でいわれているp値に該当するものです。

池田

今の話では、そのコインに何か異常がある可能性がすごく高いことは示せるということでしょうか。

佐藤

はい。

池田

しかし、それが本当にコインの不正により起こっているかはわからない。

佐藤

あくまでも差がない状態をベースに考える。いわゆる帰無仮説というもので、帰無仮説が前提となっています。

池田

一般の臨床試験で、がんと正常者のマーカーを調べるのは、p値により、その仮説が正しいことをある程度裏付けるという理解でよいでしょうか。

佐藤

その場合、例えばそういう仮説をつくっていればいいですが、臨床医は正常と異常を分けたいだけなので、そこには帰無仮説や対立仮説という概念を登場させなくてもできるのではないでしょうか。

仮説検定を持っていくと、有意差あり、なしだけです。臨床医は診療中にこの患者さんは有意差あり、なしとは、あまり考えないと思います。この人はどのくらい効果があるか、臨床医は知りたいのかと思うので、あまりp値という概念で物事を考えなくてもいいのではないでしょうか。

一方で臨床試験の場合、あるエフェクトサイズに対し優ったか、劣ったか、勝ち負けのようなことを決めたい場合には、p値という概念を登場させることはよくあります。

池田

臨床試験の場合、プラセボ対実薬ということもあります。p値が有意であると出ても、ある試験ではプラセボもすごく良くなっていたりします。p値だけにとらわれてしまうと、本当の大きな動きがわからなくなってしまうのではないかと思います。

佐藤

おっしゃるとおりで、気をつけなければいけないことは、100例、200例規模の試験で有意差がなかったものを1,000例、2,000例と数を多くすると、有意差がつくことは非常によくあります。

統計的有意は、小さいノイズのような差でも、サンプルサイズを大きくすると有意差が検出されてしまいます。統計的にはわずかな差を検出してしまいますが、それが、臨床的に意味があるかというと意味が全く異なります。

池田

多くの製薬会社が、p値が出ています、という話をします。何千例という臨床試験を見るときには、どの辺に注意したらよいのでしょうか。

佐藤

最近の話題だと、朝日新聞が「統計的に有意だった」という言葉の誤用がまん延しているとか、『Nature』やアメリカ統計学会がp値の誤用に気をつけようという警告を出しています。

要は、われわれ科学者の中でp値の誤用がまん延していて、多くの研究成果が再現できないのはp値の誤用が原因であると、強い警鐘を鳴らしています。統計的に有意であることと、科学的、医学的に有意であることは関係ないことを知っておくことが、まず大事ではないかと思います。

池田

そういうものが誤用なのですね。p値は仮説が正しいかどうか、結果が重要であるかどうかを決定することはできない。統計学的に有意であることと、科学的、医学的に有意であることは関係ない。つまりp値だけで左右されている方がたくさんいるということですね。

佐藤

論文を読み、有意差があった場合、それは何らかの差があるだけであり、それがどれだけの臨床的意義を持っているのか、臨床医は論文の効果量をきちんと見ていただきたいと思います。

池田

差があるのは確かだけれども、それが何の意味を持っているのかはわからないということですね。恐ろしいことだと思います。『Nature』や『The New England Journal of Medicine』の統計ガイドラインもありますが、この辺はどのようなことを強調しているのでしょうか。

佐藤

アメリカ統計学会が、先にp値を使わなくていい方法を提案しています。では、実際に彼らは何を提案しているかというと、そもそも信頼区間そのものを見ましょう。あるいは、ベイズの方法を使いましょう、としています。要は、p値そのものにこだわらず、効果量をきちんと使えるような、治療効果の大きさを推定できるような方法に切り替え、その値そのものを臨床医が見たほうがいいのではないかという提案をしています。

それを踏まえ、『The New England Journal of Medicine』は、p値を出す場合は主要評価項目のみでよい。それ以外に関しては、p値などはつけなくてもよいから、その代わり効果量の推定値と信頼区間はきちんとつけるべきであると統計的ガイドラインを出しています。

池田

Primary endpointのほかにSecondaryとか、たくさんついています。Primaryは大したことがないのにSecondaryで有意差ありと、すごく強調したりしています。それをしては駄目だということですね。

佐藤

Secondaryに関しては、強調しないということです。Primaryだけつけてくれて、そのp値だけ、有意差があったかなかったかを報告すればいいと。

池田

逆にPrimaryで有意差が出ていたとしても、もとのデータもきちんと見つつ、それが、本当に意義があるかどうかは、読むほうの立場に委ねるということですね。

佐藤

はい。

池田

質問に「最低限知っておいたほうがよい統計」とありますが、どのように説明したらよいでしょうか。

佐藤

p値にこだわらず、得られた結果をきちんと読むことが大事だと思います。そのときにハザード比、オッズ比、いろいろな言葉が出てくると思いますが、まず、その効果量が何を意味しているのか、それを臨床医に理解していただきたいです。

そのときに、リスク比やオッズ比の意味がわからなければ統計の本を読んでみる。それがどういう意味なのか、まず振り返っていただくとよいかと思います。p値一つで有意差があったから、もうこれでいいのだと思わないでいただきたいというのが、私からのメッセージです。

池田

あとは言葉のことをうかがいたいのですが、ランダム化、盲検化は、どういうことを表しているのでしょうか。

佐藤

臨床試験の場合、医師が患者さんを好きに選んできてしまうと選択バイアスが入ってしまいます。そういうバイアスを除くために一番いい方法は何かというと、ランダム化です。統計の方法で最強な方法はランダム化であるといわれています。

ランダム化すると何がいいかというと、患者さんをプラセボと実薬に割り付けると、群間の偏りがきれいに排除できます。重症の人がプラセボに偏るようなことは一切なくなるので、予後因子や未知の因子をきれいに均等にそろえられるのが、ランダム化の一番いいことではないかと思います。

盲検化は、患者さんや医師がどういう薬を使っているかがわかってしまうと、それによりバイアスが入る可能性があります。それらのバイアスを除くために、どういうものを使っているかをわからせないのが盲検化です。ランダム化と盲検化を組み合わせた方法が二重盲検法で、臨床試験の世界では二重盲検比較試験がよく行われています。

池田

p値も含め、テクニカルタームが出てきますが、幾つか臨床試験を読み込み、それが意味するところを解釈したうえで、最低限知っておいたほうがよい知識ということになりますね。ありがとうございました。