全3512文字

 機能性表示食品をめぐり、多くの食品メーカーが科学的根拠が不十分な臨床研究論文(以下、論文)を公表している可能性があることが分かった。そこで日経クロステックは、2022年春に販売されていた「鼻の不快感を軽減させる」という機能性を表示する製品の科学的根拠について調査した。具体的には、次の4製品を取り上げた。森永乳業「ビヒダスヨーグルトKF」、カゴメ「野菜生活100 Care+(ケアプラス)柑橘mix」、キユーピー「ディアレ」、雪印メグミルク「乳酸菌ヘルベヨーグルト」である(図1)。

図1 「鼻の不快感軽減」の機能性を表示する製品
[画像のクリックで拡大表示]
図1 「鼻の不快感軽減」の機能性を表示する製品
日経クロステックが科学的根拠を調査した機能性表示食品4点。左から、森永乳業「ビヒダスヨーグルトKF」、カゴメ「野菜生活100 Care+(ケアプラス)柑橘mix」、キユーピー「ディアレ」、雪印メグミルク「乳酸菌ヘルベヨーグルト ドリンクタイプ 100g」(出所:各社)

 各メーカーが消費者庁に届け出た研究レビューで、機能性の科学的根拠としている論文5報(いずれも、各メーカーの研究者が著者に含まれている)を入手し、医師と臨床統計の専門家に評価を依頼した(図2)。

図2 各社の研究レビュー
[画像のクリックで拡大表示]
図2 各社の研究レビュー
いずれも消費者庁のホームページで公開されている(写真:日経クロステック)

 鼻のアレルギーを専門とする都内大学病院耳鼻咽喉科勤務の医師は、森永乳業とカゴメ、キユーピーの3社の論文について、「不適切と考えられる点が多数ある」と指摘。雪印メグミルクの論文については、「一般的な医学論文と比べるとかなり質が劣るが、他の論文よりはましといえる」(同氏)とコメントした。臨床統計の専門家も同様に3社の論文については質が低いと、医師と評価が一致した。

 学術雑誌の査読を通っているにもかかわらず、3社の論文はなぜ質が低いのか。実はこれらの論文はいずれも、第1回の記事で言及した採択率が9割の商業誌に掲載されたものであり、結果の妥当性について十分な審査を受けていない恐れがある。雪印メグミルクの論文のみ別の英文ジャーナル(論文誌)で発表された。臨床統計学が専門の大阪公立大学医学研究科臨床医科学専攻教授の新谷歩氏は、3社の論文について「標準的なメディカルジャーナルに投稿したら、恐らくリジェクト(不採用)されるだろう」とみる。

 日経クロステックが3社に取材を申し込んだところ、森永乳業とカゴメはそれぞれ「回答に正確を期すため」、「当製品がまもなく生産終了するため」として書面で回答。キユーピーのみ取材に応じた。キユーピーは、「複数の専門家に論文を確認してもらい、妥当性を確認した上で製品販売に至った。発売後、ユーザーから鼻の不快感が軽減されたという好意的な声が寄せられている。今後、より自信をもって製品を届けられるよう、引き続き研究を進めていく」とコメントしている。

「有意差がみられない方がおかしい」

 各論文は、機能性関与成分に関するランダム化比較試験(RCT)の結果を報告したもの。RCTとは、医薬品や食品などにおける臨床試験で、多数の被験者を試験品(今回の場合は機能性関与成分)を摂取する介入群と、試験品に似せた「プラセボ(偽薬)」を摂取する対照群の2グループにランダムに分けて、有効性や安全性を調べる。

 各専門家が指摘した問題点は大きく2つある。

(1)評価項目を多数設定して不適切な多重検定を行っている

(2)解析除外者を多数出している

 これら2点は臨床試験のルールに反した行為であり、エビデンスの質(検証結果の信頼性)の低下を招く。

 まず、(1)の評価項目を複数設定して不適切な多重検定を行っているという問題点から説明しよう。

 臨床研究の世界では、「この治療は有効である」という仮説を完璧に証明することは難しい。そのため、「この治療は有効ではない」という仮説を立てた上で、得られたデータからこの仮説を棄却することで、治療の有効性を証明するアプローチがとられる。より詳細には、「得られた臨床試験の結果がどのくらい得にくいものか」を表す確率(p値)が、ある水準(有意水準)以下だと証明すればよい。p値が有意水準を下回った(つまり、望ましい結果が出た)場合のことを「有意差がある」という。有意水準は慣例的に5%にする場合が多い。

 多重検定とは、その名の通り、こうした検定を多数実施することである。「評価項目を10個設定し、そのうち1個でも有意差がみられたら『有効である』とみなす」などがそうだ。すると、当然ながら「数打てば当たる」式に、偶然にも有意差がみられる(肯定的な結果が出る)確率が上昇してしまう。

 例えば、10個の評価項目に対してそれぞれ有意水準5%で検定した場合、個々の検定が独立であれば、そのうちの少なくとも1つの項目で(本当は有効ではないのに)偶然有意差がみられてしまう確率は、1-0.9510=約40%になる。これでは、実質的に有意水準が5%ではなくなり、正しい有効性検証ができなくなってしまう。やむを得ず多重検定する場合は、「個々の検定の有意水準を厳しく設定し、全体に対する有意水準が5%になるように調整する必要などがある」と、新谷氏や横浜市立大学医学部医学科臨床統計学准教授の山本紘司氏は指摘する。

† 独立 ある2つの事象を考えたとき、片方の事象の起こる確率が、もう片方の事象の起こる確率によって変化しないこと。

 今回の臨床試験は、論文によって多少のばらつきはあるものの、40~100人の被験者(健康な成人男女)に試験品またはプラセボを摂取させ、4~6個の評価項目(くしゃみ、鼻水、鼻づまりなどの症状スコア)を、数週間おきに2~8回測定するというものだ。

 最も検定回数が多かったのはカゴメの論文で、合計48回検定している(6項目に対して4時点で、実測値と変化量の2つを検定)。カゴメは2本の論文を作成しているが、有意差がみられたのは両論文とも48回中1回だった。

 有意水準を5%として48回検定を実施した場合、個々の検定が独立であれば、少なくとも1回、偶然にも有意差がみられる確率は、1-0.9548≒約91%となる。これを分かりやすく言えば、「ただの水を飲ませる臨床試験を実施しても、これらの論文と同様の結果が高い確率で得られる」(新谷氏)ということだ。