欠陥のある400のヘルスケアAIモデルが教えてくれること
COVID-19に取り組むために構築されたAIモデルに何百もの欠陥があるのは、単に危機を食い止めるための迅速な取り組みの結果と見ることもできます。しかし、これらの欠陥を指摘している学者たちは、皆さんに彼らの警告を聞いてほしいと思っています。彼らの声は、米国が医療用および商業用にAIをますます採用していく中で、より多くのビジネスリーダーや政策立案者が耳を傾ける必要があるまさにその声なのです。
ケイシー・ロスは、「STAT」誌で、パンデミックをきっかけにモデル構築が盛んになったことを報告しています。誰もが積極的に貢献し、危機から生じる懸念を軽減したいと考えていました。機械学習を使ってCOVID-19を検出するにはどうすればいいのか。機械学習を使ってCOVID-19を検出するにはどうすればいいのか、重症化しやすい人を予測するにはどうすればいいのか。また、ウイルスの新しい亜種にも対応できるモデルを構築できるのか。彼らは、他の研究者の作品を参考にし、AIコミュニティから学ぶための努力を報告しました。
その1年後、ケンブリッジ大学がこれらのモデルを調査したところ、主要な科学雑誌に掲載されたものも含め、調査した400以上のモデルのすべてに致命的な欠陥があることが判明しました。
致命的な欠陥とは?
研究者たちは、大きく分けて2つのタイプの欠陥を発見しました。1つ目は、データに関するものです。モデル作成者は、モデルが想定している患者の世界を代表していない小さなデータセットを使用することが多かったのです。
2つ目の欠陥は、情報開示の制限に関連するものでした。モデル作成者は、データの出所、データのモデル化に使用した技術、入力データやモデルの学習に使用したアルゴリズムにバイアスがかかっている可能性を開示していませんでした。
ロスは、データのソースを開示しない行為は、このCOVID-19モデルだけに限らないと指摘しています。2012年から2020年の間に米国食品医薬品局が承認した医療用AI製品の45%は、製品の精度を検証するために使用したデータ量を開示していない。
欠陥が問題になる理由
AIを構築するチームは、2021年には指先で使える優れたツールを手に入れ、多くの人があらかじめコード化されたアルゴリズムにアクセスし、データのトレーニングを始めることができます。これは驚くべき進歩です。
しかし、厳密で防御力の高い、優れたロバストなモデルはまだ難しく、時間がかかります。入力データが良くなければ、モデルの出力も健全ではありません。さらに、ケンブリッジ大学の研究者が指摘しているように、学習用と検証用に同じデータを使用するなどのヒューマンエラーは弁解の余地がありません。
このようなタイプのAIモデルの普及が懸念される理由はいくつかあります。不正確で追跡不可能なモデルは、すぐに患者のケアを悪くし、健康とコストの結果を悪くします。米国の医療システム、あるいはどのような医療システムであっても、AI技術を患者ケアに利用することに対する社会の信頼が大きく損なわれることは避けられません。
運用面では、データサイエンスに欠陥があると、3年から5年の研究時間を簡単に無駄にしてしまうような根拠のない臨床試験など、費用のかかるミスにつながる可能性があります。これらのモデルが改善するはずの有効性と効率性を失うことになるかもしれません。
安全性のチェックをどこで行うか、発想の転換を
すでに、本当に優れたデータサイエンスは、ノイズとほとんど区別がつかなくなっています。では、どのような解決策があるのでしょうか?
こう考えてみてください。私たちは、他のサービスの欠陥から消費者を保護しています。例えば、レストランで食事をする前に、誰かが検査をして衛生的だと判断したかどうかを知りたいと思うでしょう。例えば、レストランで食事をする前に、誰かが検査をして衛生的だと判断したかどうかを知りたいと思うでしょう。また、マンションを購入する際には、建築業者が安全基準を満たしていることを期待します。
このような状況でも安心していられるのは、安全に関する共通の基準が、長い時間をかけて人々の信頼を築いてきたからです。現在のAIモデルは、ベストプラクティスに従うことはできますが、共通の基準に従うことはできません。ただし、これを変えるための良い提案がいくつかなされています。
規制モデルがすぐに異なるものになることを期待
米国では、物理的な医療製品が厳格な品質基準を満たしているかどうかを判断する規制モデルは、医療用AIには完全には移行しません。医薬品や標準的な医療機器とは異なり、AIシステムは新しいデータを供給されると常に変化します。
データによってモデルがどのように変化するか、判断や予測を行うアルゴリズムが期待通りの結果を安定して得られるかどうかを、外部の人間がチェックするのは、単純にスケーラブルではありません。
前FDA長官のScott Gottlieb氏は、2017年にFDAが将来の規制モデルのプロットを始めたときにこのことを認識していた。FDAは、品質の文化と、市場におけるAIの実世界でのパフォーマンスを監視するコミットメントに基づいて、メーカーやソフトウェアプロバイダーを事前認証するために何が必要かを検討し続けています。
アプリごとではなく会社を認証するという理念は、レストランモデルのようなものです。いったんレストランを認証すれば、各料理をチェックする必要はありません。この信頼されつつも拡張性のあるモデルは、リスクを最小限に抑え、責任あるAIを目指す企業文化を推進することができます。
基本的な情報開示後
データソースやモデリング方法の透明性に加えて、以下のことを考慮してください。
潜在的なバイアス:バイアスの発生や強化を避けるために行ったことを共有してください。入力データやアルゴリズムの設計におけるバイアスに対して、どのような管理を行っているかを説明する。AIシステムのユーザーがバイアスに関連する問題をどのように指摘できるかを伝える。
モデルが世に出る前の評価:あなたのAIシステムは、自然界にリリースする前にレビューボードの対象となったのか?医療用AI製品の場合は、規制当局の承認が必要かどうか、またその承認の状況を文書化する。大規模な組織のモデラーは、組織の最高基準を満たすために、AIセンターオブエクセレンスを設けている可能性もある。
時間をかけて品質をテストするメカニズム:あらゆるモデルの有効性と有用性は、時間の経過や人とデータの相互作用によって変化する可能性がある。時間が経過しても、また集団が変わっても、モデルが有効であることを保証するために、どのようなチェックを行ったかを共有すること。
あるシステムがどのように判断や予測を行っているのか、疑ってかかることはいつでも良いことです。しかし、このような透明性を確保しないと、AIを世に送り出しても、すぐに幻滅されてしまう危険性があります。
出典:Forbes