国立保健医療科学院における診断支援研究医師向け

診断支援AI「PGY-01」の歴史・現状・展望
2017年8月10日 奥村貴史(国立保健医療科学院 研究情報支援研究センター 特命上席主任研究官、国立情報学研究所客員教授)

診断支援システムの実際

本年5月13日、第8回 日本プライマリ・ケア連合学会学術大会において、「プライマリ・ケアにおける人工知能の 可能性」と題したシンポジウムが開催されました。人工知能(AI)技術の医療への応用が進むことで、各学会において もAIに関連した研究発表やシンポジウムが増えています。そうした中でも、医療用AIがプライマリ・ケアという第一 線の医療現場における活用についても討議されるまでになったことは、この分野の試みが基礎研究から応用研究にま で幅広く広がってきたことを示しています。

「私たちは、このシンポジウムで、「診断困難症例の診断支援」と題した発表を行いました。臨床では、大きな大学 病院から小さな診療所に至るまで、どのような環境であっても、時折、診断に困る症例に遭遇するでしょう。そうし た際、全身状態が悪ければ、必要に応じて高次施設に紹介するかもしれません。しかし、他施設に紹介するにして も、適切な科に送りたいという心理は働きます。症状が軽く明らかに生命予後に関わらなければ、診断が付かない状 況でも経過観察を選択するかもしれません。それでも、自分を頼って受診をしてくださった患者のためにまずは診断 を付けたいという気持ちも、医師誰もが感じることでしょう。

そうした際、診断の糸口をつかむために、先生方は何をどのように調べられるでしょうか。病名が明らかとなって いる際には、成書を確認するというのが正しいあり方かもしれません。しかし、そもそも診断が付いていない場合に は、症状を頼りにウェブで関係しそうな疾患を検索するという方法が少なからず行われているようです。この方法の 問題は、良質な情報にたどり着くためには、検索結果に現れる膨大なページや論文を一つ一つ確認する等の手間と経 験が必要である点です。昔であれば図書館に行かなければならなかった文献検索が、昨今ではネットで簡単に調べら れるようになりました。一方で、手に入れられる情報も膨大となり、新たな非効率を生んでいます。

私たちは、この問題に取り組み、診断困難症例への対応を支援するシステムを2009年から研究してきました。図1 は、その入力画面です。画面上部にある「基本情報欄」には、患者の基本情報を入力します。例えば、年齢と性別を 入力することで、診断の計算に好発年齢や性別を加味することが可能となります。同様に、急性か慢性か、あるいは 亜急性かといった発症様式を問うことにより、疾患の自然歴を加味した計算が可能となります。主訴現症欄は、入力 情報の中心となります。これら臨床所見を入力する毎に、画面右にある「選択症状」に追加され、必要な情報を入力 した後に「病名診断」ボタンを押すと、結果画面へと切り替わります。

図2は、結果の表示画面です。「神経系の疾患」という表示の中に、中枢神経系の炎症性疾患や変性疾患といった疾 患グループが並び、さらにその中にあるアルツハイマー病やレビー小体病が並んでいます。このように疾患を階層的 に表示することにより、何百という鑑別疾患を効率的に閲覧することが可能となります。システムには、現在、1500 ほどの疾患情報が登録されており、今年度中に5465件ほどに拡張される予定です。

さらに、図3に示すように、それぞれの疾患に関する説明文や詳細情報を効率的に確認することが可能となっていま す。画面例では、疾患説明文の下に、疾患情報、所見情報、関連疾患、参考文献の詳細情報タブが示されています。 参考文献はとりわけ有用で、それぞれの疾患に関するオンライン上の各種文献へのリンクが整備されています。その なかでも、メルクマニュアルや難病情報センター等、品質の高いサイトはアイコン化されており、直接移動すること ができます。診断支援システムがウェブや論文の検索システムと比して大幅に効率的である点を、ご理解いただけることと思います。

図1 症状入力画面(提供:奥村氏)
図1 症状入力画面(提供:奥村氏)

図2 結果表示画面(提供:奥村氏)
図2 結果表示画面(提供:奥村氏)

図3 疾患情報表示(提供:奥村氏)
図3 疾患情報表示(提供:奥村氏)

国立保健医療科学院における診断支援研究

ここで、一つ疑問に思われるかもしれません。ご紹介したシステムは「それなりに有用に見える」のに、なぜ今まで知られていなかったのでしょう。この疑問に答えるためには、私たちの研究の背景についてお伝えする必要があります。

 

従来、日本の医療では、公費負担の対象として56種類の「難病」が知られていました。その後、2015年に制度が変更され、現在では330疾患が認められています。これは、難病対策の大きな転換であったことから、その制度変更に先駆けてさまざまな検討がなされました。しかし、たとえ対象疾患を広げても、疾患概念として確立していない難病の患者を救うことはできません。疾患概念として確立していなければ、そもそも患者を診断することが困難です。診断基準の策定に向けた研究を進めようにも、明確な症例定義がなければ、症例を集めることも困難でしょう。

そこで2009年、「未分類疾患の情報集約に関する研究班」(研究代表:国立保健医療科学院の林謙治院長)が設けられました。医学は今までさまざまな疾患に対して多くの科学的知見をもたらしてきました。しかし、そもそも名前がなく症例定義も定まらない疾患に対する研究方法論は知られていませんでした。そこで私たちが着目したのが、オンラインの診断支援システムでした。臨床においては、大学病院や診療所といった施設区分を問わず、多かれ少なかれ診断に困る症例に遭遇します。そうした際のために医師の診断を効果的に支援するシステムをネット公開すれば、多くの医師が利用することになるでしょう。そして、もし、「未知の疾患」が既知の疾患と異なる症状を呈するのであれば、このシステムの検索履歴中に、既知疾患とは異なるパターンの検索が現れるはずです。そうした患者に地域集積性が認められれば、未知の公害病の端緒をつかめるかもしれません。もし職業集積性が認められれば、職業性胆管癌のような未知の公害が示唆されるかもしれません。国内で知られていない感染症が疑われれば、新興感染症やバイオテロの検知にもつながるでしょう。

このような体制を実現するためには、まず、臨床的に有用な診断支援システムを研究開発しなければなりません。そこで、私たちは、実際に動作する診断支援システムを試作した上で、医師を対象としたセミナーを開催して症例検討を行い、出席した先生方から頂戴したフィードバックを基にシステムを改良し、それをまた次回のセミナーで供覧する、という試みを8年間ほど続けてきました。臨床現場での実用に耐えるシステムの研究開発には、大変地道な作業を要します。開発途中の不完全なシステムに対してフィードバックを得ていくためには、システムの将来的な価値を理解して下さる限られたテストユーザーから、根気強くフィードバックを集めていかなければなりません。その際、良質なフィードバックをいただくためには、頂戴したご意見を真摯に受け止めシステムを改良していかなければならず、多くの時間がかかることになります。

 

また、診断支援システムを大々的に広報する上では、診断性能を担保するために臨床的な評価を行う必要があります。しかし、臨床研究には多額の予算がかかります。そこで私たちは、まずは基礎研究として要素技術の完成度を高める道を選び、主に情報系の国際学会を中心に研究成果の発表を行ってきました。私たちにとっては、臨床的な性能評価を行ったり、広報を行い渉外に要する負担を増すよりも、現場の臨床医の先生方との対話を通じて技術としての完成度を高め、研究成果を一つ一つ積み重ねていくことが重要だったのです。

診断支援技術とその本質

さて、私たちの診断支援システムには既に8年の研究実績があることから、さぞ高度な診断が可能かと思われるかもしれません。しかし、私たちのシステムの診断性能そのものは、決して高いものではありません。それでも、私たちのシステムは、前述のシンポジウムや今まで積み重ねてきたセミナーにおいて、臨床の先生方より高い評価をいただいてきました。次に、その理由をお伝えすることで、そもそも診断支援とは何かという技術の本質を明らかにしたいと思います。

医師の有する知識の補完

人類が今までに発見した疾患がどれくらいあるか、ご存知でしょうか。数え方にもよりますが、WHO(世界保健機関)は、2万~3万という数字を挙げています。分子生物学の発展によってさまざまな疾患に多くの責任遺伝子が見出されてきたことで、区別できる疾患の数が増えたことが背景にあるようです。歴史的には、18世紀頃には既に2400種程度の疾患が知られていたようですので、医学の進歩が疾患概念をおよそ10倍に増やしたと言えるでしょう。

問題は、この中で一人の医師が知っている疾患数はどれくらいかというものです。実は、この問題には正確な調査がなく、私たちの調査により概算で2000疾患弱であると推計されています。つまり、普通の医師は既知疾患の一部を知っているにすぎず、実は大多数の希少疾患については知らないことになるのです。この希少疾患に関する知識量では、生身の医師はコンピュータに決してかないません。医師が知らない希少疾患についての知識をコンピュータが支援することができれば、人間と機械が得手不得手を補い合うことができることになります。

医師の有する各種バイアスとデバイアシング

 以上のように記すと、「医師は希少疾患を知らないかもしれないが、医学知識に基づいた診断推論が可能であり、簡単に機械には負けないのではないか」とお思いになられるかもしれません。これはその通りで、AIは網羅的なデータベースを用いることで、可能性のある疾患を列挙することは得意ですけれども、今のところ医師が有するような診断推論能力はありません。一般的な症例において医師の診断能力がAIを凌駕するのも、人間の診断推論能力が高度であることが理由の一つです。

 

 しかし、医師の推論能力にも、大きな欠陥があります。それが、人間だれもが有する「バイアス」です。診断に際して、医師はさまざまな情報に影響を受けます。患者からの訴えや説明、患者が発する雰囲気、その日に診察した他の患者の容態や自分が今までに診た患者、とりわけ、困難な診断にたどり着いた成功体験などは、とりわけ医師の思考を制約します。CT上に見つけた重要所見に意識を奪われ、隣のスライスにあったわずかな変化を見逃すような経験は、誰もが通る道でしょう。  AIの長所の一つは、人間と異なりこれらのバイアスに影響を受けない点です。バイアスがないことで、機械は時折、医師が想像もしていなかった可能性を提示します。診断支援システムは、たとえ正解を示すことができないとしても、この「デバイアシング(debiasing) 」能力によって医師の有するバイアスをキャンセルすることが臨床に高い価値を有するものと考えられます。

関連情報の効率的な提示

進行に時間がかかる疾患においては、診察時に全ての症状が発現しているとは限りません。その場合、限られた所見から正確な診断を下すことは原理的に困難です。例えば、腹部の違和感という病歴のみから、胃軸捻転症を確定診断することはできません。したがって、診断困難症例の診察を支援する診断支援システムは、正確な診断結果を示すことよりも、「診断に役立つ情報を提供すること」に価値があると考えることができます。とりわけ、診断困難な症例に接した際に、質の良い診断仮説を提示したり、その質の良い診断仮説に基づいて次に行うべき検査を示唆したりということ機能は、臨床的に極めて有益です。

 

そのように考えると、診断支援システムにおいては、答えが分かっている症例に対する正診率が99%あるかないかという単体性能で評価することが困難であることをご理解いただけるでしょう。診断支援システムは、医師と相互補完的に働くものであり、その総体として評価しなければ、診断支援システムの利用による臨床的なアウトカムを正しく把握することは困難なのです。したがって、診断に関連した情報を的確に、また、効率的に提示することが、診断支援システムにおいて本質的な要素となります。

医師と診断AIの協働に向けて

今までの研究を通じて、医療用AIが発達することによって「医師が怠惰となる」懸念を少なからずお伺いしてきました。このように、機械の発達によって人間の能力が落ちるのではないかという危惧は、AIの本格的な登場以前より指摘されてきました。とりわけ深刻であったのが、飛行機の自動操縦が発達することによってパイロットの技量が衰え、異常事態への対処能力というパイロットにとっての根源的な能力が衰えるのではないかという危惧でした。こうした事態をautomation complacencyといい、医療においても当てはまるのかもしれません。確かに、CTやMRIの普及によって頭部の画像診断が容易となったことで、医師の神経学的診察能力は低下してきたのかもしれません。この後、診断までもを機械に依存することで医師の診断能力が衰えていくことは、決して望ましい未来ではありません。

 

しかし、多くの医師が臨床において眼鏡という「機械」に頼っていますが、医師の臨床能力は減退したでしょうか。靴を履くことによって、人類の活動領域は明らかに広がりました。これらの事例は、機械と人間とがうまく補い合うことができれば、人間の能力が減退ではなく発展していくことも可能であることを示しています。とりわけ大切なことは、診断支援システムや医療用AIは医師や医師の診断を置き換えるものではなく、医師と相互補完的に働くものだという認識です。実際、診断学分野で高名なUCSF(米カリフォルニア大学サンフランシスコ校)のDr. Dhaliwalも、自身で診断を行った後に、診断支援システムを用いて自分自身の診断推論に見落としがないか確認されるそうです。教育への応用も重要でしょう。今後は、眼鏡が人間の能力を拡張したように、また、飛行機が人間を豊かにしたように、診断支援技術が人類の将来に貢献するような方向に研究開発を導いていくことが重要と言えます。

  

そのためには、診断支援システムの要素技術がバランス良く健全に発展していく必要があるでしょう。具体的には、医学知識をコンピュータが利用可能な形に整備した「知識ベース」、医師とのやり取りを担う「ユーザーインターフェース」と、入力された所見等から実際の診断を行う「診断エンジン」、それぞれが高度化していく必要があります。そこで、私たちは、「疾患知識ベース」から研究に取り組み始め、現在、医師とコンピュータが協働していく要となる診断AIのユーザーインターフェース研究へと辿り着きました。

  

私たちのシステムは、1年目研修医の状況に似ていると考えています。つまり、「国家試験に通ったばかりであることから覚えている疾患の単純な数はベテランよりも多い」ものの、「学んだ知識を組み合わせて診断を行ったり適切な治療を考えたりという能力は一般的な医師には到底及ばない」という状態です。そこで、研修医が先達に育てられ経験を積むことで臨床能力を高めていくように、私たちのシステムも先生方からの指導を通じてより有用で効果的なシステムへと育つことを願って、1年目研修医を意味するPGY-01(※)と名付けています。今後、医療用AIのユーザーインターフェース研究を中心に基礎研究を進めつつ、臨床の先生方との共同研究を少しずつ増やすことにより、より有益なシステムへと育つこと、そして、医学の発展に資する研究成果につながることを願っています。

※ PGYは、本来Post-Graduate Yearですが、ここではProgrammed General phYsician。

※M3.com『医療維新』より許可を得て転載