„Symptom-Checker“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
unsinniges nowiki raus
EN formatiert
Zeile 2: Zeile 2:


== Methoden und Regulierung ==
== Methoden und Regulierung ==
Methoden reichen von klassischen [[Bayessche Statistik|Bayes’schen Entscheidungsbäumen]] über andere statistische Verfahren, wie die Auswertung von [[Korrelation]]en (engl. associative inference) und [[Maschinelles Lernen|Kausales Maschinelles Lernen]] bis zu [[Neuronales Netz|neuronalen Netzwerken]]<ref name=":0">A. Ćirković, Evaluation of Four Artificial Intelligence–Assisted Self-Diagnosis Apps on Three Diagnoses; J Med Internet Res 2020;22(12):e18097 [[doi:10.2196/18097]]</ref>. Testgütekriterien (Sensitivität, positiver Prädiktiver Wert) sind besser geeignet, Richtig- und Falschbewertungen gegenüber zu stellen. Die Entwickler veröffentlichen in der Regel ihre Methodik nicht.
Methoden reichen von klassischen [[Bayessche Statistik|Bayes’schen Entscheidungsbäumen]] über andere statistische Verfahren, wie die Auswertung von [[Korrelation]]en (engl. associative inference) und [[Maschinelles Lernen|Kausales Maschinelles Lernen]] bis zu [[Neuronales Netz|neuronalen Netzwerken]]<ref name=":0">A. Ćirković: ''Evaluation of Four Artificial Intelligence–Assisted Self-Diagnosis Apps on Three Diagnoses.'' In: ''J Med Internet Res.'' 22(12), 2020, e18097, [[doi:10.2196/18097]].</ref>. Testgütekriterien (Sensitivität, positiver Prädiktiver Wert) sind besser geeignet, Richtig- und Falschbewertungen gegenüber zu stellen. Die Entwickler veröffentlichen in der Regel ihre Methodik nicht.


Symptom-Checker sollten in Europa zertifiziert sein. Man erkennt dies an der [[CE-Kennzeichnung]] oder dem Zusatz ''[[Medizinprodukt]] Klasse 1''. Die amerikanische [[Food and Drug Administration]] (FDA) hat Symptom-Checker-Apps von den strengen Regeln ausgenommen, die normalerweise für Medizinprodukte gelten. Die Behörde unterscheidet aber zwischen „gesperrten“ (nicht lernenden) Algorithmen und auf künstlicher Intelligenz (AI)-basierten/[[Maschinelles Lernen|ML-basierten]] Lernalgorithmen, wobei nur letztere unter ein strengeres Regelwerk fallen<ref>Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) [https://www.fda.gov/media/122535/download US-FDA-Artificial-Intelligence-and-Machine-Learning-Discussion-Paper.pdf]</ref>..
Symptom-Checker sollten in Europa zertifiziert sein. Man erkennt dies an der [[CE-Kennzeichnung]] oder dem Zusatz ''[[Medizinprodukt]] Klasse 1''. Die amerikanische [[Food and Drug Administration]] (FDA) hat Symptom-Checker-Apps von den strengen Regeln ausgenommen, die normalerweise für Medizinprodukte gelten. Die Behörde unterscheidet aber zwischen „gesperrten“ (nicht lernenden) Algorithmen und auf künstlicher Intelligenz (AI)-basierten/[[Maschinelles Lernen|ML-basierten]] Lernalgorithmen, wobei nur letztere unter ein strengeres Regelwerk fallen.<ref>Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) [https://www.fda.gov/media/122535/download US-FDA-Artificial-Intelligence-and-Machine-Learning-Discussion-Paper.pdf (PDF)]</ref>


== Genauigkeit und Zuverlässigkeit ==
== Genauigkeit und Zuverlässigkeit ==
Die Evaluation, wie zuverlässig eine richtige Diagnose gestellt wird bzw. die korrekte Dringlichkeit eingestuft wird, kann entweder mit realen Patientendaten durch Vergleiche mit ärztlichen Diagnosen durchgeführt werden (kontrollierte Studie). Oder es werden standardisierte Vignetten als Eingangsdatensatz hergenommen. Vignetten sind fiktive Patientenbeschreibungen mit strukturierten Zusammenstellung von Symptomen, Umfeld, Vorgeschichte, Alter u. a.
Die Evaluation, wie zuverlässig eine richtige Diagnose gestellt wird bzw. die korrekte Dringlichkeit eingestuft wird, kann entweder mit realen Patientendaten durch Vergleiche mit ärztlichen Diagnosen durchgeführt werden (kontrollierte Studie). Oder es werden standardisierte Vignetten als Eingangsdatensatz hergenommen. Vignetten sind fiktive Patientenbeschreibungen mit strukturierten Zusammenstellung von Symptomen, Umfeld, Vorgeschichte, Alter u. a.


Eine britische Vergleichsstudie aus dem Jahr 2015 mit 45 Vignetten erbrachte eine Übereinstimmung von 58 % mit richtigen Diagnosen<ref>Semigran HL et al.: Evaluation of symptom checkers for self diagnosis and triage: BMJ 2015 Jul 08;351:h3480 [[doi:10.1136/bmj.h3480]]</ref>.
Eine britische Vergleichsstudie aus dem Jahr 2015 mit 45 Vignetten erbrachte eine Übereinstimmung von 58 % mit richtigen Diagnosen<ref>H. L. Semigran et al.: ''Evaluation of symptom checkers for self diagnosis and triage.'' In: ''BMJ''. 351, 2015, h3480 [[doi:10.1136/bmj.h3480]]</ref>.


In einem systematischen Review von Wallace<ref>William Wallace et al.The diagnostic and triage accuracy of digital and online symptom checker tools: a systematic review, npj Digital Medicine (2022) 5:118; {{DOI|10.1038/s41746-022-00667-w}}.</ref> aus dem Jahr 2022 über 10 Studien lag die diagnostische Genauigkeit (der zu oberst genannte Diagnose) zwischen 19 und 38 %, während die Triage-Genauigkeit höher lag (49–90 %). Es fanden sich beträchtliche Unterschiede zwischen den einzelnen Symptom-Checkern.
In einem systematischen Review von Wallace<ref>William Wallace et al.The diagnostic and triage accuracy of digital and online symptom checker tools: a systematic review, npj Digital Medicine (2022) 5:118; {{DOI|10.1038/s41746-022-00667-w}}.</ref> aus dem Jahr 2022 über 10 Studien lag die diagnostische Genauigkeit (der zu oberst genannte Diagnose) zwischen 19 und 38 %, während die Triage-Genauigkeit höher lag (49–90 %). Es fanden sich beträchtliche Unterschiede zwischen den einzelnen Symptom-Checkern.
Zeile 17: Zeile 17:
'''Bewertung zur Anwendung in Notaufnahme'''
'''Bewertung zur Anwendung in Notaufnahme'''


Weltweit laufen Notaufnahme von Kliniken Gefahr, von Bagatellfällen überrannt zu werden und suchen nach Lösungen. In einer amerikanischen Notaufnahme wurden ankommende Patienten entweder durch den Symptom-Checker ADA-Health befragt oder von 3 Ärzten. Der Symptom-Checker lieferte bei 70 % richtige Diagnosen, die Ärzte bei 69 %. Die Ärzte bewerteten 62 % der Triage-Entscheidungen als zutreffend, 24 % als zu vorsichtig und 22 % als zu riskant<ref>H. Fraser et al.;Evaluation of Diagnostic and Triage Accuracy and Usability of a Symptom Checker in an Emergency Department: Observational Study JMIR Mhealth Uhealth 2022;10(9):e38364) [[doi:10.2196/38364]]</ref>.
Weltweit laufen Notaufnahme von Kliniken Gefahr, von Bagatellfällen überrannt zu werden und suchen nach Lösungen. In einer amerikanischen Notaufnahme wurden ankommende Patienten entweder durch den Symptom-Checker ADA-Health befragt oder von 3 Ärzten. Der Symptom-Checker lieferte bei 70 % richtige Diagnosen, die Ärzte bei 69 %. Die Ärzte bewerteten 62 % der Triage-Entscheidungen als zutreffend, 24 % als zu vorsichtig und 22 % als zu riskant<ref>H. Fraser et al.: ''Evaluation of Diagnostic and Triage Accuracy and Usability of a Symptom Checker in an Emergency Department: Observational Study.'' In: ''JMIR Mhealth Uhealth'' 10(9), 2022, e38364, [[doi:10.2196/38364]]</ref>.


'''Unterschiedliche Bewertungen in der Rheumatologie je nach Vorwissen der Ärzte'''
'''Unterschiedliche Bewertungen in der Rheumatologie je nach Vorwissen der Ärzte'''


Bei manchen Facharztpraxen bestehen lange Wartezeiten, um einen Termin zu bekommen. Eine Untersuchung in der Rheumatologie erbrachte eine Richtigkeit von 16,7 % bezogen auf die Enddiagnose, die Ärzte gestellt haben<ref>Knitza J, et al: Accuracy, patient-perceived usability, and acceptance of two symptom checkers in rheumatology: ArthritisRes Ther 23:112.(2021) https://doi.org/ 10. 1186/ s13075- 021- 02498-8</ref>, denen alle technischen und Labor-medizinischen Hilfen zur Verfügung standen. Hier wurde allerdings kritisch der Wissensvorsprung der Ärzte als Ursache der schlechten Ergebnisse herausgestellt und von den Autoren eine zweite Studie angeschlossen. Bei dieser standen dem Symptom-Checker (ADA Health) und den Ärzte das gleiche Wissen (Vignetten) zur Verfügung. Unter diesen Bedingungen stellte der Symptom-Checker die zu oberst genannte Diagnose in 70 % richtig dar, während den Ärzte dies in nur 54 % der Fälle gelang<ref>Gräf M. et al. Comparison of physician and artificial intelligence based symptom checker diagnostic accuracy :Rheumatology International (2022) 42:2167 [[doi:10.1007/s00296-022-05202-4|doi.org/10.1007/s00296-022-05202-4]]</ref>.
Bei manchen Facharztpraxen bestehen lange Wartezeiten, um einen Termin zu bekommen. Eine Untersuchung in der Rheumatologie erbrachte eine Richtigkeit von 16,7 % bezogen auf die Enddiagnose, die Ärzte gestellt haben<ref>J. Knitza et al: ''Accuracy, patient-perceived usability, and acceptance of two symptom checkers in rheumatology.'' In: ''ArthritisRes Ther''. 23:112, 2021 {{DOI|10.1186/s13075-021-02498-8}}.</ref>, denen alle technischen und Labor-medizinischen Hilfen zur Verfügung standen. Hier wurde allerdings kritisch der Wissensvorsprung der Ärzte als Ursache der schlechten Ergebnisse herausgestellt und von den Autoren eine zweite Studie angeschlossen. Bei dieser standen dem Symptom-Checker (ADA Health) und den Ärzte das gleiche Wissen (Vignetten) zur Verfügung. Unter diesen Bedingungen stellte der Symptom-Checker die zu oberst genannte Diagnose in 70 % richtig dar, während den Ärzte dies in nur 54 % der Fälle gelang<ref>M. Gräf et al.: ''Comparison of physician and artificial intelligence based symptom checker diagnostic accuracy.'' In: ''Rheumatology International.'' 42:2167, 2022, {{DOI|10.1007/s00296-022-05202-4}}.</ref>.


'''Untersuchungen, ob Symptom-checker aus früheren Fällen lernen'''
'''Untersuchungen, ob Symptom-checker aus früheren Fällen lernen'''


Eine Arbeitsgruppe aus Berlin konnte zeigen, dass sich die Performance für Triage und Diagnostik im Durchschnitt zwischen 2015 und 2020 kaum verändert hat<ref name=":1">ML Schmieding et al.: Triage Accuracy of Symptom Checker Apps: 5-Year Follow-up Evaluation ''JMed Internet Res 2022;24(5):e31810 ''[[doi:10.2196/31810]]</ref>. Dieselbe Arbeitsgruppe ermittelte 2021 mittels solcher Vignetten, dass medizinische Laien eine ähnlich gute Fähigkeit wie Symptom-Checker aufweisen, was die Einstufung der Dringlichkeit (Triage) anbetrifft<ref>M L Schmieding et al. Benchmarking Triage Capability of Symptom Checkers Against That of Medical Laypersons: Survey Study ''J Med Internet Res 2021;23(3):e24475)'' [[doi:10.2196/24475]]</ref>.
Eine Arbeitsgruppe aus Berlin konnte zeigen, dass sich die Performance für Triage und Diagnostik im Durchschnitt zwischen 2015 und 2020 kaum verändert hat<ref name=":1">M. L. Schmieding et al.: ''Triage Accuracy of Symptom Checker Apps: 5-Year Follow-up Evaluation.'' In: ''JMed Internet Res.'' 24(5), 2022, e31810, [[doi:10.2196/31810]].</ref>. Dieselbe Arbeitsgruppe ermittelte 2021 mittels solcher Vignetten, dass medizinische Laien eine ähnlich gute Fähigkeit wie Symptom-Checker aufweisen, was die Einstufung der Dringlichkeit (Triage) anbetrifft<ref>M. L. Schmieding et al.: ''Benchmarking Triage Capability of Symptom Checkers Against That of Medical Laypersons: Survey Study.'' In: ''J Med Internet Res.'' 23(3), 2021, e24475, [[doi:10.2196/24475]].</ref>.


J.G.Richens (von Babylon Health) veröffentlichte 2020, dass durch die Methode der [[Kontrafaktisches Konditional|kontrafaktischen Schlussfolgerung]] (conterfactual inference) die '''Berücksichtigung der Kausalität von Symptom zur Diagnose''' zu besseren Ergebnissen führt, als die reine Korrelation, auf welcher die meisten Symptom.Checker beruhen<ref>J. G. Richens et al. Improving the accuracy of medical diagnosis with causal machine learning NATURE COMMUNICATIONS | (2020) 11:3923, {{DOI|10.1038/s41467-020-17419-7}}</ref>.
J.G.Richens (von Babylon Health) veröffentlichte 2020, dass durch die Methode der [[Kontrafaktisches Konditional|kontrafaktischen Schlussfolgerung]] (conterfactual inference) die '''Berücksichtigung der Kausalität von Symptom zur Diagnose''' zu besseren Ergebnissen führt, als die reine Korrelation, auf welcher die meisten Symptom.Checker beruhen<ref>J. G. Richens et al.: ''Improving the accuracy of medical diagnosis with causal machine learning.'' In: [[Nature Communications]].'' 11:3923, 2020, {{DOI|10.1038/s41467-020-17419-7}}.</ref>.


== Verbreitung ==
== Verbreitung ==
Laut EPatient Survey hatten 2020 bereits 13 % der Deutschen eine Diagnostik-App konsultiert<ref>EPatient survey 2020. Health & Care Management. 2020. :https://www.hcm-magazin.de/epatient-survey-2020-digital&#x09;-health-studie/150/10992/407743</ref>. Im deutschsprachigen Raum sind u. a. verbreitet: ''Ada Health'' (Berlin), ''Caspar Health'' und ''Symptoma'' (Attersee, Österreich). Deutschsprachig sind auch die spanische Anwendung ''Mediktor'' und die polnische App ''Symptomate'' von Infermedica. Letztere ist auch in die ''Medizinwelten von Sana Digital'' der [[Sana Kliniken]] integriert. Weltweit sind 2022 ca. 100 Symptom-Checker freigeschaltet mit starker Tendenz nach oben, aber auch hoher Fluktuation. In China ist ''DoctorBot'' sehr stark verbreitet<ref>Xiangmin Fan et al. Utilization of Self-Diagnosis Health Chatbots in Real-World Settings: Case Study; Journal of Medical Internet Research 2021 23(1):e19928. [[doi:10.2196/19928]]</ref>.
Laut EPatient Survey hatten 2020 bereits 13 % der Deutschen eine Diagnostik-App konsultiert<ref>EPatient survey 2020. Health & Care Management. 2020. [https://www.hcm-magazin.de/epatient-survey-2020-digital&#x09;-health-studie/150/10992/407743]</ref>. Im deutschsprachigen Raum sind u. a. verbreitet: ''Ada Health'' (Berlin), ''Caspar Health'' und ''Symptoma'' (Attersee, Österreich). Deutschsprachig sind auch die spanische Anwendung ''Mediktor'' und die polnische App ''Symptomate'' von Infermedica. Letztere ist auch in die ''Medizinwelten von Sana Digital'' der [[Sana Kliniken]] integriert. Weltweit sind 2022 ca. 100 Symptom-Checker freigeschaltet mit starker Tendenz nach oben, aber auch hoher Fluktuation. In China ist ''DoctorBot'' sehr stark verbreitet<ref>Xiangmin Fan et al.: ''Utilization of Self-Diagnosis Health Chatbots in Real-World Settings. Case Study.'' In: ''Journal of Medical Internet Research.'' 2021 23(1):e19928. [[doi:10.2196/19928]].</ref>.


== Symptom-Checker für Covid-19 ==
== Symptom-Checker für Covid-19 ==
Zeile 40: Zeile 40:
In Österreich wurde 2021 vom ''Austrian Institute for Health Technology Assessment'' eine Evaluierung vorgenommen und auch Studien und Evaluierungen in anderen Ländern (mit ähnlichen Gesundheitssystemen) herangezogen.
In Österreich wurde 2021 vom ''Austrian Institute for Health Technology Assessment'' eine Evaluierung vorgenommen und auch Studien und Evaluierungen in anderen Ländern (mit ähnlichen Gesundheitssystemen) herangezogen.


Grundsätzlich sehen sie bei allen DIGAs Datenschutz, CE-Markierung und Risikoeinstufung nach aktueller EU-MDR als zwingend an. Eine Zusammenarbeit mit [[Elektronische Gesundheitsakte (Österreich)|ELGA]] wurde empfohlen. Die Österreicher sehen Vignetten-Studien kritisch. DiGAs aus der Gruppe der Symptom-Checker erfüllen die [[ASVG]]-relevanten Priorisierungskriterien nicht stringent, da sie der Funktionsgruppe „Erkennung/Diagnose“ zuzuordnen sind. Für Symptom-Checker konnte der Nutzennachweis durch vorliegende Studien nicht ausreichend erbracht werden und somit kann derzeit keine Refundierung erfolgen.<ref>Jeindl R., Goetz G. Prozess und Bewertung digitaler Gesundheitsanwendungen – am Beispiel der „Symptom-Checker“.
Grundsätzlich sehen sie bei allen DIGAs Datenschutz, CE-Markierung und Risikoeinstufung nach aktueller EU-MDR als zwingend an. Eine Zusammenarbeit mit [[Elektronische Gesundheitsakte (Österreich)|ELGA]] wurde empfohlen. Die Österreicher sehen Vignetten-Studien kritisch. DiGAs aus der Gruppe der Symptom-Checker erfüllen die [[ASVG]]-relevanten Priorisierungskriterien nicht stringent, da sie der Funktionsgruppe „Erkennung/Diagnose“ zuzuordnen sind. Für Symptom-Checker konnte der Nutzennachweis durch vorliegende Studien nicht ausreichend erbracht werden und somit kann derzeit keine Refundierung erfolgen.<ref>R. Jeindl, G. Goetz: ''Prozess und Bewertung digitaler Gesundheitsanwendungen – am Beispiel der „Symptom-Checker“.'' In: ''AIHTA Projektbericht Nr. 141.'' 2021. Wien: HTA Austria – Austrian Institute for Health Technology Assessment GmbH</ref>

AIHTA Projektbericht Nr. 141, 2021. Wien: HTA Austria – Austrian Institute for Health Technology Assessment GmbH</ref>


== Anwendungen in der Dritten Welt ==
== Anwendungen in der Dritten Welt ==
Babylon Health hat mit [[Ruanda]] für die nächsten 10 Jahre ein gemeinsames Projekt der Gesundheitsversorgung geschlossen, in dem auch der Symptom-checker eingeschlossen ist. ADA Health hat in [[Tansania]] eine Studie initiiert, mit der die Versorgungseffekte in einer Distrikt-Notaufnahme untersucht werden sollen<ref>Millen E. et al. The AFYA Health Study; BMJ open 12/4 (2021)[http://dx.doi.org/10.1136/bmjopen-2021-055915] </ref>.
Babylon Health hat mit [[Ruanda]] für die nächsten 10 Jahre ein gemeinsames Projekt der Gesundheitsversorgung geschlossen, in dem auch der Symptom-checker eingeschlossen ist. ADA Health hat in [[Tansania]] eine Studie initiiert, mit der die Versorgungseffekte in einer Distrikt-Notaufnahme untersucht werden sollen<ref>E. Millen et al.: ''The AFYA Health Study.'' In: ''BMJ open.'' 12/4, 2021, {{DOI|10.1136/bmjopen-2021-055915}}.</ref>.


== Zukunftsaussichten ==
== Zukunftsaussichten ==
E-Health Analysten sehen in Symptom-Checkern großes Potential, sowohl in der Dritten Welt wie auch in Industrienationen<ref>https://research2guidance.com/next-generation-of-symptoms-checkers-will-become-one-of-the-killer-applications-in-digital-health/</ref>. Hier würde eine 5 % Reduktion von Arztbesuchen durch Benutzung der APP in Deutschland 1 Mrd. € dem Gesundheitswesen ersparen (in USA 8 Mrd. €. In Japan 6 Mrd. €).
E-Health Analysten sehen in Symptom-Checkern großes Potential, sowohl in der Dritten Welt wie auch in Industrienationen.<ref>{{Internetquelle |autor= |url=https://research2guidance.com/next-generation-of-symptoms-checkers-will-become-one-of-the-killer-applications-in-digital-health/ |titel=research2guidance - Next generation of symptoms checkers will become one of the killer applications in digital health |werk=research2guidance.com |datum=2019-03-22 |abruf=2024-01-17}}</ref> Hier würde eine 5 % Reduktion von Arztbesuchen durch Benutzung der APP in Deutschland 1 Mrd. € dem Gesundheitswesen ersparen (in USA 8 Mrd. €. In Japan 6 Mrd. €).


Auch in Entwicklungsländern sind Arztpraxen und Kliniken oft schwer erreichbar, dafür ist aber das Mobilfunknetz gut ausgebaut, namentlich in Afrika. Hier können Symptom-Checker zur Überbrückung dringliche von weniger dringlichen Indikationen trennen und so unnötig lange Wege ersparen.
Auch in Entwicklungsländern sind Arztpraxen und Kliniken oft schwer erreichbar, dafür ist aber das Mobilfunknetz gut ausgebaut, namentlich in Afrika. Hier können Symptom-Checker zur Überbrückung dringliche von weniger dringlichen Indikationen trennen und so unnötig lange Wege ersparen.


== Forschungsprojekte ==
== Forschungsprojekte ==
Das Tübinger Projekt ''CHECK.APP'' untersucht die sozialen, ethischen und juristische Aspekte von Symptom-checkern, insbesondere durch Literaturrecherchen und Befragungen<ref>Anna-Jasmin Wetzel et al. Ethical, Legal, and Social Implications of Symptom Checker Apps in Primary Health Care (CHECK.APP): Protocol for an Interdisciplinary Mixed Methods Study :JMIR Res Protoc (2022) 11 : 5 e34026</ref>. Das Forschungsprojekt ''AkuSym'' der Charite Berlin erforscht, ob von Symptom-Checkern positive Versorgungseffekte beim Besuch von Notaufnahmen ausgehen<ref>https://www.bundesgesundheitsministerium.de/ministerium/ressortforschung-1/handlungsfelder/forschungsschwerpunkte/zdg/akusym.html</ref>.
Das Tübinger Projekt ''CHECK.APP'' untersucht die sozialen, ethischen und juristische Aspekte von Symptom-checkern, insbesondere durch Literaturrecherchen und Befragungen<ref>Anna-Jasmin Wetzel et al.: ''Ethical, Legal, and Social Implications of Symptom Checker Apps in Primary Health Care (CHECK.APP): Protocol for an Interdisciplinary Mixed Methods Study.'' In: ''JMIR Res Protoc.'' (2022) 11 : 5 e34026.</ref>. Das Forschungsprojekt ''AkuSym'' der Charite Berlin erforscht, ob von Symptom-Checkern positive Versorgungseffekte beim Besuch von Notaufnahmen ausgehen.<ref>{{Internetquelle |autor= |url=https://www.bundesgesundheitsministerium.de/ministerium/ressortforschung-1/handlungsfelder/forschungsschwerpunkte/zdg/akusym.html |titel=Besser mit als ohne App? Symptom Checker Apps in der notfallmedizinischen Akutversorgung (AkuSym) |werk=bundesgesundheitsministerium.de |datum=2022-06-27 |abruf=2024-01-17}}</ref>


== Kritik ==
== Kritik ==
Experten für Diagnostik und Analysten fiel auf, dass Symptom-Checker oftmals '''harmlose Symptome''' bzw. Erkrankungen als 'abklärungsbedürftig' erklären bzw. zum schnellen Arztbesuch raten (engl. overtriage). Eine Beruhigung und Angst-Bewältigung findet also nicht statt und die prophezeiten Sparziele werden verfehlt. Offenbar scheuen sich die Entwickler Verantwortung zu übernehmen<ref name=":0" /><ref name=":2">Norbert Donner-Banzhoff: Die ärztliche Diagnose Abschn. 17.3 Hogrefe Bern 2022</ref><ref>Marvin Kopka et al. The Triage Capability of Laypersons: JMIR Form Res . 2022 ;6(10):e38977. [[doi:10.2196/38977]].</ref>.
Experten für Diagnostik und Analysten fiel auf, dass Symptom-Checker oftmals '''harmlose Symptome''' bzw. Erkrankungen als 'abklärungsbedürftig' erklären bzw. zum schnellen Arztbesuch raten (engl. overtriage). Eine Beruhigung und Angst-Bewältigung findet also nicht statt und die prophezeiten Sparziele werden verfehlt. Offenbar scheuen sich die Entwickler Verantwortung zu übernehmen<ref name=":0" /><ref name=":2">Norbert Donner-Banzhoff: ''Die ärztliche Diagnose.'' Abschn. 17.3 Hogrefe Bern 2022</ref><ref>Marvin Kopka et al.: ''The Triage Capability of Laypersons.'' In: ''JMIR Form Res.'' 2022 ;6(10):e38977. [[doi:10.2196/38977]].</ref>.


Diese Kritiker konnten auch in mehreren Fällen widerlegen, dass Systeme, die sich mit dem Attribut „'''Lernendes System'''“ schmückten, in Wirklichkeit über einen definierten Zeitraum eine schlechtere Performance bei gleichen Eingangsparametern aufwiesen, was einem Lernvorgang widerspricht<ref name=":0" /><ref name=":1" /><ref name=":2" />.
Diese Kritiker konnten auch in mehreren Fällen widerlegen, dass Systeme, die sich mit dem Attribut „'''Lernendes System'''“ schmückten, in Wirklichkeit über einen definierten Zeitraum eine schlechtere Performance bei gleichen Eingangsparametern aufwiesen, was einem Lernvorgang widerspricht<ref name=":0" /><ref name=":1" /><ref name=":2" />.


Auch unzureichender '''Datenschutz''' hat Kritik hervor gerufen: Analysten fanden 2019 heraus, dass bei der App von Ada-Health Krankheitssymptome und der Namen der Krankenkasse an Tracking-Firmen wie Facebook gelangten. Daraufhin nahm die Techniker Krankenkasse die App aus ihrem Portfolio<ref>''c't 23/2019'' https://www.heise.de/ct/artikel/Die-Folgen-des-Ada-Datenschutzskandals-4567809.html</ref>.
Auch unzureichender '''Datenschutz''' hat Kritik hervor gerufen: Analysten fanden 2019 heraus, dass bei der App von Ada-Health Krankheitssymptome und der Namen der Krankenkasse an Tracking-Firmen wie Facebook gelangten. Daraufhin nahm die Techniker Krankenkasse die App aus ihrem Portfolio.<ref>{{Internetquelle |autor=Hartmut Gieselmann |url=https://www.heise.de/ct/artikel/Die-Folgen-des-Ada-Datenschutzskandals-4567809.html |titel=Die Folgen des Ada-Datenschutzskandals |werk=heise.de |datum=2019-10-25 |abruf=2024-01-17}}</ref>


== Einzelnachweise ==
== Einzelnachweise ==

Version vom 17. Januar 2024, 13:54 Uhr

Symptom-Checker sind Web-Anwendungen oder APPs zur klinischen Entscheidungshilfe für Patienten bzw. Laien. Es sind digitale Werkzeuge, die sie bei ihrer Selbsteinschätzung unterstützen, ob und wie schnell sie professionelle ärztliche Hilfe in Anspruch nehmen sollten (Self-Triage) und welche wahrscheinliche Diagnose oder Differentialdiagnose hinter den geschilderten Symptomen und der medizinischen Vorgeschichte sich verbirgt.

Methoden und Regulierung

Methoden reichen von klassischen Bayes’schen Entscheidungsbäumen über andere statistische Verfahren, wie die Auswertung von Korrelationen (engl. associative inference) und Kausales Maschinelles Lernen bis zu neuronalen Netzwerken[1]. Testgütekriterien (Sensitivität, positiver Prädiktiver Wert) sind besser geeignet, Richtig- und Falschbewertungen gegenüber zu stellen. Die Entwickler veröffentlichen in der Regel ihre Methodik nicht.

Symptom-Checker sollten in Europa zertifiziert sein. Man erkennt dies an der CE-Kennzeichnung oder dem Zusatz Medizinprodukt Klasse 1. Die amerikanische Food and Drug Administration (FDA) hat Symptom-Checker-Apps von den strengen Regeln ausgenommen, die normalerweise für Medizinprodukte gelten. Die Behörde unterscheidet aber zwischen „gesperrten“ (nicht lernenden) Algorithmen und auf künstlicher Intelligenz (AI)-basierten/ML-basierten Lernalgorithmen, wobei nur letztere unter ein strengeres Regelwerk fallen.[2]

Genauigkeit und Zuverlässigkeit

Die Evaluation, wie zuverlässig eine richtige Diagnose gestellt wird bzw. die korrekte Dringlichkeit eingestuft wird, kann entweder mit realen Patientendaten durch Vergleiche mit ärztlichen Diagnosen durchgeführt werden (kontrollierte Studie). Oder es werden standardisierte Vignetten als Eingangsdatensatz hergenommen. Vignetten sind fiktive Patientenbeschreibungen mit strukturierten Zusammenstellung von Symptomen, Umfeld, Vorgeschichte, Alter u. a.

Eine britische Vergleichsstudie aus dem Jahr 2015 mit 45 Vignetten erbrachte eine Übereinstimmung von 58 % mit richtigen Diagnosen[3].

In einem systematischen Review von Wallace[4] aus dem Jahr 2022 über 10 Studien lag die diagnostische Genauigkeit (der zu oberst genannte Diagnose) zwischen 19 und 38 %, während die Triage-Genauigkeit höher lag (49–90 %). Es fanden sich beträchtliche Unterschiede zwischen den einzelnen Symptom-Checkern.

Solche Arbeiten, die die Genauigkeit mehrerer Symptom-Checker zusammenfassen, finden oft eine hohe Heterogenität, sowohl was die einzelnen Symptom-Checker anbetrifft, wie auch die verschiedenen Medizinbereiche und die Settings, wo dieser eingesetzt wird. Daher sind auch gezielte Analysen entstanden:

Bewertung zur Anwendung in Notaufnahme

Weltweit laufen Notaufnahme von Kliniken Gefahr, von Bagatellfällen überrannt zu werden und suchen nach Lösungen. In einer amerikanischen Notaufnahme wurden ankommende Patienten entweder durch den Symptom-Checker ADA-Health befragt oder von 3 Ärzten. Der Symptom-Checker lieferte bei 70 % richtige Diagnosen, die Ärzte bei 69 %. Die Ärzte bewerteten 62 % der Triage-Entscheidungen als zutreffend, 24 % als zu vorsichtig und 22 % als zu riskant[5].

Unterschiedliche Bewertungen in der Rheumatologie je nach Vorwissen der Ärzte

Bei manchen Facharztpraxen bestehen lange Wartezeiten, um einen Termin zu bekommen. Eine Untersuchung in der Rheumatologie erbrachte eine Richtigkeit von 16,7 % bezogen auf die Enddiagnose, die Ärzte gestellt haben[6], denen alle technischen und Labor-medizinischen Hilfen zur Verfügung standen. Hier wurde allerdings kritisch der Wissensvorsprung der Ärzte als Ursache der schlechten Ergebnisse herausgestellt und von den Autoren eine zweite Studie angeschlossen. Bei dieser standen dem Symptom-Checker (ADA Health) und den Ärzte das gleiche Wissen (Vignetten) zur Verfügung. Unter diesen Bedingungen stellte der Symptom-Checker die zu oberst genannte Diagnose in 70 % richtig dar, während den Ärzte dies in nur 54 % der Fälle gelang[7].

Untersuchungen, ob Symptom-checker aus früheren Fällen lernen

Eine Arbeitsgruppe aus Berlin konnte zeigen, dass sich die Performance für Triage und Diagnostik im Durchschnitt zwischen 2015 und 2020 kaum verändert hat[8]. Dieselbe Arbeitsgruppe ermittelte 2021 mittels solcher Vignetten, dass medizinische Laien eine ähnlich gute Fähigkeit wie Symptom-Checker aufweisen, was die Einstufung der Dringlichkeit (Triage) anbetrifft[9].

J.G.Richens (von Babylon Health) veröffentlichte 2020, dass durch die Methode der kontrafaktischen Schlussfolgerung (conterfactual inference) die Berücksichtigung der Kausalität von Symptom zur Diagnose zu besseren Ergebnissen führt, als die reine Korrelation, auf welcher die meisten Symptom.Checker beruhen[10].

Verbreitung

Laut EPatient Survey hatten 2020 bereits 13 % der Deutschen eine Diagnostik-App konsultiert[11]. Im deutschsprachigen Raum sind u. a. verbreitet: Ada Health (Berlin), Caspar Health und Symptoma (Attersee, Österreich). Deutschsprachig sind auch die spanische Anwendung Mediktor und die polnische App Symptomate von Infermedica. Letztere ist auch in die Medizinwelten von Sana Digital der Sana Kliniken integriert. Weltweit sind 2022 ca. 100 Symptom-Checker freigeschaltet mit starker Tendenz nach oben, aber auch hoher Fluktuation. In China ist DoctorBot sehr stark verbreitet[12].

Symptom-Checker für Covid-19

Durch die Covid-19-Pandemie breiteten sich spezialisierte Symptom-Checker weltweit aus. Die wichtigsten in Deutschland sind:

CovApp der Charité (Berlin) ist ein Open Source Web-Fragebogen mit MIT-Lizenz und kann auch von Ärzten in der Praxis verwendet werden. Der Symptom-Checker der Lungenärzte im Netz (Web-Fragebogen) gibt Hinweise ob Covid-19, Influenza oder eine Erkältung vorliegen.

Mögliche Kostenerstattung in Europa

In Österreich wurde 2021 vom Austrian Institute for Health Technology Assessment eine Evaluierung vorgenommen und auch Studien und Evaluierungen in anderen Ländern (mit ähnlichen Gesundheitssystemen) herangezogen.

Grundsätzlich sehen sie bei allen DIGAs Datenschutz, CE-Markierung und Risikoeinstufung nach aktueller EU-MDR als zwingend an. Eine Zusammenarbeit mit ELGA wurde empfohlen. Die Österreicher sehen Vignetten-Studien kritisch. DiGAs aus der Gruppe der Symptom-Checker erfüllen die ASVG-relevanten Priorisierungskriterien nicht stringent, da sie der Funktionsgruppe „Erkennung/Diagnose“ zuzuordnen sind. Für Symptom-Checker konnte der Nutzennachweis durch vorliegende Studien nicht ausreichend erbracht werden und somit kann derzeit keine Refundierung erfolgen.[13]

Anwendungen in der Dritten Welt

Babylon Health hat mit Ruanda für die nächsten 10 Jahre ein gemeinsames Projekt der Gesundheitsversorgung geschlossen, in dem auch der Symptom-checker eingeschlossen ist. ADA Health hat in Tansania eine Studie initiiert, mit der die Versorgungseffekte in einer Distrikt-Notaufnahme untersucht werden sollen[14].

Zukunftsaussichten

E-Health Analysten sehen in Symptom-Checkern großes Potential, sowohl in der Dritten Welt wie auch in Industrienationen.[15] Hier würde eine 5 % Reduktion von Arztbesuchen durch Benutzung der APP in Deutschland 1 Mrd. € dem Gesundheitswesen ersparen (in USA 8 Mrd. €. In Japan 6 Mrd. €).

Auch in Entwicklungsländern sind Arztpraxen und Kliniken oft schwer erreichbar, dafür ist aber das Mobilfunknetz gut ausgebaut, namentlich in Afrika. Hier können Symptom-Checker zur Überbrückung dringliche von weniger dringlichen Indikationen trennen und so unnötig lange Wege ersparen.

Forschungsprojekte

Das Tübinger Projekt CHECK.APP untersucht die sozialen, ethischen und juristische Aspekte von Symptom-checkern, insbesondere durch Literaturrecherchen und Befragungen[16]. Das Forschungsprojekt AkuSym der Charite Berlin erforscht, ob von Symptom-Checkern positive Versorgungseffekte beim Besuch von Notaufnahmen ausgehen.[17]

Kritik

Experten für Diagnostik und Analysten fiel auf, dass Symptom-Checker oftmals harmlose Symptome bzw. Erkrankungen als 'abklärungsbedürftig' erklären bzw. zum schnellen Arztbesuch raten (engl. overtriage). Eine Beruhigung und Angst-Bewältigung findet also nicht statt und die prophezeiten Sparziele werden verfehlt. Offenbar scheuen sich die Entwickler Verantwortung zu übernehmen[1][18][19].

Diese Kritiker konnten auch in mehreren Fällen widerlegen, dass Systeme, die sich mit dem Attribut „Lernendes System“ schmückten, in Wirklichkeit über einen definierten Zeitraum eine schlechtere Performance bei gleichen Eingangsparametern aufwiesen, was einem Lernvorgang widerspricht[1][8][18].

Auch unzureichender Datenschutz hat Kritik hervor gerufen: Analysten fanden 2019 heraus, dass bei der App von Ada-Health Krankheitssymptome und der Namen der Krankenkasse an Tracking-Firmen wie Facebook gelangten. Daraufhin nahm die Techniker Krankenkasse die App aus ihrem Portfolio.[20]

Einzelnachweise

  1. a b c A. Ćirković: Evaluation of Four Artificial Intelligence–Assisted Self-Diagnosis Apps on Three Diagnoses. In: J Med Internet Res. 22(12), 2020, e18097, doi:10.2196/18097.
  2. Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) US-FDA-Artificial-Intelligence-and-Machine-Learning-Discussion-Paper.pdf (PDF)
  3. H. L. Semigran et al.: Evaluation of symptom checkers for self diagnosis and triage. In: BMJ. 351, 2015, h3480 doi:10.1136/bmj.h3480
  4. William Wallace et al.The diagnostic and triage accuracy of digital and online symptom checker tools: a systematic review, npj Digital Medicine (2022) 5:118; doi:10.1038/s41746-022-00667-w.
  5. H. Fraser et al.: Evaluation of Diagnostic and Triage Accuracy and Usability of a Symptom Checker in an Emergency Department: Observational Study. In: JMIR Mhealth Uhealth 10(9), 2022, e38364, doi:10.2196/38364
  6. J. Knitza et al: Accuracy, patient-perceived usability, and acceptance of two symptom checkers in rheumatology. In: ArthritisRes Ther. 23:112, 2021 doi:10.1186/s13075-021-02498-8.
  7. M. Gräf et al.: Comparison of physician and artificial intelligence based symptom checker diagnostic accuracy. In: Rheumatology International. 42:2167, 2022, doi:10.1007/s00296-022-05202-4.
  8. a b M. L. Schmieding et al.: Triage Accuracy of Symptom Checker Apps: 5-Year Follow-up Evaluation. In: JMed Internet Res. 24(5), 2022, e31810, doi:10.2196/31810.
  9. M. L. Schmieding et al.: Benchmarking Triage Capability of Symptom Checkers Against That of Medical Laypersons: Survey Study. In: J Med Internet Res. 23(3), 2021, e24475, doi:10.2196/24475.
  10. J. G. Richens et al.: Improving the accuracy of medical diagnosis with causal machine learning. In: Nature Communications. 11:3923, 2020, doi:10.1038/s41467-020-17419-7.
  11. EPatient survey 2020. Health & Care Management. 2020. [1]
  12. Xiangmin Fan et al.: Utilization of Self-Diagnosis Health Chatbots in Real-World Settings. Case Study. In: Journal of Medical Internet Research. 2021 23(1):e19928. doi:10.2196/19928.
  13. R. Jeindl, G. Goetz: Prozess und Bewertung digitaler Gesundheitsanwendungen – am Beispiel der „Symptom-Checker“. In: AIHTA Projektbericht Nr. 141. 2021. Wien: HTA Austria – Austrian Institute for Health Technology Assessment GmbH
  14. E. Millen et al.: The AFYA Health Study. In: BMJ open. 12/4, 2021, doi:10.1136/bmjopen-2021-055915.
  15. research2guidance - Next generation of symptoms checkers will become one of the killer applications in digital health. In: research2guidance.com. 22. März 2019, abgerufen am 17. Januar 2024.
  16. Anna-Jasmin Wetzel et al.: Ethical, Legal, and Social Implications of Symptom Checker Apps in Primary Health Care (CHECK.APP): Protocol for an Interdisciplinary Mixed Methods Study. In: JMIR Res Protoc. (2022) 11 : 5 e34026.
  17. Besser mit als ohne App? Symptom Checker Apps in der notfallmedizinischen Akutversorgung (AkuSym). In: bundesgesundheitsministerium.de. 27. Juni 2022, abgerufen am 17. Januar 2024.
  18. a b Norbert Donner-Banzhoff: Die ärztliche Diagnose. Abschn. 17.3 Hogrefe Bern 2022
  19. Marvin Kopka et al.: The Triage Capability of Laypersons. In: JMIR Form Res. 2022 ;6(10):e38977. doi:10.2196/38977.
  20. Hartmut Gieselmann: Die Folgen des Ada-Datenschutzskandals. In: heise.de. 25. Oktober 2019, abgerufen am 17. Januar 2024.