Verstehen von Medizinischen Tests und Testergebnissen

VonBrian F. Mandell, MD, PhD, Cleveland Clinic Lerner College of Medicine at Case Western Reserve University
Überprüft/überarbeitet Juli 2024
Aussicht hier klicken.

Testergebnisse können dabei helfen, eine Diagnose bei symptomatischen Patienten (diagnostische Tests) zu stellen oder um eine okkulte Krankheit bei asymptomatischen Patienten zu entdecken (Screening-Tests). Wenn die Tests auf der Grundlage des klinischen Bildes ordnungsgemäß angeordnet wurden, sollten die Ergebnisse dazu beitragen, mögliche Diagnosen auszuschließen oder zu bestätigen. Die Testergebnisse können mit dem klinischen Entscheidungsprozess interferieren, wenn der Test schlecht zwischen Patienten mit und ohne die vermuteten Krankheiten unterscheidet oder wenn das Testergebnis nicht richtig in den klinischen Kontext integriert ist.

Laboruntersuchungen sind nicht fehlerfrei und können manche gesunde Menschen fälschlich als erkrankt identifizieren (falsch-positives Ergebnis), oder erkrankte Menschen als erkrankungsfrei ausweisen (falsch-negatives Ergebnis). Die Fähigkeit eines Tests, Patienten mit einer bestimmten Krankheit korrekt zu identifizieren, hängt davon ab, wie wahrscheinlich es ist, dass eine Person an dieser Krankheit leidet (Vorwahrscheinlichkeit), sowie von den intrinsischen Charakteristika des Tests (1).

Obwohl diagnostische Tests oft ein kritischer Faktor für korrekte klinische Entscheidungsfindung sind, können Tests zu unerwünschten oder unbeabsichtigten Konsequenzen führen. Tests müssen mit Bedacht angeordnet werden und mit der Erwartung, dass das Testergebnis Unklarheiten in Bezug auf die Befunde des Patienten reduziert und dazu beiträgt, ihre Gesundheit zu verbessern. Neben dem Risiko, falsche Informationen zu liefern (wodurch der Beginn der Behandlung verzögert oder eine unnötige Behandlung veranlasst wird), verbrauchen Labortests begrenzte Ressourcen und können selbst unerwünschte Wirkungen haben (z. B. Pneumothorax durch Lungenbiopsie) oder zusätzliche unnötige Tests oder Stress für den Patienten verursachen.

Die Ergebnisse eines Screening- oder Diagnosetests sollten in der jeweiligen klinischen Situation und im Zusammenhang mit den vorangegangenen Basisuntersuchungen interpretiert werden.

Hinweis

  1. 1. Armstrong KA, Metlay JP: Annals Clinical Decision Making: Using a Diagnostic Test. Ann Intern Med. 2020;172(9):604-609. doi:10.7326/M19-1940

Definition eines positiven Testergebnisses

Zu den häufigsten Tests gehören solche, die Ergebnisse entlang eines kontinuierlichen, quantitativen Maßstabs liefern (z. B. Blutzucker, Leukozyten). Solche Tests können nützliche klinische Informationen innerhalb ihrer Bereiche bereitstellen, aber oft verwenden Ärzte sie, um eine Krankheit zu bestätigen oder auszuschließen, indem sie einen etablierten Wert oder ein Kriterium als Grenzwert (ab hier positiv, ab hier negativ) verwenden. Solche Grenzwerte werden in der Regel auf der Grundlage statistischer und konzeptioneller Analyse festgesetzt, um die Rate der falsch-positiven Ergebnisse (und damit unnötige, teure und möglicherweise gefährliche Tests oder Behandlungen initiierend) und der falsch-negativen Ergebnisse (und damit Verpassen der richtigen Diagnose) zu verbessern. Die Identifizierung eines Grenzwerts hängt auch von einem Normwert ab, um die betreffende Krankheit zu identifizieren.

In der Regel folgen solche quantitativen Testergebnisse (z. B. die Anzahl der weißen Blutkörperchen bei Verdacht auf bakterielle Lungenentzündung) einer Art Verteilungskurve (nicht unbedingt einer Normalkurve, auch wenn sie häufig als solche dargestellt wird). Die Verteilung der Testergebnisse für Patienten mit Krankheit liegt auf einem anderen Punkt als die für Patienten ohne Krankheit. Einige Patienten mit der Krankheit haben ein sehr hohes oder sehr niedriges Ergebnis, aber die meisten haben ein Ergebnis auf einem Mittelwert. Umgekehrt haben einige gesunde Patienten sehr hohe oder sehr niedrige Ergebnisse, aber die meisten haben ein Ergebnis auf einem anderen Mittelwert als Patienten mit der Krankheit. Bei den meisten Tests überlappen sich die Verteilungen, sodass viele der möglichen Testergebnisse bei Patienten mit und ohne Krankheit auftreten. Solche Ergebnisse können deutlicher dargestellt werden, wenn die Kurven in derselben Grafik eingezeichnet sind (siehe Abbildung Verteilung der Testergebnisse). Einige Patienten über und unter dem ausgewählten Grenzwert sind falsch gekennzeichnet. Das Anpassen eines Grenzwerts, um mehr Patienten mit der Krankheit zu identifizieren (Erhöhung der Testsensitivität) erhöht die Anzahl von Fehlalarmen (geringe Spezifität), während das Bewegen des Grenzwerts in die andere Richtung, um nicht lauter gesunde Patienten als krank zu definieren, die Anzahl der falsch-negativen Ergebnisse erhöht. Jeder Grenzwert ist mit einer bestimmten Wahrscheinlichkeit von richtig-positiven und falsch-positiven Ergebnissen assoziiert.

Verteilung der Testergebnisse

Kranke Patienten werden in der oberen Verteilung angezeigt, gesunde Patienten in der unteren Verteilung. Bei Patienten mit Erkrankung korrespondiert der Bereich unterhalb der Ergebnisverteilung rechts vom Grenzwert mit der wahr-positiven Testrate (dies gibt Auskunft über die Sensitivität des Tests), während der Bereich links vom Grenzwert mit der falsch-negativen Testrate korrespondiert. Für Patienten ohne Krankheit entspricht der Bereich rechts des Grenzwerts der falsch-negativen Rate und der Bereich auf der linken Seite entspricht der Richtig-negativ Rate (d. h. seiner Spezifität). Bei zwei überlappenden Verteilungen (z. B. Patienten mit und ohne Krankheit) betrifft das Verschieben des Grenzwerts die Sensitivität und die Spezifität, jedoch in entgegengesetzten Richtungen. Bei dem Ändern des Grenzwerts von 1 auf 2 nimmt die Anzahl von falsch-negativen Ergebnissen ab (die Sensitivität ist erhöht), dies erhöht aber auch die Zahl der Fehlalarme (verringerte Spezifität).

Receiver Operating Charakteristik (ROC)-Kurven

Die grafische Darstellung des Anteils der wahr-positiven Ergebnisse (Anzahl der wahr-positiven Ergebnisse bzw. Anzahl der Kranken) gegenüber der Menge der falsch-positiven Ergebnisse (Anzahl der Fehlalarme bzw. Zahl ohne Krankheit) für eine Reihe von Grenzwerten erzeugt eine Kurve, die ROC-Kurve genannt wird. Die ROC-Kurve zeigt grafisch die Schnittmenge zwischen der Sensitivität und der Spezifität, wenn der Grenzwert angepasst ist (siehe Abbildung Typische receiver operating charakteristischen (ROC)-Kurve). Es ist üblich, die wahr-positive Menge auf der y-Achse anzuordnen, und die falsch-positive auf der x-Achse. Je größer die Region unter der ROC-Kurve ist, desto besser unterscheidet der Test zwischen Patienten mit oder ohne Krankheit.

ROC-Kurven erlauben es, Tests über eine Vielzahl von Grenzwerten zu vergleichen. In dem Beispiel ist Test A über alle Bereiche hinweg aussagekräftiger als Test B. ROC-Kurven dienen auch der Auswahl des Grenzwerts, um den Nutzen eines Tests zu maximieren. Wenn ein Test entwickelt wird, um eine Krankheit zu bestätigen, wird ein Grenzwert mit größerer Spezifität und geringerer Sensitivität ausgewählt. Wenn ein Test zum Screening auf eine okkulte Krankheit entwickelt wird, wird ein Grenzwert mit größerer Sensitivität und geringerer Spezifität ausgewählt.

Typische receiver operating charakteristischen (ROC)-Kurve

Testmerkmale

Einige klinische Variablen haben nur zwei mögliche Ergebnisse (z. B. lebendig - tot, schwanger - nicht schwanger); solche Variablen werden als kategorisch und dichotom bezeichnet. Andere kategorische Ergebnisse können viele einzelne Werte haben (z. B. Blutgruppe, Glasgow-Koma-Skala) und werden als nominal oder ordinal bezeichnet. Nominale Variablen wie Blutgruppen haben keine bestimmte Reihenfolge. Ordinale Variablen wie die Glasgow-Koma-Skala haben einzelne Werte, die in einer bestimmten Reihenfolge angeordnet sind. Andere klinische Variablen einschließlich vieler typischer diagnostischer Tests sind fortlaufend und haben eine unendliche Anzahl möglicher Ergebnisse (z. B. Leukozyten, Blutzucker). Viele Ärzte wählen einen Grenzwert aus, der eine kontinuierliche Variable zur Folge hat, der als dichotome Variable behandelt werden kann (z. B. Patienten mit einem Nüchternblutzucker > 126 mg/dl [7,0 mmol/l] gelten als Diabetiker). Andere kontinuierliche diagnostische Tests haben diagnostischen Nutzen, wenn sie mehrere Grenzwerte haben oder wenn die Bandbreite der Ergebnisse einen unterschiedlichen diagnostischen Wert hat.

Wenn die Testergebnisse als positiv oder negativ definiert werden können, können alle möglichen Ergebnisse in einer einfachen 2×2-Tabelle aufgezeichnet werden (siehe Tabelle Aufteilung der hypothetischen Testergebniss), aus der wichtige Unterscheidungsmerkmale einschließlich Sensitivität, Spezifität, positiver und negativer prädiktiver Wert und Wahrscheinlichkeitsrate (LR), berechnet werden kann (siehe Tabelle Verteilung der Testergebnisse eines hypothetischen Leukozytenesterasetests in einer Kohorte von 1000 Patientinnen mit einer angenommenen Prävalenz von 30% für eine Harnwegsinfektion).

Tabelle
Tabelle

Sensitivität, Spezifität und Vorhersagewerte

Sensitivität undSpezifität werden typischerweise als Merkmale des Tests selbst gesehen, unabhängig von dem untersuchten Personenkreis.

  • Sensitivität ist die Wahrscheinlichkeit, dass Patienten mit der Krankheit ein positives Testergebnis haben (wahr-positive Rate)

Daher hat ein Test, der in 8 von 10 Patienten positiv ist, eine Sensitivität von 0,8 (auch als 80% ausgedrückt). Die Sensitivität gibt an, wie gut ein Test die Krankheit erkennt, ein Test mit geringer Sensitivität kann nicht viele Patienten mit der Krankheit identifizieren, und ein Test mit hoher Sensitivität ist nützlich, um eine Diagnose auszuschließen, wenn die Ergebnisse negativ sind. Die Sensitivität ist das Gegenstück zur falsch-negativen Rate (d. h. die falsch-negative Rate plus Sensitivität = 100%).

  • Spezifität ist die Wahrscheinlichkeit, dass Patienten ohne die Krankheit ein negatives Testergebnis haben (Richtig-negativ-Rate).

Daher hat ein Test, der bei 9 von 10 Patienten ohne Krankheit negativ ist, eine Spezifität von 0,9 (oder 90%). Die Spezifität gibt an, wie korrekt ein Test Patienten mit Krankheit identifiziert, weil Tests mit hoher Spezifität eine niedrige falsch-positive Rate haben. Ein Test mit geringer Spezifität diagnostiziert viele Patienten mit Krankheit, auch wenn sie gesund sind. Dies ist das Gegenstück zur falsch-positiven Rate.

Vorhersagewerte beschreiben das Testverhalten in einer gegebenen Population von Patienten, die nicht wissen, ob sie die Krankheit haben. Für einen bestimmten Test variieren die Vorhersagewerte in Abhängigkeit von der Prävalenz der Krankheit in der getesteten Patientenpopulation.

  • Positiver Vorhersagewert (PPV) ist der Anteil der Patienten mit einem positiven Test, der tatsächlich erkrankt

Wenn also 9 von 10 positiven Testergebnissen korrekt sind (true positive), beträgt der PPV 90%. Da alle positiven Testergebnisse eine bestimmte Anzahl von wahren positiven und einigen Fehlalarmen haben, beschreibt der PPV, wie wahrscheinlich es ist, dass ein positives Testergebnis bei einer bestimmten Patientengruppe ein wahr-positives Testergebnis ist.

  • Negativer Vorhersagewert (NPV) ist der Anteil der Patienten mit einem negativen Testergebnis, die tatsächlich frei von Krankheiten sind

Wenn also 8 von 10 negativen Testergebnissen korrekt sind (echt negativ), beträgt der Kapitalwert 80%. Da nicht alle negative Testergebnisse wahr-negativ sind, können einige Patienten mit einem negativen Testergebnis dennoch diese Krankheit entwickeln. Der NPV beschreibt, wie wahrscheinlich es ist, dass ein negatives Testergebnis in einer bestimmten Patientengruppe ein wahr-negatives Ergebnis darstellt.

Klinischer Rechner
Klinischer Rechner

Wahrscheinlichkeitsraten

Im Gegensatz zu Sensitivität und Spezifität, die nichts mit bestimmten Patientenwahrscheinlichkeiten zu tun haben, kann die Wahrscheinlichkeitsrate dem Arzt ermöglichen, die Testergebnisse für einen bestimmten Patient zu interpretieren, wenn eine bekannte (wenn auch oft geschätzte) Prä-Test-Wahrscheinlichkeit der Krankheit vorliegt.

Die LR beschreibt die Veränderung der Wahrscheinlichkeit einer Erkrankung vor dem Test, wenn das Testergebnis bekannt ist, und beantwortet die Frage:

  • Wie stark hat sich die Nachtestwahrscheinlichkeit gegenüber der Vortestwahrscheinlichkeit verändert, nachdem das Testergebnis bekannt ist?

Viele klinische Tests sind dichotom, sie liegen entweder über dem Grenzwert (positiv) oder unterhalb des Grenzwerts (negativ) und es gibt nur zwei mögliche Ergebnisse. Andere Tests ergeben Resultate, die kontinuierlich sind oder über einem Bereich auftreten, für den mehrere Grenzwerte ausgewählt sind. Die eigentliche Post-Test-Wahrscheinlichkeit hängt von der Größe der Wahrscheinlichkeitsrate ab (in Abhängigkeit von dem Ablauf des Tests) und der Abschätzung der Prä-Test-Wahrscheinlichkeit der Krankheit. Wenn der durchgeführteTest dichotom ist und das Ergebnis entweder positiv oder negativ ist, kann die Sensitivität und Spezifität verwendet werden, um eine positive Wahrscheinlichkeitrate (LR b+) oder negative Wahrscheinlichkeitsrate (LR-) zu berechnen.

  • LR+: Das Verhältnis der Wahrscheinlichkeit eines positiven Testergebnisses bei Patienten mit der Krankheit (wahr-positiv) zu der Wahrscheinlichkeit eines positiven Testergebnisses bei einem Kranken, der die Krankheit nicht hat (falsch-positiv).

  • LR-: Das Verhältnis der Wahrscheinlichkeit eines negativen Testergebnisses bei Patienten mit der Krankheit (falsch-negativ) zu der Wahrscheinlichkeit eines negativen Testergebnisses bei Patienten ohne Krankheit (wahr-negativ)

Wenn das Ergebnis kontinuierlich ist oder mehrere Grenzwerte hat, wird die ROC-Kurve und nicht die Sensitivität oder die Spezifität verwendet, um eine Wahrscheinlichkeitsrate zu berechnen, die nicht mehr als LR+ oder LR- beschrieben werden kann.

Da die Wahrscheinlichkeitsrate ein Verhältnis von sich gegenseitig ausschließenden Ereignissen ist und keine Proportion des Ganzen angibt, zeigt es eher Chancen auf als Wahrscheinlichkeiten. Für einen bestimmten Test ist die Wahrscheinlichkeitsrate für positive und negative Ergebnisse unterschiedlich.

Zum Beispiel würde bei einem positiven Testergebnis eine Wahrscheinlichkeitsrate von 2,0 auf Chancen von 2:1 hinweisen (wahr-positive Ergebnisse zu falsch-positiven Ergebnissen), dass ein positives Testergebnis einen Patienten als krank identifiziert. Von drei positiven Tests würden zwei bei Patienten mit der Krankheit (wahr-positiv) und einer bei einem Patienten ohne Krankheit (falsch-positiv) auftreten. Weil wahr-positive und falsch-positive Resultate Komponenten von Sensitivitäts- und Spezifitätsberechnungen sind, kann die LR+ kann auch als Sensitivität zu (1 Spezifität) berechnet werden. Je größer die LR+ ist, desto mehr Informationen bietet ein positives Testergebnis; ein positives Testergebnis bei einem Test mit einem LR+ > 10 gilt als starker Beweis für eine Diagnose. Mit anderen Worten, die Prä-Test-Wahrscheinlichkeitsschätzung bewegt sich stark auf 100% zu, wenn ein positiver Test eine hohe LR+ aufweist.

Bei einem negativen Trestergebnis zeigt eine LR- von 0,25 an, dass die Chancen bei 1:4 liegen (falsch-negative Ergebnisse) und dass ein negatives Testergebnis einen Patienten als krank identifiziert. Von fünf negativen Testergebnissen würde eines bei einem Patienten mit der Krankheit (falsch- negativ) auftreten und vier bei Patienten ohne Krankheit (wahr-negativ). Die LR- kann auch wie folgt berechnet werden: (1 Sensitivität)/Spezifität. Je kleiner die LR- ist, desto mehr Informationen bietet ein negatives Testergebnis; ein negatives Testergebnis bei einem Test mit einem LR < 0,1 gilt als starker Beweis gegen eine Diagnose. In anderen Worten, bewegt sich die Abschätzung der Prä-Test-Wahrscheinlichkeit stark auf eine Wahrscheinlichkeit von 0% zu, wenn ein negativer Test eine geringe LR- hat.

Testergebnisse mit einer LR von 1,0 bieten keinerlei Information und können nicht die Post-Test-Wahrscheinlichkeit von Erkrankungen beeinflussen.

LR sind sinnvoll für vergleichende Tests und werden auch für die Bayes-Analyse verwendet, um Testergebnisse zu interpretieren. So wie Sensitivität und Spezifität sich verändern, wenn der Grenzwert sich verändert, ändern sich die Wahrscheinlichkeitsraten (LR). Ein hypothetisches Beispiel: Ein hoher Grenzwert für die Anzahl weißer Blutkörperchen (WBC) (z. B. 30.000/mcL) bei einem möglichen Fall einer akuten Appendizitis mit Perforation ist spezifischer und hätte eine hohe LR+, aber auch einen hohen (und daher nicht sehr informativen) LR- Wert; die Wahl eines viel niedrigeren und sehr empfindlichen Grenzwerts (z. B. 12.000/mcL) hätte einen niedrigen LR-, bewirken, aber auch einen niedrigeren LR+ Wert.

Dichotome Tests

Ein idealer dichotomer Test hätte keine Fehlalarme oder falsch-negativen Ergebnisse; alle Patienten mit einem positiven Testergebnis hätten die Krankheit (100% PPV), und alle Patienten mit einem negativen Testergebnis hätten die Krankheit nicht (100% NPV).

In der Realität haben alle Tests falsch-positive und falsch-negative Ergebnisse, einige Tests mehr als andere. Um die Folgen einer fehlerhaften Sensitivität und Spezifität auf die Testergebnisse zu veranschaulichen, können hypothetische Ergebnisse (siehe Tabelle Verteilung der Testergebnisse eines hypothetischen Leukozytenesterasetests in einer Kohorte von 1000 Patientinnen mit einer angenommenen Prävalenz von 30% für eine Harnwegsinfektion) o von Urinstäbchen in Leukozytenesterasetests bei einer Gruppe von 1000 Frauen betrachtet werden. 300 (30%) von ihnen haben eine Harnwegsinfektion (bestimmt von einem standardisierten Test wie z. B. einem Urinkulturtest). Dieses Szenario geht davon aus, dass die Sensitivität der Teststreifen bei 71% liegt und eine Spezifität von 85% aufweist.

Eine Sensitivität von 71% bedeutet, dass nur 213 (71% von 300) Frauen mit einer Harnwegsinfektion ein positives Testergebnis hätten. Die restlichen 87 hätten ein negatives Testergebnis. Eine Spezifität von 85% bedeutet, dass 595 (85% von 700) Frauen ohne Harnwegsinfektion ein negatives Testergebnis hätten. Die restlichen 105 hätten ein positives Testergebnis. So wären von 213 + 115 = 318 positiven Testergebnissen nur 213 richtig (213:318 = 67% PPV), ein positives Testergebnis macht die Diagnose einer Harnwegsinfektion wahrscheinlicher als kein Test, ist aber nicht sicher. Es wären auch 87 + 595 = 682 negative Tests vorhanden, von denen 595 richtig sind (595:682 = 87% NPV), was die Diagnose einer Harnwegsinfektion viel weniger wahrscheinlich macht, aber dennoch als möglich erscheinen lässt. 13% der Patientinnen mit einem negativen Testergebnis hätten tatsächlich eine Harnwegsinfektion.

Tabelle
Tabelle

Allerdings können die hieraus abgeleiteten PPV und NPV in dieser Patientengruppe nicht verwendet werden, um Ergebnisse des gleichen Tests zu interpretieren, wenn die zugrunde liegende Erkrankungshäufigkeit (Prä-Test-Wahrscheinlichkeit) anders ist. Beachten Sie die Auswirkungen einer Änderung der Krankheitshäufigkeit auf 5% (siehe Tabelle Auswirkung der Änderung des Cutoff-Punktes der WBC-Zählung bei Patienten mit Verdacht auf Appendizitis). Jetzt sind die meisten positiven Testergebnisse falsch, und der PPV liegt nur noch bei 20%; ein Patient mit einem positiven Testergebnis hat eigentlich eher keine Harnwegsinfektion. Allerdings ist der NPV jetzt sehr hoch (98%), ein negatives Ergebnis schließt im Grunde eine Harnwegsinfektion aus.

Tabelle
Tabelle

Man beachte, dass sich in beiden Patientengruppen die Wahrscheinlichkeitsraten nicht ändern, obwohl PPV und NPV sehr unterschiedlich sind. Das liegt darin, dass die Wahrscheinlichkeitsraten nur von der Sensitivität und der Spezifizität bestimmt werden.

Es liegt klar zutage, dass ein Testergebnis keine definitive Diagnose bietet, sondern nur die Wahrscheinlichkeit einer Erkrankung abschätzt (vorhanden-nicht vorhanden). Diese Post-Test-Wahrscheinlichkeit (Wahrscheinlichkeit der Erkrankung bei einem bestimmten Testergebnis) variiert stark je nach der Prä-Test-Wahrscheinlichkeit der Krankheit sowie nach der Sensitivität und der Spezifität des Tests (und damit seiner Wahrscheinlichkeitsrate).

Prä-Test-Wahrscheinlichkeit

Der Prä-Test-Wahrscheinlichkeit ist kein präzises Instrument, sondern basiert auf der klinischen Abklärung: Wie stark lassen Symptome und klinisches Bild eine Krankheit des Patienten vermuten, welche anamnestischen Hinweise und Risikofaktoren stützen die Diagnose, und wie häufig ist die Krankheit in einer repräsentativen Bevölkerungsgruppe? Viele klinische Auswertungsmethoden wurden entwickelt, um die Prä-Test-Wahrscheinlichkeit zu schätzen; das Hinzufügen von Punkten für verschiedene klinische Merkmale ermöglicht die Berechnung einer Auswertung. Diese Beispiele verdeutlichen die Bedeutung einer genauen Vortest-Prävalenzschätzung, da die Prävalenz der Krankheit in der betrachteten Bevölkerung dramatisch die Nützlichkeit des Tests beeinflusst. Validierte, veröffentlichte "Prevalance-estimating"- Werkzeuge sollten verwendet werden, wenn sie verfügbar sind. Zum Beispiel gibt es Kriterien für die Vorhersage einer Prä-Test-Wahrscheinlichkeit für die Lungenembolie. Höhere berechnete Zahlen legen höhere geschätzte Wahrscheinlichkeiten nahe. In der Praxis wird die Bestimmung der Vortestwahrscheinlichkeit durch objektive Informationen erleichtert, kann aber auch von den Fähigkeiten und der Erfahrung des Klinikers beeinflusst werden.

Kontinuierliche Tests

Viele Testergebnisse sind kontinuierlich und können nützliche klinische Informationen über einen weiten Bereich von Ergebnissen beisteuern. Ärzte wählen oft einen bestimmten Grenzwert, um den Nutzen des Tests zu vergrößern. Zum Beispiel kann eine Leukozytenzahl (WBC) von > 15.000 / mcl als positiv bezeichnet werden; Werte < 15.000 / mcl als negativ. Wenn ein Test kontinuierliche Ergebnisse liefert, aber ein bestimmter Grenzwert ausgewählt ist, funktioniert der Test wie ein dichotomer Test. Es können auch mehrere Grenzwerte ausgewählt werden. Sensitivität, Spezifität, PPV, NPV, LR+, und LR- können für einzelne oder mehrere Grenzwerte berechnet werden. Die Tabelle Auswirkung zur Änderung des Cutoff-Punktes der Leukozyt-Zählung bei Patienten mit Verdacht auf Appendicitis veranschaulicht die Wirkung einer Änderung des Cutoff-Punktes der Leukozyt-Zählung bei Patienten mit Verdacht auf Blinddarmentzündung.

Tabelle
Tabelle

Alternativ kann es sinnvoll sein, die kontinuierlichen Testergebnisse in verschiedenen Gruppen zu sortieren. In diesem Fall werden die Ergebnisse nicht als positiv oder negativ charakterisiert, da es mehrere mögliche Ergebnisse sind, sodass, obwohl eine LR für jede Stufe der Ergebnisse bestimmt werden kann, es nicht länger eine deutliche LR+ oder LR- gibt. Die Tabelle Verwendung von Leukozyt-Zählgruppen zur Bestimmung des Wahrscheinlichkeitsverhältnisses von Bakterien bei febrialen Kindern veranschaulicht zum Beispiel den Zusammenhang zwischen Leukozytenzahl und bacteremia bei fieberhaften Kindern. Da die LR die Wahrscheinlichkeit eines gegebenen Ergebnisses bei Patienten mit der Krankheit geteilt durch die Wahrscheinlichkeit dieses Ergebnisses bei Patienten ohne die Krankheit ist, ist die LR für jede Leukozyten-Gruppe die Wahrscheinlichkeit einer Bakteriämie in dieser Gruppe geteilt durch die Wahrscheinlichkeit einer fehlenden Erkrankung.

Tabelle
Tabelle

Das Gruppieren von kontinuierlichen Variablen ermöglicht eine viel stärkere Nutzung des Testergebnisses, als wenn ein einzelner Grenzwert errichtet wird. Mit Bayes'schen Analysen können die LRs in der Tabelle Verwendung von Leukozytengruppen zur Bestimmung des Wahrscheinlichkeitsverhältnisses von Bakteriämie bei Kindern mit Febrile-Krankheit zur Berechnung der Wahrscheinlichkeit nach dem Test verwendet werden.

Bei kontinuierlichen Testergebnissen, wenn eine ROC-Kurve bekannt ist, müssen keine Berechnungen wie in der Tabelle vorgenommen werden; die Wahrscheinlichkeitsraten können für verschiedene Punkte im Ergebnisbereich gefunden werden, indem die Steigung der ROC-Kurve an der gewünschten Stelle angesetzt wird.

Bayes Theorem

Diese Methode zur Berechnung der Post-Test-Wahrscheinlichkeit einer Krankheit aus der Prä-Test-Wahrscheinlichkeit und bestimmten Testmerkmalen wird Bayes-Theorem oder Bayes-Revision genannt. In der klinischen Anwendung nimmt die Methodologie des Bayes-Theorems normalerweise verschiedene Formen an:

  • Formulierung einer Chancen-Wahrscheinlichkeit (Berechnung oder Nomogramm)

  • Tabellarischer Ansatz

Berechnung der Chancenwahrscheinlichkeit

Wenn die Prä-Test-Wahrscheinlichkeit der Erkrankung als Chance ausgedrückt wird und weil die Wahrscheinlichkeitsrate eines Tests die Chance ausdrückt, ist das Produkt dieser zwei Variablen die Post-Test-Chance einer Erkrankung (analog zum Multiplizieren von zwei Wahrscheinlichkeiten, um die Wahrscheinlichkeit zweier simultaner Ereignisse zu berechnen):

Prä-Test-Chance × LR = Post-Test-Chance

Da Ärzte in der Regel in Form von Wahrscheinlichkeiten statt Chancen denken, kann die Wahrscheinlichkeit in Chancen (und umgekehrt) mit diesen Formeln umgewandelt werden:

Chance = Wahrscheinlichkeit/1 Wahrscheinlichkeit

Wahrscheinlichkeit = Chance/Chance + 1

Betrachten Sie das Beispiel der Harnwegsinfektion, wie es in der Tabelle Distribution der Testergebnisse eines hypothetischen Leukozyten-Sterase-Tests in einer Kohorte von 1000 Frauen mit einer angenommenen 30%igen Prävalenz von Harnwegsinfektion angegeben ist, in der die Pre-Testwahrscheinlichkeit der Harnwegsinfektion 0,3 beträgt und der verwendete Test eine LR+ von 4,73 und eine LR- von 0,34. Eine Prä-Test-Wahrscheinlichkeit von 0,3 entspricht einer Chance von 0,3/(1 0,3) = 0,43. Somit entspricht die Post-Test-Wahrscheinlichkeit, die bei einem Patienten mit einem positiven Ergebnis vorliegt, dem Produkt aus Prä-Test-Chance mit LR+; 4,73 × 0,43 = 2,03, was eine Post-Test-Wahrscheinlichkeit darstellt von 2,03/(1 darstellt + 2,03) = 0,67. So zeigen die Bayes-Berechnungen, dass ein positives Testergebnis die Prä-Test-Wahrscheinlichkeit von 30 auf 67% ansteigen lässt. Dieses Ergebnis ist das Äquivalent des Ergebnisses aus der PPV- Berechnung in Tabelle.

Eine ähnliche Berechnung wird bei einem negativen Test gemacht; Post-Test-Chance = 0,34 × 0,43 = 0,15 – das entspricht einer Wahrscheinlichkeit von 0,15//(1 + 0,15) = 0,13. So lässt ein negatives Testergebnis die Prä-Test-Wahrscheinlichkeit von 30% auf 13% absinken, was wieder das gleiche Ergebnis ist wie das Ergebnis aus der NPV-Berechnung in Tabelle.

Viele medizinische Rechenprogramme, die auf mobilen Geräten laufen, bieten Berechnungen von Post-Test-Wahrscheinlichkeiten aus der Prä-Test-Wahrscheinlichkeit und der Wahrscheinlichkeitsrate an.

Klinischer Rechner

Wahrscheinlichkeitsnomogramm von Chancen

Ein Nomogramm ist besonders praktisch, weil keine Chancen und Wahrscheinlichkeiten umgewandelt werden müssen und auch keine 2×2-Tabellen erstellt werden müssen.

Um das Fagan Nomogramm zu verwenden, wird eine Linie von der Prä-Test-Wahrscheinlichkeit zur LR gezogen. Die Post-Test-Wahrscheinlichkeit ist der Punkt, an dem diese Linie die Post-Test-Wahrscheinlichkeitslinie schneidet. Beispiellinien in der Abbildung werden mit Daten aus dem Harnwegsinfektion-Test in der Tabelle Verteilung der Testergebnisse eines hypothetischen Leukozytenesterasetests in einer Kohorte von 1000 Patientinnen mit einer angenommenen Prävalenz von 30% für eine Harnwegsinfektion gezeichnet. Linie A stellt ein positives Testergebnis dar, sie wird von der Prä-Test-Wahrscheinlichkeit von 0,3 bis zur LR+ von 4,73 gezogen und ergibt einen Post-Test-Wert von < 0,7, ähnlich der berechneten Wahrscheinlichkeit von 0,67. Linie B stellt ein negatives Testergebnis dar, sie ist von der Prä-Test-Wahrscheinlichkeit von 0,3 durch die LR- von 0,34 gezogen und ergibt einen Post-Test-Wert von > 0,1, ähnlich zu der berechneten Wahrscheinlichkeit von 13%.

Obwohl das Nomogramm weniger präzise als Berechnungen erscheint, sind die Werte für die Prä-Test-Wahrscheinlichkeit oft Schätzungen, sodass die scheinbare Genauigkeit der Berechnungen in der Regel irreführend ist.

Fagan-Nomogramm

In der Tabelle Verteilung der Testergebnisse eines hypothetischen Leukozyten-Esterase-Tests in einer Kohorte von 1000 Frauen mit einer angenommenen 30%igen Prävalenz von Harnwegsinfektionen werden illustrative Linien unter Verwendung von Daten aus dem Harninfektions-Test gezogen. Linie A stellt ein positives Testergebnis dar, die von einer Prä-Test Wahrscheinlichkeit von 0,3 durch eine LR+ von 4,73 bis zu einem Post-Test-Wert von < 0,7 führt, entsprechend der berechneten Wahrscheinlichkeit von 0,67. Linie B stellt ein negatives Testergebnis dar, sie läuft von der Prä-Test-Wahrscheinlichkeit von 0,3 durch eine LR- von 0,34 bis zu einem Post-Test-Wert > 0,1, entsprechend der berechneten Wahrscheinlichkeit von 13%.

LR+ = Wahrscheinlichkeitsrate für ein positives Ergebnis; LR- = Wahrscheinlichkeitsrate für ein negatives Ergebnis.

Adapted from Fagan TJ. Letter: Nomogram for Bayes theorem. New England Journal of Medicine 293:257, 1975.

Tabellarischer Ansatz

Oft sind Wahrscheinlichkeitsraten eines Tests nicht bekannt, aber die Sensitivität und Spezifität sind bekannt und die Vortestwahrscheinlichkeit kann geschätzt werden. In diesem Fall kann die Bayes'sche Methodik anhand einer 2×2-Tabelle durchgeführt werden, die in der Tabelle Interpretation eines hypothetischen Leukozytensterase-(LE)-Testergebnisses am Beispiel der Tabelle Verteilung der Testergebnisse eines hypothetischen Leukozytenesterase-Tests in einer Kohorte von 1000 Frauen mit einer angenommenen 30-prozentigen Prävalenz von Harnwegsinfektionen dargestellt ist. Man beachte, dass dieses Verfahren zeigt, dass ein positives Testergebnis die Wahrscheinlichkeit einer Harnwegsinfektion auf 67% ansteigen lässt, und ein negatives Ergebnis sie auf 13% absinken lässt, was dem Ergebnis der Berechnung unter Verwendung der Wahrscheinlichkeitsraten entspricht.

Tabelle
Tabelle

Serielle Tests

Ärzte machen oft serielle Tests, wenn sie viele diagnostische Auswertungen vornehmen. Wenn die Prä-Test-Chance vor den seriellen Tests bekannt ist und die Wahrscheinlichkeitsrate für jeden der Tests in der Sequenz bekannt ist, kann die Post-Test-Chance nach folgender Formel berechnet werden:

Prä-Test-Chance × LR1 × LR2 × LR3 = Post-Test-Chance

Dieses Verfahren ist durch die wichtige Forderung limitiert, dass alle dieser Tests voneinander unabhängig durchgeführt werden müssen.

Screening-Tests

Patienten müssen sich oft überlegen, ob sie sich vorsorglich untersuchen lassen wollen. Die Voraussetzungen für ein erfolgreiches Screening-Programm sind, dass die Früherkennung bei Patienten mit okkulter Erkrankung ein klinisch bedeutsames Ergebnis verbessert und dass die falsch-positiven Ergebnisse, die beim Screening auftreten können, nicht zu einer Belastung führen (z. B. Kosten und unerwünschte Wirkungen von Bestätigungstests, durch Tests ausgelöste Ängste, ungerechtfertigte Behandlungen), die diesen Nutzen übersteigt. Um diese mögliche Belastungen zu minimieren, müssen Ärzte den richtigen Screening-Test auswählen. Ein Screening ist möglicherweise nicht angebracht, wenn Behandlungen oder vorbeugende Maßnahmen unwirksam sind, es sei denn, die Diagnose könnte zukünftige Lebensentscheidungen für den Patienten oder seine Familie beeinflussen. Wenn die Krankheit sehr selten ist, ist ein Screening möglicherweise nicht kosteneffektiv, es sei denn, es kann eine Teilpopulation identifiziert werden, in der die Prävalenz höher ist; es gibt Ausnahmen, wie z. B. bei einigen genetischen Störungen, die bereits beim Neugeborenen diagnostiziert und behandelt werden können.

Theoretisch ist der beste Test für die Früherkennung und Diagnose derjenige mit der höchsten Sensitivität und Spezifität. Jedoch sind derartige hochpräzise Tests häufig komplex, teuer und invasiv (z. B. Koronarangiographie) und sind somit nicht praktisch für das Screening einer großen Anzahl von asymptomatischen Personen. Normalerweise muss ein Kompromiss in Sensitivität, Spezifität oder beidem bei der Auswahl eines Screenigtests gefunden werden.

Ob ein Test mit höherer Sensitivität oder Spezifität verwendet wird, hängt von den Auswirkungen ab, die ein falsch-positives oder falsch-negatives Testergebnis hätte, sowie von der Prä-Test-Wahrscheinlichkeit einer Krankheit. Ein idealer Screening-Test ist einer, der bei fast jedem Patienten mit der Krankheit positiv ausfällt, sodass ein negatives Ergebnis sicher eine Krankheit bei gesunden Patienten ausschließt. Wenn mit der Untersuchung z. B. eine schwere Krankheit (z. B. koronare Herzkrankheit) diagnostiziert werden kann, für die wirksame Therapiemöglichkeiten verfügbar sind, würde man eher falsch-positive als falsch-negative (geringere Spezifizität und höhere Sensitivität) Testergebnisse hinnehmen wollen. Obwohl eine hohe Sensitivität ein sehr wichtiges Merkmal für Screening-Tests darstellt, ist die Spezifität bei bestimmten Screening-Strategien ebenfalls wichtig. In Bevölkerungsgruppen mit höherer Krankheitsprävalenz steigt der positive Vorhersagewert eines Screening-Tests, während sich mit abnehmender Prävalenz die Post-Test-Wahrscheinlichkeit eines positiven Ergebnisses verringert. Daher wird bei Hochrisikogruppen Screening-Tests mit höherer Sensitivität der Vorzug vor Tests mit höherer Spezifität gegeben, weil sie eine Krankheit besser ausschließen (weniger falsch-negative Befunde). Andererseits sollten für weniger gefährdete Gruppen oder für ungewöhnliche Krankheiten, bei denen die Therapie nur einen geringen Nutzen oder ein höheres Risiko bedeuten würde, Tests mit höherer Spezifität vorgezogen werden.

Mehrfache Screening-Tests

Mit der wachsenden Anzahl der zur Verfügung stehenden Screening-Tests müssen Ärzte die Schlussfolgerungen aus diesen Testpanels prüfen. Zum Beispiel werden Testpanels mit 8, 12 oder manchmal 20 Blutuntersuchungen verwendet, wenn ein Patient ins Krankenhaus eingeliefert oder das erste Mal von einem neuen Arzt untersucht wird. Obwohl diese Art zu testen hilfreich sein kann, um Patienten auf bestimmte Erkrankungen zu untersuchen, kann die Verwendung der groß angelegten Testpanels potenziell negative Konsequenzen haben. Per definitionem hat ein Test mit einer Spezifität von 95% bei 5% der gesunden, normalen Patienten falsch-positive Ergebnisse zur Folge. Werden zwei dieser Tests auf zwei unterschiedliche Krankheiten durchgeführt, besteht eine Chance von 95% × 95% (oder 90%), dass die Tests bei Personen, die weder die eine noch die andere Krankheit haben, negativ ausfallen; d. h. mit einer Chance von 10% wäre mindestens ein Testergebnis falsch-positiv. Für drei solcher Tests lässt sich eine Chance von 95% × 95% ×95% (oder 86%) errechnen, dass alle drei negativ ausfallen; dementsprechend läge mit einer Chance von 14% wenigstens ein falsch-positives Ergebnis vor. Wenn 12 Tests auf 12 verschiedene Krankheiten durchgeführt würden, wäre mit einer Chance von 46% mindestens ein falsch-positives Ergebnis darunter. Das unterstreicht, wie sorgfältig Screening-Tests ausgewählt und die Testergebnisse interpretiert werden müssen.

Dasselbe Prinzip gilt für die Anordnung mehrerer sensitiver, aber unspezifischer Tests (z. B. „Autoimmunserologien“, einschließlich antinukleärer Antikörper, antinuklearer Ribonukleoproteine [Anti-RNP], Rheumafaktor) bei der Beurteilung von Patienten mit lang anhaltenden, nicht lokalisierbaren und unspezifischen Symptomen wie Müdigkeit und generalisierten Schmerzen bei Fehlen von körperlichen Untersuchungsergebnissen oder anamnestischen Merkmalen, die auf eine spezifischere rheumatologische Diagnose hindeuten.

Prüfschwellenwerte

Ein Labortest sollte nur geschehen, wenn die Ergebnisse die Behandlung beeinflussen könnten, da sonst überflüssige Kosten und Risiken für den Patienten entstehen. Ärzte können manchmal die Entscheidung für einen Test treffen, indem sie die Prä- und die Post-Test-Wahrscheinlichkeitscchätzungen mit bestimmten Schwellenwerten vergleichen. Oberhalb einer gewissen Wahrscheinlichkeit überwiegen die Vorteile der Behandlung die Risiken (einschließlich des Risikos der irrtümlichen Behandlung eines Patienten ohne Krankheit) und eine Behandlung ist angezeigt. Dieser Punkt wird als Behandlungsschwelle bezeichnet und wird wie in Klinische Entscheidungsstrategien: Wahrscheinlichkeitsschätzungen und Behandlungsschwelle beschrieben bestimmt. Per definition ist es unnötig zu testen, wenn die Prä-Test-Wahrscheinlichkeit bereits über der Behandlungsschwelle liegt. Tests sind jedoch angezeigt, wenn die Prä-Test-Wahrscheinlichkeit unterhalb der Behandlungsschwelle liegt, solange ein positives Testergebnis die Post-Test-Wahrscheinlichkeit über der Behandlungsschwelle erhöhen kann. Die günstigste Prä-Test-Wahrscheinlichkeit, bei der dies geschehen kann, hängt von den Prüfkriterien ab, z. B. LR +, und wird als Prüfschwellenwert bezeichnet.

Daher ist es verständlich, dass wenn der beste Test für eine ernsthafte Erkrankung eine niedrige LR + hat und die Behandlungsschwelle hoch ist, dass ein positives Testergebnis die Post-Test-Wahrscheinlichkeit bei einem Patienten mit einer niedrigen, aber besorgniserregenden Prä-Test-Wahrscheinlichkeit (z. B. 10 oder 20%) die Behandlungsschwelle nicht verändern kann.

Für eine numerische Darstellung sollte der zuvor beschriebene Fall eines möglichen akuten Myokardinfarkt betrachtet werden, bei dem das Verhältnis von Risiko und Nutzen einer Behandlungsschwelle bei 25% liegt. Wenn die Wahrscheinlichkeit eines Myokardinfarktes 25% übersteigt, ist eine thrombolytische Therapie angezeigt. In welchem Fall sollte eine schnelle Echokardiographie durchgeführt werden, bevor eine Thrombolyse erfolgt? Angenommen, es gäbe eine hypothetische Sensitivität von 60% und eine Spezifität von 70% für die Echokardiographie in der Diagnostik eines Myokardinfarktes, wobei diese Prozentzahlen einem LR+ von 60 (100 70) = 2 entsprechen und einer LR- von (100 60):70 = 0,57.

Das Problem kann mathematisch gelöst werden (Prä-Test-Chance × LR = Post-Test-Chance) oder graphisch mithilfe des Fagan-Nomogramms. Auf dem Nomogramm schneidet eine Linie, die die Behandlungsschwelle (25%) auf der Post-Test-Wahrscheinlichkeitslinie mit dem LR+ (2,0) auf der mittleren LR verbindet, die Prä-Test-Wahrscheinlichkeitslinie von etwa 0,14. Es wird deutlich, dass ein positiver Test bei einem Patienten mit einer Prä-Test-Wahrscheinlichkeit < 14% eine Post-Test-Wahrscheinlichkeit hätte, die unter der Behandlungsschwelle liegt. In diesem Fall wäre eine Echokardiographie nutzlos, weil auch ein positives Ergebnis nicht zu einer Entscheidung für eine Behandlung führen würde, daher ist eine Prä-Test-Wahrscheinlichkeit von 14% der Prüfschwellenwert für diesen speziellen Test (siehe Abbildung Darstellung der Prüf- und Behandlungsschwellenwerte). Ein weiterer Test mit einem anderen LR+ hätte einen anderen Prüfschwellenwert.

Verwendung des Fagan-Nomogramms, um zu entscheiden ob ein Test sinnvoll ist

In diesem Beispiel wird angenommen, dass ein Patient einem Behandlungsschwellwert (TT) von 25% für einen akuten Myokardinfarkt hat. Wenn die Wahrscheinlichkeit eines Myokardinfarktes 25% übersteigt, wird eine thrombolytische Therapie durchgeführt. Ärzte können das Fagan-Nomogramm verwenden, um zu entscheiden, ob eine schnelle Echokardiographie noch vor der Thrombolyse durchgeführt werden sollte. Unter der Annahme, dass die Echokardiographie eine hypothetische Sensitivität von 60% und eine Spezifität von 70% für einen neuen Myokardinfarkt hat, entsprechen diese Prozentsätze einer Wahrscheinlichkeitsrate (LR) eines positiven Testergebnisses (LR+) von 60/(100 70) = 2. Eine Linie, die eine 25%ige Behandlungsschwelle auf der Linie mit der Post-Test-Wahrscheinlichkeit mit einem LR+ (2,0) auf der mittleren LR-Linie verbindet, schneidet die Linie mit der Prä-Test-Wahrscheinlichkeit etwa bei 0,14. Ein positives Testergebnis bei einem Patienten mit einer Prä-Test-Wahrscheinlichkeit < 14% führt immer noch zu einer Post-Test-Wahrscheinlichkeit, die unter der Behandlungsschwelle liegt.

Adapted from Fagan TJ. Letter: Nomogram for Bayes theorem. New England Journal of Medicine 293:257, 1975.

Darstellung der Prüf- und Behandlungsschwellenwerte

Die horizontale Linie stellt die Post-Test-Wahrscheinlichkeit dar.

Da 14% immer noch ein erhebliches Risiko eines Myokardinfarktes darstellt, ist es klar, dass eine Krankheitswahrscheinlichkeit unter dem Prüfschwellenwert (z. B. eine Prä-Test-Wahrscheinlichkeit von 10%) nicht unbedingt bedeutet, dass eine Krankheit ausgeschlossen werden kann, sondern nur, dass ein positives Testergebnis dieses bestimmten Tests die Behandlung nicht ändern würde und damit der Test überflüssig ist. In dieser Situation würde der Arzt den Patienten auf weitere Erkenntnisse hin beobachten, die die Prä-Test-Wahrscheinlichkeit über den Prüfschwellenwert erhöhen könnten. In der Praxis wird oft eine Reihe von Tests für eine bestimmte Krankheit durchgeführt, da viele Tests zur Verfügung stehen.

Dieses Beispiel berücksichtigt einen Test, der selbst kein Risiko für den Patienten darstellt. Wenn ein Test jedoch schwerwiegende Risiken (z. B. Herzkatheter) mit sich bringt, sollte der Prüfschwellenwert höher sein; quantitative Berechnungen können durchgeführt werden, sind jedoch komplex. Daher wird der Bereich der Erkrankungswahrscheinlichkeit, in dem eine diagnostische Untersuchung die beste Strategie wäre, durch eine geringere Testsensitivität und -spezifität oder ein erhöhtes Testrisiko verengt und durch eine bessere Diskriminationsfähigkeit diagnostischer Tests oder ein geringeres Testrisiko erweitert.

Eine mögliche Ausnahme einer Entscheidung gegen einen Test ist gegeben, wenn die Prä-Test-Wahrscheinlichkeit zwar unterhalb des Prüfschwellenwertes (aber immer noch besorgniserregend) ist, aber wenn ein negatives Testergebnis die Post-Test-Wahrscheinlichkeit unterhalbdes Punktes ansiedelt, an dem die Krankheit als ausgeschlossen gelten könnte. Diese Art der Entscheidungsfindung erfordert ein sehr sicheres subjektives Urteil, denn um zu sagen, dass eine Krankheit ausgeschlossen werden kann, beruht auf niedrigen Wahrscheinlichkeiten und eine besondere Beachtung der Testrisiken ist wichtig.