Sirius (Software)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
SIRIUS
Basisdaten

Erscheinungsjahr 2009
Aktuelle Version 5.8.5
(8 November 2023)
Betriebssystem Linux, Windows, MacOS
Programmiersprache Java
Kategorie Massenspektrometrie,
Strukturaufklärung,
Chemie,
Bioinformatik
Lizenz GNU Affero General Public License v3.0 für Client-Software,
Web-Services frei für nicht-kommerzielle Nutzung,
kommerzielles Abonnement angeboten von Bright Giant GmbH
https://bio.informatik.uni-jena.de/software/sirius/

Sirius (Eigenschreibweise SIRIUS) ist eine Java-basierte Open-Source-Software für die Identifizierung kleiner Moleküle aus Fragmentierungs-Massenspektrometriedaten ohne die Verwendung von Spektralbibliotheken. Sie kombiniert die Analyse von Isotopenmustern in MS1-Spektren mit der Analyse von Fragmentierungsmustern in MS2-Spektren. SIRIUS umfasst die Methoden CSI:FingerID, CANOPUS, COSMIC und ZODIAC.

Entwicklungsgeschichte[Bearbeiten | Quelltext bearbeiten]

SIRIUS wurde 2009 von Sebastian Böcker an der Friedrich-Schiller-Universität Jena entwickelt und seit 2019 gemeinsam mit der Bright Giant GmbH weiterentwickelt. Die Entwicklung begann als Software zur Identifizierung der Summenformel durch Zerlegung von hochaufgelösten Isotopenmustern (auch MS1-Daten genannt).[1] Der Name ist ein Akronym, das sich aus diesem ursprünglichen Zweck ableitet: Sum formula Identification by Ranking Isotope patterns Using mass Spectrometry.

Im Jahr 2008 führten die Entwickler das Konzept der Fragmentierungsbäume[2] zur Identifizierung von Molekülformeln auf der Grundlage von Fragmentierungs-Massenspektrometrie-Daten, auch Tandem-MS- oder MS2-Daten genannt, ein. Bis zu dem Zeitpunkt wurden kleine Moleküle durch Suche in einer Referenzspektren-Datenbank identifiziert.[3] Beispiele für solche Spektrendatenbanken sind MassBank,[4] METLIN[5] oder die NIST/EPA/NIH EI-MS Library[6]. Für unbekannte Moleküle ist die Identifizierung der Summenformel wichtig.[2] In den Jahren 2011/2012 entwickelte die Gruppe Fragmentierungsbäume als Werkzeug zur Strukturaufklärung durch automatischen Vergleich dieser Fragmentierungsbäume.[7][8] Die Ähnlichkeit der Fragmentierungsmuster korreliert stark mit der chemischen Ähnlichkeit der Moleküle. Daher hilft der Vergleich des Fragmentierungsbaums eines unbekannten Moleküls mit einer Reihe bekannter Moleküle bei der Strukturaufklärung. Fragmentierungsbäume wurden mit SIRIUS 2 eingeführt.[7]

Ebenfalls 2012 führte die Gruppe von Juho Rousu an der Universität Helsinki, Finnland, eine maschinelle Lernmethode zur Vorhersage molekularer Eigenschaften aus Tandem-MS-Daten ein.[9] Dieses Konzept wurde 2015 mit dem Konzept der Fragmentierungsbäume kombiniert. Die resultierende Methode heißt CSI:FingerID[10] und wurde in SIRIUS 3 eingeführt. Der Fragmentierungsbaum wird verwendet, um durch maschinelles Lernen einen molekularen Fingerabdruck des unbekannten Moleküls vorherzusagen, der dann für die Suche in einer Molekülstrukturdatenbank wie PubChem verwendet wird. Molekülstrukturdatenbanken sind um Größenordnungen umfangreicher als Referenzspektren-Datenbanken (PubChem enthielt ~111 Millionen Verbindungen im Jahr 2021[11] im Vergleich zur NIST Tandem Mass Spectral Library mit ~50.000 Verbindungen im Jahr 2023[12]).

Mit SIRIUS 3 wurde auch eine grafische Benutzeroberfläche eingeführt.

Im Jahr 2020 wurde in Zusammenarbeit mit der Gruppe von Pieter C. Dorrestein an der UC San Diego, USA, die Identifizierung molekularer Formeln für vollständige biologische Datensätze verbessert. Auf der Grundlage eines Netzwerks von Derivaten, abgeleitet aus dem gesamten Datensatz, wurde die Rangfolge der Kandidatenformeln verbessert[13]. Diese Methode heißt ZODIAC und wurde in SIRIUS 4 integriert.[14]

Ebenfalls im Jahr 2020 wurde in Zusammenarbeit mit den Gruppen von Rousu und Dorrestein CANOPUS zur Annotation von Verbindungsklassen in SIRIUS 4 eingeführt[15].

Im Jahr 2022 wurde die Strukturidentifikation mittels CSI:FingerID um COSMIC erweitert, eine Methode, die es dem Benutzer ermöglicht, die Zuverlässigkeit der Identifikation zu bestimmen.[16]

Daten[Bearbeiten | Quelltext bearbeiten]

SIRIUS verwendet Daten aus der Flüssigchromatographie-Tandem-Massenspektrometrie (LC-MS/MS). Als Eingabe sind hochauflösende MS1- und MS2-Daten mit hoher Massengenauigkeit erforderlich. LC ist für SIRIUS nicht zwingend erforderlich, wird aber häufig benötigt, um einzelne Verbindungen in komplexen Proben zu trennen.

  • MS1-Daten beziehen sich hauptsächlich auf das Isotopenmuster der Verbindung. Aufgrund der natürlichen Isotopenverteilung der Elemente entsprechen mehrere Peaks im Massenspektrum der gleichen Art von Probenmolekül und spiegeln dessen Isotopenmuster wider.[1]
  • MS2-Daten beziehen sich auf das Fragmentierungsmuster der Verbindung. MS2 wird auch als Tandem-Massenspektrometrie oder MS/MS bezeichnet. Das statistische Modell von SIRIUS und das maschinelle Lernmodell von CSI:FingerID wurden auf MS2-Spektren trainiert, die durch kollisionsinduzierte Dissoziation (CID) erzeugt wurden, wie sie üblicherweise bei LC-MS/MS-Experimenten verwendet wird.[17]

SIRIUS erwartet sowohl MS1- als auch MS2-Spektren als Eingabe. Das Weglassen der MS1-Daten ist möglich. Die Analyse auf ausschließlich MS2-Daten ist jedoch zeitaufwändiger und kann zu schlechteren Ergebnissen führen.

SIRIUS und CSI:FingerID wurden auf einer Vielzahl von Daten trainiert, unter anderem von verschiedenen Instrumententypen. Bestimmte Eigenschaften der Massenspektren sind wichtig für die erfolgreiche Verarbeitung der Daten:

  • Die Massenabweichung der Eingangsspektren sollte innerhalb von 20 ppm liegen. Massenspektrometriegeräte wie TOF, Orbitrap und FT-ICR liefern in der Regel Daten mit hoher Massengenauigkeit, ebenso gekoppelte Geräte wie Q-TOF, IT-TOF oder IT-Orbitrap. Spektren, die mit einem Quadrupol oder einer linearen Ionenfalle gemessen wurden, bieten nicht die erforderliche Genauigkeit für die Datenanalyse mit SIRIUS.
  • Es ist nicht möglich, aus einem MS2-Spektrum, das fast keine Peaks enthält, die Struktur oder gar die Summenformel abzuleiten. Eine vorherige Rauschfilterung der Spektren ist weder notwendig noch vorteilhaft. SIRIUS berücksichtigt bis zu 60 Peaks im Fragmentierungsspektrum und entscheidet selbst, welche dieser Peaks als Rauschen angesehen werden.
  • SIRIUS enthält keine Routinen für das Peak-Picking aus Profil-Mode-Spektren. msConvert in ProteoWizard kann für die Konvertierung verwendet werden. Darüber hinaus gibt es verschiedene Werkzeuge, die auf die Vorverarbeitung spezialisiert sind, wie OpenMS, MZmine oder XCMS. OpenMS[18] und MZmine 3[19] bieten beide Exportfunktionen, die auf die Bedürfnisse von SIRIUS zugeschnitten sind.

Verschiedene gängige MS-Dateiformate wie .csv-, .ms- oder .mgf-Dateien können in SIRIUS importiert werden. SIRIUS kann komplette LC-MS-Läufe (.mzML) oder einzelne Verbindungen importieren. Derzeit kann SIRIUS nur einfach geladene Verbindungen verarbeiten.[17]

Funktionalitäten[Bearbeiten | Quelltext bearbeiten]

SIRIUS identifiziert kleine Moleküle in zwei Schritten:[17]

  • Zunächst wird die Summenformel des Moleküls bestimmt.
  • Dann wird ein molekularer Fingerabdruck vorhergesagt, der mit einer Strukturdatenbank verglichen wird, um den wahrscheinlichsten Kandidaten zu identifizieren.

Die folgenden Algorithmen sind in SIRIUS implementiert:

SIRIUS: Bestimmung der Summenformel[Bearbeiten | Quelltext bearbeiten]

SIRIUS ist der Name der Software, aber (aus historischen Gründen) auch der Name für die Bestimmung der Summenformel. Die Summenformel bezieht sich auf die elementare Zusammensetzung des Moleküls. Die Masse eines Moleküls reicht allein nicht aus, um die richtige Summenformel zu bestimmen.[17] Selbst bei sehr hoher Massengenauigkeit können viele Summenformeln die im Massenspektrometer gemessene Masse erklären, insbesondere in höheren Massenbereichen. In SIRIUS wird die Summenformel durch Isotopenmusteranalyse der MS1-Daten und Fragmentierungsbaumberechnung anhand der MS2-Daten bestimmt. Der Score eines Summenformelkandidaten ist eine Kombination aus Isotopenmusterscore und Fragmentierungsbaumscore.

Um die Summenformel zu bestimmen, berücksichtigt SIRIUS alle möglichen Summenformeln für eine Reihe von Elementen.

Berechnung des Fragmentierungsbaums[Bearbeiten | Quelltext bearbeiten]

Ein Fragmentierungsbaum ist eine Darstellung des Fragmentierungsprozesses, ähnlich zu den von Experten erstellten Fragmentierungsdiagrammen. Der Fragmentierungsbaum annotiert das MS2-Spektrum, indem für jeden Fragmentpeak eine Summenformel angegeben wird. Peaks, die keine Beschriftung erhalten, werden als Rauschpeaks betrachtet. Der Fragmentierungsbaum sagt auch die Fragmentierungsreaktionen (sogenannte Verluste) voraus, die zu den Fragment-Peaks führen. Fragmentierungsbäume sind ein wertvolles Werkzeug, um Informationen über die Fragmentierung abzuleiten, sie stellen jedoch keine genaue Darstellung des tatsächlichen Fragmentierungsprozesses dar.[7]

Um die Summenformel eines unbekannten Moleküls zu bestimmen, wird für jeden Summenformelkandidaten ein eigener Fragmentierungsbaum berechnet. Mit anderen Worten versucht die Methode, den Fragmentierungsprozess zu rekonstruieren, der unter Annahme dieser Summenformel zu diesem MS2-Spektrum geführt hat. Auf diese Weise können die verschiedenen Hypothesen, dass ein Kandidat der richtigen Summenformel entspricht, verglichen werden. Der am besten bewertete Fragmentierungsbaum (d. h. der Fragmentierungsprozess, der das Spektrum am besten erklärt) entspricht der wahrscheinlichsten Erklärung der Summenformel.

ZODIAC: Verbesserte Bestimmung der Summenformel[Bearbeiten | Quelltext bearbeiten]

ZODIAC verbessert das Ranking der Summenformelkandidaten.[13] Organismen produzieren verwandte Metaboliten, die aus mehreren, aber begrenzten Biosynthesewegen stammen. In einer biologischen Probe oder einer Probe aus einer anderen Gruppe von Derivaten, spiegelt sich die Beziehung zwischen den Metaboliten in ihrer strukturellen Ähnlichkeit wider. Diese Ähnlichkeiten spiegeln sich wiederum in gemeinsamen Fragmenten und Verlusten zwischen den Fragmentierungsbäumen wider und können zur Verbesserung der Identifizierung der Molekülformeln der einzelnen Moleküle verwendet werden.

ZODIAC verwendet die X besten Summenformelkandidaten für jedes Molekül aus SIRIUS, um ein Netzwerk anhand von Ähnlichkeiten zu erstellen, und verwendet Bayessche Statistik, um die Kandidaten neu zu ordnen. Die A-priori-Wahrscheinlichkeiten werden aus der Ähnlichkeit der Fragmentierungsbäume abgeleitet. Die Suche nach einer optimalen Lösung für das resultierende Berechnungsproblem ist NP-schwer, daher wird Gibbs-Sampling verwendet.

ZODIAC steht für ZODIAC: Organic compound Determination by Integral Assignment of elemental Compositions.

CSI:FingerID: Suche in der Strukturdatenbank[Bearbeiten | Quelltext bearbeiten]

CSI:FingerID identifiziert die Struktur eines Moleküls durch Vorhersage seines molekularen Fingerabdrucks und verwendet diesen Fingerabdruck für die Suche in einer Molekülstrukturdatenbank.[10]

Molekularer Fingerabdruck[Bearbeiten | Quelltext bearbeiten]

Ein molekularer Fingerabdruck ist ein binärer Vektor, bei dem jede Position einer bestimmten molekularen Eigenschaft entspricht. In dieser Darstellung kann eine bestimmte Position X das Vorhandensein oder Fehlen einer bestimmten Substruktur kodieren, wobei „1“ das Vorhandensein und „0“ das Fehlen anzeigt. Es gibt verschiedene Arten von molekularen Fingerabdrücken, darunter PubChem CACTVS Fingerprints, Klekota-Roth Fingerprints[20], MACCS Fingerprints und Extended-Connectivity Fingerprints (ECFP).[21] Ein molekularer Fingerabdruck kann deterministisch aus einer gegebenen Molekülstruktur berechnet werden. Unterschiedliche Molekülstrukturen können den gleichen molekularen Fingerabdruck ergeben.

Vorhersage von molekularen Fingerabdrücken[Bearbeiten | Quelltext bearbeiten]

CSI:FingerID sagt einen probabilistischen Fingerabdruck mit einer Vielzahl von molekularen Eigenschaften aus mehreren der oben genannten Fingerabdruckarten voraus. Der Fingerabdruck wird aus dem gegebenen Spektrum und dem dazugehörigen Fragmentierungsbaum mithilfe von Deep-Kernel-Learning vorhergesagt[22][10], einer Kombination aus Kernel-Methoden und Deep Neural Networks. Dabei wird nicht nur die am besten bewertete Summenformel, sondern mehrere Kandidaten berücksichtigt.

Vergleich der molekularen Fingerabdrücke[Bearbeiten | Quelltext bearbeiten]

Die Suche in einer Molekülstrukturdatenbank erfordert eine Metrik zum Vergleich der molekularen Fingerabdrücke. Die Tanimoto-Ähnlichkeit (Jaccard-Index) wird hierfür häufig verwendet. Ein Ähnlichkeitswert von 1 bedeutet identische Fingerabdrücke. Ein Ähnlichkeitswert von 0 weist darauf hin, dass die Strukturen keine molekularen Eigenschaften gemeinsam haben. Der berechnete Ähnlichkeitswert hängt von der Art des Fingerabdrucks ab.

CSI:FingerID verwendet eine logarithmische A-posteriori-Wahrscheinlichkeit, um die Strukturkandidaten in eine Rangfolge zu bringen, wobei die Punktzahlen als negative Zahlen dargestellt werden und somit Null das Optimum darstellt[23]. Diese Bewertungsfunktion resultiert in einer höheren Anzahl richtiger Identifizierungen[10]. Tanimoto-Ähnlichkeiten werden der Vollständigkeit halber ebenfalls angegeben.

COSMIC: Konfidenz der Identifizierung[Bearbeiten | Quelltext bearbeiten]

COSMIC bewertet die Konfidenz der von CSI:FingerID identifizierten Molekülstrukturen[16]. Die Idee ist ähnlich zu False Discovery Rates: Alle Moleküle eines großen Datensatzes werden mit CSI:FingerID analysiert. Die jeweils beste Struktur für jedes Molekül wird von COSMIC bewertet und die vertrauenswürdigsten Identifikationen können dann für die weitere Analyse ausgewählt werden. Anders als ZODIAC nimmt COSMIC keine Neuordnung der Ranglisten vor. COSMIC verwirft auch keine der Identifizierungen.

Der von COSMIC verwendete Konfidenzwert kombiniert E-Wert-Schätzung mit einer linearen Support-Vektor-Maschine (SVM) mit erzwungener Direktionalität. Die Kalibrierung der CSI:FingerID-Scores erfolgt anhand von E-Wert-Schätzungen.[24] Die Generierung von Decoys für kleine Molekülstrukturen ist eine nicht triviale Aufgabe, weshalb die Kandidaten in PubChem hier als Ersatz für Decoys dienen.

Die Score-Verteilung wird als Mischverteilung von Logarithmischen Normalverteilungen modelliert. Die SVM wird eingesetzt, um zu klassifizieren, ob ein Treffer korrekt ist. Das Lernen wird auf eine lineare SVM beschränkt, um das Risiko einer Überanpassung zu verringern. Die Richtungsabhängigkeit der Merkmale wird erzwungen. Dies bedeutet, dass im Voraus entschieden werden muss, ob hohe oder niedrige Werte eines Merkmals das Vertrauen in eine Identifizierung erhöhen sollen. So sollte beispielsweise ein hoher CSI:FingerID-Score eines Treffers das Vertrauen in die Richtigkeit des Treffers erhöhen, aber niemals verringern. Bei einigen Merkmalen müssen mindestens zwei Kandidaten für den Vergleich vorhanden sein, und es werden separate SVMs für einzelne Instanzen trainiert. Die Entscheidungswerte der SVM werden mit Hilfe der Platt-Skalierung auf A-posteriori-Wahrscheinlichkeitsschätzungen abgebildet[25]. Dieser umfassende Ansatz gewährleistet eine robuste und nuancierte Bewertung der Konfidenz in Molekülidentifizierungen.[16]

CANOPUS: Vorhersage von Verbindungsklassen[Bearbeiten | Quelltext bearbeiten]

CANOPUS steht für Class Assignment and Ontology Prediction Using mass Spectrometry.[15] Es sagt Verbindungsklassen auf der Grundlage des molekularen Fingerabdrucks voraus, der von CSI:FingerID vorhergesagt wurde. Dieser Ansatz ist vollkommen datenbankfrei, d. h. er ist nicht einmal auf Moleküle beschränkt, die in Strukturdatenbanken enthalten sind.

CANOPUS verwendet ein Deep Neural Network (DNN),[26] um 2.497 Verbindungsklassen vorherzusagen. Das DNN wurde auf 4,1 Millionen Molekülstrukturen und deren von ClassyFire[27] zugewiesenen Verbindungsklassen trainiert. Für das Training wurden keine MS/MS-Daten verwendet, stattdessen wurden simulierte „realistische“ probabilistische Fingerabdrücke der Trainingsstrukturen verwendet. Das DNN sagt alle Verbindungsklassen gleichzeitig voraus.

Für vollständige biologische Datensätze bietet CANOPUS einen umfassenden Überblick über die in der Probe vorhandenen Verbindungsklassen und ermöglicht Vergleiche zwischen verschiedenen Kohorten auf Ebene der Verbindungsklassen.

Anwendungsbereiche[Bearbeiten | Quelltext bearbeiten]

Kleine Moleküle sind essentielle Bausteine, die überall in der Natur vorkommen und in verschiedenen Bereichen wie der Arzneimittelforschung, der Diagnostik, der Lebensmittelwissenschaft und der Umweltüberwachung eine wichtige Rolle spielen. Die Bewältigung vieler globaler Herausforderungen hängt von der umfassenden Identifizierung kleiner Moleküle in komplexen Proben ab. Diese komplexen Mischungen enthalten Tausende verschiedener Moleküle, die in einem einzigen massenspektrometrischen Lauf gemessen werden können.

Die Identifizierung unbekannter kleiner Moleküle gilt als eine der größten Herausforderungen in der Metabolomik, der Naturstoffforschung und verwandten Bereichen, da weit über 90 % aller kleinen Moleküle noch unbekannt sind.[28][29] Üblicherweise basieren Analysen auf zielgerichteten Ansätzen, die sich auf die Wiederentdeckung bekannter Moleküle beschränken. Im Gegensatz dazu ist die ungezielte Analyse eine Top-Down-Strategie, bei der es nicht notwendig ist, vorab eine spezifische Hypothese über die zu erwartenden Moleküle aufzustellen. Der Schwerpunkt verlagert sich von der Frage „Ist Molekül X in der Probe vorhanden?“ zu der Frage „Welche (unbekannten) Moleküle sind in der Probe vorhanden und könnten für nachgeschaltete Analysen relevant sein?“

SIRIUS wurde für die ungezielte Strukturaufklärung unbekannter Moleküle entwickelt, indem es verschiedene Herausforderungen bewältigt:

  • Aus einer langen Liste von Kandidaten wird die richtige Molekülstruktur möglichst gut eingestuft. Dies ist vergleichbar mit einer Google-Suche, bei der die optimale Antwort wahrscheinlich unter den ersten drei Treffern zu finden ist.[10]
  • Es gibt eine Beurteilung, ob der Spitzenkandidat tatsächlich richtig ist.[16]
  • Strukturinformationen sind auch für Moleküle verfügbar, die nicht in umfangreichen Strukturdatenbanken enthalten sind, einschließlich Details zur Bindungsklasse[15] und Informationen zu Substrukturen.

Beispiele für Anwendungen[Bearbeiten | Quelltext bearbeiten]

  • Getrocknete Bluttropfen, sogenanntes Trockenblut, von Neugeborenen sind wichtig für das Neugeborenen-Screening und werden zur Untersuchung möglicher metabolischer Ursachen verschiedener Krankheiten mit Hilfe von nicht-zielgerichteter LC-MS-basierter Metabolomik verwendet. Mit SIRIUS untersuchten die Forscher die Stabilität der Metaboliten in Biobanken mit Trockenblut von Neugeborenen.[30]
  • Marine Mikroorganismen sind eine reiche Quelle bioaktiver Verbindungen mit einzigartigen Strukturen und bemerkenswerter biologischer Aktivität. Dies macht sie zu einer wichtigen Ressource für die Suche nach neuen therapeutischen Wirkstoffen. Die Forscher nutzten SIRIUS, um die Suche auf die vielversprechendsten Mikroorganismen einzugrenzen.[31]
  • Pädiatrisches Asthma stellt aufgrund seiner vielfältigen Erscheinungsformen eine diagnostische Herausforderung dar. Die Atemanalyse könnte die Behandlung von allergischem Asthma bei Kindern entscheidend verändern. Durch die Identifizierung einzigartiger Stoffwechselsignaturen im Atem mit Hilfe von SIRIUS haben Forscher einen Ansatz für die Diagnose von Kindern mit allergischem Asthma entwickelt.[32]
  • Thiacloprid ist ein weit verbreitetes Neonicotinoid-Insektizid der ersten Generation. Seine Langlebigkeit in der Umwelt und seine möglichen schädlichen Auswirkungen auf die menschliche Gesundheit geben Anlass zu großer Besorgnis. Die Klärung des Verunreinigungsprofils von Pestiziden ist entscheidend für die Bewertung ihrer Umweltauswirkungen und potenziellen Risiken sowie für die Festlegung akzeptabler Grenzwerte für Verunreinigungen. Mit Hilfe von SIRIUS haben Forscher einen Ansatz zur Identifizierung strukturell verwandter Verunreinigungen in Pestiziden entwickelt.[33]
  • Unter bestimmten Bedingungen können zwei Bakterienarten gemeinsam in einem Zwei-Spezies-Biofilm wachsen. Die Zusammenarbeit von P. aeruginosa und S. aureus bei Mukoviszidose führt zu einer erhöhten Schwere der Erkrankung. Mit Hilfe von SIRIUS identifizierten die Forscher einen Metaboliten, der mit der verstärkten Pathogenese dieses Zwei-Spezies-Biofilms bei Mukoviszidose in Zusammenhang stehen könnte.[34]
  • Unsere Haut beherbergt eine vielfältige Gemeinschaft von Mikroorganismen, die als Hautmikrobiota bezeichnet wird. Mit Hilfe von SIRIUS identifizierten Forscher Veränderungen im Metabolom der Haut, die ausgeprägter sind als Veränderungen in der mikrobiellen Zusammensetzung.[35]

Grenzen[Bearbeiten | Quelltext bearbeiten]

Grenzen der Messmethode[Bearbeiten | Quelltext bearbeiten]

Massenspektren allein liefern nicht genügend Informationen, um jedes Molekül eindeutig zu identifizieren. Manche Moleküle erzeugen fast identische Spektren – sie ähneln sich sogar mehr als ein und dasselbe Molekül, das mit zwei verschiedenen Geräten gemessen wird.[36] Für eine eindeutige Identifizierung sind umfangreiche Folgeexperimente erforderlich.

Es ist daher unmöglich, eine Molekülstruktur allein auf der Basis eines Massenspektrums immer korrekt zu identifizieren. Daher können CSI:FingerID und andere Suchmethoden in Strukturdatenbanken nicht garantieren, dass die richtige Molekülstruktur als erster Treffer gefunden wird. Aus diesem Grund ist es wichtig, die richtige Struktur aus einer umfangreichen Liste von Kandidaten sehr hoch zu ranken und eine Konfidenz für den Treffer zu erhalten.

Grenzen von Strukturdatenbanken[Bearbeiten | Quelltext bearbeiten]

Strukturdatenbanken sind um Größenordnungen größer als Referenzspektren-Datenbanken, aber immer noch unvollständig.[37] Es versteht sich von selbst, dass nicht jedes existierende Biomolekül in Strukturdatenbanken enthalten ist oder sein wird.

Für diese Moleküle bietet SIRIUS mehrere Lösungen an:

  • SIRIUS kann in Datenbanken mit hypothetischen Strukturen suchen.[16] Dies kann z. B. für die Suche nach Derivaten interessant sein.
  • Der vorhergesagte molekulare Fingerabdruck liefert strukturelle Informationen, z. B. über Substrukturen.[10]
  • CANOPUS sagt die Verbindungsklassen eines Moleküls voraus, ohne in einer Datenbank zu suchen.[15]

Unabhängige Bewertung der Software[Bearbeiten | Quelltext bearbeiten]

CASMI (Critical Assessment of Small Molecule Identification)[38] ist ein offener Wettbewerb zur Identifizierung kleiner Moleküle aus Massenspektrometriedaten, der 2012 von Emma Schymanski und Steffen Neumann ins Leben gerufen wurde.[39]

Bei CASMI 2016 haben CSI:FingerID und einem Ableger von CSI:FingerID, an dem die Böcker-Gruppe auch beteiligt war, den ersten und zweiten Platz in der Kategorie „Best Automatic Structural Identification – In Silico Fragmentation Only“ (Beste automatische Strukturidentifizierung – nur in silico Fragmentierung) belegt. Darüber hinaus erzielte CSI:FingerID das beste Ergebnis bei der Bestimmung der korrekten Molekülstruktur an Position 1 (70 von 127, positiver Modus).[40][41]

Bei CASMI 2017 gewann SIRIUS mit CSI:FingerID in 3 von 4 Kategorien: „Best Structure Identification on Natural Products“ (Beste Strukturidentifizierung von Naturprodukten), „Best Automatic Structure Identification – In Silico Fragmentation Only“ (Beste automatische Strukturidentifizierung – nur in silico Fragmentierung), „Best Automatic Candidate Ranking“ (Bestes automatisches Kandidaten-Ranking).[42]

Bei CASMI 2022 nutzten sechs von 16 Teilnehmern SIRIUS in ihrem Ansatz zur Identifizierung der Molekülstruktur. SIRIUS gewann in den Kategorien „Correct elemental formulas“ (Korrekte Summenformeln), „Correct compound structure classes“ (Korrekte Verbindungsklasse) und „Correct 2D chemical structures“ (Korrekte chemische 2D-Struktur). CASMI 2022 enthielt Verbindungen, die nicht einmal in PubChem enthalten waren.[43]

Auszeichnungen[Bearbeiten | Quelltext bearbeiten]

Die Arbeitsgruppe von Sebastian Böcker an der FSU Jena hat für SIRIUS und die zugrunde liegenden Methoden den Thüringer Forschungspreis 2022 in der Kategorie Angewandte Forschung gewonnen.[44][45]

SIRIUS wurde 2020 von Nature Methods als „method to watch“ gelistet.[46]

Lizenzen[Bearbeiten | Quelltext bearbeiten]

SIRIUS wird von der Gruppe von Sebastian Böcker an der FSU Jena in enger Zusammenarbeit mit der Bright Giant GmbH entwickelt. SIRIUS wird als Software-as-a-Service-Lösung angeboten. Die Client-Software ist Open-Source und wird auf den Rechnern der Nutzer installiert. Die Annotation von Summenformeln mit Hilfe von Fragmentierungsbäumen und Isotopenmustern wird auf dem lokalen Computer der Nutzer durchgeführt, ohne dass ein Abonnement erforderlich ist.

Für die SIRIUS-Webdienste zur Strukturaufklärung, einschließlich der Vorhersage des molekularen Fingerabdrucks, der Strukturdatenbanksuche, der Konfidenzbewertung und der Vorhersage von Verbindungsklassen, ist ein Benutzerkonto erforderlich. Die Webdienste sind für die akademische/nichtkommerzielle Nutzung kostenlos und werden von der FSU Jena bereitgestellt bzw. gehostet. Akademische Einrichtungen werden über ihre E-Mail-Domain identifiziert und der Zugang wird automatisch gewährt. In einigen Fällen kann eine zusätzliche Validierung erforderlich sein.

Die Bright Giant GmbH bietet kommerziellen Nutzern einen subskriptionsbasierten Zugang zu den SIRIUS Web Services zur Strukturaufklärung.

Alternativen[Bearbeiten | Quelltext bearbeiten]

Weitere Algorithmen und Software für die Suche in Strukturdatenbanken sind CFM-ID,[47][48] ICEBERG,[49]MetFrag,[50] MS-FINDER,[51][52] MetaboScape® (Bruker), MassHunter (Agilent) oder Compound Discoverer™ (Thermo Fisher Scientific).

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b Sebastian Böcker, Matthias C. Letzel, Zsuzsanna Lipták, Anton Pervukhin: SIRIUS: decomposing isotope patterns for metabolite identification. In: Bioinformatics. 25. Jahrgang, Nr. 2, 15. Januar 2009, S. 218–224, doi:10.1093/bioinformatics/btn603, PMID 19015140, PMC 2639009 (freier Volltext) – (englisch).
  2. a b Sebastian Böcker, Florian Rasche: Towards de novo identification of metabolites by analyzing tandem mass spectra. In: Bioinformatics. 24. Jahrgang, Nr. 16, 15. August 2008, S. i49–i55, doi:10.1093/bioinformatics/btn270, PMID 18689839.
  3. Kerstin Scheubert, Franziska Hufsky, Sebastian Böcker: Computational mass spectrometry for small molecules. In: Journal of Cheminformatics. 5. Jahrgang, Nr. 1, Dezember 2013, S. 12, doi:10.1186/1758-2946-5-12, PMID 23453222, PMC 3648359 (freier Volltext).
  4. Hisayuki Horai, Masanori Arita, Shigehiko Kanaya, Yoshito Nihei, Tasuku Ikeda, Kazuhiro Suwa, Yuya Ojima, Kenichi Tanaka, Satoshi Tanaka, Ken Aoshima, Yoshiya Oda, Yuji Kakazu, Miyako Kusano, Takayuki Tohge, Fumio Matsuda, Yuji Sawada, Masami Yokota Hirai, Hiroki Nakanishi, Kazutaka Ikeda, Naoshige Akimoto, Takashi Maoka, Hiroki Takahashi, Takeshi Ara, Nozomu Sakurai, Hideyuki Suzuki, Daisuke Shibata, Steffen Neumann, Takashi Iida, Ken Tanaka, Kimito Funatsu, et all: MassBank: a public repository for sharing mass spectral data for life sciences. In: Journal of Mass Spectrometry. 45. Jahrgang, Nr. 7, Juli 2010, S. 703–714, doi:10.1002/jms.1777, PMID 20623627, bibcode:2010JMSp...45..703H.
  5. Colin A Smith, Grace O?? Maille, Elizabeth J Want, Chuan Qin, Sunia A Trauger, Theodore R Brandon, Darlene E Custodio, Ruben Abagyan, Gary Siuzdak: METLIN: A Metabolite Mass Spectral Database. In: Therapeutic Drug Monitoring. 27. Jahrgang, Nr. 6, Dezember 2005, S. 747–751, doi:10.1097/01.ftd.0000179845.53213.39, PMID 16404815.
  6. Mass Spectrometry Data Center, NIST. In: chemdata.nist.gov.
  7. a b c Florian Rasche, Aleš Svatoš, Ravi Kumar Maddula, Christoph Böttcher, Sebastian Böcker: Computing Fragmentation Trees from Tandem Mass Spectrometry Data. In: Analytical Chemistry. 83. Jahrgang, Nr. 4, 15. Februar 2011, S. 1243–1251, doi:10.1021/ac101825k, PMID 21182243.
  8. Florian Rasche, Kerstin Scheubert, Franziska Hufsky, Thomas Zichner, Marco Kai, Aleš Svatoš, Sebastian Böcker: Identifying the Unknowns by Aligning Fragmentation Trees. In: Analytical Chemistry. 84. Jahrgang, Nr. 7, 3. April 2012, S. 3417–3426, doi:10.1021/ac300304u, PMID 22390817.
  9. Markus Heinonen, Huibin Shen, Nicola Zamboni, Juho Rousu: Metabolite identification and molecular fingerprint prediction through machine learning. In: Bioinformatics. 28. Jahrgang, Nr. 18, 15. September 2012, S. 2333–2341, doi:10.1093/bioinformatics/bts437, PMID 22815355.
  10. a b c d e f Kai Dührkop, Huibin Shen, Marvin Meusel, Juho Rousu, Sebastian Böcker: Searching molecular structure databases with tandem mass spectra using CSI:FingerID. In: Proceedings of the National Academy of Sciences. 112. Jahrgang, Nr. 41, 13. Oktober 2015, S. 12580–12585, doi:10.1073/pnas.1509788112, PMID 26392543, PMC 4611636 (freier Volltext), bibcode:2015PNAS..11212580D.
  11. Sunghwan Kim, Jie Chen, Tiejun Cheng, Asta Gindulyte, Jia He, Siqian He, Qingliang Li, Benjamin A Shoemaker, Paul A Thiessen, Bo Yu, Leonid Zaslavsky, Jian Zhang, Evan E Bolton: PubChem in 2021: new data content and improved web interfaces. In: Nucleic Acids Research. 49. Jahrgang, D1, 8. Januar 2021, S. D1388–D1395, doi:10.1093/nar/gkaa971, PMID 33151290, PMC 7778930 (freier Volltext).
  12. 2023 Release of the NIST EI and Tandem Libraries. National Institute of Standards and Technology (NIST), abgerufen am 12. Januar 2023.
  13. a b Marcus Ludwig, Louis-Félix Nothias, Kai Dührkop, Irina Koester, Markus Fleischauer, Martin A. Hoffmann, Daniel Petras, Fernando Vargas, Mustafa Morsy, Lihini Aluwihare, Pieter C. Dorrestein, Sebastian Böcker: Database-independent molecular formula annotation using Gibbs sampling through ZODIAC. In: Nature Machine Intelligence. 2. Jahrgang, Nr. 10, 13. Oktober 2020, S. 629–641, doi:10.1038/s42256-020-00234-6 (englisch).
  14. Kai Dührkop, Markus Fleischauer, Marcus Ludwig, Alexander A. Aksenov, Alexey V. Melnik, Marvin Meusel, Pieter C. Dorrestein, Juho Rousu, Sebastian Böcker: SIRIUS 4: a rapid tool for turning tandem mass spectra into metabolite structure information. In: Nature Methods. 16. Jahrgang, Nr. 4, April 2019, S. 299–302, doi:10.1038/s41592-019-0344-8, PMID 30886413 (aalto.fi).
  15. a b c d Kai Dührkop, Louis-Félix Nothias, Markus Fleischauer, Raphael Reher, Marcus Ludwig, Martin A. Hoffmann, Daniel Petras, William H. Gerwick, Juho Rousu, Pieter C. Dorrestein, Sebastian Böcker: Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra. In: Nature Biotechnology. 39. Jahrgang, Nr. 4, April 2021, S. 462–471, doi:10.1038/s41587-020-0740-8, PMID 33230292.
  16. a b c d e Martin A. Hoffmann, Louis-Félix Nothias, Marcus Ludwig, Markus Fleischauer, Emily C. Gentry, Michael Witting, Pieter C. Dorrestein, Kai Dührkop, Sebastian Böcker: High-confidence structural annotation of metabolites absent from spectral libraries. In: Nature Biotechnology. 40. Jahrgang, Nr. 3, März 2022, S. 411–421, doi:10.1038/s41587-021-01045-9, PMID 34650271, PMC 8926923 (freier Volltext).
  17. a b c d Marcus Ludwig, Markus Fleischauer, Kai Dührkop, Martin A. Hoffmann, Sebastian Böcker: Computational Methods and Data Analysis for Metabolomics (= Methods in Molecular Biology. Band 2104). 2020, ISBN 978-1-07-160238-6, De Novo Molecular Formula Annotation and Structure Elucidation Using SIRIUS 4, S. 185–207, doi:10.1007/978-1-0716-0239-3_11.
  18. Hannes L Röst, Timo Sachsenberg, Stephan Aiche, Chris Bielow, Hendrik Weisser, Fabian Aicheler, Sandro Andreotti, Hans-Christian Ehrlich, Petra Gutenbrunner, Erhan Kenar, Xiao Liang, Sven Nahnsen, Lars Nilse, Julianus Pfeuffer, George Rosenberger, Marc Rurik, Uwe Schmitt, Johannes Veit, Mathias Walzer, David Wojnar, Witold E Wolski, Oliver Schilling, Jyoti S Choudhary, Lars Malmström, Ruedi Aebersold, Knut Reinert, Oliver Kohlbacher: OpenMS: a flexible open-source software platform for mass spectrometry data analysis. In: Nature Methods. 13. Jahrgang, Nr. 9, September 2016, S. 741–748, doi:10.1038/nmeth.3959, PMID 27575624 (mdc-berlin.de [PDF]).
  19. Robin Schmid, Steffen Heuckeroth, Ansgar Korf, Aleksandr Smirnov, Owen Myers, Thomas S. Dyrlund, Roman Bushuiev, Kevin J. Murray, Nils Hoffmann, Miaoshan Lu, Abinesh Sarvepalli, Zheng Zhang, Markus Fleischauer, Kai Dührkop, Mark Wesner, Shawn J. Hoogstra, Edward Rudt, Olena Mokshyna, Corinna Brungs, Kirill Ponomarov, Lana Mutabdžija, Tito Damiani, Chris J. Pudney, Mark Earll, Patrick O. Helmer, Timothy R. Fallon, Tobias Schulze, Albert Rivas-Ubach, Aivett Bilbao, Henning Richter, et all: Integrative analysis of multimodal mass spectrometry data in MZmine 3. In: Nature Biotechnology. 41. Jahrgang, Nr. 4, April 2023, S. 447–449, doi:10.1038/s41587-023-01690-2, PMID 36859716, PMC 10496610 (freier Volltext).
  20. Justin Klekota, Frederick P. Roth: Chemical substructures that enrich for biological activity. In: Bioinformatics. 24. Jahrgang, Nr. 21, 1. November 2008, S. 2518–2525, doi:10.1093/bioinformatics/btn479, PMID 18784118, PMC 2732283 (freier Volltext).
  21. David Rogers, Mathew Hahn: Extended-Connectivity Fingerprints. In: Journal of Chemical Information and Modeling. 50. Jahrgang, Nr. 5, 24. Mai 2010, S. 742–754, doi:10.1021/ci100050t, PMID 20426451.
  22. Kai Dührkop: Deep kernel learning improves molecular fingerprint prediction from tandem mass spectra. In: Bioinformatics. 38. Jahrgang, Supplement_1, 24. Juni 2022, S. i342–i349, doi:10.1093/bioinformatics/btac260, PMID 35758813, PMC 9235503 (freier Volltext).
  23. Marcus Ludwig, Kai Dührkop, Sebastian Böcker: Bayesian networks for mass spectrometric metabolite identification via molecular fingerprints. In: Bioinformatics. 34. Jahrgang, Nr. 13, 1. Juli 2018, S. i333–i340, doi:10.1093/bioinformatics/bty245, PMID 29949965, PMC 6022630 (freier Volltext).
  24. Uri Keich, William Stafford Noble: On the Importance of Well-Calibrated Scores for Identifying Shotgun Proteomics Spectra. In: Journal of Proteome Research. 14. Jahrgang, Nr. 2, 6. Februar 2015, S. 1147–1160, doi:10.1021/pr5010983, PMID 25482958, PMC 4324453 (freier Volltext).
  25. John C. Platt: Probabilities for SV Machines (= Advances in Large-Margin Classifiers). 2000, ISBN 978-0-262-28397-7, S. 61–74, doi:10.7551/mitpress/1113.003.0008 (englisch).
  26. Yann LeCun, Yoshua Bengio, Geoffrey Hinton: Deep learning. In: Nature. 521. Jahrgang, Nr. 7553, 28. Mai 2015, S. 436–444, doi:10.1038/nature14539, PMID 26017442, bibcode:2015Natur.521..436L.
  27. Yannick Djoumbou Feunang, Roman Eisner, Craig Knox, Leonid Chepelev, Janna Hastings, Gareth Owen, Eoin Fahy, Christoph Steinbeck, Shankar Subramanian, Evan Bolton, Russell Greiner, David S. Wishart: ClassyFire: automated chemical classification with a comprehensive, computable taxonomy. In: Journal of Cheminformatics. 8. Jahrgang, Nr. 1, Dezember 2016, S. 61, doi:10.1186/s13321-016-0174-y, PMID 27867422, PMC 5096306 (freier Volltext).
  28. Ricardo R. da Silva, Pieter C. Dorrestein, Robert A. Quinn: Illuminating the dark matter in metabolomics. In: Proceedings of the National Academy of Sciences. 112. Jahrgang, Nr. 41, 13. Oktober 2015, S. 12549–12550, doi:10.1073/pnas.1516878112, PMID 26430243, PMC 4611607 (freier Volltext).
  29. Tobias Hulleman, Viktoriia Turkina, Jake W. O’Brien, Aleksandra Chojnacka, Kevin V. Thomas, Saer Samanipour: Critical Assessment of the Chemical Space Covered by LC–HRMS Non-Targeted Analysis. In: Environmental Science & Technology. 57. Jahrgang, Nr. 38, 26. September 2023, S. 14101–14112, doi:10.1021/acs.est.3c03606, PMID 37704971, PMC 10537454 (freier Volltext), bibcode:2023EnST...5714101H.
  30. Filip Ottosson, Francesco Russo, Anna Abrahamsson, Nadia MacSween, Julie Courraud, Zaki Krag Nielsen, David M. Hougaard, Arieh S. Cohen, Madeleine Ernst: Effects of Long-Term Storage on the Biobanked Neonatal Dried Blood Spot Metabolome. In: Journal of the American Society for Mass Spectrometry. 34. Jahrgang, Nr. 4, 5. April 2023, S. 685–694, doi:10.1021/jasms.2c00358, PMID 36913955, PMC 10080689 (freier Volltext).
  31. Alexandre Le Loarer, Rémy Marcellin-Gros, Laurent Dufossé, Jérôme Bignon, Michel Frédérich, Allison Ledoux, Emerson Ferreira Queiroz, Jean-Luc Wolfender, Anne Gauvin-Bialecki, Mireille Fouillaud: Prioritization of Microorganisms Isolated from the Indian Ocean Sponge Scopalina hapalia Based on Metabolomic Diversity and Biological Activity for the Discovery of Natural Products. In: Microorganisms. 11. Jahrgang, Nr. 3, 8. März 2023, S. 697, doi:10.3390/microorganisms11030697, PMID 36985270, PMC 10057949 (freier Volltext).
  32. Ronja Weber, Bettina Streckenbach, Lara Welti, Demet Inci, Malcolm Kohler, Nathan Perkins, Renato Zenobi, Srdjan Micic, Alexander Moeller: Online breath analysis with SESI/HRMS for metabolic signatures in children with allergic asthma. In: Frontiers in Molecular Biosciences. 10. Jahrgang, 31. März 2023, doi:10.3389/fmolb.2023.1154536, PMID 37065443, PMC 10102578 (freier Volltext).
  33. Xianjiang Li, Mengling Tu, Bingxin Yang, Wen Ma, Hongmei Li: Structurally related impurity profiling of thiacloprid by orbitrap and de novo identification tool. In: Microchemical Journal. 193. Jahrgang, Oktober 2023, S. 109123, doi:10.1016/j.microc.2023.109123.
  34. S Uzi-Gavrilov, Z Tik, O Sabti, MM Meijler: Chemical Modification of a Bacterial Siderophore by a Competitor in Dual-Species Biofilms. In: Angewandte Chemie (International ed. In English). 62. Jahrgang, Nr. 29, 17. Juli 2023, S. e202300585, doi:10.1002/anie.202300585, PMID 37211536.
  35. Min Li, Junhong Mao, Isabel Diaz, Evguenia Kopylova, Alexey V. Melnik, Alexander A. Aksenov, Craig D. Tipton, Nadia Soliman, Andrea M. Morgan, Thomas Boyd: Multi-omic approach to decipher the impact of skincare products with pre/postbiotics on skin microbiome and metabolome. In: Frontiers in Medicine. 10. Jahrgang, 18. Juli 2023, doi:10.3389/fmed.2023.1165980, PMID 37534320, PMC 10392128 (freier Volltext).
  36. Sebastian Böcker: Algorithmic Mass Spectrometry. Version 0.8.4 Auflage. 29. April 2022 (uni-jena.de [PDF; abgerufen am 12. Januar 2024]).
  37. Franziska Hufsky, Sebastian Böcker: Mining molecular structure databases: Identification of small molecules based on fragmentation mass spectrometry data. In: Mass Spectrometry Reviews. 36. Jahrgang, Nr. 5, September 2017, S. 624–633, doi:10.1002/mas.21489, PMID 26763615, bibcode:2017MSRv...36..624H.
  38. Critical Assessment of Small Molecule Identification. Abgerufen am 12. Januar 2023.
  39. Emma Schymanski, Steffen Neumann: The Critical Assessment of Small Molecule Identification (CASMI): Challenges and Solutions. In: Metabolites. 3. Jahrgang, Nr. 3, 25. Juni 2013, S. 517–538, doi:10.3390/metabo3030517, PMID 24958137, PMC 3901296 (freier Volltext).
  40. Emma L. Schymanski, Christoph Ruttkies, Martin Krauss, Céline Brouard, Tobias Kind, Kai Dührkop, Felicity Allen, Arpana Vaniya, Dries Verdegem, Sebastian Böcker, Juho Rousu, Huibin Shen, Hiroshi Tsugawa, Tanvir Sajed, Oliver Fiehn, Bart Ghesquière, Steffen Neumann: Critical Assessment of Small Molecule Identification 2016: automated methods. In: Journal of Cheminformatics. 9. Jahrgang, Nr. 1, Dezember 2017, S. 22, doi:10.1186/s13321-017-0207-1, PMID 29086042, PMC 5368104 (freier Volltext).
  41. CASMI 2016 Results. Abgerufen am 12. Januar 2023.
  42. CASMI 2017 Results. Abgerufen am 12. Januar 2023.
  43. CASMI 2022 Results. Abgerufen am 12. Januar 2023.
  44. Thüringer Forschungspreis 2022. In: YouTube. Thüringer Wirtschafts- & Wissenschaftsministerium, abgerufen am 12. Januar 2023.
  45. Ute Schönfelder: Artificial Intelligence identifies small molecules: Bioinformatics team awarded 2022 Thuringian Research Prize in the category Applied Research In: Friedrich Schiller University Jena, 6. April 2022. Abgerufen am 12. Januar 2023 
  46. Arunima Singh: Tools for metabolomics. In: Nature Methods. 17. Jahrgang, Nr. 1, Januar 2020, S. 24, doi:10.1038/s41592-019-0710-6, PMID 31907484.
  47. Felicity Allen, Allison Pon, Michael Wilson, Russ Greiner, David Wishart: CFM-ID: a web server for annotation, spectrum prediction and metabolite identification from tandem mass spectra. In: Nucleic Acids Research. 42. Jahrgang, W1, 1. Juli 2014, S. W94–W99, doi:10.1093/nar/gku436, PMID 24895432, PMC 4086103 (freier Volltext).
  48. Fei Wang, Dana Allen, Siyang Tian, Eponine Oler, Vasuk Gautam, Russell Greiner, Thomas O. Metz, David S. Wishart: CFM-ID 4.0 - a web server for accurate MS-based metabolite identification. In: Nucleic Acids Research. 50. Jahrgang, W1, 5. Juli 2022, S. W165–W174, doi:10.1093/nar/gkac383, PMID 35610037, PMC 9252813 (freier Volltext).
  49. Samuel Goldman, Janet Li, Connor W. Coley: Generating Molecular Fragmentation Graphs with Autoregressive Neural Networks. 2023, doi:10.48550/arXiv.2304.13136.
  50. Christoph Ruttkies, Emma L. Schymanski, Sebastian Wolf, Juliane Hollender, Steffen Neumann: MetFrag relaunched: incorporating strategies beyond in silico fragmentation. In: Journal of Cheminformatics. 8. Jahrgang, Nr. 1, Dezember 2016, S. 3, doi:10.1186/s13321-016-0115-9, PMID 26834843, PMC 4732001 (freier Volltext).
  51. Hiroshi Tsugawa, Tobias Kind, Ryo Nakabayashi, Daichi Yukihira, Wataru Tanaka, Tomas Cajka, Kazuki Saito, Oliver Fiehn, Masanori Arita: Hydrogen Rearrangement Rules: Computational MS/MS Fragmentation and Structure Elucidation Using MS-FINDER Software. In: Analytical Chemistry. 88. Jahrgang, Nr. 16, 16. August 2016, S. 7946–7958, doi:10.1021/acs.analchem.6b00770, PMID 27419259, PMC 7063832 (freier Volltext).
  52. Zijuan Lai, Hiroshi Tsugawa, Gert Wohlgemuth, Sajjan Mehta, Matthew Mueller, Yuxuan Zheng, Atsushi Ogiwara, John Meissen, Megan Showalter, Kohei Takeuchi, Tobias Kind, Peter Beal, Masanori Arita, Oliver Fiehn: Identifying metabolites by integrating metabolome databases with mass spectrometry cheminformatics. In: Nature Methods. 15. Jahrgang, Nr. 1, Januar 2018, S. 53–56, doi:10.1038/nmeth.4512, PMID 29176591, PMC 6358022 (freier Volltext).