Chemische Datenbank

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Eine chemische Datenbank ist eine Datenbank zur Speicherung von Informationen über chemische Verbindungen. Dabei kann es sich um Strukturinformationen (Kristall- oder Molekülstruktur), physikalische und thermodynamische Eigenschaften, Spektren, Reaktionen und Synthesen handeln.

Arten von chemischen Datenbanken[Bearbeiten]

Chemische Strukturen[Bearbeiten]

Chemische Strukturen werden in der Regel als Skelettformeln dargestellt. Mit üblichen Computerprogrammen werden sie als zweidimensionale Pixel- oder Vektorgrafiken mit Buchstaben für Atome und Strichen für Bindungen gespeichert. Diese Dateitypen sind leicht anzuzeigen (beziehungsweise zu rendern) und ideal für das Verständnis durch einen Chemiker geeignet. Für den computergestützten Einsatz sind sie (bis auf ihre leichte Anzeigbarkeit) gänzlich ungeeignet, da sie sowohl speicherineffizient als auch praktisch nicht durchsuchbar sind.

In chemischen Datenbanken erfolgt die Darstellung kleiner Moleküle (oder Liganden im Wirkstoffdesign-Prozess) in der Regel in Form von Listen – einer Liste mit den Atomen und einer mit den Bindungen zwischen den Atomen. Große Moleküle weisen dagegen häufig nur wenige Strukturgrundbausteine (Monomere) auf. In einer kompakteren Darstellungsform kann für solche Moleküle die Sequenz dieser Monomere angegeben werden, etwa für Proteine die Aminosäure-Sequenz.

Große Datenbanken für chemische Strukturen werden aufgebaut, um die Speicherung und Abruf von Informationen über Millionen von Molekülen und ihren physikalischen Eigenschaften oder ihrer Verbindungen zu handhaben.

Literaturdatenbank[Bearbeiten]

Chemische Literaturdatenbanken verbinden Strukturen und andere chemische Informationen mit relevanten Referenzen wie wissenschaftlichen Arbeiten oder Patenten. Beispiele sind STN, SciFinder und Reaxys.

Kristallographische Datenbank[Bearbeiten]

Kristallographische Datenbanken verwalten Röntgenkristallstrukturdaten. Typische Beispiele sind die Protein Data Bank und die Cambridge Structural Database.

NMR-Spektren-Datenbank[Bearbeiten]

NMR-Spektren-Datenbanken korrelieren chemische Strukturen mit NMR-Daten. Reine NMR-Datenbanken sind selten, die meisten Datenbanken kombinieren mehrere spektroskopische Methoden (etwa auch FTIR und MS).

Datenbanken von Reaktionen[Bearbeiten]

Reaktionsdatenbanken enthalten Informationen über Produkte, Edukte und Mechanismen von Reaktionen. Während chemische Datenbanken nur langlebige Verbindungen erfassen, speichern Reaktionsdatenbanken auch instabile Intermediate.

Thermophysikalische Datenbank[Bearbeiten]

Thermophysikalische Datenbanken speichern Informationen über

Chemische Strukturdarstellung[Bearbeiten]

Es gibt zwei grundlegende Techniken für die Darstellung chemischer Strukturen in digitalen Datenbanken.

Eine Darstellungsform ist die graphentheoretische, wobei Atomen als Knoten und Bindungen als Kanten dargestellt werden. Hierzu werden Verbindungstabellen, Adjazenzmatrizen und andere Formen von Listen genutzt. Beispiele sind MDL Molfile, PDB und CML.

Die andere ist eine Notation als lineare Zeichenfolge auf Basis der Tiefen- oder Breitensuche. Beispiele sind SMILES / SMARTS, SLN, WLN und InChI.

Diese Ansätze wurden gegenüber den grundlegenden graphentheoretischen Konzepten verfeinert, um besondere Aspekte chemischer Verbindungen darstellen zu können, darunter stereochemische Unterschiede und besondere Bindungsarten, die vor allem in metallorganischen Verbindungen vorkommen. Hauptvorteile der computerlesbaren Darstellung sind der verringerte Speicherplatzbedarf sowie die flexible Durchsuchbarkeit.

Suche[Bearbeiten]

Substruktursuche[Bearbeiten]

Datenbanken können nach Grund- und Teilstrukturen, Bestandteilen von IUPAC-Namen einschränkenden Eigenschaften durchsucht werden.

Insbesondere die Möglichkeit, nach einer Substruktur zu suchen, grenzt chemische Datenbanken von Allzweckdatenbanken ab. Substruktursuchen werden in der internen graphentheoretischen Darstellungsform als Suchen nach Subgraphisomorphismen (Monomorphismus) durchgeführt. Die Suchalgorithmen weisen zeitliche Komplexitäten von O (N3) oder O (N4) auf (N ist die Anzahl der beteiligten Atome) und sind damit im Vergleich zu anderen Suchalgorithmen sehr rechenintensiv.

Die Suche der Komponenten heißt Atom-für-Atom-Suche (ABAS). In dieser Suche werden Atome und Bindungen mit dem Zielmolekül verglichen. Die ABAS nutzt in der Regel den Ullman-Algorithmus[1] oder Variationen davon (etwa SMSD[2]). Beschleunigungen der Suche werden durch Aufteilungen erreicht. Dazu wird ein Index angelegt, indem vorberechnete Daten gespeichert werden, die dann bei Suchanfragen genutzt werden können. Typischerweise sind dies Bitstrings, die die An- oder Abwesenheit bestimmter Molekülfragmente darstellen. Bei der eigentlichen Suche werden dann nur Verbindungen betrachtet, die über die vorgerechneten Fragmente verfügen, die restlichen müssen bei der Suche gar nicht berücksichtigt werden. Diese Eliminierung wird als Screening bezeichnet. Die Bit-Strings, die für diese Anwendungen verwendet werden, werden Struktur-Schlüssel genannt. Die Leistung solcher Schlüssel hängt von der Wahl der Fragmente für die Konstruktion der Schlüssel und der Wahrscheinlichkeit ihres Auftretens in den einzelnen Molekülen ab. Eine andere Art von Schlüssel nutzt Hash-Codes, um Fragmente abzuleiten. Diese werden als „Fingerabdrücke“ bezeichnet (ein Begriff, der manchmal auch für Struktur-Schlüssel verwendet wird). Die Größe des Speichers, der benötigt wird, um Struktur-Schlüssel und Fingerabdrücke zu speichern, kann durch „Faltung“ reduziert werden. Hierbei werden Teile des Schlüssels mit bitweisen Operationen kombiniert, wodurch sich die Gesamtlänge verkürzt.[3]

3D-Konformation[Bearbeiten]

Die Suche nach passenden 3D-Konformationen von Molekülen unter Angabe räumlicher Einschränkungen ist ein Merkmal, das besonders in der Wirkstoffentwicklung wichtig ist. Suchen dieser Art sind kompliziert; sie benötigen in der Regel viel Rechenzeit und liefern dabei nur ungefähre Ergebnisse. Suchalgorithmen basieren beispielsweise auf BCUTs (Eigenwerte von Adjazenzmatrizen), Darstellung als spezielle Funktionen, Trägheitsmomenten (beziehungsweise Trägheitstensoren), Raytracing-Histogrammen, Abstandshistogrammen und Multipol-Formen.[4][5][6][7][8]

Deskriptoren[Bearbeiten]

Alle Eigenschaften von Molekülen über ihre Struktur hinaus können entweder in physikalisch-chemischen oder pharmakologischen Eigenschaften, auch Deskriptoren genannt, aufgeteilt werden. Hinzu kommt, dass es verschiedene künstliche und mehr oder weniger standardisierte Benennung für Moleküle gibt, die mit mehr oder weniger zweideutigen Namen und Synonyme belegt sind, und auch verwaltet werden müssen. Der IUPAC-Name ist in der Regel eine gute Wahl für die Darstellung einer Molekül Struktur, in dem sowohl für Menschen lesbaren als auch für Computer eindeutigen Zeichenfolge. Diese sind für größere Moleküle unhandlich. Eine schlechte Wahl für die Definition eines Datenbank-Schlüssels ist der Trivialname sowie Homonyme und Synonyme. Während physikalisch-chemische Deskriptoren wie molare Masse, (Teil-)Ladung, Löslichkeit, etc. meist berechnet werden und direkt auf der Struktur des Molekül basieren, können pharmakologische Deskriptoren nur indirekt mit einbezogen werden (multivariate Statistik oder experimentelle (Screening, Bioassay) Ergebnisse). All diese Deskriptoren können für die Moleküldarstellung nicht verwendet werden.

Chemische Ähnlichkeit[Bearbeiten]

Chemische Ähnlichkeit (oder molekulare Ähnlichkeit) bezieht sich auf die Ähnlichkeit der chemischen Elemente, Moleküle oder chemische Verbindungen, in Bezug auf strukturelle oder funktionelle Eigenschaften. Es gibt keine einheitliche Definition der molekularen Ähnlichkeit, aber das Konzept kann je nach Anwendung wie folgt definiert werden und wird oft als das Inverse eines Entfernungsmaßes im Deskriptor-Raum beschrieben. Zwei Moleküle könnten als eher ähnlich bezeichnet werden, wenn z.B. ihre Differenz bei den Molmassen niedriger ist als im Vergleich zu anderen Molekülen. Eine Vielzahl von anderen Metriken könnten zu einem multivarianten Abstandsmaß führen. Entfernungsmaße werden oft in eingestuften euklidischen oder nichteuklidischen Metriken klassifiziert, je nachdem, ob die Dreiecksungleichung bestand hat. Maximale Gemeinsame Subgraph (MCS) basierte Substruktursuche[9] (Ähnlichkeit oder Distanzmaß) ist auch sehr häufig. MCS wird auch für das Screening von Molekülketten als gemeinsame Teilgraphen verwendet.[10]

In den chemischen Datenbanken werden Gruppen von „ähnlichen“ Molekülen auf Ähnlichkeiten hin geclustert. Sowohl hierarchische und nicht-hierarchische Clustering-Ansätze können zu chemischen Einheiten mit mehreren Attributen angewendet werden. Diese Attribute oder molekularen Eigenschaften können entweder empirisch oder rechnerisch abgeleitet, bestimmt werden. Eines der beliebtesten Clustering-Ansätze ist der Jarvis-Patrick Algorithmus.[11]

In pharmakologisch ausgerichteten chemischen Repositories wird die Ähnlichkeit in der Regel in Bezug auf die biologische Wirkung der Verbindungen definiert (ADME / tox), die wiederum können halbautomatisch aus ähnlichen Kombinationen von physikalisch-chemischen Deskriptoren ermittelt werden (QSAR-Methoden).

Registrierung[Bearbeiten]

Datenbanken für die Speicherung chemischer Verbindungen werden als Registrier-Systeme bezeichnet. Diese werden häufig für die chemische Indexierung von (Patent- und Industrie-Datenbanken) verwendet. Hierzu müssen die erfassten Informationen eindeutig gekennzeichnet werden. Registrierungssysteme bauen in der Regel auf die Einzigartigkeit der Chemikalie in der Datenbank, die durch die Verwendung von eindeutigen Darstellungen vertreten werden. Dies gelingt durch die Erzeugung von einzigartigen / „kanonischen“ Zeichenketten als Repräsentant der Chemikalie wie „kanonischen SMILES“. Einige Registrier-Systeme, wie das CAS-System, nutzen um einzigartige Codes zu erzeugen, Hash-Code-Algorithmen um dasselbe Ziel zu erreichen.

Ein wesentlicher Unterschied zwischen einer Registrierung und einer einfachen chemischen Datenbank ist die Fähigkeit, genau darzustellen, was bekannt, unbekannt oder teilweise bekannt ist. Zum Beispiel könnte eine chemische Datenbank ein Molekül mit spezifizierter Stereochemie speichern, während ein chemisches Registrier-System den Registrar auffordert anzugeben, ob die Stereo-Konfiguration unbekannt, ein Racemat oder eine bestimmte (bekannte) Mischung ist.

Registrier-Systeme können auch Informationen aufbereiten, um die Registrierung von Molekülen zu vermeiden, die nur triviale chemische Unterschiede wie Halogen-Ionen aufweisen.

Werkzeuge[Bearbeiten]

Die rechnerischen Darstellungen sind in der Regel grafische Darstellungen der Daten, entsprechend der Eingaben des Registrars. Die Dateneingabe wird auch durch die Verwendung von chemischen Struktureditoren vereinfacht. Diese Editoren wandeln die internen Daten in grafischen Darstellungen der Moleküle oder Reaktionen um. Es gibt auch zahlreiche Algorithmen für die Umwandlung von verschiedenen Formaten der Repräsentation. Ein Open-Source-Programm für die Konvertierung ist Openbabel.

Diese Suche und Konvertierungsalgorithmen sind entweder innerhalb der Datenbank-System selbst implementiert oder als externe Komponente (Cartridge), an Standard-Relationalen Datenbanksystemen angepasst, implementiert und nachträglich installiert. Sowohl Oracle als auch PostgreSQL-basierte Systeme nutzen Cartridge-Technologie, die eigene Benutzer-Datentypen (z.B. CTAB als Struktur-Datentyp) erlauben. Diese externen Komponente erlauben es dem Benutzer, SQL-Abfragen mit chemischen Suchkriterien zu formulieren, z. B. eine Anfrage für Aufzeichnungen mit einem Phenylring in ihrer Struktur als einem Smiles-Zeichenkette in einer SMILESCOL Spalte dargestellt suchen könnte.

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Algorithmen für die Umwandlung von IUPAC-Namen in strukturieren Darstellungen und umgekehrt, sind auch für die verwendete Extraktion struktureller Informationen aus dem Text möglich. Es gibt jedoch Schwierigkeiten wegen der Existenz mehrerer IUPAC-Dialekte. Als einzigartiger Standard hat sich hier InChI etabliert.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]

Datenbanken mit chemischen Strukturen[Bearbeiten]

  • mcule database, kostenlose Datenbank für virtuelles Screening und Bestellung
  • Synthesis references database Synthese-Referenz-Datenbank
  • Aurora Fine Chemicals Aurora reinst Chemicalien
  • eChemPortal, ein globales Portal zu Informationen über chemische Stoffe
  • NLM ChemIDplus, biomedizinische Chemie, suchbar nach Name und Struktur
  • Organic synthesis database Organische-Synthese-Datenbank
  • ZINC, eine freie Datenbank für das virtuelle Screening
  • ChemSpider, Freier Zugang zu > 20 Millionen chemischen Strukturen, Stoffdaten und systematischen Identifikatoren
  • MMsINC, eine kostenloses Web-orientierte Datenbank kommerziell erhältlicher Verbindungen für virtuelles Screening und Chemoinformatik Anwendungen
  • ChemIndustry eine freie Datenbank abgeleitet PubChem-Daten
  • OpenCDLig eine kostenlose Web-Anwendung für Wirt / Gast-Komplexe
  • NCI/CADD Chemical Structure Lookup Service, Verzeichnis in welchen Datenbanken eine Struktur auftritt (derzeit > 70 Millionen indizierten chemischen Strukturen)
  • ChEBI, freien chemischen Substanz Registrierung für biologisch relevante Moleküle
  • Chemonaut Chemonaut ist die weltweit umfassendste Quelle für physikalisch verfügbaren kommerziellen Verbindungen.
  • Synthese-Referenzen-Datenbank
  • Jochem database, chemisches Wörterbuch
  • SMILES Chemical Reaction Database, die SMILES-Datenbank bietet zwei Millionen begutachtete chemische Strukturen als SMILES-Strings gespeichert. (auf archive.org)
  • chemicalize.org Kostenlose, webbasierte Datenbank von ChemAxon bietet Ähnlichkeit, Substruktur oder exakte Struktur, sucht mit Web und Dokument (pdf, Microsoft-Dokumente usw.) Parsing-Funktionen.
  • eChemportal

Datenbanken der chemischen Namen[Bearbeiten]

  • Chemical Substances Database, eine kostenlose Datenbank mit chemischen Namen, vor allem nützlich für die Übersetzung der Namen zwischen Japanisch und Englisch. Mehr als 37.000 Einträge.
  • ChemSub Online, kostenloses Web-Portal und Informationssystem über chemische Stoffe, Stoffnamen in 8 Sprachen.
  • EuroChem Online-Datenbank, die freie Chemikalien-Datenbank.

Anmerkungen und Literatur[Bearbeiten]

  1. Julian R. Ullmann: An algorithm for subgraph isomorphism. In: Journal of the ACM. 23, Nr. 1, 1976, S. 31–42. doi:10.1145/321921.321925.
  2. S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) toolkit. In: Journal of Cheminformatics. 1, 2000. doi:10.1186/1758-2946-1-12.
  3. Maxwell D. Cummings, Alan C. Maxwell, Renee L. DesJarlais: Processing of Small Molecule Databases for Automated Docking. In: Medicinal Chemistry. 3, Nr. 1, 2007, S. 107–113.
  4. R.S. Pearlman, K.M. Smith: Metric Validation and the Receptor-Relevant Subspace Concept. In: J. Chem. Inf. Comput. Sci.. 39, 1999, S. 28–35.
  5. Hung Lin Jr, Timothy Clark: An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. In: JCIM. 45, Nr. 4, 2005, S. 1010–1016.
  6. P. J. Meek, Z. Liu, L. Tian, C. J Wang, W. J Welsh, R. J Zauhar: Shape Signatures: speeding up computer aided drug discovery. In: DDT 2006. 19-20, 2006, S. 895–904.
  7. J. A Grant, M. A. Gallardo, B. T. Pickup: A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. In: JCIC. 17, Nr. 14, 1996, S. 1653–1666.
  8. P. J. Ballester, W. G. Richards: Ultrafast shape recognition for similarity search in molecular databases. In: Proceedings of the Royal Society A. 463, 2007, S. 1307–1321.
  9. S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12
  10. S. Asad Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) Toolkit. In: Journal of Cheminformatics. 1, 2009. doi:10.1186/1758-2946-1-12.
  11. Darko Butina: Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. In: Chem. Inf. Comput. Sci.. 39, 1999, S. 747–750.