Benutzer:Robin.goerlach/Entwürfe/Chemische Datenbanken

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Eine chemische Datenbank ist eine Datenbank zur Speicherung chemischer Information. Diese Informationen sind chemische- oder Kristallstrukturen, physikalische Eigenschaften von Molekülen, Spektren, Reaktionen und Synthesen und thermodynamischen Daten.

Arten von chemischen Datenbanken[Bearbeiten | Quelltext bearbeiten]

Chemische Strukturen[Bearbeiten | Quelltext bearbeiten]

Chemische Strukturen sind traditionell Liniengrafiken, die chemischen Bindungen zwischen Atomen darstellen (2D Strukturformeln ). Diese sind ideal für Chemiker zur visuelle Darstellungen, für den Computer gestützten Einsatz sind diese gänzlich ungeeignet (Speicherung und Suche). Kleine Moleküle (auch als Liganden in Drug Design-Prozess), werden in der Regel in Listen von Atomen und deren Verbindungen dargestellt. Große Moleküle wie Proteine ​​werden jedoch kompakter dargestellt unter Verwendung der Sequenzen der Aminosäure-Bausteine. Große Datenbanken für chemische Strukturen werden aufgebaut, um die Speicherung und Abruf von Informationen über Millionen von Molekülen und ihren physikalischen Eigenschaften oder ihrer Verbindungen zu handhaben.

Literaturdatenbank[Bearbeiten | Quelltext bearbeiten]

Chemische Literaturdatenbanken verbinden Strukturen oder andere chemische Informationen zu relevanten Referenzen wie wissenschaftliche Arbeiten oder Patente. Diese Datenbank sind z.B. STN, Scifinder und Reaxys.

Kristallographischen Datenbank[Bearbeiten | Quelltext bearbeiten]

Kristallographische Datenbanken verwaltet Röntgen Kristallstruktur Daten. Typische Beispiele sind Protein Data Bank und Cambridge Structural Database.

NMR-Spektren-Datenbank[Bearbeiten | Quelltext bearbeiten]

NMR-Spektren Datenbanken korrelieren chemischen Struktur mit NMR-Daten. Diese Datenbanken enthalten oft andere Charakterisierung Daten wie FTIR und Massenspektrometrie.

Reaktionen Datenbank[Bearbeiten | Quelltext bearbeiten]

Die meisten chemischen Datenbanken speichern Informationen über stabile Moleküle aber in Datenbanken für Reaktionen auch Zwischenprodukte und vorübergehend erstellt instabile Moleküle gespeichert werden. Reaction Datenbanken enthalten Informationen über Produkte, Edukte und Reaktionsmechanismen.

Thermophysikalische Datenbank[Bearbeiten | Quelltext bearbeiten]

Thermophysikalische Daten sind Informationen über

Chemische Struktur Darstellung[Bearbeiten | Quelltext bearbeiten]

Es gibt zwei grundlegende Techniken für die Darstellung von chemischen Strukturen in digitalen Datenbanken Als Verbindung Tabellen / Adjazenzmatrizen / Listen mit zusätzlichen Informationen über Bindung (Kanten) und Atom Attribute (Knoten), wie z. B.: MDL Molfile , PDB, CML Als lineare Zeichenfolge Notation auf Basis der Tiefensuche oder Breitensuche , wie zB: SMILES / SMARTS, SLN , WLN , InChI

Diese Ansätze wurden verfeinert, um Darstellung ermöglichen stereochemische Unterschiede und Gebühren sowie besondere Arten von Bindung, wie sie in gesehen metallorganischen Verbindungen. Der Hauptvorteil eines Computers Darstellung ist die Möglichkeit für erhöhte Speicherkapazität und schnelle, flexible Suche.

Suche[Bearbeiten | Quelltext bearbeiten]

Substruktur Suche[Bearbeiten | Quelltext bearbeiten]

Chemiker können Datenbanken unter Verwendung von Strukturteilen durchsuchen, Teile ihrer IUPAC -Namen sowie auf Einschränkungen für Eigenschaften. Chemische Datenbanken unterscheiden sind besonders von anderen Allzweck-Datenbanken in ihrer Unterstützung von Sub-Struktur suchen. Diese Art der Suche ist durch die Suche nach Subgraphisomorphismus (manchmal auch als Monomorphismus bezeichnet) erreicht und ist eine Anwendung der Graphentheorie. Die Algorithmen für die Suche sind rechenintensiv oft von der zeitliche Komplexität O (N 3) oder O (N 4) (wobei n die Anzahl der Atome beteiligt ist). Die intensive Suche der Komponente heißt Atom für Atom-Suche (ABAS), in dieser Suche Atome und Bindungen mit dem Zielmolekül verglichen. ABAS suchen in der Regel nutzt dem Ullman-Algorithmus [1] oder Variationen davon (dh SMSD [2] ). Beschleunigungen der Suche werden durch Aufteilung erreicht, das heißt, einen Teil der Zeit für die Suchanfrage wird durch die Verwendung vorberechneten gespeichert Informationen (Domain Index) gespart. Diese Vorberechnung sind typischerweise Bitstrings diese stellt die Anwesenheit oder Abwesenheit von molekularem Fragmente dar. Mit Blick auf die Fragmente in einem Such-Struktur ist es möglich, die Notwendigkeit für ABAS Vergleich mit Zielmoleküle, die nicht über die Fragmente, die in der Such-Struktur sind zu beseitigen. Diese Eliminierung wird als Screening (nicht mit den Screening-Verfahren in Wirkstoffentwicklung verwechselt werden). Die Bit-Strings die für diese Anwendungen verwendet werden auch als strukturell-Schlüssel bezeichnet. Die Leistung solcher Schlüssel hängt von der Wahl der Fragmente für die Konstruktion der Schlüssel und die Wahrscheinlichkeit ihres Auftretens in der Moleküle Datenbank ab. Eine andere Art von Schlüssel nutzt Hash-Codes um Fragmenten abgeleitet. Diese werden als "Fingerabdrücke" obwohl der Begriff wird manchmal synonym mit strukturell-Schlüssel verwendet. Die Größe des Speichers der benötigt wird, um diese strukturellen-Schlüssel und Fingerabdrücke zu speichern kann von 'Faltung' reduziert werden, hierzu werden durch Kombination von Teilen des Schlüssels mit bitweisen Operationen kombiniert und hierdurch wird eine Verkürzung Gesamtlänge erreicht. [3]


3D-Konformation[Bearbeiten | Quelltext bearbeiten]

Suche nach passenden 3D-Konformation von Molekülen durch Angabe räumlichen Einschränkungen ist ein weiteres Merkmal, das besonders wichtig in der Wirkstoffentwicklung ist. Suchen dieser Art können rechnerisch sehr viel Zeit benötigen. Viele Verfahren die verwendet werden bieten nur ein ungefähre Ergebnis, zum Beispiel BCUTS, spezielle Funktion Darstellungen, Trägheitsmomente, Ray-Tracing Histogramme Histogramme maximale Abstand, Form Multipolen ein paar zu nennen. [4][5][6] [7] [8]

Deskriptoren[Bearbeiten | Quelltext bearbeiten]

Alle Eigenschaften von Molekülen über ihre Struktur hinaus können entweder in physikalisch-chemischen oder pharmakologischen Eigenschaften, auch Deskriptoren genannt, aufgeteilt werden. Hinzu kommt, dass, gibt es verschiedene künstliche und mehr oder weniger standardisierte Benennung für Moleküle, die mehr oder weniger zweideutigen Namen und Synonyme belegt sind auch verwaltet werden müssen. Der IUPAC Name ist in der Regel eine gute Wahl für die Darstellung einer Molekül Struktur, in einem sowohl für Menschen lesbaren auch und eindeutige Zeichenfolge für den Computer, obwohl diese für größere Moleküle unhandlich wird. Trivial Name auf der anderen Seite gibt es mit Homonyme und Synonyme und sind daher eine schlechte Wahl als Definition eines Datenbank-Schlüssels. Während physikalisch-chemischen Deskriptoren wie Molekulargewicht, ( Teil- ) Ladung, Löslichkeit , etc. berechnet meist direkt auf dem Molekül die Struktur basieren, können pharmakologische Deskriptoren nur indirekt abgeleitet werden mit einbezogen multivariaten Statistik oder experimentelle ( Screening, Bioassay) Ergebnisse. All diese Deskriptoren können aus Gründen des Rechenaufwand sowie für die Molekül Darstellung gespeichert werden.

Chemische Ähnlichkeit[Bearbeiten | Quelltext bearbeiten]

Chemische Ähnlichkeit (oder molekularen Ähnlichkeit) bezieht sich auf die Ähnlichkeit der chemischen Elemente , Moleküle oder chemische Verbindungen, in Bezug auf entweder strukturelle oder funktionelle Eigenschaften. Es gibt keine einheitliche Definition der molekularen Ähnlichkeit, aber das Konzept kann je nach Anwendung wie folgt definiert werden und wird oft beschrieben als das Inverse eines Entfernungsmaß in Deskriptor Raum. Zwei Moleküle könnten als eher ähnlich bezeichnet werden wenn zum Beispiel, ihre Differenz in Molekulargewichten niedriger ist als im Vergleich zu anderen Molekülen. Eine Vielzahl von anderen Metriken könnten zu einem multivariaten Abstandsmaß führen. Entfernungsmaße werden oft in eingestuften euklidischen oder nichteuklidischen Metriken klassifiziert je nachdem, ob die Dreiecksungleichung bestand hat. Maximale Gemeinsame Subgraph ( MCS ) basierte Substruktursuche [9] (Ähnlichkeit oder Distanzmaß) ist auch sehr häufig. MCS wird auch für das Screening von Moleküleketten als gemeinsame Teilgraphen verwendet. [10]

In den Chemischen Datenbanken werden Gruppen von "ähnlichen" Molekülen auf Ähnlichkeiten hin geclustert. Sowohl hierarchische und nicht-hierarchische Clustering Ansätze können zu chemischen Einheiten mit mehreren Attributen angewendet werden. Diese Attribute oder molekularen Eigenschaften können entweder empirisch oder rechnerisch abgeleitet bestimmt werden Deskriptoren . Eines der beliebtesten Clustering Ansätze ist die Jarvis-Patrick Algorithmus. [11]

In pharmakologisch ausgerichteten chemischen Repositories, wird die Ähnlichkeit in der Regel in Bezug auf die biologische Wirkung der Verbindungen (definiert ADME / tox), die wiederum können halbautomatisch aus ähnlichen Kombinationen von physikalisch-chemischen Deskriptoren mit gefolgert werden QSAR Methoden.

Registrierung[Bearbeiten | Quelltext bearbeiten]

Datenbanken für die Speicherung eindeutige Datensätze von chemischen Verbindungen werden als Registrier Systeme bezeichnet. Diese werden häufig für chemische Indexierung verwendet (Patent- und Industrie-Datenbanken). Registrierungssysteme bauen in der Regel auf Einzigartigkeit der Chemikalie in der Datenbank die durch die Verwendung von eindeutigen Darstellungen vertreten werden. Durch die Erzeugung von einzigartigen / 'kanonischen' Zeichenketten als Repräsentant der Chemikalie als Darstellungen wie "kanonischen SMILES'. Einige Registrierung Systeme wie das CAS-System nutzen, um einzigartige Algorithmen erzeugen Hash-Codes, um dasselbe Ziel zu erreichen.

Ein wesentlicher Unterschied zwischen einer Registrierung und einer einfachen chemischen Datenbank ist die Fähigkeit, genau darzustellen, was bekannt ist, unbekannt oder teilweise bekannt. Zum Beispiel könnte eine chemische Datenbank ein Molekül mit spezifiziert Stereochemie speichern, während eine chemische Registrier System den Registrar, auffordert um anzugeben, ob die Stereo-Konfiguration unbekannt ist, eine bestimmte (bekannte) Mischung oder Racemat ist.

Registrier Systeme kann Informationen auch aufbereiten um die Registrierung Moleküle zu vermeiden, angesichts trivialer Chemischer Unterschiede wie in Halogen -Ionen.

Werkzeuge[Bearbeiten | Quelltext bearbeiten]

Die rechnerische Darstellungen sind in der Regel grafische Darstellung der Daten entsprechend der Eingaben des Registrar. Die Dateneingabe wird auch durch die Verwendung von chemischen Struktur Editoren vereinfacht. Diese Editoren wandeln die internen Daten in grafischen Darstellungen der Moleküle oder Reaktionen um. Es gibt auch zahlreiche Algorithmen für die Umwandlung von verschiedenen Formaten der Repräsentation. Ein Open-Source-Programm für die Konvertierung ist Openbabel. Diese Suche und Konvertierungsalgorithmen sind entweder innerhalb der Datenbank-System selbst implementiert oder wie jetzt der Trend als externe Komponenten (Cartridge), zur Standard-relationalen Datenbanksystemen passen implementiert und nachträglich installiert. Sowohl Oracle als auch PostgreSQL -basierte Systeme nutzen Cartridge Technologie, die eigene Benutzer Datentypen (z.B. CTAB als Struktur Datentyp) erlauben. Diese erlauben es dem Benutzer, SQL -Abfragen mit chemischen Suchkriterien zu formulieren (z. B. eine Anfrage für Aufzeichnungen mit einem Phenylring in ihrer Struktur als einem Smiles-Zeichenkette in einer SMILESCOL Spalte dargestellt suchen könnte.

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Algorithmen für die Umwandlung von IUPAC -Namen zu strukturieren Darstellungen und umgekehrt sind auch für die verwendeten Extrahieren strukturelle Informationen aus dem Text . Es gibt jedoch Schwierigkeiten wegen der Existenz von mehreren Dialekte IUPAC. Die Arbeit ist auf eine einzigartige IUPAC-Standard (siehe etablieren InChI ).

Anmerkungen und Literatur[Bearbeiten | Quelltext bearbeiten]

  1. Julian R. Ullmann: An algorithm for subgraph isomorphism. In: Journal of the ACM. 23. Jahrgang, Nr. 1, 1976, S. 31–42, doi:10.1145/321921.321925.
  2. S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) toolkit. In: Journal of Cheminformatics. 1. Jahrgang, 2000, S. 12, doi:10.1186/1758-2946-1-12.
  3. Maxwell D. Cummings, Alan C. Maxwell, Renee L. DesJarlais: Processing of Small Molecule Databases for Automated Docking. In: Medicinal Chemistry. 3. Jahrgang, Nr. 1, 2007, S. 107–113.
  4. R.S. Pearlman, K.M. Smith: Metric Validation and the Receptor-Relevant Subspace Concept. In: J. Chem. Inf. Comput. Sci. 39. Jahrgang, 1999, S. 28–35.
  5. Timothy Lin Jr, Clark: An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. In: JCIM. 45. Jahrgang, Nr. 4, 2005, S. 1010–1016.
  6. P. J. Meek, Z. Liu, L. Tian, C. J Wang, W. J Welsh, R. J Zauhar: Shape Signatures: speeding up computer aided drug discovery. In: DDT 2006. 19-20. Jahrgang, 2006, S. 895–904.
  7. J. A Grant, M. A. Gallardo, B. T. Pickup: A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. In: JCIC. 17. Jahrgang, Nr. 14, 1996, S. 1653–1666.
  8. P. J. Ballester, W. G. Richards: Ultrafast shape recognition for similarity search in molecular databases. In: Proceedings of the Royal Society A. 463. Jahrgang, 2007, S. 1307–1321.
  9. S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12
  10. S. Asad Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) Toolkit. In: Journal of Cheminformatics. 1. Jahrgang, 2009, S. 12, doi:10.1186/1758-2946-1-12 (ebi.ac.uk).
  11. Darko Butina: Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. In: Chem. Inf. Comput. Sci. 39. Jahrgang, 1999, S. 747–750.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Externe Links[Bearbeiten | Quelltext bearbeiten]

Datenbanken von chemischen Strukturen[Bearbeiten | Quelltext bearbeiten]

Datenbanken der chemischen Namen[Bearbeiten | Quelltext bearbeiten]

  • Chemical Substances Database, eine kostenlose Datenbank mit chemischen Namen, vor allem nützlich für die Übersetzung der Namen zwischen Japanisch und Englisch. Mehr als 37.000 Einträge.
  • ChemSub Online, kostenloses Web-Portal und Informationssystem über chemische Stoffe, Stoffnamen in 8 Sprachen.
  • EuroChem Online-Datenbank, die freie Chemiekalein Datenbank.