Baze dat struktur chemickych latek

Baze dat struktur chemickych latek - informacni zdroj i evidence existujicich sloucenin

Jaroslav Silhanek

Struktura chemicke slouceniny je nejnazorneji vyjadrena graficky. Pro ucely pisemne i ustni komunikace a i pro evidenci sloucenin je pochopitelne vhodnejsi nazev, ktery by mel danou strukturu vyjadrit kombinaci ruznych nazvoslovnych fragmentu podle urcitych pravidel. Vhodnym zpusobem upravene a na abecednim principu serazene seznamy (rejstriky) nazvu sloucenin jsou pak klicovym nastrojem pro zjisteni jak existence dane slouceniny vubec, tak i vsech informaci, ktere se k ni vazi.

Zcela zasadni moznosti reseni problemu representace struktury prinesly az pocitacove technologie. Z nekolika moznych zpusobu reseni se pomerne brzy prosadil ten, ktery se na strukturu chemicke slouceniny diva jako na orientovany graf, ve kterem atomy predstavuji uzly a vazby hrany grafu s urcitymi vlastnostmi. Formalizovany popis takoveho grafu v podobe tzv. spojovacich tabulek je velmi jednoduchy a spociva v zasade ve zcela libovolnem ocislovani vsech atomu (uzlu) a popsani vsech jejich vzajemnych spojeni, tedy vazeb, pomoci snadno srozumitelnych oznaceni (1 = jednoducha vazba, 2 = dvojna vazba atd.). Podrobnosti je mozno najit v rade prirucek a monografii o chemicke informatice (a, b).

Moznosti vyuziti spojovacich tabulek jsou samozrejme dalekosahle. Velkou zasluhou pracovniku Chemical Abstracts Service (CAS) je, ze v dobe, kdy pocitacove technologie byly pro representaci chemickych struktur prostrednictvim spojovacich tabulek jeste velmi nedokonale, tuto formu zvolili za zaklad pro systematickou registraci vsech sloucenin vyskytujicich se ve zpracovavanych primarnich dokumentech, kterou zahajili v r.1967. Pozdeji byl zahajen i program postupneho doplnovani starsich materialu, takze dnesni podoba tohoto svetoveho "inventarniho seznamu" chemickych sloucenin, znameho jako baze dat REGISTRY, zahrnuje vsechny slouceniny zaznamenane v CA od r.1957 prakticky do minuleho tydne a obsahuje jiz kolem 14 milionu latek. Ilustrativni ukazka zaznamu z teto baze dat je na obr.1.

Soucasne s tim bylo kazde sloucenine prideleno v podstate poradove evidencni cislo, slouzici predevsim jako pocitacova adresa v systemu bazi dat CAS. Postupem casu se z tohoto cisla, ktere nema naprosto zadnou souvislost s danou strukturou a oznacovane jako "CAS Registry Number" nebo jen "Reg.Nr." ci "RN", stalo vseobecne uzivane kodove oznaceni chemickych sloucenin, ktere slouzi predevsim pro jakekoliv pocitacove komunikace tykajici se chemickych sloucenin, kde nahrazuje casto dlouhe nazvoslovne pojmenovani, a pak vsude tam, kde musi identitu latky rozpoznat i nechemik. Tyka se to napr. ruznych schvalovacich rizeni a predpisu, obchodnich transakci a pod. Dulezitost tohoto cisla vyplyva z toho, ze jakakoliv strukturni odchylka, napr. jiny pocet molekul krystaloveho rozpoustedla, musi mit sve samostatne registracni cislo, ktere neni v zadne souvislosti s cislem puvodni slouceniny. Povedomi o existenci registracnich cisel je proto dulezite pro kazdeho, kdo s chemii prichazi do styku.

I kdyz registracni cisla dnes snadno najdeme napr. v katalozich chemikalii, autoritativnimi zdroji jsou materialy CAS, bud tistene rejstriky CA, nebo jiz zminena baze REGISTRY, coz je jedna z moznosti jejiho vyuzivani. Chceme-li najit registracni cislo pro danou slouceninu, a tedy zjistit, zda latka vubec existuje, musime vytvorit jeji spojovaci tabulku a porovnat ji s mnozinou vsech tabulek v bazi. Budiz konstatovano, ze i kdyz vytvoreni spojovaci tabulky je opravdu velmi snadne, tato operace neni nutna a staci nakreslit hledanou strukturu na obrazovku pocitacoveho terminalu nejcasteji pomoci "mysi". Prevedeni grafickeho vstupu do podoby spojovaci tabulky a jeji porovnani s bazi je pak jiz veci softwarovych nastroju, jejichz detaily nas nemusi zajimat. V pripade, ze je zadana strukturu nalezena, dostaneme v bazi dat REGISTRY odpoved podobnou te na obr.1. Pomoci uvedeneho registracniho cisla pak muzeme prohledavat jak bibliografickou bazi CA, tak i radu dalsich bazi dat, na nez nas mimo jine nalezeny zaznam upozornuje.

Hledat konkretni presnou strukturu je ale pouze jedna z moznosti vyuziti baze REGISTRY i bazi obdobnych. Pri formulaci dotazu na strukturni bazi dat mame radu moznosti jak deklarovat, ze na tom a tom miste mohou byt ruzne atomy nebo vazby, ze na vsech nebo jen zvolenych mistech je povolena dalsi substituce, a konecne muzeme hledat struktury, ktere v sobe obsahuji urcity strukturni fragment sam o sobe neexistujici. Tyto moznosti, oznacovane jako substrukturni vyhledavani ("substructure search"), predstavuji nepochybne velmi mocny nastroj nejenom pro samotne vyhledavani informaci, ale predevsim pro studium potencialnich souvislosti mezi strukturou a vlastnostmi latek.

K dalsim bazim dat se spojovacimi tabulkami struktur patri predevsim elektronicka verse Beilsteinova kompendia, ktera je pristupna bud prostrednictvim siti jako baze dat BEILSTEIN, nebo je poskytovana po instalaci v lokalnich sitich zainteresovanych instituci jako system CrossFire. Je v ni dnes temer sedm milionu struktur organickych sloucenin, vcetne vsech faktografickych udaju obsazenych ve vydanych i dosud nevydanych svazcich tistene verze. Obdobnym zpusobem je zpristupnovana i elektronicka verse Gmelinova kompendia, ktere ale zatim kompletne do teto formy prevedeno neni. Nicmene ji lze ocekavat do jednoho roku.

Mame-li v elektronicke podobe zachycenu strukturu slouceniny, muzeme pochopitelne registrovat v teze forme i jeji zmeny, tedy chemicke reakce. CAS ponechava bazi dat REGISTRY v podstate pouze jako registracni a chemicke reakce shromazduje v samostatne bazi CHEMREACT. Jedna se o stejne vyuziti spojovacich tabulek s dalsi moznosti mapovani prenosu atomu z jedne struktury do druhe s doplnenim udaju o reakcnich podminkach. Beilstein Institut jiz oznamil, ze pro efektivnejsi vyuziti udaju o reakcich obsazenych ve svych bazich da v r.1996 na trh nadstavbu nad system CrossFire, tzv. CrossFire Reaction Plus, cimz zpristupni ve strukturni podobne udaje o vice nez 5 milionech organickych reakci. Informacni system pro vytvareni bazi dat o chemickych reakcich a mapovani jejich prubehu nabizi spolecnost Molecular Design pod oznacenim ISIS. Existuje jeste cela rada dalsich databazovych produktu s omezenejsim dopadem a neni pochyb o tom, ze takove aplikace budou dale pribyvat.

Jake jsou prakticke moznosti vyuzivani techto informacnich zdroju. Baze REGISTRY je pristupna pouze prostrednictvim siti, napr. Internetu. Nejvhodnejsim pristupovym mistem je databazove stredisko STN International se svymi uzly v Columbus (USA) a Karlsruhe (SRN). S timto strediskem musime navazat kontakt (nejlepe opet prostrednictvim Internetu) a na zaklade uzavrene smlouvy ziskat pristupove heslo. Kazdy vstup do baze je uctovan, napr. zobrazeni Reg.Nr. stoji 1,17 USD, rozsahla strukturni reserse pak i vice nez 100 USD. Faktury jsou zasilany mesicne. Tato forma pristupu neni v zadnem pripade optimalni a je jednim z duvodu, proc je uroven vyuzivani strukturnich bazi stale pomerne nizke.

Zasadni prulom v cenove i zpristupnujici praxi ucinil Beilstein Institut, ktery elektronickou versi sveho kompendia nabizi ve dvou formach, jak je jiz vyse uvedeno. Cena licence opravnujici instalaci baze CrossFire "in-house" je sice znacna, 60000 DEM rocne pro akademicke instituce, ale vyuzivani je pak jiz pro pracovniky subskribujici instituce neomezene a pochopitelne bezplatne. VSCHT v Praze se podarilo ziskat prostredky na zakoupeni nezbytne vykonne vypocetni techniky nutne pro instalaci teto baze dat i na vyse uvedene predplatne (ktere je mimochodem jen o malo vyssi nez predplatne samotne tistene verse) a stat se tak jednou z prvych chemickych fakult v Evrope, ktera tento system vyuziva. Reakcni baze dat ISIS spolecnosti Molecular Design nejsou v siti pristupne vubec a jsou k disposici pouze pro lokalni instalaci v predplatitelske instituci.

Tento strucny prehled nemuze samozrejme popsat danou problematiku ve vetsi siri. Zajemci o vyuzivani strukturnich bazi dat jsou vitani v Ustredni knihovne VSCHT Praha, kde mohou ziskat jak zkusenosti s realizaci sitoveho i lokalniho pristupu, tak i pripadne provedeni strukturnich resersi z bazi dat pristupnych siti.

Literatura: a) Ash J. E., Warr W. A., Willet P.: Chemical Information Systems. Ellis Horwood Ltd. Chichester, 1991. b) Silhanek. J.: Uvod do chemicke informatiky. Skripta VSCHT Praha, 1994.

Ing. Jaroslav Silhanek, CSc, absolvoval VSCHT v Praze v r. 1960, kde pusobi na Ustavu organicke technologie dodnes. V poslednich letech se zabyva problematikou chemickych informaci.