SMILES記法
SMILES記法(すまいるすきほう、テンプレート:Lang-en-short)とは、分子の化学構造をASCII符号の英数字で文字列化した構造の曖昧性の無い表記方法である。SMILES文字列は多くの種類の分子エディタにおいてインポート可能で、二次元の図表あるいは三次元のモデルとして表示することができる。
SMILES表記は1980年代の終わりにDavid Weiningerにより開発され、その後に多数の人の手で変更あるいは拡張がなされてきた。中でもDaylight Chemical Information Systems社の貢献が大きい。他の線形な同様な表記法としてはWiswesser Line Notation (WLN), ROSDAL そして SLN (Tripos社)が挙げられる。
グラフ理論に基づいた記法の定義
SMILESはグラフ理論に基づいたコンピュータ処理に付けられた用語で、化学構造を表すグラフ構造で3つの方向に伸びるグラフ(枝、あるいは結合)と各分岐点(節、あるいは原子)を印刷可能な符号を割り当てることで、化学構造を文字列で表したコードである。化学構造グラフは、最初に目的の構造の水素原子のついた枝(結合)を取り払い、環を形成しているところは切り開いてグラフをグラフ理論でいうところの全域木(spanning tree)に変換する。環を開いたところは、番号の前置辞でラベル付けして、連結されていた節同士を明示している。角括弧(Bracket)は木構造が分枝している場所を表すのに使用する。
発展
SMARTS記法はSMILES記法を変更したものとみなされており、SMILESの文法要素に任意合致原子と任意合致結合を付け加えている。SMARTSは構造検索に特化しており、化学データベース検索プログラム中で使用される。この拡張により、SMILES文字列とSMARTS文字列とが合致するか否かでコンピューター的に化学部分構造検索を実装できるとかの様な、広範囲な人々に対して誤解を生み出した。それゆえ、SMILES表現形で再構築されたグラフについて部分グラフの同形問題が影響を及ぼすので、プログラムではより厳密にコンピューター検索するようにしている。
SMILESは3分木として生成されるので、節の出現順をどうするかと同様に、どの節を根本として選択するかで、文字列が全く変わってしまう。SMILESの重要な機能拡張として立体化学に関する情報を格納するように発展させるというものがある。固有にしたり、基準とする為のSMILES表現は、木表現にする前処理としてルールを適用してから発生させる必要がある。多くのプログラムでは固有にしたSMILESが2つの構造の完全一致をとり、データベースに格納された分子が二重登録されないようにするのに使用される。
特徴
SMILES記法の長所は化学構造を、少ないバイト長で表現できることと、ルールが簡単なので人間が文字列に変換する際に複雑な演算が不必要な点にある。
一方、欠点としては元の構造式の向きや置換基が張り出す方向などの構造式を目で見たときの印象が完全に失われる点がある。ほかにも、標準SMILES記法では相対配置も絶対配置も表現することができない。また、前述したように文字列のパターンマッチングでは構造の部分一致を意味しないので、小規模の化学データベース以外ではSMILESを内部表現に採用しているデータベースシステムは見られない。
近年のCPUパワーのコストパフォーマンス増大と通信媒体の大容量化は目を見張るものがあり、ネットワーク端末で直接3次元モデリングを処理することも可能になり、SMILES記法が持っていた長所は急速に色あせてきている。
実例
構造式中の原子は元素記号で表現され、金の場合は[Au]の様に、角括弧で括られる。水酸化物イオンは[OH-]の様に表される。そして「有機化学サブセット」の元素、C, N, O, P, S, Br, Cl, Iの場合は角括弧は省略し、それ以外の全ての元素は角括弧で括らなくてはならない。角括弧を省略した原子は、暗黙の水素原子が適宜付いているとみなされる。つまりSMILES記法では水は単に'O'と表され、エタノールは'CCO'と表される。二重結合を持つ二酸化炭素は'O=C=O'の様に表され、三重結合を持つシアン化水素は'C#N'と表される。シクロヘキサンを表す'C1CCCCC1'の二つの'1'の数字は分子の同一の位置で繋がっていて、炭素の6員環を形成していることを表す。分岐は括弧で表され、'CCC(=O)O'はプロピオン酸を表し、'FC(F)F'ないしは'C(F)(F)F'は、フルオロホルムを表す。芳香環は小文字の元素記号で表され、'c1ccncc1'はピリジンを表す。
分子 | 構造 | SMILES記法 |
---|---|---|
窒素 | N≡N | N#N |
イソシアン酸メチル (MIC) | CH3N=C=O | CN=C=O |
硫酸銅(II) | Cu2+ SO42- | [Cu+2].[O-]S(=O)(=O)[O-] |
エナントトキシン (C17H22O2) | エナントトキシンの構造式 | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO |
ピレトリン II (C21H28O5) | ピレトリンの構造式 | COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C |
アフラトキシンB1 (C17H12O6) | アフラトキシンB1の構造式 | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 |
グルコース (glucose, glucopyranose) (C6H12O6) | グルコースの構造式 | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1 |
クスクチン又の名ベルゲニン(天然樹脂) (C14H16O9) | クスクチソの構造式 | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 |
カリフォルニア州のカイガラムシのフェロモン | (3Z, 6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetate | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C |
2S,5R-カルコガラン:キクイムシ(ホシガタキクイムシ(Pityogenes chalcographus))のフェロモン [1] | (2S, 5R)-2-ethyl-1,6-dioxaspiro[4.4]nonane | CC[C@H](O1)CC[C@@]12CCCO2 |
バニリン | バニリンの構造式 | O=Cc1ccc(O)c(OC)c1 |
メラトニン (C13H16N2O2) | メラトニンの構造式 | CC(=O)NCCC1=CNc2c1cc(OC)cc2 |
フラボペレイリン (C17H15N2) | フラボペレイリンの構造式 | CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4 |
ニコチン (C10H14N2) | ニコチンの構造式 | CN1CCC[C@H]1c2cccnc2 |
ツジョン (C10H16O) | ツジョンの構造式 | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 |
チアミン (C12H17N4OS+) (vitamine B1) |
チアミンの構造式 | OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2 |
脚注
関連項目
外部リンク
- SMILES の教本, http://www.daylight.com/smiles/smiles-intro.html
- SMILES文字列を2次元画像に変換する機能を持ったWebを使ったアプリケーション
- SMILESを生成する機能を持った分子エディター・アプレット, http://www.molinspiration.com/jme/index.html
- SMILES文法チェック, http://www.dalkescientific.com/writings/diary/archive/
- SMILES変換フリーウェア, http://www.acdlabs.com/download/chemsk.html
- SMILES用三次元分子ビューアー, http://jmol.sourceforge.net/
- Happy Atom: このプロジェクトでは、 正規化圧縮距離のアイデアをSSMILES言語 と SMILES言語に使って開発している。
- E-BABEL OpenBabel に基づく分子の相互転換