目次
目的
RDKitに実装されているBalabanJ 記述子を理解する。
BalabanJ
RDKitに実装されているBalabanJ 記述子は分子構造に基づいたTopological indexであり、以下の論文で定義されています。
BalabanA.T. et al.
Chem. Phys. Lett. vol 89, 399-404, (1982)
DOI:10.1016/0009-2614(82)80009-2
概要
- BalabanJ(\( J \)) は分子の複雑さ(特に、枝分かれ)を表現した指標です。
- \( J \)は、以下の式で計算されます。
$$
J= q(\mu + 1)^{-1} \sum_{adjac.i,j} (s_i s_j)^{-1/2} \\
\mu= q-n+1
$$
ここで、\( q \)は結合の個数(edge)、\(n\)は原子数(node)であり、\( \mu \)はグラフ理論におけるcircuit rankであり、環構造の個数を反映した値です。また、\( s_i \)は分子の距離行列のにおける\(i\)行の要素の合計値です。\( adjac.i.j \)は結合する原子\(i, j\)の\( (s_i s_j)^{-1/2} \ \)を合計するという意味です。
式の意味
一般的に\( \sum_{adjac.i,j} (s_i s_j)^{-1/2} \ \) は、環構造、原子数、分子の分岐の増加に伴って大きくなる傾向にあります。BalabanJ(\( J \))は分子の枝分かれを表現したいので、\( q(\mu + 1)^{-1} \)で補正されていると考えられます。
終わり。