スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

痛烈批判! バーチャル・スクリーニングに潜む30種類の落とし穴

Scior T, Bender A, Tresadern G, et al. Recognizing Pitfalls in Virtual Screening: A Critical Review. Journal of chemical information and modeling. 2012.
Available at: http://www.ncbi.nlm.nih.gov/pubmed/22435959


バーチャル・スクリーニング(VS)はリガンドベースと構造ベースの2つのカテゴリーに分類できる。リガンドベースでは実験的に得られたSARを利用して、類似度部分構造検索、定量的構造活性相関取得、ファーマコフォアもしくは3次元構造一致性といったアプローチをとる。一方で構造ベースでは、ターゲットタンパク側の情報を結晶構造解析やNMRで取得し、化合物をドッキングさせてランキングする。そんなバーチャル・スクリーニングのサクセス・ストーリーは、数々のレビューや論文報告で示されてきた。ここでの目的は、そんな成功体験の美談ではなく、うまくいかない要因となる「落とし穴」にのみフォーカスする。ここではその「落とし穴」として3つのカテゴリー、すなわち

(1)誤った仮説や予想に基づく落とし穴、
(2)データの形式と内容による落とし穴、
(3)ソフトウェアの選択による落とし穴、
(4)構造的自由度を持つリガンドとターゲットから一つのコンフォメーションを選ぶ事の落とし穴、

に分類して説明する。


(1)誤った仮説や予想に基づく落とし穴
a) 高活性化合物同定への期待:VSでは高活性化合物は期待してはいけない。本来VSは新規性ある構造を見出し、多様性を広げる事が目的である。
b) クエリーの厳しさ:より厳密な制限をかければヒットは出にくく、曖昧にスクリーニングすれば、フォールス・ポジティブが多く出現してしまう。
c) 誤った結合モードの予測:構造ベースVSの場合、誤った結合モードでスクリーニングし、それにも関わらずヒットが得られる事があり、時としてそれがセレンディピティとなって、誤ったままの仮説で研究が続行される事がある。後々になってドッキングが誤りであった事が判明する事も少なくない。
d) 溶媒水を介した相互作用:結晶構造からリガンドとタンパクが溶媒水を介して相互作用する事がしばしば観測されるが、溶媒水の効果を正確に予測してVSする事は困難である。
e) 結合サイトが複数、もしくはアロステリックポケットがある場合:VSはリガンド結合サイトが不明瞭な場合ほとんど機能しない。
f) VS後の化合物セレクションにおける主観:VSを機械的に行ったとしてもその後のセレクションではヒトの目が入る。たとえば、50万化合物をVSし1000化合物をトップ・ランキングで選出したが、スループットの問題で100化合物しか評価できないとしたら、その段階でヒトの主観で選別されてしまうだろう。化合物の構造類似性や母核によってクラスターを作って選ぶ事が一つの改善策になりうる。
g) 見込みだけのバリデーション:VSのアルゴリズムは既知のデータセットをベンチマークに使って規格化されている。ひとたび、ベストのアルゴリズムだと報告されると、それが実際に機能するのか検証される事もなく、使われ続ける。
f) ドラッグライクネス:リピンスキー・ルールといった制限の中での化合物でVSする場合がほとんどだが、これでは経口薬に絞ったケミカルスペースでしか勝負できず、ルール外のドラッグスペースの可能性を排除してしまっている。
i) ベンチマーク・ライブラリーの多様性、将来利用するライブラリーの多様性:VSのアルゴリズムの検証は、既存の従来の化合物で構成されたライブラリーをトレーニング・セットに行うが、実践ではそもそもターゲット・クラスが異なるので、ケミカル・スペースが一致しない。新たなターゲットクラスに応じて構築されたライブラリーは、トレーニング・セットで利用したものと多様性が異なるので、機能するとは限らない。


(2)データの形式と内容による落とし穴
a) ベンチマークデータセットとの比較(が不可能):ベンチマークのデータセットで構築したアルゴリズムが、なぜ実践のVSで機能するのか説明するのは極めて困難である。VSの精度を理解する方法としてメタ解析があげられる。メタ解析から判明した事は、リガンド・ベースはターゲットタンパクに対するドッキングよりもパフォーマンスが良い、さらに2Dは3Dに比べて好成績をあげている、またVSの性能は、検索する化合物構造、ターゲットタンパク、スクリーニングする化合物ライブラリーによって異なる、という事であった。
b) パフォーマンス指標を比較する事の限界:平均濃縮係数(mean enrichment factor: EF)でVSの性能を比較するのは、スクリーニングしているデータベースとアクティブ及びイナクティブの判定基準が異なるのでリスクが高い。
c) ベンチマークデータセットのヒット率:ベンチマーク・ライブラリーのサイズは非常に小さく、多様性も旧来の医薬品に集中していて偏っている。スモール・ライブラリーは、現実の創薬のケミカルスペースの代表で構築されているわけではない。ベンチマークで達成したヒット率を実践の場で再現できる事はまずない。バイアスのかかっていないライブラリーを構築するのは実質的に不可能である。
d) アッセイ比較と技術:この落とし穴の考えうる解決法は、MUV(maximum unbiased validation)コンセプトで、PubChemのようなSAR付きの大規模データベースから、多様性ある化合物を揃えて、アンバイアスのライブラリーを構築する事である。
e) 悪質な分子:反応性の化合物や凝集性の化合物をVSで選択してしまうと、フォールス・ポジティブといった結果のミスジャッジを招く。
f) 推測上の不活性化合物:実験的に確認された不活性化合物は有用なネガティブ・コントロールに利用できるが、VSでの推測上の不活性化合物は実際には活性がある可能性がある。
g) 重み付けの特徴:リガンド・ベースVSでは、各フラグメントの重み付けを均等にするが、実際には不必要な部分構造もあれば、必須構造もあり、現実とVSでは重み付けが異なっている。


(3)ソフトウェアの選択による落とし穴
a) 入出力エラーとフォーマットの非互換性:アノテーション方法、原子配位、不斉の混成、プロトネーション状態といった情報。
b) 分子構築:アルゴリズムによって設定の異なるイオン化状態(完全電荷なのか部分電荷なのか)、水素原子の重み付け、スクリーニング時の優先順位の違い。
c) 定義付けの特徴:ファーマコフォア検索をする際には、ファーマコフォアの特徴をどのように定義しているのかに注意が必要。たとえばオキサゾールのNとOは水素結合アクセプターとして同じようには機能しない。多くの場合オキサゾールはNがアクセプターとして機能している。互変異性、イオン化状態、キラリティをどう定義しているか?
d) フィンガープリントの選定とアルゴリズム:ディスクリプターに応じて結果も多種多様。
e) 部分電荷:電荷を非局在化させるのか、部分的に帯電した状態にするのか、原子1つに帯電させるのか?
f) 単一の予測法でいくのか、複数の予測法を組み合わせるのか:これがベストという予測法は存在しない、よってターゲットに応じて使い分ける必要がある。


(4)構造的自由度を持つリガンドとターゲットから一つのコンフォメーションを選ぶ事の落とし穴
a) とりうるコンフォメーションの全て:たとえば回転結合数が6個でボンド結合のインターバルを10°に設定すると、36の6乗、つまり200億通りのコンフォメーションが可能。
b) 生理活性コンフォメーションの定義:結晶がとれない限り、真の生理活性構造を決定する事はまず不可能。
c) コンフォメーションの違いの許容範囲:仮に生理活性コンフォメーションを決めたとして、VSでどの程度の類似度をヒットと設定するのか?
d) コンフォメーション集合のサイズ:生理活性コンフォメーションを発生し決定する際に、精度を向上させるには一体いくつのコンフォメーション集合が必要なのか?
e) リガンドの自由度:分子のサイズと自由度に応じて発生するコンフォメーションは異なり、それに応じてVSの精度も変わる。
f) 高エネルギーコンフォメーション:高エネルギー状態のコンフォメーションをはじけないと、それがフォールス・ポジティブの要因になる。
g) ターゲットのフレキシビリティ:構造の自由度は何も化合物側だけではない、ターゲットがフレキシブルな構造の場合も同様のリスクを想定する必要がある。
h) リガンド重ね合わせの際の仮説:VSではクエリー構造にデータベースの化合物をスクリーニングするが、実際のところリガンドはタンパクの同一サイトに結合する場合でも類似性がない場合もあるし、タンパクの別サイトに結合する事もありうる。
i) ポジティブ・コントロールの不在:カットオフの設定不能状態に陥る。


ここで示したのはVSに潜む一般的な落とし穴であって、これらを理解せずにVSを使う事は危険である。VSでは注意深くデータベースとパラメーターを選定する必要がある。ベンチマーキングはアルゴリズムやパラメーターを設定する良い方法であるが、これをより信頼性あるものにするには、公的機関に情報を集めて公開し、情報の多様性を担保してバイアスをできるだけ小さくする事である。バーチャル・スクリーニングは、いつも確率ゲームのようなものであるが、その成功確率は、慎重な計画と注意を払う事で大きく向上する。まさに、「Chance always favors the preared mind」である。
スポンサーサイト

テーマ : 科学・医療・心理
ジャンル : 学問・文化・芸術

コメント

Secret

プロフィール

Janus

Author:Janus
趣味で読んだ創薬化学論文を綴った日記。

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。