s.cienc.e: [본문스크랩] 신약개발을 위한 화학정보학

작 성 자 : 이 성 광, 노 경 태

소속기관 : (사단법인) 분자설계연구소

부 서 : Chem & Bioinformatics 팀

직 책 : 책임연구원, 연구소장

인간 게놈분석의 완성을 토대로 점차 유전자의 기능이 규명되면, 지금보다 훨씬 많은 의약타겟이 알려질 것으로 예상된다. 그러므로 많은 의약타겟에 대하여 적합한 선도물질(lead compound)을 확인하고 최적화하는 과정이 체계적으로 필요하므로 화학정보학의 도입이 시급하다고 하겠다. 화학정보학(cheminformatics 또는 chemoinformatics)은 컴퓨터과학과 화학이 주가 되는 학제적인 연구 분야이지만, 그 분야를 정확하게 정의하기에는 다소 어려운 점이 있다. 일반적으로 화학정보학은 신약의 선도물질(Lead compounds)을 탐색하고 최적화하는 과정을 보다 빠르고 효율적으로 진행시키기 위하여 여러 가지의 자료를 정보(information)화하고 지식(knowledge)으로 변환시키는 과정을 모두 통틀어서 정의¹⁾할 수 있다. 이 분야는 고효율 검색(high throughput screening, HTS) 및 화합물군(library) 합성과 같은 신약개발 과정에서 생겨난 혁신적인 기술로 말미암아 기하급수적으로 증가하는 데이터를 효율적으로 처리하기 위해서 화학 및 수학 분야가 융화되어 발전되고 있다. 최근 컴퓨터 성능의 급속도로 발전하면서 보다 많은 화학데이터들을 처리할 수 있게 됨으로써 정보화 및 지식화 과정을 체계화하는 연구들이 등장하게 되었다. 최근에 와서 화학정보학에서는 실험실에서 얻은 실험데이터를 분석하는 것뿐만 아니라, 분자모델링을 통해서 계산으로 얻어진 화학구조의 물리화학적 특성들을 분석하는 과정들도 모두 포함하고 있다.

<그림 1> 화학정보학에서 데이터와 정보, 지식과의 관계

화학정보학을 통해 데이터를 기반으로 얻어진 정보와 지식은 신약설계에 중요한 역할을 한다. 특히 유기합성과 생물학적 정량(bioassay)과정과 같이 고비용이 소요되는 신약개발 과정은 화학정보학을 통한 화합물의 정보와 지식을 바탕으로 진행되어야 비용절감 뿐만 아니라 보다 넓은 범위의 영역을 효율적으로 탐색할 수 있다. 그림 2는 신약개발과정에서 유기합성과 생물학적 정량과정과 같은 현실세계와 컴퓨터 내(in silico)에서 진행되는 가상 화합물들과 검색과정과의 관계를 나타낸 것이다.

<그림 2> 신약개발과정에서 현실과 가상세계와의 관계

최근 신약개발 분야에서 고효율 검색(HTS) 방법과 화합물 합성을 위한 자동화시스템의 도입으로 광범위한 화합물로부터 신약후보물질을 탐색할 수 있게 되었고, 이에 적용할 화합물 군을 설계하고 결과를 분석하는 다양한 계산방법들이 속속 등장하게 되었다. 현재 이론적으로 만들 수 있는 화합물군은 10⁴⁰개 이상으로 예상되며²⁾, 이러한 화합물들을 합성 또는 천연물에서 추출하고, 생물학적 검증을 하도록 결정할 수 있는 합리적인 시스템이 필요한 것은 당연하다. 화학정보학은 이러한 면에서 화합물군에서부터 실제 신약후보 대상물질을 여과해 내고 설계하는 방법으로 사용될 수 있다.

일반적으로 새로운 선도물질을 탐색하기 위하여 적용되는 화합물군의 다양성(diversity)은 시스템내의 지식의 양과 반비례하는 관계를 나타낸다<그림 3>. 즉 수용체에 대한 정보가 적을수록 선도물질을 찾기 위하여 다양한 화합물군이 적용되어야 하며, 이러한 면에서 신약개발을 위한 소요 경비(인력, 시간 등)가 증가하게 된다. 이런 점에서도 화학정보학은 신약설계 및 분석과정을 단계별로 데이터베이스화하고 그로부터 관련된 지식을 유도해낼 수 있는 적합한 시스템을 설계함으로써, 선도물질을 확인하고 최적화하는 과정을 수행할 수 있다. 이렇게 다양한 가능성을 지닌 화학정보학 분야 중에서 최근 개발중인 몇 가지 연구분야를 소개하고자 한다.

<그림 3> 구조의 다양성과 지식과의 관계

II. 주요 개발분야

1. 구조-활성의 정량적 상관관계(QSAR) - 구조활성을 이용한 설계

구조-활성과의 정량적 상관관계(Quantitative Structure-Activity Relation- ships, QSAR)는 화학구조에 대한 특성을 나타내는 표현자(descriptor)와 화합물의 생리 활성값과의 관계를 통계적인 방법으로 모델화하는 방법이다³⁾. 주로 몇 가지 선도물질이 알려진 경우에 적용되며 QSAR방법에 사용되는 표현자들은 600여가지 정도로 추정된다. 이들은 대개 분자간의 상호작용이나 구조의 입체적 장애, 구조의 구성요소, 구조의 유사성 등을 표현한다. 이러한 표현자 중에서 활성의 유무에 따라 상관성을 지니는 표현자를 선택하여 모델을 세움으로써, 생리활성을 평가하지 않은 다양한 구조에 대하여 활성을 예측해 볼 수 있다. 이러한 연구는 QSAR 데이터를 바탕으로 가상적인 수용체를 만들어서 작용부위의 물리화학적 특성을 표현하기도 하며, 구조 데이터베이스를 검색하여 pharmacophore에 대한 모델을 세울 수도 있지만, 주로 선도물질을 최적화하는 과정에 널리 이용된다. 이러한 연구는 근래에 들어 3D QSAR이라는 분야로 발전되고 있으며 대표적인 방법으로 CoMFA⁴⁾(Comparative Molecular Field Analysis), RSA⁵⁾(Receptor Surface Analysis), MSA⁶⁾(Molecular Shape Analysis)등이 있다.

<그림 4> 3D QSAR의 방법들 (A) RSA ; 가상적인 수용체의 표면을 만들어서 물리화학적 특성을 표현함.

(B) CoMFA ; 생리활성이 높을 수 있는 치환기 부분을 장(field)으로 표현하여 선도물질을 최적화하는 방법

2. 데이터 분석 - 화학구조 유사도를 이용한 설계

수용체와 선도물질에 대한 정보가 없다면, 조합화학과 고효율 검색(HTS)을 통하여 먼저 선도물질을 검색하는 것이 유리하다. 검색에 사용될 화합물군(chemical library)은 정확한 설계단계를 거쳐서 구성이 되어야 하는데, 사용되는 화합물군은 구조적으로 다양하고 유사한 화합물 그룹들을 대표할 수 있어야 한다. 이러한 화합물군의 합리적인 설계는 최종적으로 유기합성과 생물학적 검증을 감소시켜 소요경비를 절감하는 효과를 얻을 수 있을 뿐만 아니라 보다 넓은 범위의 화합물들을 탐색함으로써 신약후보물질을 도출해낼 가능성도 높아지게 된다.

가상적인 화합물군으로부터 화학구조들의 유사도와 다양성을 평가하기 위해서는 화학구조를 표현자로 전환하는 과정이 먼저 필요하다. 각각의 화학구조는 수치 값의 나열이나 벡터 또는 bit형태(0 또는 1)의 줄로 표현되고, QSAR방법에서 사용되는 표현자뿐만 아니라 화학구조를 변별하기 위하여 사용되는 다양한 표현자들이 적용된다. 이들은 크게 분자의 일부분을 수치화 하는 분자인식기술(molecular fingerprint)⁷⁾과 분자전체의 특성을 수치화 하는 총괄적 표현기술(holistic description)⁸⁾로 구분되어진다.

과거에는 화합물들에 대하여 일부 표현자들의 수치차이로 구조 유사성을 평가하였지만, 수용체와의 3차원적인 상호작용을 인지하여 pharmacophore를 구상한 실질적인 유사도를 고려하였을 때, 상호작용과 입체성을 나타내는 다양한 표현자들로 구성한 공간상에서 유사도를 평가하여야 하는 것이 지배적인 의견이다. 특히 유사한 화학구조는 유사한 활성을 나타낼 것으로 예상되므로 유사성 구조검색과정도 화학정보학의 필수적인 연구분야이다. 유사성과 비유사성을 지닌 화합물을 설계하기 위하여 쉽게 계산되면서 명확하게 구분할 수 있는 새로운 표현자들의 개발이 필요하며 이에 대하여 많은 연구가 진행되고 있다.

표현자들의 공간에 의해 배열된 다양한 화학구조들로부터 대표성을 지닌 화합물들을 선택하여 화합물군을 형성하는 과정도 중요하다. 선택방법으로는 군집기반 선택법(cluster-based selection)⁹⁾, 분포기반 선택법(partition-based selection)¹⁰⁾, 비유사도기반 선택법(dissimilarity-based selection)¹¹⁾, 최적기반 선택법(optimization-based selection)¹²⁾등이 있고, 이밖에 유사도와 선택과정을 통시에 고려하는 연구들이 진행되고 있다. 이러한 방법으로 선택된 화합물군은 또한 유기합성이 용이하여야 하고 실제 의약품으로 사용가능한 기본적인 특성을 고려하여 선택되어야 한다. 이 과정은 구조 검색과정 뿐만 아니라 실제 가상화합물군에 적용할 데이터베이스를 구축하는 과정에서도 고려되어야 한다.

<그림 5> 화합물군 형성을 위한 선택방법. (A) 군집기반 선택법 : 유사그룹내에서의 대표가 되는 구조를 선택하는 방법 (B) 분포기반 선택법 : 일정간격의 구간 내에 존재하는 구조에서 선택하는 방법

화학 DB의 구축과 검색엔진 그리고 이에 관련된 활용기술 개발은 화학정보학에서는 필수적인 분야다. 화학 DB는 목적에 따라 유사한 약효를 검색하기 위한 유사도 검색DB와 유기반응을 모은 합성 DB, 실험이나 계산으로 얻은 특성을 모은 물성 DB, 생물학적 검증 데이터를 모은 활성 DB 등으로 다양하게 구분된다. 이러한 화학DB는 먼저 구조활성에 관한 설계면에서는 높은 활성을 지닐 수 있는 대상화합물 그룹을 선정해주고, 유사도에 의한 설계면에서는 구조의 유사성을 통해 약효가 유사한 화합물을 제안하며, 그리고 구조에 바탕을 설계면에서는 보면 pharmacophore를 제안하며 이에 부합되는 신약후보물질을 검색할 수 있게 해준다<그림 6>. 또한 DB를 최대한으로 활용하기 위해서는 구조검색엔진의 개발이 수반되어야 하며, 일반적으로 구조검색의 경우는 정확한 구조에 대한 화학정보검색과 유사구조 검색, sub- structure검색 등으로 나누어져 개발되고 있다.

몇 가지 공개된 DB를 소개하자면, 미국의 National Cancer Institute에서 구축한 NCI DB¹³⁾는 대략 25만건의 화합물을 포함하고 있으며 2차원 3차원 화학구조와 일부 AIDS와 암에 관한 생리 활성값을 포함하고 있다<그림 7>. NIST(National Institute of Standard Technology)에서 구축한 Webbook¹⁴⁾은 열역학적 데이터와 UV/VIS, IR, Mass와 같은 분석실험결과를 DB화하였으며, Cambridge Soft에서 시약 판매회사들의 카탈로그를 모아 만든 ACX¹⁵⁾는 20만건의 화합물과 물리화학적 물성들을 포함하고 있다.

<그림 6> 화학 DB를 이용한 신약개발 구도

<그림 7> NCI DB를 검색할 수 있는 검색엔진

그밖에 X-ray crystal 구조를 모아둔 Cambridge crystallographic Data¹⁶⁾, 상용으로 요금을 부과하는 Beilstein Abstracts¹⁷⁾,나 Advanced Chemistry Development사의 property DB¹⁸⁾, 그리고 MDL사¹⁹⁾의 ACD, MDDR, CMC, CHC, CSM 등등의 DB, ChemWeb²⁰⁾의 CCD, POC, Daylight사²¹⁾의 MedChem, Maybridge, CCR, WDI등이 있다.

3. 화학정보학에 적합한 소프트웨어 개발

화학정보학을 위해 개발되는 많은 프로그램들은 그 프로그램을 잘 활용하기 하기 위해서는 화학정보학에 관련된 전문가적 지식을 필요로 한 것이 현실이었다. 그러나 최근에서는 의약화학을 전공한 사람들에게 쉽게 응용될 수 있는 프로그램들의 개발이 진행되어 있으며, 특히 MSI사에서 제공하는 WEBLAB²²⁾ 프로그램 시리즈가 대표적인 예라고 할 수 있다.

인터넷이 널리 보급되어 Web을 통해서 텍스트와 이미지형태의 정보를 모두 취급할 수 있으므로 Web은 화학정보학 개발의 중요한 환경으로 자리 매김을 하고 있다. 아직 기술적으로 원하는 정보를 표현하기에는 어려운 점이 있으나, XML(extensible mark-up language)를 응용한 CML(chemical mark-up language)까지 등장하면 활기를 띄고 있는 실정이다. 또한 개발환경도 다양한 시스템환경에서 구현되는 네트워크상에서의 통합시스템으로 발전하고 있으며 visualization, simulation, application을 네트워크 내에서 동시에 수행하도록 진행되고 있다. 이러한 대표적인 예로 Chemical Computing Group사²³⁾의 MOE(Molecular Operating Environment)를 들 수가 있겠다<그림 8>.

<그림 8> MOE의 개발환경

그밖에 Afferent system사, Oxford molecular사, Tripos사, Synopsys사 등에서 화학정보학에 관련된 많은 프로그램들을 개발 및 판매를 하고 있다^24-27).

III. 결 론

지금까지 화학정보학의 필요성과 주요개발분야에 대하여 간단히 살펴보았다. 대랑 물량의 화학데이터들로부터 신약개발을 뒷받침할 지식과 정보로 전환시키는 화학정보학은 점차 급속도로 발전할 것으로 믿어 의심치 않는다. 그러나 국내에서는 아직도 이 분야에 대한 연구가 미흡할 뿐만 아니라, 화학정보학의 기초가 되는 화학데이터베이스도 제대로 구축되지 않은 형편에 있다.

국외에서는 화학정보학의 범위가 신약선도물질을 검색하기 위하여 화학구조의 다양한 특성을 표현하는 새로운 표현자(descriptor)개발과 수용체의 구조에 기반을 둔 다양한 신약설계 정보기술, 조합화학(combinatolrial chemistry)을 위한 화합물군 설계, 구조-약효 상관관계를 이용한 신물질 탐색과정, 화학정보처리를 위한 통계적인 방법과 이를 이용한 실제적용, 화학정보를 분류-관리-분석, 그리고 시각적으로 표현하는 기술 및 이에 따른 하드웨어의 개발 등으로 점차 확산되고 있는 추세에 있으며, 다양한 분야간의 체계적인 종합학문으로 발전시키고 있다.

지속적인 개발에도 불구하고 공동적인 문제점은 그동안 각자 연구배경이 다른 과학자들(화학, 전산학, 생물학 등등)이 서로 다른 용어와 컴퓨터 장비를 이용하여 독자적으로 진행된 부분이 많고, 탐색에 사용되는 화학데이터들의 표준이 명확하게 결정되어 있지 않기 때문에 연구교류를 통하여 발전을 방해하는 것이다. 이러한 면에서 우선적으로 이러한 문제를 해결해 나감으로써 학제간 연구의 기틀을 마련하는 것이 시급하다고 하겠다.

IV. 참고문헌

1) a) Brown, F. K. "Chemoinformatics: What is it and how does it impact drug discovery" Annu. Rep. Med. Chem. 1998, 33, pp 375-384. b) Hann, M. and Green, R. " Chemoinformatics - a new name for an old problem?" Curr. Opi. in Chem. Bio. 1999, 3, pp379-383.

2) Martin, Y. C. "Challenges and prospects for computational aids to molecular diversity" Perspect. Drug Discov. Des. 1997, 7/8, pp159-172.

3) Katiritzky, A. R. ; Lovanov, V. S.; Karelson, M. Chem. Soc. Rev. 1995, 24, pp 279-287.

4) Cramer, R. D., III; Patterson, D. E.; Bunce, J. D. "Comparative molecular field analysis (CoMFA). 1. Effect of shape on binding of steroids to carrier proteins J. Am. Chem. Soc. 1988, 110, pp 5959-5967.

5) Hahn, M., "Receptor surface models: 1. Definition and construction", J. Med. Chem., 1995, 38, pp 2080-2090.

6) Tokarski, J. S. and Hopfinger, A. J. "Three-Dimensional Molecular Shape Analysis- Quantitative Structure-Activity Relationship of a Series of Cholecystokinin-A Receptor Anatagonists", J. Med. Chem. 1994, 37, pp 3639-3654.

7)Bayado, D. M.; Hamersma, H. van Geerestein, V. J. "Molecular diversity and representativity in chemical database", J. Chem. Inform. Comput. Sci. 1999, 39, pp 1-10.

8) Lewis, R. A.; Mason, J. S.; McLay, I. M. "Similarity measures for rational set selection and analysis of combinational libraries: the Diverse Property-Derived(DPD) approach", J. Chem. Inform. Comput. Sci. 1997, 37, pp 599.

9) Willett, P.; Barnard, J. M.; Downs, G. M. "Chemical similarity searching" J. Chem. Inform. Comput. Sci. 1998, 38, pp 983-996.

10) Pearlman, R. S.; Smith, K. M. "Novel software tools for chemical diversity", Perspect. Drug Discov. Des. 1998, 9/10/11, pp 339-359.

11) Lajiness, M. S. "Dissimilarity-based compound selection techniques", Perspect. Drug Discov. Des. 1997, 7/8, pp 65-84.

12) Mount, J.; Ruppert, J.; Welch, W.; Jain, A. N. "IcePick: a flexible surface based system for molecular diversity", J. Med. Chem. 1999, 42, pp 60-66.

13) NCI 3D

14) NIST Webbook

15) Cambridge Soft ACX

16) Cambridge crystallographic Data

17) Beilstein Abstracts

18) Advanced Chemistry Development Inc

19) Molecular Design Limited Informational Systems Inc

20) ChemWeb

21) Daylight Chemical Information Systems Inc

22) Molecular Simulations Inc, Weblab.

23) Chemical Computing Group Inc.

24) Afferent Systems Inc.