Markowitz(Lawrence Berkeley Laboratory,Berkeley,CA,USA)讨论了分布式数据库与局部管理的关系,以及用基于工具的方法开发分子生物学数据库(MDBs)的问题。许多方案当前正在促进搜索多种不同来源MDBs的数据,包括建立数据仓库;这要求对各种MDBs的组合有一种全局观,并从成员MDBs中装填数据入中心数据库。这些方案的主要问题是开发整体视图(globalviews),构建巨大的数据仓库并使集成的数据库与不断发展中的成员MDBs同步化的复杂性。
Markowitz还讨论了对象协议模型(object protocol model,OPM),并介绍了支持以下用途的工具:建立用于文本文件或者关系MDBs的OPM视图;将MDBs作成一个数据库目录,提供MDB名称、定位、主题、获取信息和MDB间链接等信息;说明、处理和解释多数据库查询。Karp(SRI International,Menlo Park,CA,USA)解释了Ocelot,一种能满足管理生物学信息需求的面向对象知识陈述系统(一种面向对象系统的人工智能版)。Ocelot支持略图展开(schema evolution)并采用一种新的最优化并行控制机制(同时进行多项访问数据的过程),其略图驱动图形编辑器提供了交互式浏览和编辑功能,其注释系统支持数据库开发者之间的结构通讯。
Riley(Marine Biological Laboratory,Woods Hole,MA,USA)在讨论大肠杆菌蛋白质的功能同时,特别提到了GPEC数据库,它包括了由实验确定的所有E.coli基因的功能的信息。该数据库中最大比例的蛋白质是酶,其次则为转运和调控蛋白。
Candlin(PE Applied Biosystems,Foster City,CA,USA)介绍了一种新的存储直接来自ABⅠPrism DNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。
Glynais(NetGenics,Cleveland,OH,USA)认为生物信息学中最关键的问题之一是软件工具和数据库缺乏灵活性。但是,软件技术的发展已得到了其它领域如金融业和制造业的发展经验的借鉴,可以使来自不同软件商的运行于各种硬件系统的软件共同工作。这种系统的国际标准是CORBA,一种由250多个主要软件和硬件公司共同合作开发的软件体系。联合使用CORBA和Java可以开发各种通过一个公用用户界面访问任何种类的数据或软件工具的网络应用软件,也包括生物信息学应用软件。Overton不同意Glynias的这种想法,他强调说CORBA仅对软件集成有用,不兼容的数据库软件可能是计算生物学所面临的最困难问题,一些制药公司和数据库仓库最近资助了一项用OCRBA链接不同的数据库的计划[2,3]。
2.4 制药先导的发现
Burgess(Sturctural Bioinformatics,San Diego,CA,USA)讨论了填补基因组学和药物设计之间鸿沟的蛋白质结构中的计算问题。在缺乏主要疾病基因或药物靶的精确描述数据的情况下,药物设计者们不得不采用大规模表达蛋白质筛选方法;而结构生物信息学则采用一种更为实用有效的计算方法直接从序列数据中确定靶蛋白质的活性位点的精细结构特征,它利用一种集成专家系统从现实的或虚拟的化学文库中进行迅速的计算筛选,可以达到一个很大的规模。
Elliston(Gene Logic,Columbia,MD,USA)讨论了治疗药物开发中发现新的分子靶的过程,着重讨论了基因发现方法。他认为,随着日益临近的人类基因组测序的完成,几乎全部基因的特征将在序列水平得到揭示。但是,对基因的认识将有赖于更多的信息而不仅仅是序列,需要考虑的第一类信息是转录表达水平信息,而Gene Logic 公司的GeneExpress就是一个由mRNA表达谱、转录因子位点、新基因和表达序列标签组成的数据库。
Liebman(Vysis,Downess Grove,IL,USA)介绍了Vysis公司开发的计算和实验方法,这些主法不仅用于管理序列数据,而且被用于以下用途:分析临床数据库和自然—突变数据库;开发新的算法以建立功能同源性(区别于序列同源性)模拟生物学通路以进行风险评估;药物设计的靶评估;联系复杂的通路特性以便识别副作用;开发疾病发展的定性模型并解释临床后果。
随着发现的新基因的日益增多,这个问题显得格外重要:基因的功能是什么?Escobedo(Chiron Technologies,Emeryville,CA,USA)提出了这个问题的一种方法:将分泌蛋白质的基因的功能克隆与筛选这些克隆(可能的药物靶)结合起来。在这种方法中,在微粒体cDNA文库池中进行体外翻译避免了劳动密集的克隆、表达和纯化步聚,对文库池中的翻译产物在细胞水平进行筛选,测试其在细胞增殖和分化中的作用。例如,在用这种方法识别的111个克隆中,56个属于已知的分泌蛋白质,25个为膜相关蛋白,另外30个功能未知,可能是新的蛋白质。一种相似的方法在转移到小鼠模型系统中的基因传导载体中构建分泌蛋白质的cDNA文库来克隆特定的功能基因。
Ffuchs(Glaxo Wellcome ,Research Triangle Park,NC,USA)讨论了生物信息学更为广义的影响:它不仅影响到新药物靶基的发现,还对改善药物开发的临床前期和临床期的现状极具重要性。众所周知,涉汲数以千计病人的临床试验(可能是药物开发最为花钱的部分)的设计不论多么仔细,也不能为正确的药物选择正确的病人。而在基因组水平划分病人群体的方法可以大大改善发现新药的效率。Fuchs介绍了一种将病人的基因型和表型标志结合起来以改善临床前期和临床期药物开发过程的系统Genetic Information System.他强调将遗传学和生物信息学数据同化学、生物化学、药理学和医学数据连接起来的集成信息管理和分析方法是极其重要的。
Green (Human Genome Sciences,Rockville,MD,USA)介绍了他的测序工作中采用的数据管理工具。基于EST的测序方法所面临的挑战是,在对几百个cDNA克降重复测序之后,产生的数据堆积如山。由于大多数人类基因都是用这种方法发现并在么有数据库中分类编排的,面临的识别开放读框、重叠序列的重叠图谱、组织特异表达和低丰度mRNA基因的任务是令人生畏的。Human Genome Sciences公司开发了一些可用户化数据库工具,在同一个数据库中可包括以下功能:WWW上访问和检索数据,序列拼接,临视潜在药物靶基因的研究进展等。这些能够管理多项任务——从注释基因序列到成功开发基因产物进入药物发现的流程——的软件工具,极其可望从一种基于基因组知识的药物发现方法中得到新的药物靶。
Summer-Smith(Base4 Bioinformatics,Mississauga,Ontario,Canada)描述了一种相关的策略。药物发现阶段中所要求的软件工具的任务是多样化的,要能注释基因,并阐明它的生理和病理功能及其商业潜质。对这样多种来源的信息的集成与分析,在派生的、项目取向的数据库(project-specific database,PSD)中可以很好完成。由于项目贯穿于发现到开发全过程,其间又不断加入背景的成员,PSD在项目的管理与发展中成为一种关键性的资源。
按照Smith(Boston University,Boston,MA,USA)的观点[2],我们并不需要更快捷的计算机或更多的计算机科学家,而是需要更的生物学家和生物化学家来解释序列的功能。这对有些软件或硬件专家来说是个打击,但生物学系统的复杂性是令人生畏的,并且对基因功能的认识可能需要生物学方法和计算方法的结合。探索基因的功能很可能要花费生物学家们数十年的时间,本次会议表明没有任何单一的方法可以得出一个答案;但是,将计算生物学同大规模筛先结合起来识别一种化学靶物(hit)是一种产生化学工具来探索基因功能的方法,这些化学工具接下来就可以用作理解基因功能的“探针”。这种方法在Butt (Gene Transcription Technologies, Philadelphia, PA, USA)的描述中,既是一种检查基因功能的简单方法,也是为潜在的药物靶发现化学先导物的简单方法,他描述了一种可以在酵母中重建人类基因功能的酵母大规模筛选系统。在此系统中,可以迅捷地在一个化学文库中发现配基。这种技术的重要特征是它不仅仅是发现一种药物靶的配基的筛板(screen),相反,由于该系统的高速度,它也是发现先导靶基因的一种筛板。过去,世界上的制药公司通常在某一时间内仅能对有限数目(约20多个)的药物靶基因进行工作,鉴于此,我们需要根本不同的方法如基因组学来打开通向“新”生物学的通路。由于机器人和合成化学的进步,药物发现中最关键的问题不再是得到一种先导化合物(lead compound),而是得到导向靶基因。此次会议为从计算和实验方法中发展出的新生物学迈出很好的一步。