包装器(Wrapper):包装器是虚拟数据库的核心部分,它用源描述语言SDL(Source Descrlption Language)来表示原始数据的,找到
数据源并返回数据。使分散数据转换为一些类似关系数据库表的集合。它分析Web上的HTML、XML等语言,并把它们表示成关系数据源。此外,它同样可在
超链接的页面之间捕获关系并且把这些关系体现在虚拟数据库的表中。使用包装器,任何
数据源可以使用SQL语句进行查询。VDBMS系统提供了包装器扦发工具包WDK。WDK为网络访问、HTML
语法分析、模式匹配和关系
数据输出提供了高级抽象。编程人员只需解决有关数据操作的问题即可。
提取器(ne Extractor):提取器实质是异构数据的整合。提取规则是用Junglee提取语言JEL来表达的。编程人员用JEL可以描述复杂的文本模式和语言结构,以标识使用特定名词的上下文。单个名词被列在程序中,EDK
编译器可以为它加上由标志和值组成的标签。提取规则和
程序库是由EDK提取引擎来解释的。
VDB服务器:VDB服务器将一组包装器和必要的提取器结合起来并把它们表示为一个具有一致性的关系数据库。该数据库可以通过JDBC或0DBC用SQL访问。VDB可以根据应用系统的要求,将查询结果表示为表或XML文档。VDB可以有一个关系
缓存区,它可以提高
数据源的查询性能,该缓存区可以预先装入,并根据需要进行刷新。其他组成部分:VDB的
数据源并不在系统的控制之下,经常会有不规则的数据。困此,数据转换器和数据合法性检验器也是系统必需的功能模块。
数据质量工具包提供建立数据转换器和数据合法性检验器的能力。管理工具用于在VDB服务器上注册和注销
数据源及其相关的包装器。
数据源注册后,就可在VDB中用表的形式进行访问。