甲骨文如何解析语义谜题


 将数据保存在一个标准关系数据库的一个难题是这些信息通常不会提供机器可读的描述来表明这些都是什么数据。您在搜遍整个空军数据库的时候,但很可能不会找到任何迹象表明您在查看的是“空军”数据库。

  只要使用数据库的是其目标受众,那缺少数据库自我描述并不是什么大问题。但是当另外一个系统需要访问这些数据时,又该如何读通数据字里行间的意思呢?正是这些毫无章法可言的语义问题拖累了从数据中搜集情报的进程。

  这也是商业数据库供应商甲骨文正在致力于解决的问题。甲骨文目前利用两种语义网络工具来处理这个问题:资源描述框架(Resource Definition Framework,RDF)和网络本体语言(Web Ontology Language,OWL),甲骨文在Oracle 10g中引入了对RDF的支持,而在Oracle 11g中引入了对OWL的支持。

  RDF是W3C组织推荐的国际标准,用来描述互联网上的任意资源,实现不同平台和操作系统的信息共享。甲骨文的空间和语义技术主管Xavier Lopez认为,通过存储RDF格式文件,并对其运用一定的规则,我们就可以推导出新的信息来,表达出这些数据相关的清晰的来龙去脉。RDF提供了连接两个数据元素,并用一条术语来描述两者之间关系的能力。两个数据元素(资源)和描述术语的组合构成了一个形如主谓宾的三元组(triple)声明。主语和宾语中间的谓语也就是描述连接的术语,也称为三元组的“属性”。例如,数据库可以引入类似这样的声明:Larry works at Oracle。其中,“Larry”是主语,“Oracle”是宾语,而“works at”则是将以上二者捆绑在一起的谓语。

  这只是开始而已。用机器可读的语言描述这三者的关系使我们能够对这些数据进行进一步的推理工作——让其能够被其他系统读取。Lopez称,一旦您的数据库有了三元组,您就可以开始做很多以前无法做到的事情。基本上就是寻找模式,这在以前无法办到,现在通过三元组就可以做到。和在数据挖掘应用中使用的传统数据立方块(cube)不同,这个方法并不需要事先构建数据模式,这使得即席查询更容易执行。

  已经有不少用户利用Oracle 10g来编译大量的三元组了。等到有足够数量的数据被编译成这种模式后,就可以进行进一步的推导工作了。例如,如果您有两个这样的三元组声明“Larry works at Oracle”(Larry在甲骨文工作)和“Oracle is a software company”(甲骨文是一家软件公司),那么就可以得出以下推论“Larry works for a software company”(Larry在一家软件公司工作)。

  虽然这个例子很简单,但体现了一个能够产生新信息的逻辑逐步推理过程。而这就是OWL的切入点了。OWL延伸了在一个数据集中能够完成的推理的范围。OWL也是W3C的国际标准,以规则为基础。OWL提供了能够根据属性特征、等式和不等式、数据类型和数据定义的约束来描述数据的整套等级规则。

  甲骨文提供了能够将标准关系数据编译为RDF格式的工具。而且也有很多工具能够将网站、电子邮件、博客网站和其他基于文本文件的非结构化数据解析为RDF格式

本文作者:
« 
» 
快速导航

Copyright © 2016 phpStudy | 豫ICP备2021030365号-3