时间:2015-01-30 编辑整理:早检测网 来源:早检测网
一、 选题的背景及意义 近四十年来,传统的确定性数据( deterministic data) 管理技术得到了极大的发 展,造就了一个数百亿的数据库产业。 数据库技术和系统已经成为信息化社会基 础设施建设的重要支撑。 在传统数据库的应用中,数据的存在性和精确性均确定 无疑。 近年来, 随着技术的进步和人们对数据采集和处理技术理解的不断深入, 不 确定性数据( uncertain data) 得到了广泛的重视。 在许多现实的应用中,例如 经济、军事、物流、金融、电信等领域,数据 的不确定性普遍存在,不确定性数 据扮演着关键角色。 传统的数据管理技术却无法有效管理不确定性数据,这就引 发了学术界和 工业界对研发新型的不确定性数据管理技术的兴趣。 由于不确定性数据的产生原因比较复杂 (可能是原始数据本身不准确或是采 用了粗粒度的数据集合, 也可能是为了满足特殊应用目的或是在处理缺失值、数 据集成过程中而产生的) ,因此,不确定性数据的种类较多,例如关系型数据、 半 结构化数据、流数据、移动对象数据等,相应地也出现了许多与数据类型紧 密相 关的数据模型。 定义与应用场景相匹配的数据模型是不确定性数据管理的首要任务. 在不 确 定性数据管理领域,最常用的模型是可能世界模型(possibleworld model) 。 该模型 从一个不确定性数据库演化出很多确定的数据库实例(称为可能世 界实例) ,而且 所有实例的概率之和为 1. 不确定性数据的种类较多,例如关系型数 据、半结构化 数据、流数据、移动对象数据等,尽管存在许多与数据类型紧密相 关的数据模型, 但是这些模型最终都可以转化为可能世界模型. 其中, 基于 xml 的不确定性数据建模的研究对象主要是半结构化数据模型。 半结构化数据模型( semistructured data model) 能有效描述缺乏严格模式结构的 数据。 半结构化数据通常可以用文档树来描述。 Dekhtyar 等 人 提 出 了 一 种 管 理 概 率 半 结 构 化 数 据 (probabilistic semistructured data) 的方法,该方法以关系数据库 技术为基础,支持丰富的代数查询。 更多的工作则是直接以文档树形式描述不确 定性半结构化数据,例如 p2 文档模型( p2document model) 、概率树模型,以及 PXML 模型 、Keulen 等人的概率树模型、PrXML 模型 等。
二、 工作任务分析 我在小组中的研究部分是不确定性数据的模型。项目开 启后,我的工作与任 务可分解分以下几个部分 1、学习与整理前辈们在不确定 性数据方面的研究成果。这项目工作任务主要 分三个阶段进行。第一阶段是广 泛地收集与了解不确定性数据的相关知识,了解 不确定性数据的轮廓,知道相 关的术语、概念,方便以后与别人作相关的交流。 第二阶段是有针对性学习与理整理现有的不确定性数据模型方面的理论知 识。这 一阶段,要知道各种模型的概念、所针对不同种类的数据、以及它们优 势与不足 之处。 第三阶段是把精力放在不确定性数据研究的某种数据的模型上。
此阶段要 做到对相关的模型在较深入的理解,不单要知道他们的定义、优劣、 具体应用情 况,还要理解它们在数学上表述、证明。 2、对现有的不确定性数据模型提出自己的见解。主要包括以下一系列的活 动: 1)仔细研究现在模型的优点与不足之处;2)与其它组员(还有指导老师以 及相 关的研究人员)交流看法,尤其是向其它组员了解在不确定性数据的存储 与查询 方面算法知识,为优化工作提供依据与灵感。3)整理所收集到的不确定 性数据模 型的资料。
三、 调研报告 1 不确定性数据与 xml 的发展史 实际上,针对不确定性数 据的研究工作已经有几十年历史了。从二十世纪八 十年代末开始,针对概率数 据库(probabilistic database)的研究工作就从未间断, 这类研究工作将不 确定性引入到关系数据模型中去,取得较大研究进展。近年来, 针对不确定性 数据的研究工作则在更广的范围之内取得更大的进展,即:在更丰 富的数据类 型上处理更多种类的查询任务。不确定性数据管理技术的典型框架包 含四大部 分:模型定义、预处理与集成、存储与索引、查询分析处理。 可扩展标记语言 XML(eXtensible Markup Language) 〔1〕是一种简单灵活 的 文本格式的可扩展标记语言,起源于 SGML(Standard Generalized Markup Language), SGML 的一个子集合, 是 也就是 SGML 的一个简化版本, 非常适合 于 在 Web 上或者其它多种数据源间进行数据的交换。随着 Web 上数据的增多, HTML 的缺点越来越突出。W3C 的成员认识到,必须有一种方法能够把数据本身 和数据的显示分离开来, 这样 W3C 在 1996 年提出了 XML 的概念。 XML 不仅保 留 了 SGML 的很多优点,而且更加容易操作以及在 World Wide Web 环境下实现。 1998 年,XML 成了 W3C 的推荐标准。 2 不确定性数据的发展方向 在传统数据库的应用中,数据的存在性和精确 性均确凿无疑。近年来,随着 技术的进步和人们对数据采集和处理技术理解的 不断深入,不确定性数据 (uncertain data)得到广泛的重视。在许多现实的 应用中,例如:经济、军事、 物流、金融、电信等领域,数据的不确定性普遍 存在,不确定性数据扮演关键角 色。传统的数据管理技术却无法有效管理不确 定性数据,这就引发了学术界和工 业界对研发新型的不确定性数据管理技术的 兴趣。 针对不确定性数据的研究工作 则在更广的范围之内取得更大的进展,即: 在更丰富的数据类型上处理更多种类 的查询任务。 四、 方案拟定与分析 1、采用由大到小,由浅入深的顺序进行研究。 不确定性数据对于我来说,是比较新的东西。要想快速把握一样新的东西, 并不断深入,从整体上了解它的整个框架,是很重要的。这样可以防止在研究的 过程中迷失方向,同时,从整体上把握了不确定性数据后,也可以更方便更有效 率地与别人进行交流,更有效地从网络上检索到有用的信息。 万丈高楼平地起, 把握不确定性数据的整体,就是为不确定性数据的模型研 究打基础。基础扎实,深入研究阶段才能底气。 五、 毕业论文撰写提纲 摘要 Abstract 第一章 绪论 1.1 不确定性数据的 背景 1.2 不确定性数据的管理框架 1.2.1 模型定义 1.2.2 预处理与集成 1.2.3 存储与索引 1.2.4 查询分析处理 1.3 不确定性数据的模型 1.4 建模的 要求与挑战 1.4.1 庞大的可能世界实例集合 1.4.2 新出现的维度———概率 维 1.4.3 不确定性数据管理的理论问题 第二章 可能世界模型 2.1 可能世界 模型的简介 2.2 可能世界模型的举例与说明
第三章 针对关系型数据的模型
3.1 Probabilistic ?-table 模型 3.2 Probabilistic or-set table 模型 3.3 Probabilistic or-set-? Table 模型 3.4 Probabilistic c-table 模型 3.4.1 三个简单的表达系统 3.4.2 Probabilistic c-table 第 四 章 针 对 半 结 构 化 数 据 的 模 型 4.1 p-document 模型 4.1.1 模型简介 4.1.2 xml 4.1.3 模型定义的相关问题与解 决方法 4.2 概率树模型模型(probabilistic tree model 4.2.1 模型快照 4.2.2 模型的定义 4.2.3 模型的不足之处 4.3 PXDB 模型 4.3.1 PXDB 模型引 入 4.3.2 模型定义 4.3.3 c-formulae 4.3.4 模型评价 第五章 其它模型 5.1 针对数据流的模型 5.1.1 针对数据流的模型 5.1.2 一个常用模型的定义 5.1.3 相关窗口的分类 5.2 针对多维数据的模型 5.2.1 关于 OLAP 5.2.2 针对 多维数据的模型 5.2.3 相关模型 第六章 总结 6.1 内容总结 6.2 展望 参考 文献 致谢 六、 实施计划 设计总共用时 3 个半月左右。 具体安排如下: 2010.3.1——2010.4.11 论文选题,收集资料,并完成开题报告初稿。 2010.4.12——2010.4.30 学习与整理不确定性数据的相关资料。 2010.5.1——2010.5.15 进入不确定性数据模型深入研究阶段, 并完成论文 初 稿。 2010.5.16——2010.5.25 修改毕业论文 2010.5.26——2010.6.10 整理好 材料,装订好论文,进行答辩准备。 指导教师意见: 签 名: 年 月 日 备注: 1、要有 10 篇以上相关文章的阅读量。 2、理、工科开题报告撰写不少于 2500 字,人文社科开题报告不少于 3500 字,包括论文选题 的背景和意义、工作任务分析、调研报告、方案拟定与分析、 毕业论文撰写提纲及实施计 划、文献综述(理、工科可不提交文献综述)等。 3、电脑打印,用 A4 纸,页边距左边 3。2cm,右边 2。54cm,上下边距 2。 54cm,在左边装 订;内容为小四号宋体,行距为固定值 20 磅。 4、文献综述(按文献综述格式打印)附在开题报告后面一起装订。