从小数据到大数据—信息管理解决方案

2013-01-14 03:38:01 【评测来源:中关村在线】评测员:卢凤骄产品类型:

特点关键字:信息管理

评测分数:
0分

在网络和计算机技术发达的现在,数据是核心,而对数据的存储和管理更是重中之重。Tom’s  IT Pro为用户推荐了数款数据库管理工具,介绍从小数据到大型数据管理的解决方案,原文为From Small to Big Data - Solutions for Managing Information,经软交所独家翻译,全文如下:

1. 关系数据库

一直以来,关系数据库都是企业数据管理的基本技术。在关系数据库出现之前,企业和组织依靠网络模型数据库和面向记录的文件进行数据管理。它们不易于使用,且缺少一个标准的程序设计模型。关系数据库根据 Codd 的标准化规则定义,帮助数据库设计师避免了潜在的数据异常问题。

SQLite

SQLite 是一款小型的、完整的、零配置的数据库,它能完美地满足小型或嵌入式数据管理的需要。想要从自定义、面向文件的数据管理中解脱出来,SQLite 是一个好的选择。如果您有一台设备,需要一个小型的数据库,那么 SQLite 是值得考虑的选择。不要期待它有 Microsoft SQL Server 或者 Oracle 关系数据库那样的功能,因为您也没有那么大规模的行政和管理工作。

Microsoft Access

几十年来,Microsoft 在操作系统市场中始终处于主导地位,而在桌面数据库方面,Microsoft Access 也是主力。Access 优于其他桌面数据库的地方在于,它的功能一直在稳步改善。新版本中包括数据库的更新模板。查询构建工具隐藏了 SQL 许多的复杂性,但是习惯于写 SQL 查询语句的用户,可以将查询构建工具产生的代码进行自定义,或者从头开始写自己的查询语句。

Oracle Berkley DB

关系数据库并不适用于每个人。所以 Oracle 提供键值数据库—Oracle Berkley DB。人们对非 SQL 数据库越来越感兴趣了,这种数据库通常称为 NoSQL 数据库。新型的 NoSQL 数据库中,许多都用于服务器应用程序。而1992年就诞生的 Oracle Berkley DB,是用于嵌入式事务管理应用程序。当然,今天的键值对数据库版本中包含的更多,不仅仅是最初支持 Java 和XML的数据库了。

MySQL

开源的 MySQL 关系数据库,大概是网络上最流行的关系数据库了。最初,MySQL 是用于网站的后端数据存储,后来逐步成为了高要求数据管理任务的选择。MySQL 可在多种平台上运行,包括:Windows、Linux 以及 Mac 操作系统。它的目的就在于为服务器集群服务,提供良好的可扩展性和稳定性。多年来,MySQL 不断开发新的功能,包括:触发器、存储程序,以及其他功能全面的关系数据库所具有的功能。

PostgreSQL

PostgreSQL 是一款早期开发的开源关系数据库。PostgreSQL 最初叫做 Postgres,是由位于伯克利市的加利福尼亚大学开发的。PostgreSQL 具有先进的功能,包括:规则、程序,还有一些对象关系功能。MySQL 未增加其新功能时,就功能完善的开源数据库而言,PostgreSQL 是开发者最好的选择。

2. 非关系数据库

除了关系型之外的数据库现在也逐渐受到人们的信赖,这种数据库称为非关系数据库。关系型数据库的出现,是为了满足之前的数据库不能满足的需求,而非关系数据库的出现,则是为了支持网络应用程序,使其能够拥有众多用户和更宽松的事物处理要求。

MongoDB

MongoDB 是一款 NoSQL 数据库,专为 JSON 样式文档设计,在高性能环境下运行。为什么用户需要一个“文档”数据库?对于初学者来说,这样的数据库模式更为灵活。在典型的关系型模式下,用户必须通过修改数据库表结构来增加列,而附加的属性并不常用。文档数据库更加灵活,允许用户指定新的属性或者键值。

CouchDB

CouchDB 是 Apache 项目的 NoSQL JSON(JavaScript 对象表示法)文档数据库。它跟 MongoDB 有相似的功能,包括由 Hadoop 普及的 map/reduce 处理模型支持。CouchDB 和 MongoDB 有时按照它们的速度和响应进行区分。

Hadoop

在大数据时代,关系数据库最大的竞争对手非 Hadoop 莫属。Hadoop 最大的优势之一是,它允许处理其数据的服务器成比例增长。建立和管理数据库服务器集群能使DBA 在晚上也保持可用状态。Hadoop 和映射化简并不是关系数据库的替代品,但是对于一些面向批处理、大数据量的应用程序来说,是非常理想的选择。

Neo4j

并不是所有的大数据问题都可以用 Hadoop 模式解决;对于网络和图形问题来说,Neo4j 是更好的选择。如果您要为大量数据建一个网络模型,正在考虑社交网络、传输模式、常见问题和一些其他建模问题的话,不妨来研究一下图形数据库。

R

有时候,数据越多越好。如果质量平平的商业智能报告给您留下的问题比得到的解答还多,那么,就是时候升级,进行彻底的分析了。许多用户在这时都会选择开源统计分析程序包 R 来寻求解答。R 是一个统计分析平台,它拥有良好的支持,还具有许多专业的免费扩展程序包,可处理从保险统计分析到文本挖掘的所有问题。

3. 列数据存储技术

 

 

在其他数据存储方式发展的同时,关系数据库设计师也没有闲着。他们研发了一项提高关系数据库性能的技术,该技术面向列存储而非行存储的数据结构。在您需要每次只对一条记录进行处理时,行存储和记录导向的结构很实用。但是考虑下面的情况,您去银行的时候,工作人员拥有您的所有信息。而当您在一系列交易中,分析数据时,情况就不同了。您也许只会对数据库记录中的几项属性感兴趣。这种情况下,仅仅读取属性或者说列,就更加高效了。会有越来越多的列存储应用。

4. 压缩技术

 

 

磁盘确实很便宜,网络带宽也一直在增加,但是在大型数据存储中,压缩技术仍然需要。记住,当我们存储数据时,我们很少只存储一次。数据会被备份和复制。数据在被加载到数据分析应用程序之前可能会被复制。如果分析人员完成分析后,忘了删除复制的数据,那么这些数据也会被备份和复制。压缩技术无法解决这些问题,但是可以减轻这些问题带来的负担。

5. Big Data

 

 

新的数据源,如社交网络、网络交通,以及逐渐增加的设备都在产生大量的数据,这些数据需要新的数据管理技术。Big Data 是许多数据分析员的新标准。Big Data 的用户和关系数据库用户的工作流程类型不同。Big Data 的特点是其多样性。有些数据有良好的结构,有些是半结构化的,而还有的是非结构化的。有些数据很适合用 Hadoop 进行分析,而有些则适用于图形数据库。Big Data 不仅仅“大”,还很多样化。

合作联系

邮    箱:ex@csix.cn

电    话:010 61136010-666

地    址:海淀区海淀南路甲21号中关村知识产权大厦A座二层一会议室

关于我们
软交所介绍
主题活动
大事记
企业文化
新闻动态
特色服务
资质管家
投融资服务
会员服务
主题活动
创富中国
百家讲堂
阳光沙龙
我要买
淘软件
淘资讯
电子招投标
产业园区
大数据
我要卖
任务大厅
商城入驻
企业黄页

联系我们

如果您还需要其它帮忙可以直接拨打

4006-9191-01
  • 关注我们