经典收藏丨数据科学家&大数据技术人员工具包

来源:http://www.chinese-glasses.com 作者:Web前端 人气:175 发布时间:2020-04-22
摘要:时间: 2019-09-22阅读: 122标签: 开源 希望你能关注微信公众号【AWAKING】!因为之后就只在微信发了~ 功能强大的数据项目开源工具将使企业的业务更加无缝和功能化。无论是数据科学专业

时间: 2019-09-22阅读: 122标签: 开源

希望你能关注微信公众号【AWAKING】!因为之后就只在微信发了~

功能强大的数据项目开源工具将使企业的业务更加无缝和功能化。无论是数据科学专业人士还是想要帮助企业成功地完成数据科学项目的IT部门,需要使用一些必不可少的数据科学工具。

**本文简介:**数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科学教育和知识分享,提高数据科学人员素质。

以下是值得考虑的一些开源工具:

数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具,秦陇纪全面梳理数据分析师和数据科学家使用的工具包,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址,欢迎大家积极传播!

  1. Ludwig

数据科学家是有着开阔视野的复合型人才,他们既有坚实的数据科学基础,如数学、统计学、计算机学等,又具备广泛的业务知识和经验数据科学家通过精深的技术和专业知识在某些科学学科领域解决复杂的数据问题,从而制定出适合不同决策人员的大数据计划和策略。数据分析师和数据科学家使用的工具在网上的MOOC有提供,比如2016年2月1日约翰-霍普金斯大学Coursera数据科学专业化课程等网络课程。数据科学家的常用工具与基本思路,并对数据、相关问题和数据分析师和数据科学家使用的工具做了综合概述。

Ludwig是一个能够建立基于数据的深度学习模型进行预测的工具。不具备编码知识的专业人员都可以使用它。除了能够为机器学习目的训练数据集之外,它还具有可视化组件,可以使数据更加直观,并使需要了解信息的非专业人员可以更好地理解数据。

数据科学家和大数据技术人员的工具包:

Ludwig是一个基于TensorFlow的工具箱,旨在让用户在没有大量先验知识的情况下就可以在数据工作期间使用机器学习。用户可以在Ludwig的帮助下开展一些项目,其例子包括文本或图像分类、基于机器的语言翻译和情感分析。

A.大数据技术平台相关2015最佳工具;

  1. 谷歌差异性隐私库

B.开源大数据处理工具汇总;

差异性隐私通过将用户数据与人为的“白噪声”混合来对数据进行加密的方法。这样做可以通过确保恶意人员无法将数据源追溯到个人或以其他方式泄露其身份来保护所涉及人员的隐私。2019年9月,谷歌公司决定将其差异性隐私库作为开源工具提供。

C.常见的数据挖掘分析处理工具。

通过这一决定,该公司希望这将有助于用户保持数据安全,即使他们没有像大型企业可能拥有大量隐私性的资源。当谷歌公司发布这个工具时在其博客中指出,如果企业不保护用户数据,就有可能失去用户的信任。

◆◆◆

  1. Kubernetes

大数据技术平台相关2015最佳工具

Kubernetes是一个应用程序管理和部署平台,允许在容器环境中使用应用程序。它可以帮助用户平衡负载,并在波动的情况下按预期保持应用程序的正常运行。使Kubernetes如此稳定的一件事是它使用了API Contracts。它们是使Kubernetes符合标准的可插拔组件。

InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。

只要两个模块都符合同一套标准,就可以将它们交换出来,并且由于模块的共享特性,Kubernetes的这一方面可以缩短集成测试过程。

1. Spark

Kubernetes可能不是那种可以立即适合用户的数据科学项目,但不应忽视它。Kubernetes简化了应用程序管理的许多方面,并且可以简化用户的数据科学项目。

在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。Spark的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。spark-packages.org网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。

它可以协助的事情之一是可重复的批处理作业。例如,如果企业尝试以可重复的方式使用数据,则坚持相同的流程至关重要。此外,用户也不必成为Kubernetes专家即可将其用于数据科学。无论是要创建用于数据处理的机器学习算法,还是想使用分析来解决业务问题,用户都可以应用这一强大的框架。

2. Storm

  1. Apache Drill

Storm是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和Spark不同,Storm可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。Spark掩盖了很多Storm的光芒,但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache Kafka一起配合使用。

如果用户准备开始查询数据而无需处理太多开销,则可以采用Apache Drill。它消除了在执行查询之前加载数据、维护架构或转换数据的需求。用户只需要在SQL查询中包括相应的路径即可开始工作。除了支持标准SQL以外,Apache Drill还使用户可以依赖于可能已经使用的商业智能工具,例如Qlik和Tableau。

3. H2O

此外,无论用户当前的大数据分析技能水平如何,Apache Drill都会努力消除他们经常面临的一些障碍。它还支持PB级的安全和交互式SQL分析。

H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

另外,如果用户只是开始使用数据,但不能在数据分析上进行大量投资,那也不必担心。 Apache Drill提供了个人或小组使用的资源。简而言之,它使大数据分析更易于使用。

4. Apex

  1. ParaView

Apex是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。它可以是一个YARN的原生程序,能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性(精确一次处理、最少一次、最多一次)。以前DataTorrent公司开发的基于Apex的商业处理软件,其代码、文档及架构设计显示,Apex在支持DevOps方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。Malhar是一个相关项目,提供超过300种常用的实现共同的业务逻辑的应用程序模板。Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。

ParaView的开发目的是分析庞大的数据集,甚至可以在超级计算机上运行。但这并不意味着用户不能在普通的工作场所笔记本电脑上使用它。Paraview可帮助用户使用定性或定量技术分析数据,然后通过可视化获得另一种视角。如果用户需要准备数据然后以容易理解的方式显示数据,这一点特别有用。

5. Druid

而且,如果用户需要一些指导开始使用,则可以获得免费的在线教程的指导。

Druid在今年二月转为了商业友好的Apache许可证,是一个基于“事件流的混合引擎,能够满足OLAP解决方案。最初他主要应用于广告市场的在线数据处理领域,德鲁伊可以让用户基于时间序列数据做任意和互动的分析。一些关键的功能包括低延迟事件处理,快速聚合,近似和精确的计算。Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点,给用户一个完整的事件信息。测试表明50万事件数据能够在一秒内处理完成,并且每秒处理能力可以达到100万的峰值,Druid作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。

  1. Plotly Python开源图形库

6. Flink

如果用户可以与数据进行交互,则有时数据项目是最有效的。如果用户想将数据转换为交互式图形,则此图形库是理想的选择。

Flink的核心是一个事件流数据流引擎。虽然表面上类似Spark,实际上Flink是采用不同的内存中处理方法的。首先,Flink从设计开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。MapReduce的世界的开发者们在面对DataSet处理API时应该有宾至如归的感觉,并且将应用程序移植到Flink非常容易。在许多方面,Flink和Spark一样,其的简洁性和一致性使他广受欢迎。像Spark一样,Flink是用Scala写的。

它提供了多种样式可供考虑,从条形图到热图。该网站将图表的类型分为几类。例如,有些财务图表可以很好地显示年终报告。

7. Elasticsearch

另外,Plotly提供地图。用户可能会发现其中之一与数据科学项目保持一致,该项目显示了企业在过去一年中在哪个社区获得了最多的新客户,或者发现该地图特别适合显示经常出差的销售团队成员的路线。

Elasticsearch是基于Apache Lucene搜索分布式文件服务器。它的核心,Elasticsearch基于JSON格式的近乎实时的构建了数据索引,能够实现快速全文检索功能。结合开源Kibana BI显示工具,您可以创建令人印象深刻的数据可视化界面。Elasticsearch易于设置和扩展,他能够自动根据需要使用新的硬件来进行分片。他的查询语法和SQL不太一样,但它也是大家很熟悉的JSON。大多数用户不会在那个级别进行数据交互。开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。

  1. Jamovi

8. SlamData

Jamovi网站表示,该工具可以缩小研究人员和统计学家之间的差距。它像功能齐全的电子表格一样工作,这意味着用户在开始使用时很容易上手。

如果你正在寻找一个用户友好的工具,能理解最新流行的NoSQL数据的可视化工具,那么你应该看一看SlamData。SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询,不需要转换或语法改造。该技术的主要特点之一是它的连接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。你可能会问:“我不会有更好的数据池或数据仓库工具吗?请认清这是在NoSQL领域。

另外,如果用户还不擅长统计信息,不用担心,可以将Jamovi作为入门工具。还有一套分析工具可帮助用户在完成下载和安装产品后立即开始探索。

9. Drill

拥有必要的工具对于帮助用户成功完成数据科学项目至关重要。以上7个开源工具可以让用户更快地入门,提供企业利用信息的实用方法。

Drill是一种用于大型数据集的交互分析的分布式系统,由谷歌的Dremel催生。Drill专为嵌套数据的低延迟分析设计,它有一个明确的设计目标,灵活的扩展到10000台服务器来处理查询记录数据,并支持兆级别的数据记录。嵌套的数据可以从各种数据源获得的(如HDFS,HBase,Amazon S3,和Blobs)和多种格式(包括JSON,Avro,和buffers),你不需要在读取时指定一个模式(“读时模式”)。Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。最后,Drill提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。

10. HBASE

HBase在今年的里程碑达到1.X版本并持续改善。像其他的非关系型的分布式数据存储一样,HBase的查询结果反馈非常迅速,因此擅长的是经常用于后台搜索引擎,如易趣网,博科和雅虎等网站。作为一个稳定的、成熟的软件产品,HBase新鲜的功能并不是经常出现,但这种稳定性往往是企业最关心的。最近的改进包括增加区域服务器改进高可用性,滚动升级支持,和YARN的兼容性提升。在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。

11. Hive

随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。目前基金会主要集中在提升性能、可扩展性和SQL兼容性。最新的1.2版本显著的提升了ACID语意兼容性、跨数据中心复制,以及以成本为基础的优化器。Hive1.2也带来了改进的SQL的兼容性,使组织利用它更容易的把从现有的数据仓库通过ETL工具进行转移。在规划中讲主要改进:以内存缓存为核心的速度改进 LLAP,Spark的机器学习库的集成,提高SQL的前嵌套子查询、中间类型支持等。

12. Kylin

Kylin是eBay开发的用于处理非常大量数据的OLAP分析系统,他使用标准的SQL语法,和很多数据分析产品很像。Kylin使用Hive和MR来构建立方体,Hive用作预链接,MR用作预聚合,HDFS用来储存构建立方体时的中间文件,HBase用来存储立方体,HBase的coprocessor(协处理器)用来响应查询。像大多数其他的分析应用一样,Kylin支持多种访问方法,包括JDBC,ODBC API进行编程访问以及REST API接口。

13. CDAP

CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。CDAP数据集是数据的逻辑展现,无论底层存储层是什么样的;CDAP提供实时数据流处理能力。应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。CDAP自带的数据摄取框架和一些预置的应用和一些通用的“包”,例如ETL和网站分析,支持测试,调试和安全等。和大多数原商业(闭源)项目开源一样,CDAP具有良好的文档,教程,和例子。

14. Ranger

安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。

15. Mesos

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、 MPI、Hypertable、Spark等。Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配(内存和CPU)。提供Java、Python和C++ APIs来开发新的并行应用程序,提供基于Web的用户界面来提查看集群状态。Mesos应用程序(框架)为群集资源协调两级调度机制,所以写一个Mesos应用程序对程序员来说感觉不像是熟悉的体验。虽然Mesos是新的项目,成长却很快。

16. NiFi

Apache NiFi 0.2.0 发布了,该项目目前还处于 Apache 基金会的孵化阶段。Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置。两个最重要的特性是其强大的用户界面及良好的数据回溯工具。NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。其数据回溯特性允许用户查看一个对象如何在系统间流转,回放以及可视化关键步骤之前之后发生的情况,包括大量复杂的图式转换,fork,join及其他操作等。另外,NiFi使用基于组件的扩展模型以为复杂的数据流快速增加功能,开箱即用的组件中处理文件系统的包括FTP,SFTP及HTTP等,同样也支持HDFS。NiFi获得来来自业界的一致好评,包括Hortonworks CEO,Leverage CTO及Prescient Edge首席系统架构师等。

17. Kafka

在大数据领域,Kafka已经成为分布式发布订阅消息的事实标准。它的设计允许代理支持成千上万的客户在信息吞吐量告诉处理时,同时通过分布式提交日志保持耐久性。Kafka是通过在HDFS系统上保存单个日志文件,由于HDFS是一个分布式的存储系统,使数据的冗余拷贝,因此Kafka自身也是受到良好保护的。当消费者想读消息时,Kafka在中央日志中查找其偏移量并发送它们。因为消息没有被立即删除,增加消费者或重发历史信息不产生额外消耗。Kafka已经为能够每秒发送2百万个消息。尽管Kafka的版本号是sub-1.0,但是其实Kafka是一个成熟、稳定的产品,使用在一些世界上最大的集群中。

18.OpenTSDB

opentsdb是建立在时间序列基础上的HBase数据库。它是专为分析从应用程序,移动设备,网络设备,和其他硬件设备收集的数据。它自定义HBase架构用于存储时间序列数据,被设计为支持快速聚合和最小的存储空间需求。通过使用HBase作为底层存储层,opentsdb很好的支持分布与系统可靠性的特点。用户不与HBase的直接互动;而数据写入系统是通过时间序列的守护进程(TSD)来管理,它可以方便的扩展用于需要高速处理数据量的应用场景。有一些预制连接器将数据发布到opentsdb,并且支持从Ruby,Python以及其他语言的客户端读取数据。opentsdb并不擅长交互式图形处理,但可以和第三方工具集成。如果你已经在使用HBase和想要一个简单的方法来存储事件数据,opentsdb也许正好适合你。

19. Jupyter

大家最喜欢的笔记应用程序都走了。jupyter是“IPython”剥离出来成为一个独立的软件包的语言无关的部分。虽然jupyter本身是用Python写的,该系统是模块化的。现在你可以有一个和iPython一样的界面,在笔记本电脑中方便共享代码,使得文档和数据可视化。至少已经支持50个语言的内核,包括Lisp,R,F #,Perl,Ruby,Scala等。事实上即使IPython本身也只是一个jupyter Python模块。通过REPL(读,评价,打印循环)语言内核通信是通过协议,类似于nrepl或Slime。很高兴看到这样一个有用的软件,得到了显著的非营利组织资助,以进一步发展,如并行执行和多用户笔记本应用。

20. Zeppelin

Zeppelin是一个Apache的孵化项目. 一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)。一些基本的图表已经包含在Zeppelin中。可视化并不只限于SparkSQL查询,后端的任何语言的输出都可以被识别并可视化。 Zeppelin 提供了一个 URL 用来仅仅展示结果,那个页面不包括 Zeppelin 的菜单和按钮。这样,你可以轻易地将其作为一个iframe集成到你的网站。Zeppelin还不成熟。我想把一个演示,但找不到一个简单的方法来禁用“Shell”作为一个执行选项(在其他事情)。然而,它已经看起来的视觉效果比IPython笔记本应用更好,Apache Zeppelin (孵化中) 是 Apache2 许可软件。提供100%的开源。

◆◆◆

开源大数据处理工具汇总

一共81个,包括日志收集系统/集群管理/RPC等,下面是文档简版:

类别名称官网备注

查询引擎Phoenixhttp://phoenix.incubator.apache.org/Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写

Stingerhttp://hortonworks.com/labs/stinger/原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架

http://tez.incubator.apache.org/

Prestohttp://prestodb.io/Facebook开源

Sharkhttp://shark.cs.berkeley.edu/Spark上的SQL执行引擎

Pighttp://pig.apache.org/基于Hadoop MapReduce的脚本语言

Cloudera Impalahttp://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html参照Google Dremel实现,能运行在HDFS或HBase上,使用C++开发

Apache Drillhttp://incubator.apache.org/drill/参照Google Dremel实现

Apache Tajohttp://tajo.incubator.apache.org/一个运行在YARN上支持SQL的分布式数据仓库

Hivehttp://hive.apache.org/基于Hadoop MapReduce的SQL查询引擎

流式计算Facebook Puma

实时数据流分析

Twitter Rainbird

分布式实时统计系统,如网站的点击统计

Yahoo S4http://incubator.apache.org/s4/Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统

Twitter Stormhttp://storm.incubator.apache.org/使用Java和Clojure实现

迭代计算Apache Hamahttps://hama.apache.org/建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的计算框架,模仿了Google的Pregel。

Apache Giraphhttps://giraph.apache.org/建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel

HaLoophttps://code.google.com/p/haloop/迭代的MapReduce

Twisterhttp://www.iterativemapreduce.org/迭代的MapReduce

离线计算Hadoop MapReducehttp://hadoop.apache.org/经典的大数据批处理系统

Berkeley Sparkhttp://spark.incubator.apache.org/使用Scala语言实现,和MapReduce有较大的竞争关系,性能强于MapReduce

http://shark.cs.berkeley.edu/

DataTorrenthttp://www.datatorrent.com/基于Hadoop2.X构建的实时流式处理和分析平台,每秒可以处理超过10亿个实时事件

键值存储LevelDBhttps://code.google.com/p/leveldb/Google开源的高效KV编程库,注意它只是个库

RocksDBhttp://rocksdb.org/Facebook开源的,基于Google的LevelDB,但提高了扩展性可以运行在多核处理器上

HyperDexhttp://hyperdex.org/下一代KV存储系统,支持strings、integers、floats、lists、maps和sets等丰富的数据类型

TokyoCabinethttp://fallabs.com/tokyocabinet/日本人Mikio Hirabayashi(平林干雄)开发的一款DBM数据库,注意它只是个库(大名鼎鼎的DBM数据库qdbm就是Mikio Hirabayashi开发的),读写非常快

Voldemorthttp://www.project-voldemort.com/voldemort/一个分布式键值存储系统,是Amazon Dynamo的一个开源克隆,LinkedIn开源

Amazon Dynamohttps://github.com/dynamo/dynamo亚马逊的KV模式的存储平台,无主架构

Tairhttp://tair.taobao.org/淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统,专为小文件优化,并提供简单易用的接口(类似Map),Tair支持Java和C版本的客户端

Apache Accumulohttps://accumulo.apache.org/一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统,参照Google Bigtable而设计,建立在Hadoop、Thrift和Zookeeper之上。

Redishttp://redis.io/使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、单机版KV数据库。从2010年3月15日起,Redis的开发工作由VMware主持

表格存储OceanBasehttp://alibaba.github.io/oceanbase/支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务

Amazon SimpleDBhttp://aws.amazon.com/cn/simpledb/一个可大规模伸缩、用 Erlang 编写的高可用数据存储

Verticahttp://www.vertica.com/惠普2011收购Vertica,Vertica是传统的关系型数据库,基于列存储,同时支持MPP,使用标准的SQL查询,可以和Hadoop/MapReduce进行集成

本文由10bet发布于Web前端,转载请注明出处:经典收藏丨数据科学家&大数据技术人员工具包

关键词:

最火资讯