当前位置: 首页 > 业界动态 > 技术实现 > 本文


大数据工具是什么?有哪些大数据工具?




发布时间: 2018-1-24 16:41:02  
大数据

  大数据工具是什么?顾名思义,大数据工具就是用户大数据工作的工具统称,比如从事大数据开发工作会用到java、hadoop、spark、storm、es等,而从事大数据可视化工作需要很多的数据可视化工具,比如echarts、samrtbi、tableau、D3.js等,大数据工作人员利用这些工具来进行日常的大数据工作。



  下面我们来介绍一些大数据工作中用到的工具。


  1. Hivemall


  Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。


  支持的操作系统:与操作系统无关。


  Hivemall官网链接:https://github.com/myui/hivemall


  2. Mahout


  Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。


  Mahout官网地址:http://mahout.apache.org/


  3. MapReduce


  MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它大大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。


  MapReduce相关文档:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html


  4. Oozie


  Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:


  ● 工作流定义

  ● 当前运行的工作流实例,包括实例的状态和变量


  Oozie官网地址:http://oozie.apache.org/


  5. Pig


  Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。


  Pig官网地址:http://pig.apache.org/


  6. Sqoop


  Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。


  Sqoop官网地址:http://sqoop.apache.org/


  Sqoop相关文档:http://sqoop.apache.org/docs/1.4.5/index.html


  7. Spark


  Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。


  Spark官网地址:http://spark.apache.org/


  8. Tez


  Tez建立在Apache Hadoop YARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。


  支持的操作系统:Windows、Linux和OS X。


  Tez官网链接:http://tez.apache.org


  9. Zookeeper


  ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。


  Zookeeper官网:http://zookeeper.apache.org/


  来源:e行网

分享到: 微信 QQ空间 人人网 更多
阅读:211次

版权所有 © 2011-2017 南京凯发网娱乐大数据科技股份有限公司(股票代码:835305), 保留一切权利。(苏ICP备11060547号-1)  
凯发网娱乐大数据-专业的云存储、大数据、云计算产品供应商