首页 » 大数据

Hadoop 数据中心管理系统cloudera 实现

 
1

系统环境 实验环境:openstack 下的云主机 操作系统:CentOS 6.5 x64 (至少内存2G以上,这里内存不够的同学建议还是整几台真机配置比较好,将CDH的所有组件全部安装会占用很多内存,我已开始设置的虚拟机内存是1G,安装过程中直接卡死了) C … 阅读全文

hadoop 之Hive介绍

 
hive_logo_medium

1.Hive的简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRedu … 阅读全文

对某企业销售额的数据分析(一)

 
4

最近研究了下大数据,想着还是偏应用方面的比较好。就扒了一个某公司的年度销售额的Excel 装备用来分析分析,虽然Excel也可以做一些数据分析。但是这次介绍的是大数据分析工具进行分析。希望在以后的学习中也是,尽量去尝试多的东西去解决问题,不能用什么就可以了就不 … 阅读全文

最全解析:大数据和机器学习有什么区别[转]

 
149437842639187383

大数据的定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据是一个笼统的概念暂未发现和准确的定义。 大数 … 阅读全文

大数据可视化分析之Tableau

 
QQ截图20170712165138

前两天看到一个朋友在自己做个excle去分析欧赔。其实在了解了大数据之后,可以使用大数据的一些分析工具进行分析。下面来看下什么是大数据,以及目前用的最多的一个分析工具   大数据的核心不是“大”,也不是“数据”,而是蕴含在其中的商业价值。作为挖掘数据 … 阅读全文

hadoop 介绍以及伪分布式部署

 
image002

今天给大家讲一下大数据的内容,主要是hadoop。做一个介绍,然后部署一下伪分布式。让大家有一个大概的认识吧。1 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利 … 阅读全文

Hadoop mapreduce

 
12

mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。 如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序 … 阅读全文