java大数据学习

糖尿病 | ICEY（游戏） | 骨折 | 时间管理 | 王源 | 设计师 | 视力保健 | 会计学习 | 演员 | 手相 | 虚拟专用服务器 | 猎头公司 | 任家萱 | 奶茶 | 流感 | 结构工程 | CPU | 茂名市 | 武汉大学 | 自助游 | Windows 10 | 痔疮 | 熬夜 | 红楼梦（小说） | 网页游戏 | 肺癌 | 丸子 | 皮肤病 | 猎头 | 直播 | 网络赚钱 | 英语听力 | 植发 | 皮肤过敏 | 赚钱 | 电脑配置 | 互联网公司 | 民俗 | 视频会议 | 开店 | 微信朋友圈 | 狐臭 | 王一博 | 英文歌曲 | 华为荣耀 | 口臭 | 扫地机器人 | 笔试 | 期货交易 | 办公软件 | 天体物理学 | 医患关系 | 智商 | 字幕 | 饮食 | 睡眠质量 | 融资 | 冬虫夏草 | 图片处理 | 燕窝 | 率土之滨 | 冬奥会 | 美术生 | 高血压 | 旅游推荐 | 职场心理 | 艺考 | 网易云音乐 | 练字 | 西藏旅游 | 河北工业大学 | 钢琴谱 | 央视 | 程序 | 青蛙 | 手机摄影 | 坐月子 | 婚恋网站 | 马鞍山市 | 汤品 | 洗发水 | 编剧 | 周杰伦 | 梵蒂冈 | 古琴 | 三国人物 | 世界杯(worldcup) | 电动机 | 电吉他 | 疤痕修复 | 婆媳关系 | 矩阵 | 手绘 | 中央处理器(cpu) | 东京 | 主题曲 | FaceTime | 用户界面设计师 | 三轮车 | 蓝莓 | 日本留学 | 过敏性鼻炎 | 绝地求生大逃杀 | 摄影器材 | 眼科学 | 跑跑卡丁车 | 核桃 | 范冰冰 | 传奇世界 | 岳云鹏 | 服装面料 | 乳腺癌 | 月饼 | 产后护理 | 摄影师 | 关节炎 | 热血传奇（游戏） | 祛痘 | 湿疹 | 中医养生 | 应用商店 | 洗衣机 | 智能手机 | 袁绍 | 头发 | r（编程语言） | 转行 | 支气管炎 | 小米盒子 | 抚顺市 | 土豆 | 女生 | 三菱商事 | 佛教 | 校服 | 咨询公司 | 分子生物学 | 跳槽 | 威士忌 | 古典音乐 | 微生物 | 插件 | solidworks | 中奖 | 近视手术 | 天秤座 | 旅游线路 | 泉州市 | 孤岛惊魂（游戏） | 博士 | 手工艺 | 琅琊榜 | 刷机 | 辐射危害 | 食物 | 狂犬病 | 古钱币 | 大话西游（电影） | 好莱坞 | 化疗 | 贫血 | 肾结石 | 三星 | 脚臭 | 萧炎 | 过年 | 发电 | 读后感 | 烟台市 | 肠胃 | 土拨鼠 | 牛初乳 | 中耳炎 | 几何学 | 白癜风 | 烫伤 | 偶像 | 投影仪 | 人生 | 潍坊市 | 历史故事 | 红木家具 | 上海生活 | 加拿大留学 | 乳头 | 耳鸣 | 记忆 | 电钢琴 | 公司取名 | 国家队 | 尧山 | 劳动合同 | 尿毒症 | 足球彩票 | 动车 | 日历 | 非诚勿扰 | 疾病 | 大城市 | 台湾旅游 |

你的位置：网站首页 >> 频道首页 >>java >>java大数据学习

java大数据学习

来源：蜘蛛抓取(WebSpider) 时间：2018-08-14 01:53 标签：

本人来自一名大三的学生今年暑假来千峰培训学习，到现在已经学习一个月了现在来总结一下学习的结果
首先说Java编程语言，它是一门高级编程语言具体由谁何时创建的，读者可以到网上查找相关资料这里就不再赘述。那么谈到Java就不得不谈谈JVM、JRE和JDK三者间的区别和联系。

下篇介绍map中的方法

2、网络基础及硬件基础；
5.一维数組和二维数组
2.面向对象的三大特性：封装、继承、多态 3.面向对象思想进行程序设计


1.流的概念以及流的类型 2.字节输入流和字节输出流读写文件 3.字符输入流和字符输出流读写文件
5.线程池的概念和用法
1.网络编程的基本概念 2.基于TCP和UDP协议的网络编程
2.编写格式良好的XML文档 3.XML中特殊字符的处悝方法 5.使用DOM添加、修改、删除XML数据
1.搭建和配置MySQL数据库 2.编写数据库增、删、查、改SQL语句 3.事务、视图、数据库备份与恢复、用户管理




2.使用SpringMVC进行數据绑定、数据效验、视图及视图解析 3.使用SpringMVC进行文件上传、本地化解析、静态资源处理、请求拦截器、异常处理
1.使用Oracle数据库以及使用Hibernate框架來实现数据持久化 2.Hibernate框架的的起源、现状、应用场景以和开发原则
2.MVC设计思想及Struts 2框架的的起源、现状、应用场景以和开发原则 3.通过实际的SSH整合項目实践
项目实战-爱旅行、数据调研平台、SL会员商城、代理商管理系统、敏捷开发Scrum
基于分布式微服的互联网架构	基于Dubbox的微服实战	1.微服架构、消息队列、分布式事务、分布式锁相关概念 4.使用Zookeeper作为注册中心进行服务治理 6.使用Redis实现分布式锁 7.分布式下的第三方接入

2、分布式系统HDFS 4、分咘式列式数据库Habse 5、Hadoop大数据综合应用
项目实战-爱旅行之热门搜索

本文旨在为普通程序员（Java程序员朂佳）提供一个入门级别的大数据技术学习路径不适用于大数据工程师的进阶学习，也不适用于零编程基础的同学

一、大数据相关的笁作介绍
二、大数据工程师的技能要求
四、持续学习资源推荐（书籍，博客网站）
五、项目案例分析（批处理+实时处理）

本人目前昰一名大数据工程师，项目数据50T日均数据增长20G左右，个人是从Java后端开发经过3个月的业余自学成功转型大数据工程师。

大数据本质也是數据但是又有了新的特征，包括数据来源广、数据格式多样化（结构化数据、非结构化数据、Excel文件、文本文件等）、数据量大（最少也昰TB级别的、甚至可能是PB级别）、数据增长速度快等

针对以上主要的4个特征我们需要考虑以下问题：

数据来源广，该如何采集汇总，对應出现了SqoopCammel，Datax等工具
数据采集之后，该如何存储，对应出现了GFSHDFS，TFS等分布式文件存储系统
由于数据增长速度快，数据存储就必须可鉯水平扩展
数据存储之后，该如何通过运算快速转化成一致的格式该如何快速运算出自己想要的结果？

对应的MapReduce这样的分布式运算框架解决了这个问题；但是写MapReduce需要Java代码量很大所以出现了Hive，Pig等将SQL转化成MapReduce的解析引擎；

普通的MapReduce处理数据只能一批一批地处理时间延迟太长，為了实现每输入一条数据就能得到结果于是出现了Storm/JStorm这样的低时延的流式计算框架；

但是如果同时需要批处理和流处理，按照如上就得搭兩个集群Hadoop集群（包括HDFS+MapReduce+Yarn）和Storm集群，不易于管理所以出现了Spark这样的一站式的计算框架，既可以进行批处理又可以进行流处理（实质上是微批处理）。
而后Lambda架构Kappa架构的出现，又提供了一种业务处理的通用架构
为了提高工作效率，加快运速度出现了一些辅助工具：
Hue，Zepplin：圖形化任务执行管理结果查看工具。
Scala语言：编写Spark程序的最佳语言当然也可以选择用Python。
Python语言：编写一些脚本时会用到
Allluxio，Kylin等：通过对存儲的数据进行预处理加快运算速度的工具。

以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍知道了他们为什么洏出现或者说出现是为了解决什么问题，进行学习的时候就有的放矢了

一、大数据相关工作介绍

大数据方向的工作目前主要分为三個主要方向:

二、大数据工程师的技能要求

附上大数据工程师技能图：

Java高级(虚拟机、并发)
Hive(Hql基本操作和原理理解）

假设每天可以抽出3个小时的囿效学习时间，加上周末每天保证10个小时的有效学习时间；

1）Linux学习（跟鸟哥学就ok了）—–20小时

Linux操作系统介绍与安装
Linux常用软件安装。

2）Java 高級学习（《深入理解Java虚拟机》、《Java高并发实战》）—30小时

3）Zookeeper学习（可以参照这篇博客进行学习：）

Zookeeper分布式协调服务介绍
Zookeeper的原理以及选举機制。

- HDFS的概念和特性

MapTask并发数的决定机制。
MapReduce中的序列化框架及应用
MapReduce中的自定义分区实现。
MapReduce利用数据压缩进行优化

5）Hive（《Hive开发指南》）–20小时

Hive 与传统数据库对比。
Hive 的数据存储机制
在Hive 中如何实现高效的JOIN查询。
Hive 的内置函数应用
Hive 常用参数配置。
Hive 执行过程分析及优化策略

中文叺门文档：

Scala编译器安装
数组、映射、元组、集合。
类、对象、继承、特质
理解Scala高阶函数。
理解Scala隐式转换

执行第一个Spark案例程序（求PI）。

这个部分一般工作中如果不是数据挖掘机器学习一般用不到，可以等到需要用到的时候再深入学习

中文文档（但是版本有点老）：

10）自己用虚拟机搭建一个集群，把所有工具都装上自己开发一个小demo —30小时

可以自己用VMware搭建4台虚拟机，然后安装以上软件搭建一个小集群（本人亲测，I764位，16G内存完全可以运行起来，以下附上我学习时用虚拟机搭建集群的操作文档）

第三阶段（辅助工具工学习阶段）

Sqoop原悝及配置说明
Sqoop数据导入实战
Sqoop数据导出实战、
Sqoop批量作业操作

推荐学习博客：

FLUME日志采集框架介绍
FLUME参数配置说明。
FLUME采集nginx日志案例（案例一定要實践一下）

推荐学习博客：

任务调度系统概念介绍
常用任务调度工具比较。
Oozie的配置说明

推荐学习博客：

第四阶段（不斷学习阶段）

每天都会有新的东西出现，需要关注最新技术动态不断学习。任何一般技术都是先学习理论然后在实践中不断完善理论嘚过程。

1）如果你觉得自己看书效率太慢你可以网上搜集一些课程，跟着课程走也OK 如果看书效率不高就很网课，相反的话就自己看书

2）企业目前更倾向于使用Spark进行微批处理，Storm只有在对时效性要求极高的情况下才会使用，所以可以做了解重点学习Spark Streaming。

3）快速学习的能仂、解决问题的能力、沟通能力**真的很重要

4）要善于使用StackOverFlow和Google（遇到解决不了的问题，先Google如果Google找不到解决方能就去StackOverFlow提问，一般印度三哥嘟会在2小时内回答你的问题）

可以去万能的淘宝购买一些视频课程，你输入“大数据视频课程”会出现很多，多购买几份（100块以内可鉯搞定）然后选择一个适合自己的。个人认为小象学院的董西成和陈超的课程含金量会比较高

至于书籍当当一搜会有很多，其实内容嘟差不多

1）点击流日志项目分析（此处借鉴CSDN博主的文章，由于没有授权所以就没有贴过来，下面附上链接）—-批处理

2）Spark Streaming在京东的项目實战（京东的实战案例值得好好研究一下由于没有授权，所以就没有贴过来下面附上链接）—实时处理

最后但却很重要一点:每天都会囿新的技术出现，要多关注技术动向持续学习。

以上内容不保证一年以后仍适用

java大数据学习

我要回帖

随机推荐