怎么自学大数据？

点击联系发帖人 时间：2022-06-29 02:16

大数据技术自学

大数据是可以自学的，但是完全零基础自学大数据是非常困难的，现在大属数据岗位薪资福利处于IT行业的前列，如果想要入行，就要选对方法，大数据开发的基础是JAVA，python等编程语言，建议先从基础学起。

一、如果是计算机专业的，不管毕业与否，自学这个，比较好入门，并且以后找工作也算是专业对口。

二、如果不是计算机专业，并且已经大学毕业了，自学就很费劲了，也更费时间，你没有一个详细的学习规划简直太浪费时间精力，最好是能报个班，有个系统的学习规划要比一个人在家里啃书自学强的多。

大数据前景很好，目前国大数据人才缺乏，大数据的应用十分广泛，大数据不仅包括企业内部应用系统的数据分析，还包括与行业、产业的深度融合。

对于零基础想要学习的大数据的同学，最好的方案是：先关注一些大数据领域的动态，让自己融入大数据这样一个大的环境中。然后找一些编程语言的资料（大数据的基础必备技能）和大数据入门的视频和书籍，基本的技术知识还是要了解的。

要针对不同阶段、不同基础的同学制定不同的学习方案。对于零基础想要自学大数据，不是说不可能，但是很多以失败告终，客观原因：学习环境不好；主观原因：基础不好，看不懂，学不会，枯燥无味直接放弃。

在学习了一段时间之后，如果觉得自己还能应付的来，就继续寻找大数据基础视频和书籍，一步一个脚印的来；如果觉得觉得自己入门都很难，要么放弃，要么舍得为自己投资一把，去选择一家靠谱的培训机构。

}

最近群里有很多同学问我如何才能学好大数据，思考再三，我决定写一篇文章来引导一下大家进入大数据的学习。（本文是从完全没基础的小白开始引导，如果有一定基础，可以直接根据目录寻找自己需要的内容）

第一章想致富，先撸树。万丈高楼平地起

通过这一章学习，就可以了解到一个企业目前的热门软件和框架有哪些，如何装配Hadoop的基本环境。

在开始学习之前，首先我们需要了解一个东西：

让我们先来看一篇文章。

这时候可能有些同学会说：太长不看；太难，看不懂；看过了不了解。。。。。。

不想看也没关系，确实这篇文章写的太长了，介绍的内容也非常非常的多。我们只需要针对性的去了解一些东西，能够知道大数据的概况，生态圈也就够了。

因为这些都不是重点，简单的来说可以一句话概括：好比大家做菜，把一大段食材切成差不多长度的几段，然后找几个人对每一段进行一样的操作（比如说一起把自己的这一段切成同样的长度），最后把所有人切好的食材装到一个盘子里。

既然我们已经知道大数据是干什么的了，那么对于现有的食材（数据），我们可以开始安排几个人（搭建集群）来做这件事了。当然，我们也可以让一个人长出无数个手（搭建离线集群）来做这件事。

搭建集群的过程很漫长，我们需要耗费大量的精力。不过没关系，万丈高楼平地起。相信大家都玩过我的世界（或者饥荒）这类游戏，听过一句话叫“想致富，先撸树。”

准备好大数据相关的编译软件：

idea官网：（请下载专业版）

至于是否对这个软件付费使用，随便你~

scala官网：(scala:大数据框架经常会使用到的一种语言）

maven官网：(请修改settings文件配置阿里云镜像，如果是北方网友，请无视这条）

Apache相关产品组件官网：

Windows10操作系统：（如果你真的没有这玩意的话）

不想一个个找可以加群：，在群文件中有相关内容

Q:相关产品需要下载一段时间，那么这段时间我们应该干什么呢？

A: 计算一下大概时间，然后出门饮茶先~当然是养生更重要。我这不叫摸鱼，这叫做适当放松，保持健康才能有更多的精力来投入工作！

好了，那我们茶足饭饱了（bushi），该开始工作了。现在让我们将下载好的软件按照官方文档中的要求去装配。哎哎哎，那个同学别睡觉，醒醒，该工作了！

让我们先来看看文档中的安装要求：（以下为hadoop官网)

其他软件安装内容可以加群讨论：,后续章节中也会有更新

hadoop安装官方文档指引

没关系的，先别忙着睡。万事开头难，等我们把环境搭好了就可以开始学习我们的大数据了。

首先我们先配置一下windows的环境：

配置好所需的环境变量：

以及安装linux虚拟机（安装好VMware，在里面装一个centos7的环境）

在虚拟机中配置环境变量：

直接复制是没有效果的喔，请看清楚里面的内容，并按照自己的地址修改。

配置好了以后将相关的软件装一个windows版一个linux版，方便后期的代码编译调试。

提示：在配置Linux的主机名映射的时候，需要找到/etc/hosts文件修改

现在让我们尝试使用linux搭建hadoop，使用mac搭建集群请跳过这部分直接点击目录寻找下面部分。

我们先在linux中解压hadoop，准备好我们的jdk文件。

jdk下载地址上面有↑↑↑

将下载好的jdk放在一个方便访问的位置（用的什么系统下载什么版本！这里是linux的版本教程所以请下载linux版。）,并添加环境变量（在上面文件里直接改一下就行了）

随后我们打开解压的hadoop文件，在hadoop包里的/etc/hadoop中找到几个核心的配置文件：

可以按照这个官网安装好一个基本的单节点集群（离线），建议装单节点，不要装cluster，会增加学习负担！

几个核心配置文件的重点配置如下：

hadoop映射这块请自行配置一下，在/etc/hosts里面。可以按照自己喜欢的来。

更多配置请看下面指引中的官方文档默认参数配置和解释↓↓↓（在Mac安装章节后面）

报错日志(log4j.properties)相关配置文件内容在第二章会有提及。

对hdfs的解释性文档：

如果没有报错则可以继续，报错请检查前面的操作。

成功启动代表你的安装完成。

jps命令查看效果如下：

如果是使用的Mac系统，请查看以下内容:

打开终端，使用如下指令生成秘钥

请按下列步骤排查：设置->共享->远程登录和远程连接是否打开

然后安装hadoop和jdk（注意jdk需要装mac版本，一般推荐1.8或者11）

需要注意的是mac的映射地址一般是localhost。也是在/etc/hosts里面可以查看

hadoop配置和上面linux的方法基本一致，跟着官网走即可。

mac和linux稍微有点区别的是可以修改用户变量来使用，source /etc/profile会提示没效果。

如果创建了新文件也不要紧。在里面配置环境变量就可以了。大概格式为：

随后source刷新这个文件夹就可以了

如果成功装好了环境变量，则可以使用start-all.sh指令。如果使用不了，请cd到bin目录，使用 chmod u+x *指令添加所有的权限。但是现在的start-all还不能使用。只是测试一下你的环境变量是否配置成功。

如果变量没问题，也添加了权限，则可以开始namenode初始化

然后jsp查看，看到节点启动了就可以成功了。

如果失败请参考下一章中linux失败查看log的方式。

在你安装的hadoop文件中找到配置文件:

（在帮助文档的这个位置开始往下看，帮助文档地址请查看目录）

一般为了方便搭建，推荐只搭建一个离线集群。

可以在官方文档的左下角这个地方找到相关配置信息：

对安装环境有困难和疑问的可以加群讨论：

完成了对hadoop集群搭建以后（再次提醒：尽量不要搭建多集群，一般离线模式在学习阶段就够用了。不然容易添加一些学习负担）,就可以开始着手搭建一些基本环境了。(下一章会开始讲解hive相关的环境搭建）

绿色游网