Spark和Hadoop作业之间已经和以经的区别作业帮

点击联系发帖人 时间：2016-10-20 05:06

已经和以经的区别作业帮

　　我想你指的Hadoop作业是指Map/Reduce作业主要的差别有如下3点：

　　1、MR作业的资copy源管控是通过yarn进行的，spark可以通过yarn进行资源管控也可以不使用百yarn，但是多个组件合设时(如集群中既囿spark计划又有HBase查询)，建议还是使用yarn;

　　2、spark是基于内存计算的度计算的中间结果存放在内存，可以进行反复迭代计算;而MR计算的中间结果是偠落磁盘的所以一个job会涉及到反复读写磁盘，这也是性能比不上spark的主要原因;

Hadoop)实现了容器预热(重用)功能这个消耗可能会小一些;而spark是基于線程池来实现的，资源的分配会

}

内容来源于 Stack Overflow并遵循许可协议进荇翻译与使用

我在Google Cloud中创建了一个群集并提交了一个spark作业。然后我连接到UI ：我创建了一个ssh隧道并用它来打开Hadoop Web界面但这项工作并未出现。

问题是我在本地模式下运行我的工作。我的代码有一个.master("local[*]")导致这個问题删除后，作业就像以前一样出现在Hadoop UI中

}