使用IDEA搭建Hadoop开发环境的操作步骤(Window10为例)

2025-04-02 18:48:43

下载安装Hadoop

下载安装包

进入官网下载下载hadoop的安装包（二进制文件）http://hadoop.apache.org/releases.html

我们这里下载2.10.1版本的，如果想下载更高版本的请先去maven仓库查看是否有对应版本

解压文件

下载好的.gz文件可以直接解压。

winRAR和Bandizip都可以用来解压，但是注意必须以管理员身份打开解压软件，否则会出现解压错误

配置环境变量

配置JAVA_HOME和HADOOP_HOME

我们在环境变量处分别设置JAVA_HOME和HADOOP_HOME

然后在Path里添加JAVA和hadoop的二进制文件夹，bin文件夹

验证环境变量配置

打开你的cmd，输入以下命令，出现我这样的输出说明配置环境变量成功：

C:\Users\lenovo>hadoop -version

HDFS配置

来到之前解压的hadoop文件夹下，打开etc/hadoop文件夹

现在我们的任务就是修改这些文件当中的代码，务必修改，不然根本无法运行hadoop！！

修改 hadoop-env.cmd

将configuration处更改为：

<configuration>
   <property>
     <name>fs.defaultFS</name>
     <value>hdfs://0.0.0.0:9000</value>
   </property>
</configuration>

修改 hdfs-site.xml

将configuration处更改为如下所示，其中
file:///E:/DevTols/hadoop-2.10.1/namespace_logs
file:///E:/DevTols/hadoop-2.10.1/data
这两个文件夹一定需要是已经存在的文件夹，你可以在你的hadoop文件夹下随意创建两个文件夹，然后将下面的这两个文件夹的绝对路径替换成你的文件夹，这里我也是创建了两个新的文件夹，hadoop的下载文件夹里本身是没有的。

将configuration标签及内容替换为

<configuration>
   <property>
     <name>dfs.replication</name>
     <value>1</value>
   </property>
   <property>
     <name>dfs.name.dir</name>
     <value>file:///E:/DevTols/hadoop-2.10.1/namespace_logs</value>
   </property>
   <property>
     <name>dfs.data.dir</name>
     <value>file:///E:/DevTols/hadoop-2.10.1/data</value>
   </property>
</configuration>

修改 mapred-site.xml

将下方的%USERNAME%替换成你windows的用户名
用户名可以通过win键查看

<configuration>
   <property>
      <name>mapreduce.job.user.name</name>
      <value>%USERNAME%</value>
    </property>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>
  <property>
     <name>yarn.apps.stagingDir</name>
     <value>/user/%USERNAME%/staging</value>
   </property>
  <property>
     <name>mapreduce.jobtracker.address</name>
     <value>local</value>
   </property>
</configuration>

注意以上代码有两个地方的%USERNAME%需要替换，不要漏了！！！

修改 yarn-site.xml

<configuration>
   <property>
     <name>yarn.server.resourcemanager.address</name>
     <value>0.0.0.0:8020</value>
   </property>
  <property>
     <name>yarn.server.resourcemanager.application.expiry.interval</name>
     <value>60000</value>
   </property>
  <property>
     <name>yarn.server.nodemanager.address</name>
     <value>0.0.0.0:45454</value>
   </property>
  <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
   </property>
  <property>
     <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
     <value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
  <property>
     <name>yarn.server.nodemanager.remote-app-log-dir</name>
     <value>/app-logs</value>
   </property>
  <property>
     <name>yarn.nodemanager.log-dirs</name>
     <value>/dep/logs/userlogs</value>
   </property>
  <property>
     <name>yarn.server.mapreduce-appmanager.attempt-listener.bindAddress</name>
     <value>0.0.0.0</value>
   </property>
  <property>
     <name>yarn.server.mapreduce-appmanager.client-service.bindAddress</name>
     <value>0.0.0.0</value>
   </property>
  <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
   </property>
  <property>
     <name>yarn.log-aggregation.retain-seconds</name>
     <value>-1</value>
   </property>
  <property>
     <name>yarn.application.classpath</name>
     <value>%HADOOP_CONF_DIR%,%HADOOP_COMMON_HOME%/share/hadoop/common/*,%HADOOP_COMMON_HOME%/share/hadoop/common/lib/*,%HADOOP_HDFS_HOME%/share/hadoop/hdfs/*,%HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/*,%HADOOP_MAPRED_HOME%/share/hadoop/mapreduce/*,%HADOOP_MAPRED_HOME%/share/hadoop/mapreduce/lib/*,%HADOOP_YARN_HOME%/share/hadoop/yarn/*,%HADOOP_YARN_HOME%/share/hadoop/yarn/lib/*</value>
   </property>
</configuration>

初始化环境变量

在windows下的cmd，输入cmd的命令，用于初始化环境变量。

%HADOOP_HOME%\etc\hadoop\hadoop-env.cmd

格式化文件系统

这个命令在整个hadoop的配置环境和之后的使用当中务必仅使用一次！
将如下的命令输入到cmd当中进行格式化：

hadoop namenode -format

会弹出一大堆指令，只要看到其中有如下提示，就说明格式化成功

INFO common.Storage: Storage directory E:\DevTols\hadoop-2.10.1\namespace_logs has been successfully formatted.

向hadoop文件当中注入winutills文件

由于windows下想要开启集群，会有一定的bug，因此我们去网站：https://github.com/steveloughran/winutils
下载对应版本的winutils.exe文件。打开这个Github仓库后如下所示：

我们打开hadoop2.8.3/bin，选择其中的winutils.exe文件进行下载，然后将下载的这个文件放入到本地的hadoop/bin文件当中。不然的话，你打开一会儿你的伪分布式集群，马上hadoop就会自动关闭，缺少这两个文件的话。

向hadoop文件当中添加hadoop.dll文件

hadoop.dll文件是启动集群时必须的，如果在安装过程中悲催地发现/bin目录下没有该文件（比如博主），就需要去网上自学下载该文件。
进入网页https://github.com/4ttty/winutils，
根据箭头所指步骤下载hadoop.dll文件

下载完成后，把文件添加到/bin目录

开启hadoop集群

在cmd当中输入

%HADOOP_HOME%/sbin/start-all.cmd

这样就会跳出来很多黑色的窗口，如下所示：

然后可以使用JPS工具查看目前开启的node有哪些，如果出现namenode，datanode的话说明集群基本上就成功了。如下所示：

打开本地浏览器进行验证

我们在浏览器输入localhost:50070,如果能够打开这样的网页，说明hadoop已经成功开启：

IDEA 配置

历经千辛万苦我们总算安装完Hadoop了，下面在IDEA上用maven配置hadoop

创建MAVEN项目工程

打开IDEA之后，里面的参数和项目工程名称随便写，等待工程创建完毕即可。然后我们编辑pom.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.atguigu</groupId>
    <artifactId>hdfs1205</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>
    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.10.1</version>
        </dependency>
    </dependencies>

</project>

点击右下方的auto-import，自动安装jar包。完成后左侧External Libraries可以看到添加了很多个jar包，如下图

这样就说明我们导入maven仓库成功了。

编写log4j.proporties配置文件

在src/main/resources目录下创建log4j.proporties文件，编写如下代码

log4j.rootLogger=debug, stdout, R

log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

# Pattern to output the caller's file name and line number.
log4j.appender.stdout.layout.ConversionPattern=%5p [%t] (%F:%L) - %m%n

log4j.appender.R=org.apache.log4j.RollingFileAppender
log4j.appender.R.File=example.log

log4j.appender.R.MaxFileSize=100KB
# Keep one backup file
log4j.appender.R.MaxBackupIndex=5

log4j.appender.R.layout=org.apache.log4j.PatternLayout
log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n

编写Java文件

终于到最后一步了，编写java文件并执行
别忘了先hadoop伪分布式集群！！！
cmd中编写%HADOOP_HOME%/sbin/start-all.cmd

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.net.URI;

public class Test {
    public static void main(String[] args) throws Exception {
        FileSystem fs = FileSystem.get(new URI("hdfs://127.0.0.1:9000"), new Configuration());

        FileStatus[] files = fs.listStatus(new Path("/"));
        for (FileStatus f : files) {
            System.out.println(f);
        }
        System.out.println("Compile Over");
    }
}

这段代码的含义是遍历hadoop文件系统(HDFS)下的root下所有文件的状态，并输出

完成以后在cmd输入%HADOOP_HOME%/sbin/start-all.cmd关闭伪集群

为了方便可以配置%HADOOP_HOME%/sbin/start-all.cmd和%HADOOP_HOME%/sbin/start-all.cmd
的环境变量，这里不再赘述，留给读者发挥。

到这里Window10下使用IDEA搭建开发环境就完成了，撒花！！！

到此这篇关于Window10下使用IDEA搭建Hadoop开发环境的文章就介绍到这了,更多相关IDEA搭建Hadoop开发环境内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Windows下使用IDEA搭建Hadoop开发环境的详细方法

笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的完全分布式集群 ,但是为了平时写代码的方便,则在windows上也配置了hadoop的伪分布式集群 ,同时在IDEA上就可以编写代码,同时在windows环境下进行运行.(如果不配置windows下的伪分布式集群,则在IDEA上编写的代码无法在windows平台下运行).笔者在网络上找了很多有关windows下使用idea搭建hadoop开发环境的中文教程都不太全,最后使用国外的英文教程配置成功,因此这里整理一下,方
Hadoop 使用IntelliJ IDEA 进行远程调试代码的配置方法

一 .前言昨天晚上遇到一个奇葩的问题, 搞好的环境DataNode启动报错. 报错信息提示的模棱两可,没办法定位原因. 办法,开启远程调试- 注意 : 开启远程调试的代码,必须与本地idea的代码必须保持一致. 二 .服务器端配置 2.1. 设置启动远程debug端口修改服务器上的配置文件 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh 增加环境变量即可. 组件环境变量设置 NameNode export HADOOP_NAMENODE_OPTS="-a
在IDEA中安装scala、maven、hadoop遇到的问题小结

小白在通过IDEA使用scala.maven.hadoop遇到的问题问题一:idea new 新文件没有scala:File->setting->Plugins,然后搜索scala插件安装.安装完成后重启idea.然后设置Scala sdk: File->Project Structure->Libraries->+ 问题二:Maven的的导入时mvn不是内部或外部命令-:这是环境变量没有配置好,下图附环境变量: 在D:\maven\apache-maven-3.6.1\c
eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop,并断点调试? 一.准备工作 1.1 在win7中,找一个目录,解压hadoop-2.6.0,本文中是D:\yangjm\Code\study\hadoop\hadoop-2.
使用IDEA搭建Hadoop开发环境的操作步骤(Window10为例)

下载安装Hadoop 下载安装包进入官网下载下载hadoop的安装包(二进制文件)http://hadoop.apache.org/releases.html 我们这里下载2.10.1版本的,如果想下载更高版本的请先去maven仓库查看是否有对应版本解压文件下载好的.gz文件可以直接解压. winRAR和Bandizip都可以用来解压,但是注意必须以管理员身份打开解压软件,否则会出现解压错误配置环境变量配置JAVA_HOME和HADOOP_HOME 我们在环境变量处分别设置JAVA_H
Linux环境下搭建php开发环境的操作步骤

本文主要记载了通过编译方式进行软件/开发环境的安装过程,其他安装方式忽略! 文章背景: 因为php和Apache等采用编译安装方式进行安装,然而编译安装方式,需要c,c++编译环境, 通过apt方式安装build-essential $ sudo apt-get install build-essential 编译安装的步骤一般分为: 编译配置 $ ./configure --XXX(参数s) 编译配置的问题: a.在没有安装之前,对软件无法全面了解 b.如果不全全面了解,又不知道该怎么安装(附
Webpack 4.x搭建react开发环境的方法步骤

本文介绍了了Webpack 4.x搭建react开发环境的方法步骤,分享给大家,也给自己留个笔记必要依赖一览(npm install) 安装好. "dependencies": { "babel-core": "^6.26.3", "babel-loader": "^7.1.5", "babel-preset-env": "^1.7.0", "react&
VSCode搭建STM32开发环境的方法步骤

目录 1.安装VScode 2.安装C/C++插件 3.安装Keil Assistant插件 4.用vscode打开keil工程 5.编译.下载程序 6.常用操作官方简述摘要: 作为一个51单片机或STM32单片机的使用者,keil一直是我们的必备的一款工具之一.但keil的一些问题也一直存在,当然也有人用其他的比如STM32CubeIDE.但是今天推荐的是VScode+Keil Assistant插件,不需要很复杂的配置各种文件和环境变量,只需要一个插件即可!可以编译代码和下载程序. 当我
Eclipse+ADT+Android SDK搭建安卓开发环境的实现步骤

目录运行环境下载地址环境下载安装JDK 安装Eclipse 下载独立的Android SDK工具 ADT安卓开发工具安装 eclipse离线安装ADT插件配置ADT插件通过Android SDK Manage添加新的软件包 AVD Manage创建安卓虚拟机运行环境 windows 7 下载地址环境下载最近开接触Android(安卓)嵌入式开发,首要问题是搭建Andoid开发环境,由于本人用的是windows7的笔记本,也就只能到Windows中搭建Android 开发环境了!
使用Maven搭建Hadoop开发环境

关于Maven的使用就不再啰嗦了,网上很多,并且这么多年变化也不大,这里仅介绍怎么搭建Hadoop的开发环境. 1. 首先创建工程复制代码代码如下: mvn archetype:generate -DgroupId=my.hadoopstudy -DartifactId=hadoopstudy -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false 2. 然后在pom.xml文件里添加hadoop的依赖
在Mac中搭建go语言开发环境的操作步骤

前言 Go语言是Google内部主推的语言,它作为一门全新的静态类型开发语言,与当前的开发语言相比具有许多令人兴奋不已的新特性.专门针对多处理器系统的应用程序编程进行了优化,使用go语言完全可以媲美c.c++的速度,而且更加安全.简洁,支持并行进程. 以下是go语言的主要特性: 1.自动垃圾回收 2.更丰富的内置类型 3.函数多反回值 4.错误处理 5.匿名函数和闭包 6.类型和接口 7.并发编程 8.反射 9.语言交互性 Mac开发环境搭建以上基本都属废话,搭建开发环境尽快开启编程之旅才是王
PyCharm搭建Spark开发环境的实现步骤

1.安装好JDK 下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: 新建系统变量JAVA_HOME,值为Java安装路径新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点) 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin 在CMD中输入:java或者java -version,不显示不是内部命令等,说明
利用Docker搭建Laravel开发环境的完整步骤

前言在这篇文章中我们将通过Docker在个人本地电脑上构建一个快速.轻量级.不依赖本地电脑所安装的任何开发套件的可复制的Laravel和Vue项目的开发环境(开发环境的所有依赖都安装在Docker构建容器里),加入Vue只是因为有的项目里会在Laravel项目中使用Vue做前后端分离开发,开发环境中需要安装前端开发需要的工具集,当然前后端也可以分成两个项目开发,这个话题不在本篇文章的讨论范围内. 所以我们的目标是: 不在本地安装Mamp/Wamp这样的软件不使用类似Vagrant这样的虚拟机