远程调试技巧

cloudeagle_bupt

浏览: 541218 次

最近访客更多访客>>

morelily

csmnjk

jnh

superich2008

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (2884)

社区版块

存档分类

http://qq85609655.iteye.com/blog/2193931

了解程序运行过程，除了一行行代码的扫射源代码。更快捷的方式是运行调试源码，通过F6/F7来一步步的带领我们熟悉程序。针对特定细节具体数据，打个断点调试则是水到渠成的方式。

Java远程调试

Java代码

*JDK1.3orearlier-Xnoagent-Djava.compiler=NONE-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=6006

*JDK1.4(linuxok)-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=6006

*newerJDK(win7&jdk7)-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=6006

同一操作系统任务提交

windows提交到windows，linux提交到linux，可以直接通过命令行添加参数调试wordcount任务：

Java代码

E:\local\dotfile>hdfsdfs-rmr/out#native-lib放在非path路径下，cmd脚本中有对其进行处理

E:\local\dotfile>hadooporg.apache.hadoop.examples.WordCount"-Dmapreduce.map.java.opts=-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=8090-Djava.library.path=E:\local\libs\big\hadoop-2.2.0\lib\native-Dmapreduce.reduce.java.opts=-Djava.library.path=E:\local\libs\big\hadoop-2.2.0\lib\native"/in/out

suspend设置为y，会等待客户端连接再运行。在eclipse中在WordCount$TokenizerMapper#map打个断点，然后再使用Remote Java Application就可以调试程序了。

Hadoop集群环境下调试任务

hadoop有很多的程序，同样有对应的环境变量选项来进行设置！

主程序-调试Job提交

set HADOOP_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=8090"

可以在配置文件中进行设置。需要注意可能会覆盖已经设置的该参数的值。

Nodemanager调试

set HADOOP_NODEMANAGER_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=8092"

(linux下需要定义在文件中)YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=8092"

ResourceManager调试

HADOOP_RESOURCEMANAGER_OPTS

export YARN_RESOURCEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=8091"

Linux上的设置略有不同，通过SSH再调用的进程(如NodeManager)需要把其OPTS写到命令行脚本文件中！！ linux需要远程调试NodeManager的话，需要写到etc/hadoop/yarn-env.sh文件中！不然，nodemanger不生效（通过ssh去执行的）！

其他调试技巧

调试测试集群环境，比本地windows开发环境复杂点。毕竟本地windows的就一个主一个从。而把任务放到分布式集群上时，例如调试分布式缓存的！那么就需要一些小技巧来获取任务运行所在的机器！下面的步骤中有具体操作命令。

任务配置及运行

eclipse下windows提交job到linux的补丁，查阅[MAPREDUCE-5655]

Xml代码

#配置

<property>

<name>mapred.remote.os</name>

<value>Linux</value>

</property>

<property>

<name>mapreduce.job.jar</name>

<value>dta-analyser-all.jar</value>

</property>

<property>

<name>mapreduce.map.java.opts</name>

<value>-Xmx1024m-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=18090</value>

</property>

<property>

<name>mapred.task.timeout</name>

<value>1800000</value>

</property>

.............

Java代码

#代码，map/reduce数都设置为1

job.setNumReduceTasks(1);

job.getConfiguration().setInt(MRJobConfig.NUM_MAPS,1);

调试的时刻把超时时间设置的久一点，否则：

Java代码

Gotexception:java.net.SocketTimeoutException:CallFromwinseliu/127.0.0.1towinse.com:2850failedonsockettimeoutexception:java.net.SocketTimeoutException:60000millistimeoutwhilewaitingforchanneltobereadyforread.ch:

调试main方法参数设置

调试main（转瞬即逝的把suspend设置为true！），map的调试选项的语句写在配置文件里面

Java代码

exportHADOOP_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8073"

Administrator@winseliu~/hadoop

$sh-xbin/hadooporg.apache.hadoop.examples.WordCount/in/out

遍历所有子节点，查找节点运行map程序的信息

map调试的端口配置为18090，根据这个选项来查找程序运行的机器。

Java代码

[hadoop@umcc97-44~]$forhin`cathadoop-2.2.0/etc/hadoop/slaves`;dossh$h'psaux|grepjava|grep18090';echo$h;done

hadoop86670.00.0638881268?Ss18:210:00bash-cpsaux|grepjava|grep18090

umcc97-142

hadoop126860.00.0638681260?Ss18:210:00bash-cpsaux|grepjava|grep18090

umcc97-143

hadoop235160.00.0638561108?Ss18:110:00/bin/bash-c/home/java/jdk1.7.0_45/bin/java-Djava.net.preferIPv4Stack=true-Dhadoop.metrics.log.level=WARN-Xmx256m-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=18090-Djava.io.tmpdir=/home/hadoop/hadoop-2.2.0/tmp/nm-local-dir/usercache/hadoop/appcache/application_1397006359464_1605/container_1397006359464_1605_01_000002/tmp-Dlog4j.configuration=container-log4j.properties-Dyarn.app.container.log.dir=/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1605/container_1397006359464_1605_01_000002-Dyarn.app.container.log.filesize=0-Dhadoop.root.logger=INFO,CLAorg.apache.hadoop.mapred.YarnChild10.18.97.14357576attempt_1397006359464_1605_m_000000_021>/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1605/container_1397006359464_1605_01_000002/stdout2>/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1605/container_1397006359464_1605_01_000002/stderr

hadoop235220.00.060513615728?Sl18:110:00/home/java/jdk1.7.0_45/bin/java-Djava.net.preferIPv4Stack=true-Dhadoop.metrics.log.level=WARN-Xmx256m-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=18090-Djava.io.tmpdir=/home/hadoop/hadoop-2.2.0/tmp/nm-local-dir/usercache/hadoop/appcache/application_1397006359464_1605/container_1397006359464_1605_01_000002/tmp-Dlog4j.configuration=container-log4j.properties-Dyarn.app.container.log.dir=/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1605/container_1397006359464_1605_01_000002-Dyarn.app.container.log.filesize=0-Dhadoop.root.logger=INFO,CLAorg.apache.hadoop.mapred.YarnChild10.18.97.14357576attempt_1397006359464_1605_m_000000_02

hadoop236650.00.0638561264?Ss18:210:00bash-cpsaux|grepjava|grep18090

umcc97-144

仅打印运行map的节点名称

Java代码

[hadoop@umcc97-44~]$forhin`cathadoop-2.2.0/etc/hadoop/slaves`;dossh$h'ifpsaux|grep-vgrep|grepjava|grep18090|grep-vbash2>&11>/dev/null;thenecho`hostname`;fi';done

umcc97-142

[hadoop@umcc97-44~]$

后面的操作就和普通的java程序调试步骤一样了。不再赘述。

任务运行过程中的数据

辅助运行的两个bash程序

运行的第一个程序（000001）为AppMaster，第二程序（000002）才是我们提交job的map任务。

Java代码

[hadoop@umcc97-143~]$cdhadoop-2.2.0/tmp/nm-local-dir/nmPrivate

[hadoop@umcc97-143nmPrivate]$ls-Rl

.:

total12

drwxrwxr-x4hadoophadoop4096Apr2118:34application_1397006359464_1606

-rw-rw-r--1hadoophadoop6Apr2118:34container_1397006359464_1606_01_000001.pid

-rw-rw-r--1hadoophadoop6Apr2118:34container_1397006359464_1606_01_000002.pid

./application_1397006359464_1606:

total8

drwxrwxr-x2hadoophadoop4096Apr2118:34container_1397006359464_1606_01_000001

drwxrwxr-x2hadoophadoop4096Apr2118:34container_1397006359464_1606_01_000002

./application_1397006359464_1606/container_1397006359464_1606_01_000001:

total8

-rw-r--r--1hadoophadoop95Apr2118:34container_1397006359464_1606_01_000001.tokens

-rw-r--r--1hadoophadoop3121Apr2118:34launch_container.sh

./application_1397006359464_1606/container_1397006359464_1606_01_000002:

total8

-rw-r--r--1hadoophadoop129Apr2118:34container_1397006359464_1606_01_000002.tokens

-rw-r--r--1hadoophadoop3532Apr2118:34launch_container.sh

[hadoop@umcc97-143nmPrivate]$

[hadoop@umcc97-143nmPrivate]$jps

4692NodeManager

4173DataNode

13497YarnChild

7538HRegionServer

13376MRAppMaster

13574Jps

[hadoop@umcc97-143nmPrivate]$cat*.pid

13366

13491

[hadoop@umcc97-143nmPrivate]$psaux|grep13366

hadoop133660.00.0638681088?Ss18:340:00/bin/bash-c/home/java/jdk1.7.0_45/bin/java-Dlog4j.configuration=container-log4j.properties-Dyarn.app.container.log.dir=/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1606/container_1397006359464_1606_01_000001-Dyarn.app.container.log.filesize=0-Dhadoop.root.logger=INFO,CLA-Xmx1024morg.apache.hadoop.mapreduce.v2.app.MRAppMaster1>/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1606/container_1397006359464_1606_01_000001/stdout2>/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1606/container_1397006359464_1606_01_000001/stderr

hadoop135940.00.061204760pts/2S+18:360:00grep13366

[hadoop@umcc97-143nmPrivate]$psaux|grep13491

hadoop134910.00.0638681100?Ss18:340:00/bin/bash-c/home/java/jdk1.7.0_45/bin/java-Djava.net.preferIPv4Stack=true-Dhadoop.metrics.log.level=WARN-Xmx256m-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=18090-Djava.io.tmpdir=/home/hadoop/hadoop-2.2.0/tmp/nm-local-dir/usercache/hadoop/appcache/application_1397006359464_1606/container_1397006359464_1606_01_000002/tmp-Dlog4j.configuration=container-log4j.properties-Dyarn.app.container.log.dir=/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1606/container_1397006359464_1606_01_000002-Dyarn.app.container.log.filesize=0-Dhadoop.root.logger=INFO,CLAorg.apache.hadoop.mapred.YarnChild10.18.97.14352046attempt_1397006359464_1606_m_000000_021>/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1606/container_1397006359464_1606_01_000002/stdout2>/home/hadoop/hadoop-2.2.0/logs/userlogs/application_1397006359464_1606/container_1397006359464_1606_01_000002/stderr

hadoop135990.00.061204760pts/2S+18:370:00grep13491

[hadoop@umcc97-143nmPrivate]$

程序运行本地缓存数据

Java代码

[hadoop@umcc97-143container_1397006359464_1606_01_000002]$ls-l

total28

-rw-r--r--1hadoophadoop129Apr2118:34container_tokens

-rwx------1hadoophadoop516Apr2118:34default_container_executor.sh

lrwxrwxrwx1hadoophadoop65Apr2118:34filter.io->/home/hadoop/hadoop-2.2.0/tmp/nm-local-dir/filecache/10/filter.io

lrwxrwxrwx1hadoophadoop120Apr2118:34job.jar->/home/hadoop/hadoop-2.2.0/tmp/nm-local-dir/usercache/hadoop/appcache/application_1397006359464_1606/filecache/10/job.jar

lrwxrwxrwx1hadoophadoop120Apr2118:34job.xml->/home/hadoop/hadoop-2.2.0/tmp/nm-local-dir/usercache/hadoop/appcache/application_1397006359464_1606/filecache/13/job.xml

-rwx------1hadoophadoop3532Apr2118:34launch_container.sh

drwx--x---2hadoophadoop4096Apr2118:34tmp

[hadoop@umcc97-143container_1397006359464_1606_01_000002]$

处理问题方法

打印DEBUG日志：export HADOOP_ROOT_LOGGER=DEBUG,console

日志文件放置在nodemanager节点的logs/userlogs目录下。

打印DEBUG日志也搞不定时，可以在源码里面sysout信息然后把class覆盖，来进行定位配置的问题。

如果不清楚shell的执行过程，可以通过sh -x [CMD]，或者在脚本文件的操作前加上set -x。相当于windows-batch的echo on功能。

分享到：

Giraph调试尝试 | -agentlib和-Xdebug区别

2016-03-17 11:20
浏览 333
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论