要求(r0.16.0)
强制性的
根据当前Apache-Pig文档,它仅支持Unix&Windows操作系统。
Hadoop 0.23.X,1.X或2.X
已安装Java 1.6或更高版本,并将JAVA_HOME环境变量设置为Java安装目录
可选的
Python 2.7或更高版本(Python UDF)
Ant 1.8(用于构建)
下载最新的Pig版本
从http://pig.apache.org/releases.html#Download下载最新版本的Pig。
安装
mkdir Pig cd Downloads/ tar zxvf pig-(latest-version).tar.gz tar zxvf pig-(latest-version).tar.gz mv pig-(latest-version).tar.gz/* /home/Pig/
组态
安装Apache Pig之后,我们必须对其进行配置。
打开.bashrc文件
vim ~/.bashrc
在.bashrc文件中,设置以下变量-
export PIG_HOME = /home/Pig export PATH = PATH:/home/Pig/bin
保存文件并在环境中使用重新加载bashrc
. ~/.bashrc
验证Pig版本
pig –version
如果安装成功,则上面的命令将显示已安装的Pig版本号。
测试猪的安装
pig -h
这应该显示与Pig相关的所有可能的命令
您的Pig现在已本地安装,您可以使用本地参数运行它,例如
pig -x local
连接到Hadoop
如果Hadoop1.x或2.x已安装在集群上,并且已设置HADOOP_HOME环境变量。
您可以像之前一样在.bashrc中添加该行,从而将Pig连接到Hadoop
export PIG_CLASSPATH = $HADOOP_HOME/conf
奔猪
执行模式
您可以使用pig (bin / pig)命令或通过运行jar文件(java -cp pig.jar)运行Pig
PIG 脚本可以以3种不同的模式执行:
本地模式
pig -x local ...
Mapreduce模式(默认模式)
pig -x mapreduce ...
(or)
pig ...
Tez本地模式
pig -x tez ...
互动模式
Pig可以使用Grunt外壳以交互方式运行。可以在此shell中以交互方式输入Pig Latin语句和命令。
例
$ pig -x <mode> <enter> grunt>
Mode 可以是上一节所述的执行模式之一。
批处理模式
Pig也可以以批处理模式执行。这里提供了一个.pig包含Pig语句和命令列表的文件。
例
$ pig -x <mode> <script.pig> grunt>
类似地,Mode可以是上一节中说明的执行模式之一。