apache-pig 安装或设置

示例

的Linux

要求(r0.16.0)

强制性的

根据当前Apache-Pig文档,它仅支持Unix&Windows操作系统。

  • Hadoop 0.23.X,1.X或2.X

  • 已安装Java 1.6或更高版本,并将JAVA_HOME环境变量设置为Java安装目录

可选的

  • Python 2.7或更高版本(Python UDF)

  • Ant 1.8(用于构建)

下载最新的Pig版本

从http://pig.apache.org/releases.html#Download下载最新版本的Pig。

安装

mkdir Pig
cd Downloads/ 
tar zxvf pig-(latest-version).tar.gz 
tar zxvf pig-(latest-version).tar.gz 
mv pig-(latest-version).tar.gz/* /home/Pig/

组态

安装Apache Pig之后,我们必须对其进行配置。

打开.bashrc文件

vim ~/.bashrc

在.bashrc文件中,设置以下变量-

export PIG_HOME = /home/Pig
export PATH  = PATH:/home/Pig/bin

保存文件并在环境中使用重新加载bashrc

. ~/.bashrc

验证Pig版本

pig –version

如果安装成功,则上面的命令将显示已安装的Pig版本号。

测试猪的安装

pig -h

这应该显示与Pig相关的所有可能的命令

您的Pig现在已本地安装,您可以使用本地参数运行它,例如

pig -x local

连接到Hadoop

如果Hadoop1.x或2.x已安装在集群上,并且已设置HADOOP_HOME环境变量。

您可以像之前一样在.bashrc中添加该行,从而将Pig连接到Hadoop

export PIG_CLASSPATH = $HADOOP_HOME/conf

奔猪

执行模式

您可以使用pig (bin / pig)命令或通过运行jar文件(java -cp pig.jar)运行Pig

PIG 脚本可以以3种不同的模式执行:

  • 本地模式

     pig -x local ...
  • Mapreduce模式(默认模式)

     pig -x mapreduce ...
         (or)
    pig ...
  • Tez本地模式

     pig -x tez ...

互动模式

Pig可以使用Grunt外壳以交互方式运行。可以在此shell中以交互方式输入Pig Latin语句和命令。

$ pig -x <mode> <enter>
grunt>

Mode 可以是上一节所述的执行模式之一。

批处理模式

Pig也可以以批处理模式执行。这里提供了一个.pig包含Pig语句和命令列表的文件。

$ pig -x <mode> <script.pig>
grunt>

类似地,Mode可以是上一节中说明的执行模式之一。