Apache Pig Group运算符

Apache Pig

Apache Pig教程 Apache Pig 概述 Apache Pig 架构 Apache Pig 安装 Apache Pig 执行 Apache Pig Grunt Shell Pig Latin 基础 Apache Pig 加载数据 Apache Pig 存储数据 Apache Pig Diagnostic运算符 Apache Pig Describe运算符 Apache Pig Explain运算符 Apache Pig illustrate运算符 Apache Pig Group运算符 Apache Pig Cogroup运算符 Apache Pig Join运算符 Apache Pig Cross运算符 Apache Pig Union运算符 Apache Pig Split运算符 Apache Pig Filter运算符 Apache Pig Distinct运算符 Apache Pig Foreach运算符 Apache Pig Order By运算符 Apache Pig Limit运算符 Apache Pig Eval函数 Apache Pig 加载和存储函数 Apache Pig 包和元组函数 Apache Pig 字符串函数 Apache Pig 日期时间函数 Apache Pig 数学函数 Apache Pig 用户定义函数（UDF） Apache Pig 运行脚本

Apache Pig Group运算符

GROUP 运算符用于在一个或多个关系中对数据进行分组，它收集具有相同key的数据。

语法

下面给出了 group 运算符的语法。

grunt> Group_data = GROUP Relation_name BY age;

例

假设在HDFS目录 /pig_data/ 中有一个名为 student_details.txt 的文件，如下所示。

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai

将这个文件加载到Apache Pig中，关系名称为student_details，如下所示。

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray);

现在，让我们按照年龄关系中的记录/元组进行分组，如下所示。

grunt> group_data = GROUP student_details by age;

验证

使用 DUMP 运算符验证关系 group_data ，如下所示。

grunt> Dump group_data;

输出

将获得显示名为group_data关系的内容的输出，如下所示。在这里你可以观察到结果模式有两列:

一个是age，通过它我们将关系分组。
另一个是bag，其中包含一组元组，有各自年龄的学生记录。

(21,{(4,Preethi,Agarwal,21,9848022330,Pune),(1,Rajiv,Reddy,21,9848022337,Hydera bad)})
(22,{(3,Rajesh,Khanna,22,9848022339,Delhi),(2,siddarth,Battacharya,22,984802233 8,Kolkata)})
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)})
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)})

在使用 describe 命令分组数据后，可以看到表的模式，如下所示。

grunt> Describe group_data;
  
group_data: {group: int,student_details: {(id: int,firstname: chararray,
               lastname: chararray,age: int,phone: chararray,city: chararray)}}

以同样的方式，可以使用illustrate命令获取模式的示例说明，如下所示。

$ Illustrate group_data;

它将产生以下输出

------------------------------------------------------------------------------------------------- 
|group_data|  group:int | student_details:bag{:tuple(id:int,firstname:chararray,lastname:chararray,age:int,phone:chararray,city:chararray)}|
------------------------------------------------------------------------------------------------- 
|          |     21     | { 4, Preethi, Agarwal, 21, 9848022330, Pune), (1, Rajiv, Reddy, 21, 9848022337, Hyderabad)}| 
|          |     2      | {(2,siddarth,Battacharya,22,9848022338,Kolkata),(003,Rajesh,Khanna,22,9848022339,Delhi)}| 
-------------------------------------------------------------------------------------------------

按多列分组

让我们按年龄和城市对关系进行分组，如下所示。

grunt> group_multiple = GROUP student_details by (age, city);

可以使用Dump运算符验证名为 group_multiple 的关系的内容，如下所示。

grunt> Dump group_multiple; 
  
((21,Pune),{(4,Preethi,Agarwal,21,9848022330,Pune)})
((21,Hyderabad),{(1,Rajiv,Reddy,21,9848022337,Hyderabad)})
((22,Delhi),{(3,Rajesh,Khanna,22,9848022339,Delhi)})
((22,Kolkata),{(2,siddarth,Battacharya,22,9848022338,Kolkata)})
((23,Chennai),{(6,Archana,Mishra,23,9848022335,Chennai)})
((23,Bhuwaneshwar),{(5,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar)})
((24,Chennai),{(8,Bharathi,Nambiayar,24,9848022333,Chennai)})
(24,trivendram),{(7,Komal,Nayak,24,9848022334,trivendram)})

Group All

你可以按所有的列对关系进行分组，如下所示。

grunt> group_all = GROUP student_details All;

现在，请验证关系 group_all 的内容，如下所示。

grunt> Dump group_all;  
  
(all,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334 ,trivendram), 
(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336,Bhuw aneshwar), 
(4,Preethi,Agarwal,21,9848022330,Pune),(3,Rajesh,Khanna,22,9848022339,Delhi), 
(2,siddarth,Battacharya,22,9848022338,Kolkata),(1,Rajiv,Reddy,21,9848022337,Hyd erabad)})

上一篇:Apache Pig illustrate运算符

下一篇:Apache Pig Cogroup运算符

我要发贴

Apache Pig

Apache Pig Group运算符

语法

例

输出

站内导航

联系我们

友情链接