Pig Latin 关系操作

类型 操作 描述
加载与存储 LOAD 将数据从文件系统或其他存储中加载数据,存入关系
  STORE 将一个关系存放到文件系统或其他存储中
  DUMP 将关系打印到控制台
过滤 FILTER 从关系中删除不需要的行
  DISTINCT 从关系中删除重复的行
  FOREACH…GENERATE 在关系中增加或者删除字段
  STREAM 使用外部程序对关系进行变换
  SAMPLE 从关系中随机取样
分组与连接 JOIN 连接两个或多个关系
  COGROUP 在两个或更多关系中对数据进行分组
  GROUP 在一个关系中对数据进行分组
  CROSS 获取两个或更多关系的乘积(叉乘)
排序 ORDER 根据一个或多个字段对某个关系进行排序
  LIMIT 将关系的元祖个数限定在一定数量内
合并与分割 UNION 合并两个或多个关系
  SPLIT 把某个关系切分两个或多个关系

来源:Hadoop权威指南 Tom Wbite著