| 类型 | 操作 | 描述 |
|---|---|---|
| 加载与存储 | LOAD | 将数据从文件系统或其他存储中加载数据,存入关系 |
| STORE | 将一个关系存放到文件系统或其他存储中 | |
| DUMP | 将关系打印到控制台 | |
| 过滤 | FILTER | 从关系中删除不需要的行 |
| DISTINCT | 从关系中删除重复的行 | |
| FOREACH…GENERATE | 在关系中增加或者删除字段 | |
| STREAM | 使用外部程序对关系进行变换 | |
| SAMPLE | 从关系中随机取样 | |
| 分组与连接 | JOIN | 连接两个或多个关系 |
| COGROUP | 在两个或更多关系中对数据进行分组 | |
| GROUP | 在一个关系中对数据进行分组 | |
| CROSS | 获取两个或更多关系的乘积(叉乘) | |
| 排序 | ORDER | 根据一个或多个字段对某个关系进行排序 |
| LIMIT | 将关系的元祖个数限定在一定数量内 | |
| 合并与分割 | UNION | 合并两个或多个关系 |
| SPLIT | 把某个关系切分两个或多个关系 |
来源:Hadoop权威指南 Tom Wbite著