类型 | 操作 | 描述 |
---|---|---|
加载与存储 | LOAD | 将数据从文件系统或其他存储中加载数据,存入关系 |
STORE | 将一个关系存放到文件系统或其他存储中 | |
DUMP | 将关系打印到控制台 | |
过滤 | FILTER | 从关系中删除不需要的行 |
DISTINCT | 从关系中删除重复的行 | |
FOREACH…GENERATE | 在关系中增加或者删除字段 | |
STREAM | 使用外部程序对关系进行变换 | |
SAMPLE | 从关系中随机取样 | |
分组与连接 | JOIN | 连接两个或多个关系 |
COGROUP | 在两个或更多关系中对数据进行分组 | |
GROUP | 在一个关系中对数据进行分组 | |
CROSS | 获取两个或更多关系的乘积(叉乘) | |
排序 | ORDER | 根据一个或多个字段对某个关系进行排序 |
LIMIT | 将关系的元祖个数限定在一定数量内 | |
合并与分割 | UNION | 合并两个或多个关系 |
SPLIT | 把某个关系切分两个或多个关系 |
来源:Hadoop权威指南 Tom Wbite著