使用pig脚本
+BEGIN_SRC product = load '/user/dt=2014-05-25/*.lzo' USING PigStorage('\t') AS(brand_id, brand_name);
-- dim_brand brand = foreach product generate brand_id as dim_brand_id, brand_cd, brand_name; uniqBrand = distinct brand; store uniqBrand into '/user/run/dim_brand' using PigStorage('\t');
#+END_SRC
- lzo文件是压缩文件,有时候在同一级目录下还有lzo.index文件,这时如果指定目录,而不用*.lzo来限定读取文件。那么store的文件会有 .lzo.index里的内容,这是我们不希望的。所以,如果使用压缩文件,最好使用.lzo来限定文件。
- distinct 用来去重。