2008年11月19日星期三

抓饭成功

昨晚一时兴起,写了一段可耻的脚本来抓饭否消息。原理很简单,用curl抓到所有的个人消息页,再用正则过滤出所有消息正文。不过可耻的是,我又把sed忘得干干净净【这个遗忘速度!】,所以写了一个非常非常非常恶心的脚本。

消息,算是过滤出来了吧,不过这个恶心的脚本足足运行了5分钟!(这还不包括抓网页的时间)不过貌似丢了一些,但是我也不知道怎么弄回来了,因为问题根源还没有找到。今晚试着用Perl重写脚本。【好吧,我承认的Perl也很烂。】

$ time ./filter.sh
real 4m50.852s
user 4m14.924s
sys 2m15.662s


如果你也对抓饭感兴趣,你可以参考.rexGoogle Code,遗憾的是抓饭程序不提供下载了。不过.rex的Blog或许可以给你一些思路。(什么?我写的脚本?额~太丢人了,就不拿出来献丑了。)我下载消息网页的curl命令也是从那里拷贝过来的。不过要小心,抓网页别抓的太狠了,小心被饭否封IP。

以下是效果图:

没有评论:

发表评论