venj's blog: 抓饭成功

昨晚一时兴起，写了一段可耻的脚本来抓饭否消息。原理很简单，用curl抓到所有的个人消息页，再用正则过滤出所有消息正文。不过可耻的是，我又把sed忘得干干净净【这个遗忘速度!】，所以写了一个非常非常非常恶心的脚本。

消息，算是过滤出来了吧，不过这个恶心的脚本足足运行了5分钟！（这还不包括抓网页的时间）不过貌似丢了一些，但是我也不知道怎么弄回来了，因为问题根源还没有找到。今晚试着用Perl重写脚本。【好吧，我承认的Perl也很烂。】

$ time ./filter.sh
real 4m50.852s
user 4m14.924s
sys 2m15.662s

如果你也对抓饭感兴趣，你可以参考.rex的Google Code，遗憾的是抓饭程序不提供下载了。不过.rex的Blog或许可以给你一些思路。（什么？我写的脚本？额～太丢人了，就不拿出来献丑了。）我下载消息网页的curl命令也是从那里拷贝过来的。不过要小心，抓网页别抓的太狠了，小心被饭否封IP。

以下是效果图：

venj's blog

2008年11月19日星期三

抓饭成功

没有评论:

发表评论