数据挖掘项目占用时间最多的，不是方法和模型的使用，而是数据的获取和清洗。爬虫则是数据获取的重要途径。今天学习了hadley大神的rvest包，试着爬取北京建委房地产统计数据。

准备工作

要爬的网址。 http://www.bjjs.gov.cn/tabid/1210/Default.aspx#9775
Chrome安装SelectorGadget插件，用于识别网页源代码的区块id
使用SelectorGadget识别区块，比如要爬取下图的部分，识别出id为”.fdcjylanhui_cont”

代码实现

library(rvest)
page = read_html("http://www.bjjs.gov.cn/tabid/1210/Default.aspx#9775")
jianwei = page %>% html_nodes(".fdcjylanhui_cont table table") %>% html_table(fill=T)
jianwei
[[1]]
                     X1        X2
1 2016-5-16期房网上签约      <NA>
2          网上签约套数       276
3          网上签约面积 23440(㎡)
4              住宅套数       198
5              住宅面积 18376(㎡)

[[2]]
                     X1        X2
1 2016-5-16现房网上签约      <NA>
2          网上签约套数       213
3          网上签约面积 22365(㎡)
4              住宅套数       151
5              住宅面积 15933(㎡)

[[3]]
                       X1         X2
1 2016-5-16存量房网上签约       <NA>
2            网上签约套数       1250
3            网上签约面积 122360(㎡)
4            住宅签约套数       1093
5            住宅签约面积 104191(㎡)