rvest爬取简单的网页信息

数据挖掘项目占用时间最多的,不是方法和模型的使用,而是数据的获取和清洗。爬虫则是数据获取的重要途径。今天学习了hadley大神的rvest包,试着爬取北京建委房地产统计数据。

准备工作

  1. 要爬的网址。 http://www.bjjs.gov.cn/tabid/1210/Default.aspx#9775
  2. Chrome安装SelectorGadget插件,用于识别网页源代码的区块id
  3. 使用SelectorGadget识别区块,比如要爬取下图的部分,识别出id为”.fdcjylanhui_cont”

代码实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
library(rvest)
page = read_html("http://www.bjjs.gov.cn/tabid/1210/Default.aspx#9775")
jianwei = page %>% html_nodes(".fdcjylanhui_cont table table") %>% html_table(fill=T)
jianwei
[[1]]
X1 X2
1 2016-5-16期房网上签约 <NA>
2 网上签约套数 276
3 网上签约面积 23440(㎡)
4 住宅套数 198
5 住宅面积 18376(㎡)

[[2]]
X1 X2
1 2016-5-16现房网上签约 <NA>
2 网上签约套数 213
3 网上签约面积 22365(㎡)
4 住宅套数 151
5 住宅面积 15933(㎡)

[[3]]
X1 X2
1 2016-5-16存量房网上签约 <NA>
2 网上签约套数 1250
3 网上签约面积 122360(㎡)
4 住宅签约套数 1093
5 住宅签约面积 104191(㎡)
喂他一颗糖