-
Notifications
You must be signed in to change notification settings - Fork 10
第 1 章
coderLMN edited this page Jun 15, 2018
·
3 revisions
大家都知道,对于活跃的网站来说,定期改版页面是必须的。因此网页结构的变化也不可避免。本书中的代码只是根据在某个时间点对网页结构进行的分析而编写的,并不等于这些代码是长期有效的。
比如在第一章,濒危文化遗产地的维基百科网址 http://en.wikipedia.org/wiki/List_of_World_Heritage_in_Danger 用 htmlParse() 函数就会报错,这是因为维基百科已经启用了 https 安全协议,因此需要证书才能访问,读者可以参考 9.1.7 "通过 HTTPS 进行的连接" 中的内容,对原书代码进行修改。
另外,本书的配套网站貌似是存了wikipedia原来的页面,可以用它试验书里的代码 http://www.r-datacollection.com/materials/ch-1-introduction/worldheritagedanger.htm
再比如我在翻译的过程中就发现“商品评论的情绪”一章中,亚马逊网页的结构已经发生了变化,并在书中 16.1.2 节注明了变化的情况。但是随着时间的流逝,其他网页也难免会变。这种页面结构的变化是现代网站普遍存在的现象。毕竟网页开发的技术在不断进步,包括 HTML5 和 CSS3 的出现,大大提高了网页应用的用户体验,网站的前端经常会发生变化,也是正常现象。
总之,毕竟这是一本关于网络抓取的书,读者应该根据书中讲解的原理自己去尝试分析页面,写出自己的代码,而不是拘泥于书上的代码,这样学习的效果会更好。