沙漠之鱼的杀手组合是哪个耽美漫画里的

Framework /search/category/2/10/g311p{0} 这是C#的一种字符串替换语法{0}会被依次替换为1,2,/shopall/2/0 为了获取此页面上的信息,我们再新建一个网页采集器命名为通用采集器,它的目标是获取整个HTML页面因此


讀取模式改成One,将刚才门店列表采集器里的高级设置->Parameters的内容拷贝到本采集器对应的窗口中。
(其实也可以做嗅探但这个更快一些)。
之后我們来获取这个页面上的所有美食门类,新建数据清洗命名为门类,然后从左侧拖从文本生成到右侧任意一列命名如下:
再拖入从爬虫轉换,配置如下:
即可调用刚才的通用采集器另外,左侧的工具栏支持搜索直接关键字即可快速定位,结果如下:


为了获取下图的北京菜所在的位置虽然可以用Hawk,但为了方便可以使用Chrome搜狗和360浏览器的F12开发者工具功能,找到对应的元素点击右键,拷贝XPath:
因为要获取所囿的子li在刚才的数据清洗中,向Content列拖入XPath筛选器配置如下:
由于要获取所有的li子节点,所以去掉了最后的可以适当复习XPath语法。
接下来步骤很简单我不截图了:

  • 拖入HTML字符转义到Text列,可以清除该列的乱码
  • 再拖入字符串分割到Text勾选空格分割,可对该数据用空格分割并获取默认的第一个子串
  • 拖入删除该列到OHTML,该列没有用
  • 再拖入正则转换器到HTML,配置如下:
    g\d+代表匹配那个门类的ID比如刚才的g311

  • 拖入删除该列到HTML
  • 直接茬Text列的上方修改名称为门类




你可以按照刚才类似的步骤进行,也是创建新的数据清洗把这个子模块命名为区域,最终结果如下:

如果自己做不下来也没有关系,加载Github上大众点评的教程.xml可以直接用这个现成的模块,也可以单步调试之看看它是怎么写的。



有任何问题欢迎留言。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信