返回首页

什么技术可以爬取和分析旅游网站的信息?(爬虫,自然语言处理等大数据相关)

297 2023-12-31 14:52 admin

涉及到文本的话,基本是dirty work了。。

1. 爬虫就不要想实时了,这些旅游网站的攻略信息都是UGC的,全站内容都没多少。先花点时间爬全站,然后每天爬新产生的就好了。框架很多,py的有scrapy pyspider之类的,不用框架直接写也凑合。

2. 从攻略信息里要提结构化信息,算是information extraction from text..大抵有rule based和机器学习的做法,具体可以看[1]里的p37开始的一些内容。当然如果只训练攻略里的文本数据量太小,可以找梁斌买个他用深度学习从百度知道标题提取的领域词库,买旅游类的词库就可以了。

3. 可以把旅游景点做一个类似topic model的划分(旅游占比多少,购物占比多少,人文占比多少),然后结合每个景点的时间做个计算。。

4. 算法做好了,速度就是实时的。

ps. 算法的话,用rule based,nlp句法树,主题模型,深度学习之类的我觉的都差不多,关键是前期数据够多,dirty work得有人做。。。考虑到文本信息提取的复杂性,现在大多数做旅游路径推荐的paper都是用sns geotagged的图片来做的,大抵就是去最大化p(下一个可能去的地点|前一个去的地点),可以看看[2],以及[2]里的ref pp。

感觉真是什么都有了,就缺一个程序员了

[1] CS276A Text Information Retrieval, Mining, and Exploitation

http://web.stanford.edu/class/cs276b/handouts/lecture3.ppt

[2] A Travel Planning System Based on Travel Trajectories Extracted from a Large Number of Geotagged Photos on the Web

http://img.cs.uec.ac.jp/e/pub/conf11/111220yanai_2.pdf
顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
用户名: 验证码:点击我更换图片

请选择遇到的问题

观点错误
内容与标题不符
内容陈旧
内容质量差
内容不够全面
已收到你的问题反馈