什么技术可以爬取和分析旅游网站的信息？（爬虫，自然语言处理等大数据相关）

涉及到文本的话，基本是dirty work了。。

1. 爬虫就不要想实时了，这些旅游网站的攻略信息都是UGC的，全站内容都没多少。先花点时间爬全站，然后每天爬新产生的就好了。框架很多，py的有scrapy pyspider之类的，不用框架直接写也凑合。

2. 从攻略信息里要提结构化信息，算是information extraction from text..大抵有rule based和机器学习的做法，具体可以看[1]里的p37开始的一些内容。当然如果只训练攻略里的文本数据量太小，可以找梁斌买个他用深度学习从百度知道标题提取的领域词库，买旅游类的词库就可以了。

3. 可以把旅游景点做一个类似topic model的划分（旅游占比多少，购物占比多少，人文占比多少），然后结合每个景点的时间做个计算。。

4. 算法做好了，速度就是实时的。

ps. 算法的话，用rule based，nlp句法树，主题模型，深度学习之类的我觉的都差不多，关键是前期数据够多，dirty work得有人做。。。考虑到文本信息提取的复杂性，现在大多数做旅游路径推荐的paper都是用sns geotagged的图片来做的，大抵就是去最大化p(下一个可能去的地点|前一个去的地点)，可以看看[2]，以及[2]里的ref pp。

感觉真是什么都有了，就缺一个程序员了

[1] CS276A Text Information Retrieval, Mining, and Exploitation

http://web.stanford.edu/class/cs276b/handouts/lecture3.ppt

[2] A Travel Planning System Based on Travel Trajectories Extracted from a Large Number of Geotagged Photos on the Web

http://img.cs.uec.ac.jp/e/pub/conf11/111220yanai_2.pdf

顶一下

(0)

踩一下

(0)

相关评论

我要评论: 用户名: 验证码:

上一篇：交通监理工程师考试难度？

下一篇：爆破工程技术人员工资？