涉及到文本的话,基本是dirty work了。。
1. 爬虫就不要想实时了,这些旅游网站的攻略信息都是UGC的,全站内容都没多少。先花点时间爬全站,然后每天爬新产生的就好了。框架很多,py的有scrapy pyspider之类的,不用框架直接写也凑合。
2. 从攻略信息里要提结构化信息,算是information extraction from text..大抵有rule based和机器学习的做法,具体可以看[1]里的p37开始的一些内容。当然如果只训练攻略里的文本数据量太小,可以找梁斌买个他用深度学习从百度知道标题提取的领域词库,买旅游类的词库就可以了。
3. 可以把旅游景点做一个类似topic model的划分(旅游占比多少,购物占比多少,人文占比多少),然后结合每个景点的时间做个计算。。
4. 算法做好了,速度就是实时的。
ps. 算法的话,用rule based,nlp句法树,主题模型,深度学习之类的我觉的都差不多,关键是前期数据够多,dirty work得有人做。。。考虑到文本信息提取的复杂性,现在大多数做旅游路径推荐的paper都是用sns geotagged的图片来做的,大抵就是去最大化p(下一个可能去的地点|前一个去的地点),可以看看[2],以及[2]里的ref pp。
感觉真是什么都有了,就缺一个程序员了
[1] CS276A Text Information Retrieval, Mining, and Exploitation
http://web.stanford.edu/class/cs276b/handouts/lecture3.ppt[2] A Travel Planning System Based on Travel Trajectories Extracted from a Large Number of Geotagged Photos on the Web
http://img.cs.uec.ac.jp/e/pub/conf11/111220yanai_2.pdf- 相关评论
- 我要评论
-