开发需求 用于网络舆情信息采集与分析的软件(接口级)
功能描述
1. 信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频、境外中文媒体,约3万站点
2. 网页解析字段项:标题、时间、作者、正文、正文摘要、URL、评论数、转载数等
3. 数据分析类型:舆情常规的语义分析、热点分析
4. 全文检索功能
技术要求
1) 部署\OS:云服务器\centos
2) 网络爬虫:Nutch1.6 \ Nutch1.7
3) 离线计算\实时计算:hadoop2.x \ storm
4) 数据采集\消息队列:flume \ Kafka
5) DB:hbase \ mongodb
6) 检索:solr
7) 其他:开源、无限制
其他要求
1) 24小时运行
2) 开发文档完整
3) 除首次外,完成单次信息采集解析 < 4小时
联系方式 北京弘易软件 张工 手机 QQ
接包方 | 国家/地区 | |
---|---|---|
9
Zxzykj001
|
武汉市 | |
4
Globaltech2015
|
北京市 | |
3
Shinelight
|
成都市 |