智城接包方
Zhire
智城识别ID 70287
承接项目数 0
好评率 0%
会员 1级
总收入 ¥ 0RMB
保证金 0 RMB
拥有技能 WebLogic SQL Java CNet JavaScript Struts Tomcat IIS Oracle Android

案例

Qq截图20141031151549
接近 10 年前上传

开发周期 : 1 年
项目报价 : ¥200,000-¥500,000

高性能计算

海量数据采集与检索系统(高性能)
概述
“海量数据收集与搜索系统(高性能)”的建设围绕着实际工作中的不同应用,在最大限度利用所有的计算资源和数据资源思想指导下,从元数据及其安全管理、数据质量管理、服务分布、数据整合和数据的应用等方面进行架构设计,通过对结构化数据和非结构化数据的无缝整合,实现数据的完整应用,使系统用户能够对数据现状、数据质量有一个充分了解,并以此为基础完成本职工作。本系统主要采用hadoop及全文检索等技术,系统拟采用分布式计算的方式将原来的数据集中、计算集中、压力集中管理方式,改为数据分散管理、计算资源分布到每个用户终端、压力分散的管理方式,可以通过采用多台数据服务器、多台文件服务器(用户终端机也可以作为服务器)以及用户使用的终端机通过虚拟化技术整合到一起,为系统服务。
系统特点
 高速索引 、高速搜索 、高可用性
 提供良好的相关性排名
 支持分布式搜索
 支持布尔,短语, 和近义词检索
 支持每个文档多个全文检索域(默认最大32个)
 支持每个文档多属性
 支持断词
 支持单字节编码与UTF-8编码
 界面美观、友好、简洁、易用
系统功能

数据采集:数据采集功能主要分为两种功能:一种是将其他系统的数据采集到本系统当中来,这其中包括结构化数据和非机构化数据两大类;另一种是支持用户将采集回来的各种格式的数据及数据文档上传至特定数据收集与搜索系统进行保存,并将数据文档转换为纯文本格式存放于数据库系统。
全文检索:全文检索功能,采用分布式设计,高效、方便、快捷的实现一键查询和同义词查询,包括信息检索、模版管理、排序、分组、统计、二次检索等功能。
数据导出:主要功能是根据数据导出门户提供的数据文件存储信息,与分布式文件系统交互,获取原始数据文件。
数据分析:本系统主要根据系统中的元数据进行分析,主要可以进行类似于网状分析和时间分析等。主要包括数据管理、关联建立、数据分析、图形化模型构建及数据协同分析。
办公管理:主要是对公文的编制、提交、审核、归档等进行管理,同时也实现了文件套头和全文检索。
文档管理:文档管理功能主要是对单位、部门、人员的文件进行管理,使用hadoop技术构建文件服务器,将文件以分布的方式存储在多台服务器上进行管理和维护,包括文件夹管理(新建文件夹、重命名文件夹、删除文件夹、文件夹授权)和文件管理(上传/下载、批量上传/下载、打包下载、删除、批量删除、文件排序、文件授权、文件分享、文件版本、文件复制)。
统计分析:统计功能专为报表功能设计,不但可以对检索结果进行统计分析,同时还可以对其他模块进行统计分析。在实际工作中,会需要很多报表,而且报表类型也不尽相同,报表中需要统计的项就更不一样了,所以系统提供自定义报表模板功能,用户可以根据自己的需要,自行设计报表样式,来满足自己的需求,并支持打印和导出功能。
其他功能:其他功能主要包括工作流管理、数据备份、日志、全文检索排序、消息提醒、打印等功能。

Qq截图20141031151549
功能结构图