数据库架构
人力描述:
我们准备启动一个电商项目的开发,紧急需要如下人员:
数据库工程师:1名,基本需求,擅长java,Git,Linux,熟悉关系型、非关系型数据库,尤其是MongoDB,有ETL经验(数据迁移和数据融合),熟悉英文,能看文档,能看懂基本数据库字段
补充说明:
数据库工程师要求驻场开发,由我方项目经理统一管理。公司提供午餐、晚餐、茶歇
按照实际发生人力工作天数进行结算,可日结,通过平台支付。
主要工作内容
数据迁移。公司有一部分数据还残存在以前的Mysql和Mongodb中,并且数量还会增加(因为爬虫仍然不停地抓取信息传输至老数据库),需要把这部分数据定时传输到核心数据库(Mongodb)。
定义怎样分数据库、怎样分集合。例如项目包括语言、项目类型、供求关系。
统一数据库中的项目存储格式,统一公司存储格式。
数据融合。
数据库部署
详细描述
1. 目前公司同步的Mysql , Mongodb数据库中还留有部分数据,并且数据的数量还会增加。
2. 已经存储的数据中,对各类项目,中文的,英文的数据,没有定义好怎样分数据库,怎样分集合。
3. 由于之前我们定义过存储结构,但是因为实际需要会不断的修改,留下了很多修改过程中产生的数据,这些数据的存储格式不是最新的。我们需要定义一份相对完整的存储格式,这个存储格式可以增加维度,但是不能随意修改以前的维度。
4. 多个源头的数据描述同一个实体的数据,没有把两个源头的数据进行融合,例如从A源头抓取来百度公司的信息,从B源头抓取来百度信息科技股份有限公司的信息,这两个源头的数据都是参差不齐的,要把他们做融合,变成一个实体。
5. 由于本地存储空间有限,服务器数量有限,所以可能会带来本地无法存储大量数据的问题,所以现在考虑云端存储的方案。
数据库工程师要求
基本需求
1, 擅长java,Git,Linux.
2, 熟悉关系型、非关系型数据库,尤其是MongoDB.
3, 有ETL经验。
4, 熟悉英文,能看文档,能看懂基本数据库字段
高级要求
1, 能够通过需求定制出数据库架构
2, 熟悉Spark
3, 熟悉Scala
4, 熟悉MongoDB,包括功能上、优缺点、应用等