摘 要
本发明公开了一种网络环境下email大数据的预处理系统及方法,系统包括:第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群。本发明所提供的系统及方法,通过消息队列传递数据,减少了因数据落地而带来的输入输出,同时降低了各系统之间的耦合;结构化数据和全文数据单独缓存,避免了不需要进行合并的全文数据在合并处理过程中的无用传递,降低结构化数据合并涉及的各个环节的压力;通过预处理降低了入库的压力和查询压力,同时保证了数据的一致性和完整性。
背景技术
由于近些年智能生活的普及,特别是互联网及通信技术的高速发展,使得网络环境下产生了庞大的、繁杂的各种信息数据,email数据就是这些数据的一种。不管现在还是将来这些庞大的数据都将以线性增量增长,但是在这些数据中真正能为我们所用的确很少。因此,如何快速的定位挖掘出那些有用的数据,并迅速的对数据做出正确的处理及分析成为了现今环境下急需解决的问题。