2021年终总结,主要是主导TurboSearch海量数据检索引擎在微信搜一搜业务上的落地,主要有微信资讯文章的Bigram项目、微信资讯文章的WOB集群、微信资讯文章的GOB集群,均取得了很好的效果,对比老架构,都有至少2倍以上的提升。
Bigram
主要是为了针对中长尾query召回中生僻词的badcase,引入暴力的Bigram分词,强制召回一些生僻词,上线后微信搜一搜大盘取得了正向的结果。
微信资讯文章集群
集群 |
集群分类说明 |
存储介质 |
数据量 |
FOB |
实新集群 |
内存 |
1000万 |
GOB |
优质文档集群 |
内存 |
4亿 |
WOB |
长尾文档集群 |
内存+磁盘 |
30亿 |
新老架构对比
全新TurboSearch海量检索引擎已经全量替换上述的GOB、WOB集群,均取得2倍以上的效果,节省了大量服务器成本开销
QPS对比指标
集群 |
老架构 |
新架构 |
GOB |
500 |
1300 |
WOB |
300 |
1400 |
集群机器数指标
集群 |
老架构 |
新架构 |
提升比列 |
GOB |
240 |
70 |
3.4倍 |
WOB |
168 |
70 |
2.4倍 |
TurboSearch运营系统切换上K8S集群
- 最近公司开始全量上K8S系统,其本质目标是为了提升全公司整体的机器资源利用率,毕竟人为去审核一个项目所需要的机器资源实在是一件极其费劲和低效的事情。
- 无状态服务VS有状态服务
集群 |
说明 |
重建难易程度 |
无状态 |
一般对应着接入层服务、网络转发服务,不存储任何数据 |
易 |
有状态 |
一般对应着提供数据的服务,例如数据库服务缓存服务、搜索中的索引服务等 |
难 |
- K8S运维思想是,Pod可以轻易重建
- 有状态服务由于其持有数据的原因,其重建迁移的成本会大大增加
总结
- 项目管理:主导了3个核心项目,最大的感触是不要急躁,沟通要有效及时,需要接受项目会遇到各种问题导致其delay;
- 技术深度:需要再巩固自己的只是体系,组成原理、操作系统等书籍需要再刷一遍,将计算机体系只是串联起来;
- 职业发展:T9答辩顺利通过,算是完成了毕业前3年的一个小目标,后续需要拓展自己的影响力;
- 看书:整个人变懒了很多,不太能沉下心来去认真读书,总觉得这些知识自己都知道,但总会发现自己的理解存在偏差;
- 生活:愈发压抑,内心似乎不快乐,没了激情和动力,后续要找朋友多联络感情
- 身体健康:太放纵了,内脂肪太多,有肚子,有双下巴,每日6000步疾走+多吃膳食纤维类的食物
- 情感,已订婚,明年结婚,进入围城
- 展望,在新的一年里,把TurboSearch的海量检索引擎推进到业界领先地位,然后年中答辩升10成功,加油!