本篇文章介绍了电商搜索的工具——搜做引擎,其3个核心能力:词库、权重、索引。
最简单的电商搜索是针对商品名称,随着技术进步,用户搜索的内容五花八门,只仅针对商品名称的搜索已经远远不能满足用户的需求,这个时候行业里面引入了一个工具——搜索引擎。
搜索引擎主要为我们提供3个核心能力:词库、权重、索引,还可能包含其他一些附属功能,比如评价体系、数据统计等,下面我们主要来说下搜索引擎的这3个核心能力。
一、词库
1.1 数据准备
搜索引擎可以对用户输入的搜索词做预处理,以此提供用户更想要的搜索结果,比如近义词、分词、兼容拼音、纠错功能等,除了有通用的词库可以解决掉一般性的输入问题之外,最主要的就是针对用户以往的搜索词去定期完善相应的词库。
所以在构建相应的词库之前,需要对用户以往的搜索词做好相应的统计,包括每个搜索词的搜索人数占比、搜索结果点击率以及每个搜索词的下单转化情况等,有了这些数据,我们就可以有针对性的优先优化最有价值的搜索词,另外还可以通过这些数据查看优化后的结果。
1.2 近义词
比如用户搜索的是“充电宝”,但实际上专业名词叫“移动电源”,再比如“充电器”,专业名词叫“电源适配器”等等,根据用户的搜索数据,我们需要定期把这些对应关系更新到近义词库,如图15-1。
图15-1 近义词词库(图片来源:小米商城)
1.3 分词
分词的意思是说,如果用户的搜索词比较长,比如“防雾霾口罩”,但是商品标题是“过滤防护口罩”,这个时候如果按照完全匹配是匹配不到的,分词的作用就是把搜索词分成“防雾霾”+“口罩”,这样搜索的结果集就会大大增加。如图15-2:
目前已经有通用的分词词库,用来处理常见的分词,但是对于一些专有名词,或者一些需要系统特别处理的词,比如手机行业里的“全面屏”,需要我们自己根据数据统计的结果定时更新到分词词库。
图15-2 分词(图片来源:天猫)
1.4 其他
包括错别字、兼容拼音、去重等,原理跟近义词、分词类似,这里想讨论一个问题:如果用户的搜索词是错的,我们应该如何处理?如图15-3,第一张图,用户搜索了“xiaomi”,小米商城直接给用户显示了“小米”的搜索结果,也就是帮用户纠正了错误。而第二张图,用户搜索“永衣”,天猫先给用户显示了“永衣”的搜索结果,再问用户是不是在找“泳衣”。
那到底是先显示“永衣”的搜索结果,再问用户是不是搜索“泳衣”,还是直接帮用户纠正为“泳衣”的搜素结果,再问用户是否仍然搜“永衣”?
我个人的建议是,在“永衣”有搜索结果的情况下,先帮用户显示“永衣”的搜索结果,再问用户是不是搜索“泳衣”。因为“永衣”有搜索结果,所以我们并不能完全确认用户的搜索词是否错误,如果直接帮用户纠正错误,从尊重用户的角度来说是不合适的,甚至可能是多余的。
如果“永衣”没有搜索结果,则直接给用户显示“泳衣”的搜索结果,并且不是提示用户是否仍然搜索“永衣”,因为“永衣”没有搜索结果,还让用户搜索干嘛?而是类似图15-2,告诉用户“永衣”没有搜索结果,已为您推荐“泳衣”的相关商品。
图15-3 纠错(图片来源:小米、天猫)
二、权重
权重就是跟搜索结果排序相关的,从电商的角度来说,包括但不限于商品、用户、运营等维度。
商品可能包括品类、商品名称、副标题、颜色、规格参数等,用户相关的就包括购买、推荐、收藏、点击等,运营相关的包括促销、新品、热卖等。
每一项有一个权重值,经过一系列的算法计算,权重越高的商品搜索结果越靠前。跟词库类似,权重也是需要定期更新不断完善的过程。
三、索引
索引是搜索引擎的一个重要特性,我们知道一般的数据库也可以创建索引,但主要是针对具体数据类型确切数值的精确筛选,而大数据量下的实时处理能力,以及基于语义、相关性方面的搜索,还需要搜索引擎的支持。
搜索引擎需要定期从商城获取数据创建索引,数据内容包括了之前提到的商品、用户、运营等相关的数据,如果对实时性要求比较高,就增量同步,实时性要求不高,则可以定期全量同步。
用户从搜索到最终获得搜索结果的流程如图15-4:
图15-4 用户搜索流程
总结
本文以电商为例,详细讲解了搜索引擎提供的词库、权重、索引3个核心能力,包括它们是如何应用在我们的产品当中,以及在日常的搜索优化工作中,需要做哪些事情,希望对各位有所帮助。
文章来源:人人都是产品经理
【转载说明】  若上述素材出现侵权,请及时联系我们删除及进行处理:8088013@qq.com