12、非精准Top K检索:如何给检索结果的排序过程装上“加速器”?

你好,我是陈东。 上一讲,我们详细讲解了Top K检索的打分排序过程,并且还提到可以使用堆排序代替全排序,来大幅降低排序的时间代价。然而,对于这整个检索过程来说,精准复杂的打分开销要比排序大得多。因此,如果我们想更大幅度地提升检索性能,优化打分过程是...

检索技术核心20讲

11、精准Top K检索:搜索结果是怎么进行打分排序的?

你好,我是陈东。 在搜索引擎的检索结果中,排在前面几页的检索结果往往质量更好,更符合我们的要求。一般来说,这些高质量检索结果的排名越靠前,这个搜索引擎的用户体验也就越好。可以说,检索结果的排序是否合理,往往决定了一个检索系统的质量。 所以,在搜索引擎...

检索技术核心20讲

10、索引拆分:大规模检索系统如何使用分布式技术加速检索?

你好,我是陈东。 在互联网行业中,分布式系统是一个非常重要的技术方向。我们熟悉的搜索引擎、广告引擎和推荐引擎,这些大规模的检索系统都采用了分布式技术。 分布式技术有什么优点呢?分布式技术就是将大任务分解成多个子任务,使用多台服务器共同承担任务,让整体...

检索技术核心20讲

9、索引更新:刚发布的文章就能被搜到,这是怎么做到的?

你好,我是陈东。 在前面的课程中,我们讲到,倒排索引是许多检索系统的核心实现方案。比如,搜索引擎对万亿级别网页的索引,就是使用倒排索引实现的。我们还讲到,对于超大规模的网页建立索引会非常耗时,工业界往往会使用分布式技术来并行处理。 对于发布较久的网页...

检索技术核心20讲

8、索引构建:搜索引擎如何为万亿级别网站生成索引?

你好,我是陈东。 对基于内容或者属性的检索场景,我们可以使用倒排索引完成高效的检索。但是,在一些超大规模的数据应用场景中,比如搜索引擎,它会对万亿级别的网站进行索引,生成的倒排索引会非常庞大,根本无法存储在内存中。这种情况下,我们能否像B+树或者LS...

检索技术核心20讲

7、NoSQL检索:为什么日志系统主要用LSM树而非B+树?

你好,我是陈东。 B+树作为检索引擎中的核心技术得到了广泛的使用,尤其是在关系型数据库中。 但是,在关系型数据库之外,还有许多常见的大数据应用场景,比如,日志系统、监控系统。这些应用场景有一个共同的特点,那就是数据会持续地大量生成,而且相比于检索操作...

检索技术核心20讲