程序园 Article

12、非精准Top K检索：如何给检索结果的排序过程装上“加速器”？

你好，我是陈东。上一讲，我们详细讲解了Top K检索的打分排序过程，并且还提到可以使用堆排序代替全排序，来大幅降低排序的时间代价。然而，对于这整个检索过程来说，精准复杂的打分开销要比排序大得多。因此，如果我们想更大幅度地提升检索性能，优化打分过程是...

2025-11-02

11、精准Top K检索：搜索结果是怎么进行打分排序的？

你好，我是陈东。在搜索引擎的检索结果中，排在前面几页的检索结果往往质量更好，更符合我们的要求。一般来说，这些高质量检索结果的排名越靠前，这个搜索引擎的用户体验也就越好。可以说，检索结果的排序是否合理，往往决定了一个检索系统的质量。所以，在搜索引擎...

2025-11-02

10、索引拆分：大规模检索系统如何使用分布式技术加速检索？

你好，我是陈东。在互联网行业中，分布式系统是一个非常重要的技术方向。我们熟悉的搜索引擎、广告引擎和推荐引擎，这些大规模的检索系统都采用了分布式技术。分布式技术有什么优点呢？分布式技术就是将大任务分解成多个子任务，使用多台服务器共同承担任务，让整体...

2025-11-02

9、索引更新：刚发布的文章就能被搜到，这是怎么做到的？

你好，我是陈东。在前面的课程中，我们讲到，倒排索引是许多检索系统的核心实现方案。比如，搜索引擎对万亿级别网页的索引，就是使用倒排索引实现的。我们还讲到，对于超大规模的网页建立索引会非常耗时，工业界往往会使用分布式技术来并行处理。对于发布较久的网页...

2025-11-02

8、索引构建：搜索引擎如何为万亿级别网站生成索引？

你好，我是陈东。对基于内容或者属性的检索场景，我们可以使用倒排索引完成高效的检索。但是，在一些超大规模的数据应用场景中，比如搜索引擎，它会对万亿级别的网站进行索引，生成的倒排索引会非常庞大，根本无法存储在内存中。这种情况下，我们能否像B+树或者LS...

2025-11-02

7、NoSQL检索：为什么日志系统主要用LSM树而非B+树？

你好，我是陈东。 B+树作为检索引擎中的核心技术得到了广泛的使用，尤其是在关系型数据库中。但是，在关系型数据库之外，还有许多常见的大数据应用场景，比如，日志系统、监控系统。这些应用场景有一个共同的特点，那就是数据会持续地大量生成，而且相比于检索操作...

2025-11-02