搜索系统#

学习资料#

核心模块#

爬虫#

抓取网页的覆盖率、时效性及重要性

解析#

过滤清洗、信息提取以及权重排序

索引#

Query理解#

Query理解主要包含Query预处理、Query纠错、Query扩展、Query归一、联想词、Query分词、意图识别、term重要性分析、敏感Query识别、时效性识别等,实际应用中会构建一个可插拔的pipeline完成Query理解流程。

召回#

基于词的传统召回和基于向量的语义召回。

排序#

经典论文#
排序模型#
  • 粗排
    • tf-idf
    • bm25
    • embedding-similarity
  • 精排
    • pointwise、pairwise、listwise
    • gbdt
    • DNN。dssm、transform

评估#

评估指标

  • 准确率和召回率
  • F1值
  • AP(Average Precision) 对不同召回率点上的准确率进行平均
  • NDCG
  • MAP(Mean Average Precision) 每个query的ap的平均
  • MRR(Mean Reciprocal Rank) 每个query第一个正例的位置导数的平均值