Deep Natural Language Processing for LinkedIn Search

本文為 “Deep Natural Language Processing for LinkedIn Search” (2021.08) 的論文重點摘要

論文全文參考

Description

討論在搜尋引擎的 5+1 項 NLP 任務實務上的作法
在重視延遲問題的搜尋任務上, 如何導入 BERT
三大挑戰
- 延遲性：搜尋引擎最重要的問題之一。
- 穩定性：這邊主要是提到 DL overfit 的問題。
- 有效性：找出適用各種任務的最佳解法, 可能是 rule base 或 DL model。

大致流程為:
User 輸入搜尋句 → 檢查搜尋句完整性 → 判斷搜尋意圖 → 找尋相關候選文章 → 輸出相關候選文章排序

六大任務概覽

Goal: 判斷 User 搜尋的目的是屬於哪一個既有標籤分類 (7類)
NLP task: Text Classification
Difficulty: 搜尋內容比一般文章來的短造成更嚴重的歧義問題
- Example: michael dell (person names), dell engineer jobs (company)
Solution (short-term)
- Method: 使用 TextCNN 的作法, backbone 使用了 GloVe 作為 embedding, 並結合了手工特徵(用戶行為, 文章統計, search log)
- Finding
  - 不用手工特徵, 準確度掉了 0.4%
  - LSTM 雖然準度有提升 0.2%, 但延遲率較 CNN 增加了 0.5ms
CNN based query intent prediction
Solution (long-term)
- Method: 將 backbone 換成 LiBERT (Linkedin BERT)
Finding
- 準確度較 CNN 提升了 3.28%, 但沒有比較延遲率的結果

Goal: 抓出 query 中包含的 entity
NLP task: NER
Difficulty: entity 有嵌套以及歧異的問題
- Example: research scientist (title), research (skill), scientist (title)
Solution
- Feature: 分為 char based, word based, lexicon base
- Method: 使用 semi-markov conditional random field (SCRF)
Finding: 由於 query 本身已經很短了, 還要再從中抽取 entity 導致大多 DL 模型效果不如建立辭典的方式 (lexicon)

Goal: 在搜尋結束時, 給予 user 下個搜尋字推薦, 類似推薦文章的想法
NLP task: Machine Translation (Seq2Seq)
Difficulty: 延遲性, 穩定性
Solution
- seq2seq model
Finding
- 此任務也可以用來做 query rewrite, 也許可以避免一些 user query 的冷門字
  - Example: software developer → software engineer

依據任務 & 資料特性決定要使用甚麼樣的 model, 不一定都要套用 DL model
- 文中指出在 Query Tagging 和 Query Auto Completion (seen) 上 DL model 沒有 benefit
對於延遲性的建議
- 重新設計算法 (e.g., query auto completion)
- 平行計算 (e.g., query suggestion)
- Embedding pre-sum (e.g., document ranking)
- Two stage ranking (e.g., document ranking)
對於穩定性的建議
- Check training data, 剔除高度相似的資料
- Reuse 手工特徵, 這邊指的是避免過度依賴文字相關的結果