售前電話
135-3656-7657
售前電話 : 135-3656-7657
1 任務1.1 任務定義
wer,中文名稱是社區(qū)問答。是利用半結構化的數(shù)據(jù)(問答對形式)來回答用戶的提問,其流程通??梢苑譃槿糠?。
問題解析,對用戶輸入的問題進行分詞,糾錯等預處理步驟。召回部分,利用信息檢索引擎如等根據(jù)處理后的問題提取可能的候選問題。排序部分,利用信息檢索模型對召回的候選問題進行相似度排序,尋找到最相似的問題并返回給用戶。1.2 任務分類
通常,根據(jù)應用場景的不同,可以將CQA任務分為兩類:
1.3 評測標準1.4 數(shù)據(jù)集
由于工業(yè)界的數(shù)據(jù)集通常來自其自身業(yè)務的記錄,并不對外公開,故以下只舉例介紹相關比賽中出現(xiàn)的數(shù)據(jù)集:
“技術需求”與“技術成果”項目之間關聯(lián)度計算模型(需求與成果匹配)平安醫(yī)療科技疾病問答遷移學習比賽(疾病問句匹配)
相似案例匹配大賽(法律文書匹配)智能客服問題相似度算法設計——第三屆魔鏡杯大賽CCKS 2018 微眾銀行智能客服問句匹配大賽AFQMC 螞蟻金融語義相似度OPPO手機搜索排序query-title語義匹配數(shù)據(jù)集醫(yī)療問題相似度衡量競賽數(shù)據(jù)集2 方法及模型2.1 無監(jiān)督方法2.1.1 規(guī)則匹配
目前,流行的問答系統(tǒng)中依舊大量應用著規(guī)則匹配的方法?;谝?guī)則的方法擁有可解釋性強,易于控制,效率高,易于實現(xiàn),不需要標注數(shù)據(jù)等優(yōu)勢。針對FAQ庫中的標問和相似問進行分詞、應用正則表達式等方法提煉出大量的概念,并將這些概念進行組合,構成大量的句式,句式再進行組合形成標問。
在基于規(guī)則的匹配中, 如何進行規(guī)則的自動發(fā)現(xiàn)與更新、檢驗與評估是最關鍵的問題。究其原因, 由人工維護的產(chǎn)生式規(guī)則需要高水平的、具備豐富的領域知識的專家.在問答系統(tǒng)所應用的領域較為狹窄時, 這有可能得到滿足。然而, 隨著問答系統(tǒng)涉及知識的廣度和深度不斷提高, 依賴于專家知識對管理規(guī)則的難度也大為提高。
2.1.2 無監(jiān)督文本表示
在缺少標記數(shù)據(jù)的場景,我們可以利用算法對文本本身進行表示,再利用常用的向量距離計算方法(如余弦距離,歐式距離等)進行相似性度量。常見的無監(jiān)督文本表示方法主要可以分為兩種,一種是基于詞頻信息的方法,一種是基于詞向量的方法。
選擇單詞數(shù)N服從泊松分布,N~(β)。文檔θ服從狄利克雷分布,θ~Dir(α)。對于文檔內(nèi)N個單詞中的每個單詞 a. 選擇一個主題z,服從多項分布Mult(θ) b. 以概率p(w|z,β)生成單詞w,其中p(w|z,β)表示在主題z上的條件多項式概率。
2.1.3 用于跨領域遷移學習方法
2.2 有監(jiān)督匹配算法2.2.2 問題意圖分類--深度學習多分類模型(CNN\DNN\LSTM\…)
2.2.2深度文本匹配模型
一般來說,深度文本匹配模型分為兩種類型,表示型和交互型。
表示型模型
表示型模型更側重對表示層的構建,它首先將兩個文本表示成固定長度的向量,之后計算兩個文本向量的距離來衡量其相似度。這種模型的問題是沒有考慮到兩個句子詞級別的關聯(lián)性。容易失去語義焦點。
模型DSSM 模型 Bert交互型模型
交互型模型認為全局的匹配度依賴于局部的匹配度,在輸入層就進行詞語間的先匹配醫(yī)療問答系統(tǒng),之后利用單詞級別的匹配結果進行全局的匹配。它的優(yōu)勢是可以很好的把握語義焦點,對上下文重要性合理建模。由于模型效果顯著,業(yè)界都在逐漸嘗試交互型的方法。
模型ESIM ( LSTM)2.3 FAQ發(fā)現(xiàn)與優(yōu)化FAQ發(fā)現(xiàn)
將用戶問句進行聚類,對比已有的FAQ,發(fā)現(xiàn)并補足未覆蓋的知識點。將FAQ與知識點一一對應。
FAQ拆分是當一個FAQ里包含多個意圖或者說多種情況的時候,YiBot后臺會自動分析觸達率較高的FAQ,聚類FAQ對應的問句,按照意圖將其拆分開來。
最終希望希望用戶的每一個意圖能對應到唯一的FAQ,這樣用戶每次提問的時候醫(yī)療問答系統(tǒng),系統(tǒng)就可以根據(jù)這個意圖對應的FAQ直接給出答案。而如果兩個FAQ意思過于相近,那么當用戶問到相關問題時,就不會出現(xiàn)一個直接的回答,而是兩個意圖相關的推薦問題,這樣用戶就要再進行一步選擇操作。這時候YiBot就會在后臺同樣是分析觸達率較高的FAQ,分析哪一些問句總是被推薦相同的答案,將問句對應的意圖合并。
分析歷史日志,采用淘汰機制淘汰廢棄知識點,如已下線業(yè)務知識點等。
FAQ答案優(yōu)化
如果機器人已經(jīng)正確識別意圖但最后仍然轉人工,說明知識庫的答案不對,需要進一步修正這一類知識點相對應的答案。
比如在電商場景中,經(jīng)常會有查詢發(fā)貨到貨時間、訂單狀態(tài)等的場景。利用圖示指引、具體訂單處理等方式讓用戶操作更便捷。
3 產(chǎn)品案例產(chǎn)品1百度AnyQ-- Your
產(chǎn)品2:騰訊知文--結構化FAQ問答引擎
基于結構化的FAQ的問答引擎流程由兩條技術路線來解決
采用了三個層次的方法來實現(xiàn)快速檢索的方法
產(chǎn)品3:阿里小蜜
產(chǎn)品鏈接
意圖與匹配分層的技術架構體系