售前電話
135-3656-7657
售前電話 : 135-3656-7657
B站:科皮子菊
背景
上一個實踐項目是:,這個屬于入門級的項目,可以了解一下neo4j的一些基本操作,以及簡單的問答處理。下面進(jìn)行第二個實踐項目,也是對一個開源項目源碼進(jìn)行解讀和改寫,最終形成符合自己風(fēng)格的一個項目。
該項目在是挺受歡迎的,項目地址:[1]。如果喜歡閱讀源碼的友友,可以直接閱讀源碼。
原項目簡介原項目基本內(nèi)容
在我閱讀這個項目時(2022-7-17),該項目的start數(shù)目達(dá)4.2k,fork達(dá)1.6k。從數(shù)據(jù)上來看,大家是比較認(rèn)可該項目的。
當(dāng)然,原作者也是很厲害的,是中國科學(xué)院軟件研究所劉煥勇老師。
該項目從無到有搭建一個以疾病為中心的一定規(guī)模醫(yī)藥領(lǐng)域知識圖譜,并以該知識圖譜完成自動問答與分析服務(wù)。適合一個初學(xué)人員了解該類項目的過程。
該項目立足醫(yī)藥領(lǐng)域,以垂直型醫(yī)藥網(wǎng)站為數(shù)據(jù)來源,以疾病為核心,構(gòu)建起一個包含7類規(guī)模為4.4萬的知識實體,11類規(guī)模約30萬實體關(guān)系的知識圖譜。項目包括以下兩部分的內(nèi)容:
基于垂直網(wǎng)站數(shù)據(jù)的醫(yī)藥知識圖譜構(gòu)建基于醫(yī)藥知識圖譜的自動問答
該項目的最終效果如下:
看看問答的內(nèi)容,感覺還是挺好玩的。
該項目的技術(shù)架構(gòu)如下:
其中涉及的各個模塊也是現(xiàn)在當(dāng)前進(jìn)行問答的主要流程。只是在不同環(huán)節(jié)有不同的細(xì)分技術(shù)。例如 ,這個部分通常在不同性質(zhì)的問答系統(tǒng)中有不同的叫法,通常也叫做意圖識別,query 就是query解析,這個不僅在問答中有重要的使用醫(yī)療問答系統(tǒng)的應(yīng)用,在搜索中也是如此,如果深究的話,就單憑query 就能夠衍生很多知識,如query錯誤糾正,query改寫等等。在知識搜尋中相關(guān)技術(shù)也比較多,有的會進(jìn)行子圖切分在圖數(shù)據(jù)庫中匹配,也有使用傳統(tǒng)的規(guī)則匹配等方法去處理。
除此之外,單輪對話相對簡單,如果涉及任務(wù)型對話的,則需要涉及填槽的工作以及對話管理等等。
項目源碼閱讀與改寫
這段時間在業(yè)余時間看完了項目代碼,并對其進(jìn)行了小小的重構(gòu)。然后實現(xiàn)效果如下:
做完之后總體感覺內(nèi)容也不是特別多,但是整個還是比較清晰的。值得去閱讀一下源碼。
總結(jié)
總的來說,這個項目把使用知識圖譜進(jìn)行QA的一些流程介紹的比較清楚,但是在完成問答的過程中技術(shù)相對老舊醫(yī)療問答系統(tǒng)的應(yīng)用,不過效果依然還不錯。源碼已經(jīng)放到我的上:[2],有興趣的可以下載運行看看哦,上面有運行介紹哦。
為了能夠進(jìn)一步提升效果的話可以引入很多新技術(shù)。例如在問題分類環(huán)節(jié)可以引入基于深度學(xué)習(xí)的問題分類方法,在進(jìn)行問題解析的時候,可以引入基于深度學(xué)習(xí)的NER實體識別方式以及進(jìn)一步處進(jìn)行實體對齊等,這里不作進(jìn)一步展開。
除此之外,知識圖譜在構(gòu)建時需要結(jié)合業(yè)務(wù)需求,也就是在接到業(yè)務(wù)的時候以及對現(xiàn)有數(shù)據(jù)進(jìn)行分析然后構(gòu)建基于業(yè)務(wù)的,再通過自然語言處理相關(guān)技術(shù)進(jìn)行知識圖譜的構(gòu)建。在原項目中,使用爬蟲的方式進(jìn)行數(shù)據(jù)爬取,其也可以使用NLP相關(guān)的基礎(chǔ),優(yōu)化提取的數(shù)據(jù)等等。