|
|
構建知識圖譜需要滿足三項要素要求,分別是實體,關系和屬性。文本信息提取,則是在文本中提出三元信息,包括實體和關系的信息,實體和屬性的信息,然后將這些關系設置成數(shù)據(jù)庫的過程。
進行信息提取的主要環(huán)節(jié)介紹:
1、確定要進行信息提取的知識本體。
2、為每一個目標知識點設立足夠的訓練語料,或是抽取足夠的編寫規(guī)則
3、利用機器學習的方法,在訓練語料和規(guī)則的基礎上,建立模型。
構建知識圖譜**重要的環(huán)節(jié),NLPIR平臺KGB知識圖譜在文本信息提取的優(yōu)勢:
1、能夠解析不同格式文檔和圖片
KGB知識圖譜引擎,能夠對不同版本和格式的文檔進行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,對于圖片,OCR可自動識別并抽取圖片中的文字信息。
2、對結構化表格數(shù)據(jù)知識抽取
KGB能夠自適應解讀并抽取結構化表格數(shù)據(jù),實現(xiàn)知識的快速生成。
3、對非結構化文檔知識抽取
KGB知識規(guī)則引擎,能夠快速定位非結構化文檔中的關鍵信息(主體、時間、金額等),進行高效抽取知識。
NLPIR大數(shù)據(jù)語義智能分析平臺,是基于中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內容處理的全技術鏈條的共享開發(fā)平臺。
|