企億推信息網(wǎng)
        專注網(wǎng)絡(luò)推廣服務(wù)

        分享文章中關(guān)鍵詞的提取與拓展方法

        在自然語(yǔ)言處理領(lǐng)域,處理海量文本文件的關(guān)鍵是提取用戶關(guān)心的問題。無(wú)論是長(zhǎng)文本還是短文本,我們都可以通過幾個(gè)關(guān)鍵詞來(lái)窺視整個(gè)文本的主題。同時(shí),無(wú)論是基于文本的推薦還是基于文本的搜索,對(duì)文本關(guān)鍵字的依賴性也很大。關(guān)鍵詞提取的準(zhǔn)確性直接關(guān)系到推薦系統(tǒng)或搜索系統(tǒng)的終效果。

        因此,關(guān)鍵字提取是文本挖掘領(lǐng)域的一個(gè)重要組成部分。從文本中提取關(guān)鍵詞有三種方法:監(jiān)督、半監(jiān)督和無(wú)監(jiān)督。監(jiān)督關(guān)鍵字提取算法是將關(guān)鍵字提取算法構(gòu)造為兩類問題來(lái)判斷文檔中的詞或短語(yǔ)是否為關(guān)鍵字。由于這是一個(gè)分類問題,因此有必要提供標(biāo)記的訓(xùn)練預(yù)測(cè)。訓(xùn)練語(yǔ)料庫(kù)用于訓(xùn)練關(guān)鍵詞提取模型。根據(jù)該模型,對(duì)需要提取關(guān)鍵字的文檔的關(guān)鍵字提取算法進(jìn)行了半監(jiān)督。

        構(gòu)造關(guān)鍵詞提取模型只需要少量的訓(xùn)練數(shù)據(jù),然后利用模型對(duì)新文本進(jìn)行檢查。關(guān)鍵字提取,手動(dòng)篩選這些關(guān)鍵字,并將篩選后的關(guān)鍵字添加到培訓(xùn)集以重新培訓(xùn)模型。無(wú)監(jiān)督的方法不需要手動(dòng)標(biāo)記語(yǔ)料庫(kù)。一些方法被用來(lái)尋找文本中更重要的詞作為關(guān)鍵字并提取關(guān)鍵字。監(jiān)督文本關(guān)鍵字提取算法要求人工成本高,現(xiàn)有的文本關(guān)鍵字提取主要采用無(wú)監(jiān)督關(guān)鍵字提取,適用性強(qiáng)。

        文本關(guān)鍵字提取的過程如下:無(wú)監(jiān)督文本關(guān)鍵字提取流程圖無(wú)監(jiān)督關(guān)鍵字提取算法可分為三類:基于統(tǒng)計(jì)特征的關(guān)鍵字提取、基于詞圖模型的關(guān)鍵字提取和基于主題模型的關(guān)鍵字提取。基于統(tǒng)計(jì)特征的文本關(guān)鍵字提取算法基于統(tǒng)計(jì)特征的關(guān)鍵字提取算法基于統(tǒng)計(jì)特征的關(guān)鍵字提取算法是利用文檔中的統(tǒng)計(jì)信息提取關(guān)鍵字。

        一般情況下,文本經(jīng)過預(yù)處理得到候選詞集,然后通過特征值量化從候選詞集中獲得關(guān)鍵詞。基于統(tǒng)計(jì)特征的關(guān)鍵詞提取方法的關(guān)鍵是采用何種特征值量化指標(biāo)。

        分享文章中關(guān)鍵詞的提取與拓展方法(圖1)

        目前常用的方法有三種:1、基于詞權(quán)的特征量化主要包括部分語(yǔ)音、詞頻、反向文檔頻率、相對(duì)詞頻、詞長(zhǎng)等。2、基于詞位的特征量化方法是基于不同位置的句子對(duì)文獻(xiàn)的重要性不同的假設(shè)。通常,文章的前N個(gè)詞、后N個(gè)詞、開頭、結(jié)尾、標(biāo)題和引言都是有代表性的詞。這些詞可以把整個(gè)主題表達(dá)為關(guān)鍵詞。3、基于詞關(guān)聯(lián)信息的特征量詞的關(guān)聯(lián)信息是指詞與詞、詞與文獻(xiàn)的關(guān)聯(lián)程度,包括互信息、命中值、貢獻(xiàn)度、依賴度、tf-idf值等,這里有一些常用的特征值量化指標(biāo)。部分語(yǔ)音分詞和語(yǔ)法分析的結(jié)果。現(xiàn)有的關(guān)鍵詞大多是名詞或動(dòng)名詞。

        一般來(lái)說(shuō),名詞比言語(yǔ)的其他部分更能表達(dá)文章的主旨。然而,作為特征量化的指標(biāo),部分語(yǔ)音通常與其他指標(biāo)結(jié)合使用。單詞頻率表示單詞在文本中出現(xiàn)的頻率。一般來(lái)說(shuō),我們認(rèn)為一個(gè)詞在文本中出現(xiàn)的頻率越高,它就越有可能成為文章的核心詞。單詞頻率只是計(jì)算文本中出現(xiàn)的單詞數(shù)。然而,僅依靠詞頻獲得的關(guān)鍵詞具有很大的不確定性。對(duì)于長(zhǎng)文本,此方法將產(chǎn)生大量噪聲。

        一般來(lái)說(shuō),詞的位置對(duì)詞有很大的價(jià)值。例如,標(biāo)題和摘要本身是作者總結(jié)的文章的主要思想,因此出現(xiàn)在這些地方的詞具有代表性,更容易成為關(guān)鍵詞。然而,由于每個(gè)作者都有不同的習(xí)慣、寫作方法和關(guān)鍵句子的位置,這也是一種非常廣泛的獲得關(guān)鍵詞的方法,通常不單獨(dú)使用。互信息和互信息是信息論中的一個(gè)概念,是衡量變量相互依賴性的一個(gè)指標(biāo)。相互信息不限于實(shí)值隨機(jī)變量。

        未經(jīng)允許不得轉(zhuǎn)載:啟新網(wǎng)站SEO優(yōu)化 » 分享文章中關(guān)鍵詞的提取與拓展方法
        分享到: 更多 (0)
        加載中~
        久久精品国产第一区二区| 亚洲AV日韩AV永久无码色欲| 久久久久久精品无码人妻| 国产精品区免费视频| 中文字幕无码精品亚洲资源网| 大桥未久在线精品视频在线| 日韩精品人妻一区二区中文八零 | 99久久免费看国产精品| 亚洲av综合日韩| 亚洲国产精品白丝在线观看| 久久久2019精品| 亚洲国产精品SSS在线观看AV| 嫩B人妻精品一区二区三区| 国产精品麻豆入口| 大伊香蕉精品视频在线导航| 男女男精品视频网站在线观看| 日韩精品人妻系列无码专区| 日韩精品无码永久免费网站| 精品哟哟哟国产在线观看不卡| 精品人妻少妇一区二区三区不卡| 久久亚洲精品国产亚洲老地址 | 久久夜色撩人精品国产av| 国产精品久久久久久久久久影院| 精品国产一二三区在线影院| 国产精品55夜色66夜色| 亚洲精品第一国产综合野| 精品国产乱码久久久久久呢| 91久久精品电影| 精品久久8x国产免费观看| 人妖在线精品一区二区三区| 精品久久久久久中文字幕人妻最新| 亚洲精品中文字幕麻豆| 亚洲午夜精品国产电影在线观看| 亚洲国产精品一区二区久| 亚洲中文久久精品无码1| 国产精品福利网站导航| 2021国产成人精品国产| 欧洲精品无码成人久久久| 少妇AV射精精品蜜桃专区| 四虎影视成人精品| 国产热re99久久6国产精品|