性少妇vide0seⅹfree_国产剧情视频在线观看_日日碰夜夜爽_九九这里只有精品视频_性free毛茸茸偷窥videos_国产v亚洲

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁(yè) > IT資訊 > 大數(shù)據(jù) > 文本獲取與預(yù)處理

文本獲取與預(yù)處理

2018-05-09 14:39:03 | 來(lái)源:中培企業(yè)IT培訓(xùn)網(wǎng)

(2)輿情分析在大數(shù)據(jù)時(shí)代的背景下,網(wǎng)絡(luò)上存在大量以文本為代表的非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)上的新聞、社交媒體數(shù)據(jù),其中更不乏與商業(yè)銀行有關(guān)的輿情信息。對(duì)這些信息進(jìn)行有效的挖掘和利用,將為商業(yè)銀行及時(shí)掌握在互聯(lián)網(wǎng)上傳播的潛在風(fēng)險(xiǎn)事件提供一個(gè)全新的視角。

實(shí)現(xiàn)輿情風(fēng)險(xiǎn)管理的文本挖掘技術(shù)過(guò)程一般分為文本獲取、預(yù)處理、分析挖掘、可視化展現(xiàn)等步驟。

1)文本獲取:商業(yè)銀行獲取文本的方式包括已采購(gòu)的財(cái)經(jīng)新聞、行業(yè)動(dòng)態(tài)、研究報(bào)告等外部資訊信息,還可以通過(guò)開發(fā)采集工具來(lái)進(jìn)一步擴(kuò)大新聞媒體的采集范圍,比如對(duì)以微博、論壇為代表的社交媒體信息進(jìn)行采集。采集方式包括搜索引擎(通過(guò)搜索引擎進(jìn)行關(guān)鍵詞搜索,之后將所有結(jié)果通過(guò)爬網(wǎng)程序進(jìn)行采集)、新聞網(wǎng)站、論壇頁(yè)面適配(通過(guò)Web爬蟲程序抓取微博或論壇頁(yè)面,并從頁(yè)面結(jié)構(gòu)中解析出正文和評(píng)論數(shù)據(jù))、微博頁(yè)面適配(通過(guò)模擬實(shí)際用戶登錄后對(duì)微博信息進(jìn)行采集)。

2)預(yù)處理:包括中文分詞和文本去重等步驟,從而實(shí)現(xiàn)文本的預(yù)處理。前者是在獲取到文本數(shù)據(jù)之后,將文本切分成詞匯的集合,使得機(jī)器能夠更好地理解詞匯組成的文本。后者則通過(guò)相似哈希算法快速對(duì)海量文本相似程度進(jìn)行計(jì)算:將文檔看成特征詞的集合,為每個(gè)特征詞分配唯一編碼;根據(jù)特征詞的編碼以及在文檔中的權(quán)重,通過(guò)相似哈希算法生成文檔的信息指紋(可比較的64位二進(jìn)制編碼);文檔指紋完全相同的文檔,則認(rèn)定為內(nèi)容相同;指紋間不同的位數(shù)越少,則說(shuō)明文檔內(nèi)容越相似。文本虛詞的增減、語(yǔ)句位置的變換將不會(huì)影響近似文本的發(fā)現(xiàn)。

標(biāo)簽: 輿情分析

相關(guān)閱讀

主站蜘蛛池模板: 精品国产乱码久久久久酒店 | 国产午夜成人无码免费 | 成 年 人 黄 色 软件 | 韩国一级在线观看 | 欧美涩涩网站 | 国产成年人电影 | 一级毛片随便看 | 欧美sex611性hd| 久久久精品中文字幕麻豆发布 | 全部免费毛片免费播放视频 | bdsm电击sm调教videos | 无码精品一区二区在线A片软件 | 免费h动漫无码网站 | 欧美高清孕妇xxoohd | 久久99精品国产99久久6男男 | 亚洲综合另类小说色区 | 一区二区手机在线 | 视频二区中文字幕 | 国产一区二区中文字幕 | 伊人久久大香线蕉综合软件 | 深夜福利在线免费 | 福利片一区二区 | 免费精品自在久久 | 天天躁夜夜躁狠狠躁婷婷 | 欧美肥老太交性视频免费 | 人妻少妇不满足中文字幕 | 亚洲欧美爱爱 | 亚洲欧洲在线视频 | 奇米狠狠操 | 麻豆影业| 偷拍各类美女嘘嘘88av | 视频二区一区国产精品天天 | 久操新在线 | 男女在一起拔萝卜免费视频大全 | 少妇一级淫片免费看… | 国产黄色美女网站 | 欧美精品久久久久久久多人混战 | 国外黄色软件 | 不够善良的我们在线观看 | 穿越时空的少女在线观看完整免费 | 亚洲免费图区在线视频 |