導航:首頁 > 網路問題 > 網路用語elmo什麼意思

網路用語elmo什麼意思

發布時間:2022-12-08 11:48:13

1. 神經網路語言模型(NNLM)

首先看一個例子:

ztc/ 上下/ 齊/ 拼搏/ ,誓為/ 春戰/ 做/ 貢獻

這句話呢通順,意思明白,那如果換一下詞的位置:

上下/ 齊/ 拼搏/ ztc/ ,春站/ 做/ 貢獻/ 誓為

意思含糊了,但是大概意思還是能猜到,那如果在變換一下:

拼搏/ 齊/ ztc/ 上下/ ,貢獻/ 誓為/ 做/ 春戰

現在這句話已經不知所雲了,如何判斷這個由詞序組成的序列是否符合文法、含義是否正確?

統計語言模型:一個句子是否合理,就看他的可能性的大小,即他的概率大小。

假設一個句子S,由一連串特定順序的詞W1, W2,...WT 組成,T是句子中詞的個數,則S出現的概率P(S) = P(w1, w2,...wT)

利用條件概率公式展開:

P(w1,w2,..wT) = P(w1) P(w2|w1) P(w3|w1,w2) ... P(wT|w1,w2,..wT-1)

即:

當語料中詞典大小為100,000,句子平均長度為5時,需要學習的參數大概100000 * 5 -1 個,為了降低計算復雜度,並考慮到詞序列中離的更近的詞通常在語義上也更相關,所以在計算時可以通過只使用前面n-1個詞來近似計算,即n-grams:

n-grams存在的問題:1.泛化時常常有訓練語料中沒有出現過的詞序列;2.沒有考慮詞之間的相似性。

NNLM

1.對詞庫里的每個詞指定一個分布的詞向量
2.定義聯合概率(通過序列中詞對應的詞向量
3.學習詞向量和概率函數的參數

why it works?
如果我們已知 「走」 和 「跑」 是相似詞,那很容易通過 」貓在屋裡跑「 推出 「貓在屋裡走「,因為相似的詞會有相似的詞向量,而且概率函數是特徵的平滑函數,所以特徵的微小變化,只會對概率值產生一個很小的影響。即:1.相似詞在特徵空間距離更接近;2.概率函數是一個相對平滑的函數,對特徵值的變化不是非常敏感。
所以訓練語料中句子的出現不光增加了自身的概率,也增加了他與周圍句子的概率(句子向量空間)
目標:f(wt ,··· ,wt−n+1) = Pˆ(wt |w1,w2,..wt-1 )
約束:
1 , ∑ |V| i=1 f(i,wt−1,··· ,wt−n+1) = 1
2.f>0
通過得到的條件概率進行相乘,得到詞序列的聯合概率

模型被分成二部分:
1.特徵映射:通過映射矩陣 C∈R ∣V∣×m
將輸入的每個詞映射為一個特徵向量,C(i)∈Rm 表示詞典中第 i 個詞對應的特徵向量,其中 m 表示特徵向量的維度。
2.概率函數g。通過context中詞的詞向量來映射下一個詞的條件概率。g的輸出是一個向量,其中第i個元素表示了字典中第i個詞的概率。完整的模型表達如下:

函數f由兩個映射(g and c)組成,其中c由所有的上下文共享。

訓練過程中的參數就由兩個映射組成,設 g 對應參數為w,c映射的參數就是自身,則 θ=(c, w)

訓練過程就是學習θ的最大似然:

其中R(θ) 是正則項。

模型中參數與字典大小V成線性關系,且與n(n-grams)成線性關系,不過可以通過共享結構降低參數數量,如延時神經網路或循環神經網路。
實驗中,神經網路層只有一個隱層,有一個可選的詞向量到輸出的直連層,實際上就有兩個隱層,一個共享的詞向量C 層,該層沒有激活函數,還有一個tanh激活函數的隱層;最後的輸出層是一個softmax層,來保證所有結果的和為1:

注意:第一層是沒有非線性激活函數的,因為非線性激活函數會帶來其他信息(聯想神經網路中非線性激活函數),而正是這種直接的線性變換,才能讓第一層的參數來作為詞向量
用yi表示每個輸出詞的對數概率,則
y = b+Wx+U tanh(d +Hx)
其中x是詞向量的拼接,x = (c(wt-1),c(wt-2),c(wt-n+1))

並行
參數與輸入的窗口大小和字典的大小成線性,但是計算量卻比n-grams 要大很多,首先n-grams中不需要每次都計算所有詞的概率,只需要相關詞頻的線性組合,另外神經網路中主要瓶頸是輸出層的激活計算。

out-of-vocabulary word
首先根據窗口上下文可能出現的詞,進行加權求和初始化新詞的詞向量,然後將新詞 j 加入字典,然後利用這部分數據集重新訓練,進行retune.

後續工作
1,分解網路到子網路,如使用詞聚類,構建許多小的子網路可能更快更簡單
2,用樹結構來表達條件概率:神經網路作用在每一個節點上,每個節點代表根據上下問得到該詞類的可能性,葉子節點代表詞的可能性,這種結構可以將計算復雜度從|v| 降低到 log|v|
3,梯度傳播時可以只在部分輸出詞上進行,如某些條件下最相似的(如三元模型)。如果用在語音識別,可以只計算聽覺上相似的詞。
4,引入先驗知識,如語義信息和語法信息。通過在神經網路結構中共享更多的結構與參數,可以捕獲長期的上下文信息,
5,如何解釋神經網路得到的詞向量
6,上述模型對每個單詞分配一個在語義空間的點,所以無法解決一詞多義問題。如何擴展當前模型,在語義空間中為詞分配多個點來代表詞的不同語義。

作者提出的後續工作中,目前是很多人的研究方向,一些已經被證明有效。

第一個,優化網路結構,提到了從數據方向,構建更多的子網路,還可以直接對網路結構本身進行優化,如word2vec,將神經網路層去掉;
第二個,由於計算瓶頸在計算output的概率(對每個詞計算概率,需要softmax歸一化),所以提出可以通過樹結構,來避免直接對所有詞進行計算,如 Hierarchical Softmax
第三個也是在計算輸出時,只通過一部分詞來進行梯度傳播,如負采樣
第四個是通過共享結構,來捕獲更多上下文信息,如GPT,Bert
第五個是如何解釋,也是目前很多人的研究方向
第六個是一次多義的解決方法,如ELMO
參考:

http://www.iro.umontreal.ca/~vincentp/Publications/lm_jmlr.pdf

2. 有哪些女扮男裝的網路紅人

耐吉

個人檔案
本名:朱思潔
扣扣:④⑤⑤⑥⑥⑨⑧①⑦耐吉
性別:女
血型:B型
星座:射手座
身高:166cm
體重:45kg
語言:國語 台語 英語
專長:繪圖
耐吉興趣:攝影 閱讀
職業:餐飲行業,平面模特
喜歡的顏色:黃 紅
喜歡的運動:羽毛球
喜歡的歌手藝人:Tanya、趙允哲、田香樂、胡允軒、周歌、楚正翔
愛吃的食物:Salad。燕麥
喜歡的國家:America
喜歡的動物:Dog
討厭的事情:臟亂
自認個性:龜毛

付允哲

個人檔案

昵稱:Tokki付允哲(QQ122391749)
性別: 女(T,還是個小帥t喔`~)
生日: 1988-07-23(農歷六月初十)
星座:獅子座
生肖:龍
故鄉: 陝西省 西安市
現居住地: 西安
血型: AB 型
是網路紅人。亦是MCC紅人館的紅人。 關於MCC紅人館: 【MAKECUTECLUB裝可愛俱樂部】 ILOVEMCC(MAKECUTECLUB)我愛裝可愛俱樂部。粘珂珂在2004年建立了一個論壇,起名為MAKECUTECLUB(裝可愛俱樂部),簡稱MCC。 粘珂珂的朋友們在這里自由發表一些新鮮的話題,自拍版開始聚集大量的人氣,全國各地甚至海外的朋友們的自拍,讓大家開始互相認識。 MCC紅人館紅人:林彎彎、俺命、皇甫聖華、連勛、澤美道、劉羽琦、綠茶、may、何小苗、紅茶、桃巫奇、陳星如、華若言、李璐綺、季佳熙、鬼的床、niki、jason、兔小YO還有很多 如果是名T的話:林彎彎、皇甫聖華、耐吉、楊楊、付允哲、kelivn、鄭蹦蹦、賴紫綸、孫達布、佑佑、兔兔、蔡碗公、辰辰、大霆、魚、潔季璇、ZEE(泰國名t)…

林彎彎

個人檔案

別名:Snaki
性別:女
國籍:中國
出生地:上海市
現居:北京
生日:1990年8月20日
星座:金牛座
學校:北京現代音樂學院
職業:網店店主,平面模特,歌手
所屬公司:北京樂盟傳媒
血型:O型
身高:170cm
體重:45kg
今天天氣如何:挺好的(08.06.07)
你今天最後吃的一樣東西是什麼:漢堡包
你養過什麼:什麼都不養
你有暴力傾向嗎:貌似有哦
你平時最愛做的事:每天都不一樣
你喜歡目前的生活嗎:有時滿意,有時厭煩。
你有嚼口香糖的習慣嗎:還好啦
如果有來世你想要做什麼:沒想過
戴隱形眼鏡嗎:偶爾帶
頭發染色嗎:經常染.瘋了
最害怕的東西:好多東西都害怕,我從小膽子就好小的哈,丟臉
最喜歡的顏色:紅、白、黑、看怎麼搭配東西啦
最喜歡的卡通人物:《芝麻街》中的 艾摩(ELMO)
最喜歡喝什麼: 蠻多的
最討厭喝什麼: 也蠻多的
最喜歡的數字: 1.2.8
每天做的最多的事: 上網
喜歡看的哪一類的電影: 不喜歡看電影.沒耐心
最喜歡的卡通人物: 芝麻街 好可愛的呀.我包包上就掛著的.啊哈哈
最喜歡哪個季節: 都不喜歡林彎彎
最喜歡什麼水果: 火龍果啦.西瓜.芒果,柚子.還蠻多都喜歡的
最喜歡什麼吃的東西: 沒什麼特別喜歡的
最討厭吃什麼東西: 很多很多
喜歡的冰淇淋口味:巧克力的
最懷念的日子: 沒有
最崇拜的人: 自己.啦啦啦.
最喜歡的圈友:林宥宸、楚正翔、安炎羽、皇甫聖華、阿May、風少、桃巫奇、俺命等
最喜歡的男明星:陳冠希
最喜歡的女明星:艾薇兒
最高興的事: 沒有
最不爽的事: 很多 .基本上每天都有不爽的事發生
最討厭的事: 也很多

3. NLP基礎知識和綜述

一種流行的自然語言處理庫、自帶語料庫、具有分類,分詞等很多功能,國外使用者居多,類似中文的jieba處理庫

為單詞序列分配概率的模型就叫做語言模型。

通俗來說, 語言模型就是這樣一個模型:對於任意的詞序列,它能夠計算出這個序列是一句話的概率。或者說語言模型能預測單詞序列的下一個詞是什麼。

** n-gram Language Models **

N-gram模型是一種典型的統計語言模型(Language Model,LM),統計語言模型是一個基於概率的判別模型.統計語言模型把語言(詞的序列)看作一個隨機事件,並賦予相應的概率來描述其屬於某種語言集合的可能性。給定一個詞彙集合 V,對於一個由 V 中的詞構成的序列S = ⟨w1, · · · , wT ⟩ ∈ Vn,統計語言模型賦予這個序列一個概率P(S),來衡量S 符合自然語言的語法和語義規則的置信度。用一句簡單的話說,統計語言模型就是計算一個句子的概率大小的這種模型。

n-gram模型可以減輕單詞序列沒有在訓練集中出現過而引起的問題,即數據稀疏問題

n-gram模型問題
對於n-gram模型的問題,這兩頁ppt說的很明白

N-gram模型基於這樣一種假設,當前詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram(N=2)和三元的Tri-Gram(N=3).Bi-Gram所滿足的假設是馬爾科夫假設。

一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分別用公式表示如下:

Bi-Gram:P(T)=p(w1|begin) p(w2|w1) p(w3|w2)***p(wn|wn-1)

Tri-Gram:P(T)=p(w1|begin1,begin2) p(w2|w1,begin1) p(w3|w2w1)***p(wn|wn-1,wn-2)

注意上面概率的計算方法:P(w1|begin)=以w1為開頭的所有句子/句子總數;p(w2|w1)=w1,w2同時出現的次數/w1出現的次數。以此類推。

對於其中每項的計算舉個例子:

由上可見Bi-Gram計算公式中的begin一般都是加個<s>標簽。

N-gram存在的問題:

舉一個小數量的例子進行輔助說明:假設我們有一個語料庫(注意語料庫),如下:

老鼠真討厭,老鼠真丑,你愛老婆,我討厭老鼠。

想要預測「我愛老」這一句話的下一個字。我們分別通過 bigram 和 trigram 進行預測。

1)通過 bigram,便是要對 P(w|老)進行計算,經統計,「老鼠」出現了3次,「老婆」出現了1次,通過最大似然估計可以求得P(鼠|老)=0.75,P(婆|老)=0.25, 因此我們通過 bigram 預測出的整句話為: 我愛老鼠。

2)通過 trigram,便是要對便是要對 P(w|愛老)進行計算,經統計,僅「愛老婆」出現了1次,通過最大似然估計可以求得 P(婆|愛 老)=1,因此我們通過trigram 預測出的整句話為: 我愛老婆。顯然這種方式預測出的結果更加合理。

問題一:隨著 n 的提升,我們擁有了更多的前置信息量,可以更加准確地預測下一個詞。但這也帶來了一個問題,當N過大時很容易出現這樣的狀況:某些n-gram從未出現過, 導致很多預測概率結果為0, 這就是稀疏問題。 實際使用中往往僅使用 bigram 或 trigram 。(這個問題可以通過平滑來緩解參考: https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENA )

問題二:同時由於上個稀疏問題還導致N-gram無法獲得上下文的長時依賴。

問題三:n-gram 基於頻次進行統計,沒有足夠的泛化能力。

n-gram總結:統計語言模型就是計算一個句子的概率值大小,整句的概率就是各個詞出現概率的乘積,概率值越大表明該句子越合理。N-gram是典型的統計語言模型,它做出了一種假設,當前詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。它其中存在很多問題,再求每一個詞出現的概率時,隨著N的提升,能夠擁有更多的前置信息量,可以使得當前詞的預測更加准確,但是當N過大時會出現稀疏問題,導致很多詞的概率值為0,為解決這一問題,因此常用的為bigram 或 trigram,這就導致N-gram無法獲得上文的長時依賴。另一方面N-gram 只是基於頻次進行統計,沒有足夠的泛化能力。

神經網路語言模型

2003年 Bengio 提出,神經網路語言模型( neural network language model, NNLM)的思想是提出詞向量的概念,代替 ngram 使用離散變數(高維),採用連續變數(具有一定維度的實數向量)來進行單詞的分布式表示,解決了維度爆炸的問題,同時通過詞向量可獲取詞之間的相似性。

結合下圖可知它所建立的語言模型的任務是根據窗口大小內的上文來預測下一個詞,因此從另一個角度看它就是一個使用神經網路編碼的n-gram模型。

它是一個最簡單的神經網路,僅由四層構成,輸入層、嵌入層、隱藏層、輸出層。(從另一個角度看它就是一個使用神經網路編碼的n-gram模型)

輸入是單詞序列的index序列,例如單詞『這』在字典(大小為∣V∣)中的index是10,單詞『是』的 index 是23,『測』的 index 是65,則句子「這是測試」通過『這是測』預測『試』,窗口大小內上文詞的index序列就是 10, 23, 65。嵌入層(Embedding)是一個大小為∣V∣×K的矩陣(注意:K的大小是自己設定的,這個矩陣相當於隨機初始化的詞向量,會在bp中進行更新,神經網路訓練完成之後這一部分就是詞向量),從中取出第10、23、65行向量拼成3×K的矩陣就是Embedding層的輸出了。隱層接受拼接後的Embedding層輸出作為輸入,以tanh為激活函數,最後送入帶softmax的輸出層,輸出概率,優化的目標是使得待預測詞其所對應的softmax值最大。

缺點:因為這是通過前饋神經網路來訓練語言模型,缺點顯而易見就是其中的參數過多計算量較大,同時softmax那部分計算量也過大。另一方面NNLM直觀上看就是使用神經網路編碼的 n-gram 模型,也無法解決長期依賴的問題。

RNNLM

它是通過RNN及其變種網路來訓練語言模型,任務是通過上文來預測下一個詞,它相比於NNLM的優勢在於所使用的為RNN,RNN在處理序列數據方面具有天然優勢, RNN 網路打破了上下文窗口的限制,使用隱藏層的狀態概括歷史全部語境信息,對比 NNLM 可以捕獲更長的依賴,在實驗中取得了更好的效果。RNNLM 超參數少,通用性更強;但由於 RNN 存在梯度彌散問題,使得其很難捕獲更長距離的依賴信息。

Word2vec中的CBOW 以及skip-gram,其中CBOW是通過窗口大小內的上下文預測中心詞,而skip-gram恰恰相反,是通過輸入的中心詞預測窗口大小內的上下文。

Glove 是屬於統計語言模型,通過統計學知識來訓練詞向量

ELMO 通過使用多層雙向的LSTM(一般都是使用兩層)來訓練語言模型,任務是利用上下文來預測當前詞,上文信息通過正向的LSTM獲得,下文信息通過反向的LSTM獲得,這種雙向是一種弱雙向性,因此獲得的不是真正的上下文信息。

GPT是通過Transformer來訓練語言模型,它所訓練的語言模型是單向的,通過上文來預測下一個單詞

BERT通過Transformer來訓練MLM這種真正意義上的雙向的語言模型,它所訓練的語言模型是根據上下文來預測當前詞。

以上部分的詳細介紹在NLP之預訓練篇中有講到

語言模型的評判指標

具體參考: https://blog.csdn.net/index20001/article/details/78884646

Perplexity可以認為是average branch factor(平均分支系數),即預測下一個詞時可以有多少種選擇。別人在作報告時說模型的PPL下降到90,可以直觀地理解為,在模型生成一句話時下一個詞有90個合理選擇,可選詞數越少,我們大致認為模型越准確。這樣也能解釋,為什麼PPL越小,模型越好。
一般用困惑度Perplexity(PPL)衡量語言模型的好壞,困惑度越小則模型生成一句話時下一個詞的可選擇性越少,句子越確定則語言模型越好。

簡單介紹
Word2vec是一種有效創建詞嵌入的方法,它自2013年以來就一直存在。但除了作為詞嵌入的方法之外,它的一些概念已經被證明可以有效地創建推薦引擎和理解時序數據。在商業的、非語言的任務中。

背景
由於任何兩個不同詞的one-hot向量的餘弦相似度都為0,多個不同詞之間的相似度難以通過onehot向量准確地體現出來。
word2vec⼯具的提出正是為了解決上⾯這個問題。它將每個詞表⽰成⼀個定⻓的向量,並使得這些向量能較好地表達不同詞之間的相似和類⽐關系。

word2vec模型
word2vec⼯具包含了兩個模型,即跳字模型(skip-gram)和連續詞袋模型(continuous bag of words,CBOW)。word2vec的input/output都是將單詞作為one-hot向量來表示,我們可以把word2vec認為是詞的無監督學習的降維過程。

MaxEnt 模型(最大熵模型): 可以使用任意的復雜相關特徵,在性能上最大熵分類器超過了 Byaes 分類器。但是,作為一種分類器模型,這兩種方法有一個共同的缺點:每個詞都是單獨進行分類的,標記(隱狀態)之間的關系無法得到充分利用,具有馬爾可夫鏈的 HMM 模型可以建立標記之間的馬爾可夫關聯性,這是最大熵模型所沒有的。

最大熵模型的優點:首先,最大熵統計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型;其次,最大熵統計模型可以靈活地設置約束條件,通過約束條件的多少可以調節模型對未知數據的適應度和對已知數據的擬合程度;再次,它還能自然地解決統計模型中參數平滑的問題。

最大熵模型的不足:首先,最大熵統計模型中二值化特徵只是記錄特徵的出現是否,而文本分類需要知道特徵的強度,因此,它在分類方法中不是最優的;其次,由於演算法收斂的速度較慢,所以導致最大熵統計模型它的計算代價較大,時空開銷大;再次,數據稀疏問題比較嚴重。

CRF(conditional random field) 模型(條件隨機場模型):首先,CRF 在給定了觀察序列的情況下,對整個的序列的聯合概率有一個統一的指數模型。一個比較吸引人的特性是其為一個凸優化問題。其次,條件隨機場模型相比改進的隱馬爾可夫模型可以更好更多的利用待識別文本中所提供的上下文信息以得更好的實驗結果。並且有測試結果表明:在採用相同特徵集合的條件下,條件隨機域模型較其他概率模型有更好的性能表現。

CRF 可以用於構造在給定一組輸入隨機變數的條件下,另一組輸出隨機變數的條件概率分布模型。經常被用於序列標注,其中包括詞性標注,分詞,命名實體識別等領域。

建一個條件隨機場,我們首先要定義一個特徵函數集,每個特徵函數都以整個句子s,當前位置i,位置i和i-1的標簽為輸入。然後為每一個特徵函數賦予一個權重,然後針對每一個標注序列l,對所有的特徵函數加權求和,必要的話,可以把求和的值轉化為一個概率值。

CRF 具有很強的推理能力,並且能夠使用復雜、有重疊性和非獨立的特徵進行訓練和推理,能夠充分地利用上下文信息作為特徵,還可以任意地添加其他外部特徵,使得模型能夠 獲取的信息非常豐富。

CRF 模型的不足:首先,通過對基於 CRF 的結合多種特徵的方法識別英語命名實體的分析,發現在使用 CRF 方法的過程中,特徵的選擇和優化是影響結果的關鍵因素,特徵選擇問題的好與壞,直接決定了系統性能的高低。其次,訓練模型的時間比 MaxEnt 更長,且獲得的模型很大,在一般的 PC 機上無法運行。

潛在語義分析(Latent Semantic Analysis,LSA)模型
在潛在語義分析(LSA)模型首先給出了這樣一個 『『分布式假設」 :一個 單詞的屬性是由它所處的環境刻畫的。這也就意味著如果兩個單詞在含義上比較接近,那麼它們也會出現在相似的文本中,也就是說具有相似的上下文。
LSA模型在構建好了單詞-文檔矩陣之後,出於以下幾種可能的原因,我們會使用奇異值分解(Singular Value Decomposition,SVD) 的方法來尋找該矩陣的一個低階近似。

概率潛在語義分析(Probability Latent Semantic Analysis ,PLSA)模型
概率潛在語義分析(PLSA)模型其實是為了克服潛在語義分析(LSA)模型存在的一些缺點而被提出的。LSA 的一個根本問題在於,盡管我們可以把 U k 和 V k 的每一列都看成是一個話題,但是由於每一列的值都可以看成是幾乎沒有限制的實數值,因此我們無法去進一步解釋這些值到底是什麼意思,也更無法從概率的角度來理解這個模型。
PLSA模型則通過一個生成模型來為LSA賦予了概率意義上的解釋。該模型假設,每一篇文檔都包含一系列可能的潛在話題,文檔中的每一個單詞都不是憑空產生的,而是在這些潛在的話題的指引下通過一定的概率生成的。

在 PLSA 模型裡面,話題其實是一種單詞上的概率分布,每一個話題都代表著一個不同的單詞上的概率分布,而每個文檔又可以看成是話題上的概率分布。每篇文檔就是通過這樣一個兩層的概率分布生成的,這也正是PLSA 提出的生成模型的核心思想。

PLSA 通過下面這個式子對d和 w 的聯合分布進行了建模:

該模型中的 *z * 的數量是需要事先給定的一個超參數。需要注意的是,上面這 個式子裡面給出了 P (w, d ) 的兩種表達方式,在前一個式子里, *d * 和 w 都是在給定 *z * 的前提下通過條件概率生成出來的,它們的生成方式是相似的,因此是 『『對稱』』 的;在後一個式子里,首先給定 d ,然後根據 P ( z | d ) 生成可能的話題 z ,然後再根據 P (w| z ) 生成可能的單詞 w,由於在這個式子裡面單詞和文檔的生成並不相似, 所以是 『『非對稱』』 的。

上圖給出了 PLSA 模型中非對稱形式的 Plate Notation表示法。其中d表示 一篇文檔,z 表示由文檔生成的一個話題,w 表示由話題生成的一個單詞。 在這個模型中, d和w 是已經觀測到的變數,而z是未知的變數(代表潛在的話題)。

容易發現,對於一個新的文檔而言,我們無法得知它對應的 P ( d ) 究竟是什麼, 因此盡管 PLSA 模型在給定的文檔上是一個生成模型,它卻無法生成新的未知的文檔。該模型的另外的一個問題在於,隨著文檔數量的增加, P ( z | d ) 的參數也會隨著線性增加,這就導致無論有多少訓練數據,都容易導致模型的過擬合問題。這兩點成為了限制 PLSA 模型被更加廣泛使用的兩大缺陷。

潛在狄利克雷分配(Latent Dirichlet Analysis , LDA)模型

為了解決 PLSA 模型中出現的過擬合問題,潛在狄利克雷分配(LDA)模型被 Blei 等人提出,這個模型也成為了主題模型這個研究領域內應用最為廣泛的模 型。LDA就是在PLSA的基礎上加層貝葉斯框架,即LDA就是PLSA的貝葉斯版本(正因為LDA被貝葉斯化了,所以才需要考慮歷史先驗知識,才加的兩個先驗參數)。

從上一節我們可以看到,在 PLSA 這個模型里,對於一個未知的新文檔 d ,我們對於 P ( d ) 一無所知,而這個其實是不符合人的經驗的。或者說,它沒有去使用本來可以用到的信息,而這部分信息就是 LDA 中所謂的先驗信息。

具體來說,在 LDA 中,首先每一個文檔都被看成跟有限個給定話題中的每一個存在著或多或少的關聯性,而這種關聯性則是用話題上的概率分布來刻畫的, 這一點與 PLSA 其實是一致的。

但是在 LDA 模型中,每個文檔關於話題的概率分布都被賦予了一個先驗分布,這個先驗一般是用稀疏形式的狄利克雷分布表示的。 這種稀疏形式的狄利克雷先驗可以看成是編碼了人類的這樣一種先驗知識:一般而言,一篇文章的主題更有可能是集中於少數幾個話題上,而很少說在單獨一篇文章內同時在很多話題上都有所涉獵並且沒有明顯的重點。

此外,LDA 模型還對一個話題在所有單詞上的概率分布也賦予了一個稀疏形式的狄利克雷先驗,它的直觀解釋也是類似的:在一個單獨的話題中,多數情況是少部分(跟這個話題高度相關的)詞出現的頻率會很高,而其他的詞出現的頻率則明顯較低。這樣兩種先驗使得 LDA 模型能夠比 PLSA 更好地刻畫文檔-話題-單詞這三者的關系。

事實上,從 PLSA 的結果上來看,它實際上相當於把 LDA 模型中的先驗分布轉變為均勻分布,然後對所要求的參數求最大後驗估計(在先驗是均勻分布的前提下,這也等價於求參數的最大似然估計) ,而這也正反映出了一個較為合理的先驗對於建模是非常重要的。

分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。
現有的分詞演算法可分為三大類:基於字元串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。

中文分詞根據實現原理和特點,主要分為以下2個類別:

(1)基於詞典分詞演算法
也稱字元串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字元串和一個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。
基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字元串匹配方法進行優化,比如最大長度設定、字元串存儲和查找方式以及對於詞表的組織結構,比如採用TRIE索引樹、哈希索引等。

(2)基於統計的機器學習演算法
這類目前常用的是演算法是HMM、CRF(條件隨機場)、SVM、深度學習等演算法,比如stanford、Hanlp分詞工具是基於CRF演算法。以CRF為例,基本思路是對漢字進行標注訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。

常見的分詞器都是使用機器學習演算法和詞典相結合,一方面能夠提高分詞准確率,另一方面能夠改善領域適應性。

隨著深度學習的興起,也出現了 基於神經網路的分詞器 ,例如有人員嘗試使用雙向LSTM+CRF實現分詞器, 其本質上是序列標注 ,所以有通用性,命名實體識別等都可以使用該模型,據報道其分詞器字元准確率可高達97.5%。演算法框架的思路與論文《Neural Architectures for Named Entity Recognition》類似,利用該框架可以實現中文分詞,如下圖所示:

首先對語料進行字元嵌入,將得到的特徵輸入給雙向LSTM,然後加一個CRF就得到標注結果。

目前中文分詞難點主要有三個:
1、分詞標准 :比如人名,在哈工大的標准中姓和名是分開的,但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標准。

2、歧義 :對同一個待切分字元串存在多個分詞結果。
歧義又分為組合型歧義、交集型歧義和真歧義三種類型。

一般在搜索引擎中,構建索引時和查詢時會使用不同的分詞演算法。常用的方案是,在索引的時候使用細粒度的分詞以保證召回,在查詢的時候使用粗粒度的分詞以保證精度。

3、新詞 :也稱未被詞典收錄的詞,該問題的解決依賴於人們對分詞技術和漢語語言結構的進一步認識。

典型的文本分類過程可以分為三個步驟:
1. 文本表示(Text Representation)
這一過程的目的是把文本表示成分類器能夠處理的形式。最常用的方法是向量空間模型,即把文本集表示成詞-文檔矩陣,矩陣中每個元素代表了一個詞在相應文檔中的權重。選取哪些詞來代表一個文本,這個過程稱為特徵選擇。常見的特徵選擇方法有文檔頻率、信息增益、互信息、期望交叉熵等等。為了降低分類過程中的計算量,常常還需要進行降維處理,比如LSI。
2. 分類器構建(Classifier Construction)
這一步驟的目的是選擇或設計構建分類器的方法。不同的方法有各自的優缺點和適用條件,要根據問題的特點來選擇一個分類器。我們會在後面專門講述常用的方法。選定方法之後,在訓練集上為每個類別構建分類器,然後把分類器應用於測試集上,得到分類結果。
3. 效果評估(Classifier Evaluation)
在分類過程完成之後,需要對分類效果進行評估。評估過程應用於測試集(而不是訓練集)上的文本分類結果,常用的評估標准由IR領域繼承而來,包括查全率、查准率、F1值等等。

1. Rocchio方法
每一類確定一個中心點(centroid),計算待分類的文檔與各類代表元間的距離,並作為判定是否屬於該類的判據。Rocchio方法的特點是容易實現,效率高。缺點是受文本集分布的影響,比如計算出的中心點可能落在相應的類別之外。

2. 樸素貝葉斯(naïve bayes)方法
將概率論模型應用於文檔自動分類,是一種簡單有效的分類方法。使用貝葉斯公式,通過先驗概率和類別的條件概率來估計文檔對某一類別的後驗概率,以此實現對此文檔所屬類別的判斷。

3. K近鄰(K-Nearest Neightbers, KNN)方法
從訓練集中找出與待分類文檔最近的k個鄰居(文檔),根據這k個鄰居的類別來決定待分類文檔的類別。KNN方法的優點是不需要特徵選取和訓練,很容易處理類別數目多的情況,缺點之一是空間復雜度高。KNN方法得到的分類器是非線性分類器。

4. 支持向量機(SVM)方法
對於某個類別,找出一個分類面,使得這個類別的正例和反例落在這個分類面的兩側,而且這個分類面滿足:到最近的正例和反例的距離相等,而且是所有分類面中與正例(或反例)距離最大的一個分類面。SVM方法的優點是使用很少的訓練集,計算量小;缺點是太依賴於分類面附近的正例和反例的位置,具有較大的偏執。

文本聚類過程可以分為3個步驟:
1. 文本表示(Text Representation)
把文檔表示成聚類演算法可以處理的形式。所採用的技術請參見文本分類部分。
2. 聚類演算法選擇或設計(Clustering Algorithms)
演算法的選擇,往往伴隨著相似度計算方法的選擇。在文本挖掘中,最常用的相似度計算方法是餘弦相似度。聚類演算法有很多種,但是沒有一個通用的演算法可以解決所有的聚類問題。因此,需要認真研究要解決的問題的特點,以選擇合適的演算法。後面會有對各種文本聚類演算法的介紹。
3. 聚類評估(Clustering Evaluation)
選擇人工已經分好類或者做好標記的文檔集合作為測試集合,聚類結束後,將聚類結果與已有的人工分類結果進行比較。常用評測指標也是查全率、查准率及F1值。

1.層次聚類方法
層次聚類可以分為兩種:凝聚(agglomerative)層次聚類和劃分(divisive)層次聚類。凝聚方法把每個文本作為一個初始簇,經過不斷的合並過程,最後成為一個簇。劃分方法的過程正好與之相反。層次聚類可以得到層次化的聚類結果,但是計算復雜度比較高,不能處理大量的文檔。

2.劃分方法
k-means演算法是最常見的劃分方法。給定簇的個數k,選定k個文本分別作為k個初始簇,將其他的文本加入最近的簇中,並更新簇的中心點,然後再根據新的中心點對文本重新劃分;當簇不再變化時或經過一定次數的迭代之後,演算法停止。k-means演算法復雜度低,而且容易實現,但是對例外和雜訊文本比較敏感。另外一個問題是,沒有一個好的辦法確定k的取值。

3.基於密度的方法
為了發現任意形狀的聚類結果,提出了基於密度的方法。這類方法將簇看作是數據空間中被低密度區域分割開的高密度區域。常見的基於密度的方法有DBSCAN, OPTICS, DENCLUE等等。

4.神經網路方法
神經網路方法將每個簇描述為一個標本,標本作為聚類的"原型",不一定對應一個特定的數據,根據某些距離度量,新的對象被分配到與其最相似的簇中。比較著名的神經網路聚類演算法有:競爭學習(competitive learing)和自組織特徵映射(self-organizing map)[Kohonen, 1990]。神經網路的聚類方法需要較長的處理時間和復雜的數據復雜性,所以不適用於大型數據的聚類。

閱讀全文

與網路用語elmo什麼意思相關的資料

熱點內容
公共網路延時特別高怎麼辦 瀏覽:538
日本蘋果4網路設置 瀏覽:721
天童美語網路上課軟體 瀏覽:253
網路合夥人如何找 瀏覽:167
帶無線路由器網路信號弱 瀏覽:381
如何用電話知道對方網路密碼 瀏覽:115
九江公安局網路安全支隊 瀏覽:991
無線網路連接密碼錯誤 瀏覽:427
隨身wifi沒有網路怎麼用 瀏覽:35
如何切換至廣電網路信號 瀏覽:311
網路收款助手在哪裡 瀏覽:299
移動網路設置接哪個位置 瀏覽:19
網路安全宣傳語錄簡短 瀏覽:307
網路上虛擬視頻用哪一個軟體 瀏覽:462
蘋果xsmax網路天線在哪裡 瀏覽:691
移動網路無法使用電信dns解析 瀏覽:662
4g網路如何解析信號 瀏覽:136
移動的網路台式電腦掉線 瀏覽:951
注冊微信網路打不開什麼原因 瀏覽:542
王者榮耀手機網路模式怎麼設置 瀏覽:361

友情鏈接