導航:首頁 > 網路問題 > 社交網路異常檢測

社交網路異常檢測

發布時間:2023-01-03 17:01:42

① 補單平台有那些好用的

2020年開局便是困難模式,疫情、蝗災、足球場大的行星與地球擦肩而過、各國發生暴亂。以至於現在今年已過去一半,我們都在懷疑是不是過了一個假的2020年?

疫情爆發的三個月的時間里,2996家影視公司破產,1萬2千多家教育培訓機構消失,1萬1千家旅遊企業倒閉,5萬多家小餐館關門轉讓。中國有7.8億人都在負債,47.2%的人已經發生了逾期,失業人群和待業人群都在持續走高。2020是一個絕對不平凡的年,在以後的日子我們也不會忘記今年發生了許許多多的大事件。

疫情給實體經濟帶來了巨大的沖擊,但是電商經濟似乎沒有受到多大影響,電商直播遍地開花,迎來了最好的時機,連國家都在大力扶持。2020年上半年,國內電商直播超過500萬場,預計今年一整年電商直播的市場額度會達到9610億元。

所以電商經濟一定還是未來經濟的發展趨勢。那麼國內電商平台有哪些呢?現在淘寶、京東、拼多多三足鼎立,基本瓜分現在大部分網購的流量。

在去年的雙11中,淘寶日活4.2億、京東2億、拼多多1.9億,活躍人數榮登第一,直接超京東2.2億。所以很多人會選在把店鋪開在淘寶,畢竟在當今社會中流量就是money!

但是作為新手,怎麼樣才把自己店鋪做起來呢?這里我們要觸及要一個專業術語:補單。

網上有句話說:2020年,做淘寶不補單就只能等死。

這句話就能提到補單對於一個店鋪來說是很重要的。但是作為一個新手總會遇到不少坑,比如:降權,跑路,shua手惡意退款,威脅敲詐。

今天就來分享下,做電商如何選擇一個靠譜的補單平台!

首先我們要了解補單能夠給你的店鋪帶來什麼收益呢?

補單可以提升長尾詞的權重。補單可以讓系統快速的判定你這個產品受歡迎,加權重,然後主詞也會相應的慢慢提升權重。然後適當的多放點單,慢慢權重排名就起來,真實訂單就來了。

一、網上過度曝光的平台,建議大家不要選擇,容易被查出事。

放單久了你就會發現,這個是真理,過度曝光查得快,死的快,現在長期發展的平台都是必須邀請才能入駐,為的都是安全。

二、小平台小團隊,不要選擇,容易降權和跑路。

之前聽朋友說遇到一個平台,很多單子都是平台自己用軟體導入多個小號自己刷,結果降權是妥妥的。

還有就是跑路。平台跑路的話,先不說資金的損失,光處理和買家自己的問題就一大堆,可以把你搞瘋掉。

小團隊,小平台,資金沉澱到一定的時候了就經不住誘惑跑路。跑路這種事情一旦遇到,那麼損失是十分慘重的。


三、選擇有資質的平台。

有資質的平台不會隨便跑路,因為有些平台光是前期維護運營已經投入了巨大的成本,不會因為一些蠅頭小利就跑路的。我朋友給我推薦了一個訊易百庫,我基本就是在這個平台放單,暫時還沒出過事。

② 動態圖上的異常檢測文獻綜述(2015)

動態圖上的異常檢測任務包括:發現異常的對象、關系、時點。動態圖上的異常檢測與靜態圖上的異常檢測不同的地方在於:

本文首先將異常類型分為:anomalous vertices, edges, subgraphs, and events(or change),將使用的方法分為:community detection, MDL(minimum description length) and compression, decompression, distance, probabilistic, 按每種方法使用的異常類型進行了文獻學分類。各方法的主要參考文獻見表1:

本文假設不同時點的節點和邊都有唯一標簽從而不會混淆,定義 為圖序列,其中 為總時間步, , 為節點集, 為邊集, 時稱 為圖流。本文的主要記號見表2:

給定 ,節點集 ,打分函數 ,定義異常節點集為 ,使得對於 , ,其中 為得分 的摘要式統計。

一個典型的異常節點如圖1,其可由基於社區檢測的方法識別,即: 其中 為節點所屬的社會劃分, 為異或操作。

給定 ,邊集 ,打分函數 ,定義異常邊集為 ,使得對於 , ,其中 為得分 的摘要式統計。

一個典型的異常邊如圖2,可令 ,其中 為時間步 時 的權重,可以為邊的概率。

給定 ,子圖集 ,打分函數 ,定義異常集為 ,使得對於 , ,其中 為得分 的摘要式統計。

兩種典型的異常子圖如圖3,其中(a)為圖的收縮,(b)為圖的分裂。圖的收縮可根據子圖中的的數量衡量,即 ,圖的分裂可由不同時間點社區的數量衡量。

與異常節點、邊、子圖檢測不同,異常事件或異常突變檢測檢驗的是時點。

給定 ,打分函數 ,若時點 滿足: , ,則稱時點 為一個事件。

給定 ,打分函數 ,若時點 滿足: , ,則稱時點 為一個突變。

通常的異常檢測都使用兩步法:第一步,基於特徵的圖表示;第二,基於機器學習的異常檢測。

基於社區檢測的方法關注的是社區和關聯節點的演化過程,特徵向量的生成亦基於圖中的社區結構。不同社區檢測方法的區別在於:(1)社區結構的領域,如社區內的連接性v.s.單個節點在每一步所屬的社區;(2)社區結構的定義,如基於概率的軟社區定義v.s.硬社區定義。基於社區檢測的方法可用於異常定點、子圖、突變的檢測。

基於軟社區匹配並單獨考察每一個社區,我們可以在連續時間步內計算每個節點歸屬的平均變化,如果某個節點歸屬的平均變化顯著異於其他節點,則稱其為演化社區異常點。

節點社區歸屬的變化可以構造一個時間模式,稱為軟時序模式。一些文獻使用了最小描述長度(MDL)結合非負矩陣分解的方法來自動檢測節點角色及構造轉移模型。多數文獻通過抽取圖中不同節點的共同模式,並比較每個節點與共同模式之間的差異來定義異常節點。部分文獻使用了交替迭代優化替代常用的兩步法。部分文獻使用了corenet的概念,該概念不同於單純使用density,molarity,hop-distance等概念,而是使用了節點間的加權路徑,即一個節點的corenet包含該節點與權重大於給定閾值的兩跳鄰居。假設兩個強連接的節點通常屬於同一社區,則如果移除一個節點的兩個鄰居,一個鄰域具有較高的邊權重,另一個具有較低的邊權重,則移除較高權重鄰居的影響應更大,在每一步,每個節點首先被賦予一個異常得分,該得分衡量了其corenet的變化,異常得分較高的 各節點將被視為異常節點。

文獻【69】定義了六種基於社區的異常:shrink, grow, merge, split, born, and vanish。其使用圖和社區代表(representatives)進行比較以減少計算量,圖代表為出現在t時刻,同時還出現在t-1、t+1或t+1與t-1時刻的節點集,社區代表是出現在其他社區最少的定點集合,基於社區代表和圖代表,基於規則,判斷社區是否落在六種異常中。

文獻【73】定義了一種基於社區的異常:comet,周期性出現或消失的社區,演化圖可表示為一個張量,然後基於低秩張量分解和MDL原則進行comet檢測。

文獻【3】基於多種信息源構造時序復網路,識別跨時間和網路的穩定社區結構。行為相似的網路可以用聚類或前驗知識分組,如何一個社區結構在組內跨時間步穩定,但在組外沒有對應社區,則該社區即為異常,如何兩個社區共享一定比例的定點則稱為對應。

社交網路可以根據特定時間窗口內的發文量定義事件,一個經歷共同事件的組即構成一個異常子圖。

通過劃分圖流為一致的分割來檢測,分割是依據劃分的相似性。

通過將最新圖的頂點分區與當前增長分割中的圖的分區進行比較,可以在線找到這些分割。【67】基於可返回隨機的相關矩陣和molarity最大化來進行定點劃分,當新圖的劃分與當前分割的劃分有很大不同時,一個新段開始,並將新圖的時間點輸出為檢測到的突變。兩個劃分的相似度使用Jaccard系數定義。GraphScope思路類似,但基於MDL來指導劃分和分割。

基於MDL原則和基於該原則的壓縮技術利用數據中的模式和規律性實現緊湊的圖表示,其主要通過將圖的鄰接矩陣表示為一個二進制串,如果矩陣的行和列可以重新排列使矩陣的二進制字元串表示的熵最小化,那麼壓縮損失(也稱為編碼損失)就會最小化。數據指向的特徵都來自於圖或其特定子結構的編碼代價;因此,異常被定義為抑制可壓縮性的圖或子結構(如邊)

對於一條邊和對應子圖,如果包含該邊的編碼損失比不包含該邊的編碼損失高,則稱該邊為異常邊。

【74】使用了一種兩步交替迭代法進行節點的自動劃分,當節點劃分的熵收斂時,根據包含和不包含該邊的編碼損失,該方法也給出了邊的異常度得分。

突變檢測的主要思路是:連續時間步間的圖是相似的,因而可以分為一組,從而降低壓縮比。壓縮比的上升表明新一個時間步的圖與已有的圖差異明顯,因此是一個突變。

該方法將圖集合表示為一個tensor,在該tensor上進行矩陣分解或降維,基於分解或降維後的圖發現其模式和規律性,該方法可以融合更多屬性信息,最常用的方法是SVD和PARAFAC(廣義SVD)。

矩陣分解可用於計算每個節點的活躍(activity)向量,如果某個節點的活躍向量在連續時間步間變化明顯,則稱為異常節點。

【87】首先抽取每個節點的邊相關矩陣 ,即該節點的每個鄰域都有一行一列,對於節點 的矩陣中的一個entry 代表了邊 和 間加權頻率的相關性,加權頻率由衰減函數獲得,時間越近權重越高。M的最大特徵值和對應特徵向量即頂點的活躍向量的summary及邊的相關性。通過尋找這些值的變化而形成的時間序列用於計算每個時間步長中每個頂點的分數,得分高於閾值的頂點將被輸出為異常。

基於分解的異常事件檢測有兩種方法:(1)先基於分解方法來近似原始數據,然後以重建損失作為近似優劣的指標。如果某個子張量、切片或元素的重建損失很高,則即可以視其與周圍數據不同特徵不同,將其標記為異常事件、子圖或節點。(2)跟蹤奇異值和向量,以及特徵值和特徵向量,以檢測異常頂點的顯著變化。

為解決 intermediate blowup 問題(即計算中輸入和輸出張量超過內存限制),【81】提出了momery-efficient tucker(MET)分解方法,該方法源於Tucker分解,Tucker分解將高階tensor用一個core tensor和每個mode(維度)矩陣表示。【80】使用了Compact Matrix Decomposition(CMD),其可以用來計算給定矩陣的稀疏低秩矩陣。使用CMD對圖流中的每個鄰接矩陣進行分解,可得到重建值的時間序列,基於重建值序列可進程事件檢測,典型應用有COLIBRI, PARCUBE,其中後者在斑點(spotting)異常中的表現更高效。

【84】使用了隨機圖模型進行基於概率模型的檢測,其將真實圖鄰接矩陣和期望圖的鄰接矩陣間的差異構造為殘差矩陣,對殘差矩陣執行SVD,再使用線性Ramp濾波器,基於top奇異值即可進行異常時間窗口檢測,通過檢查正確的奇異向量來確定相應的頂點。

除以上方法,我們還可以基於分解空間的顯著變化來識別事件。【77】通過對數據執行PCA,計算的特徵向量可以分為正常和異常兩個集合,方法是檢驗數據中的值映射到特徵向量。在每個時間步,根據特徵值對特徵向量進程降序排列,第一個特徵向量則包含一個在其餘值的3個標准差之外的投影點,此後的每個特徵向量,都構成了異常集。第二步即是將數據映射到正常和異常子空間,一旦完成了這些操作,當從上一個時間步長到當前時間步異常成分的修改超過一個閾值時,即將其視為一個事件。【83】擴展了該方法,提出了聯合稀疏PCA和圖引導的聯合稀疏PCA來定位異常和識別對應的頂點。通過為異常集使用稀疏的成分集,可以更容易識別負責的頂點。頂點根據它們在異常子空間中對應行的值得到一個異常分數,由於異常分量是稀疏的,不異常的頂點得分為0。

圖的活躍向量 為主成分,左奇異向量對應最大奇異值,奇異值和奇異向量通過對加權鄰接矩陣進行SVD得到。當活躍向量大幅異於「正常活躍"向量時,即定義該時點為突變點,」正常活躍「向量由前序向量得到。

正常活躍向量 ,它是對最後W時間步中活動向量形成的矩陣進行SVD得到的左奇異向量。每個時點都定義一個得分 ,其代表了當前活躍向量與正常向量的差異。異常可以使用動態閾值方案在線發現,其中得分高於閾值的時間點被輸出為變化。通過計算正常向量和活動向量之間的變化比率來找到負責的頂點,與變化最大的索引所對應的頂點被標記為異常,類似的方法也可以用於節點-節點相關矩陣的活躍向量,或基於鄰居相似度的節點-節點相關矩陣。

基於距離的異常檢測演算法的不同點在於選擇用於提取和比較距離度量,以及它們用於確定異常值和相應圖的方法。

如果一些邊的屬性演化異於正常演化,則該邊就是一個異常邊。

邊之間的權重使用衰減函數定義,在每個時間步長中,根據相似度得分的變化之和計算每條邊的異常值得分,使用閾值或簡單的 作為異常值標准。

將網路視為邊的流,意味著網路沒有固定的拓撲,一個邊的頻率和持久性可以用來作為其新穎性的指標,【48】定義了集合系統不一致性指標來度量頻率和持久性,當一條邊到達時,計算其差異,並與活動邊集的平均不一致性值進行比較,如果邊的加權不一致性大於平均不一致性的閾值水平,則聲明該邊為異常邊,基於異常邊,可以進一步識別其他異常圖元素(如頂點,邊,子圖)。

具有許多「異常」邊的子圖即是異常的子圖。

【52】將邊的權重視為異常得分,每個時間步長上的每條邊都有它自己的異常分數,給定了該邊權值在所有圖序列的分布,該分數表示在該特定的邊上看到該特定權值的概率函數。或者,為網路中的邊分配異常值分數的現有方法的輸出可以用作為該方法的輸入。後一種方法允許應用於任何能夠為邊分配異常值分數的網路,一旦完成每條邊的異常打分,即可發現顯著異常的區域(SARs),即一個窗口內的固定子圖,其類似於HDSs。【112】提出了一種迭代演算法,該演算法首先固定子圖發現最優時間窗口,然後固定時間窗口發現最優子圖。【97】拓展了該方法,允許子圖漸變,即在相鄰時間步間增加或移除頂點。

定義函數 為測度圖距離的函數,將其應用於連續圖序列,即得到距離序列,基於該距離序列應用一些啟發式演算法(如基於移動平均閾值的 取值)即可得到異常事件。

稱每個頂點及其egonet的特徵為局部特徵,整張圖的特徵為全局特徵。每個頂點的局部特徵可聚合為一個向量,基於該向量的各階矩可構造signature向量,利用signature向量間的Canberra距離(歸一化的曼哈頓距離)可構造圖之間的距離函數【93】。【92】利用全局特徵,定義了一種基於dK-2序列的距離測度,將高於閾值的特徵視為異常點。

【96】使用了頂點親和度(即一個頂點對另一個頂點的影響,可以用於快速信念傳播)得分作為signature向量,其基於連續時間步技術頂點親和度,基於馬氏距離度量兩個圖的相似度,親和度得分的變化反應並適應變化的影響水平,例如橋邊的移除比正常邊移除的得分更高。利用單個移動范圍的質量控制,可以對相似度得分的時間序列設置一個移動閾值,如指數移動平均加權。

作為特徵相似度的補充,我們也可以比較兩個圖的結構差異來度量突變的大小,這類方法致力於發現定義距離的函數而非發現特徵向量。【88】計算了異常網路的10種距離函數,使用ARMA模型構造特徵值的正常模型,然後基於正常模型計算時點的殘差,殘差超過給定閾值的時間即可標記為異常。10種距離函數中,基於最大共有子圖的方法表現最好。【90】使用了五中得分函數(頂點/邊重疊,頂點排序,向量相似度,序列相似度,signature相似度)來檢測三種異常(子圖缺失,頂點缺失,連通性變化),表現最好的方案是抽取每個頂點和邊的特徵構造signature向量,使用SimHash定義距離。

我們還可以通過計算每個圖的穩健性序列來檢測事件,穩健性序列是圖連通性的測度,具有高穩健性的圖即使在去除一些頂點或邊的情況下,也能保持相同的一般結構和連通性,事件檢測即發現穩健性值異常變化的時點【95】。【89】使用的是圖半徑的變體作為穩健性指標,圖半徑的定義是基於所有頂點的平均離心度,而非常用的最大離心度。

基於概率理論、分布、掃描統計學等方法可以構造「正常」樣本的模型,偏離該模型的樣本即視為異常,這類方法的主要區別在於構造方法、建模對象、離群值定義。

主要有兩種方法:一,構造掃描統計時間序列並檢測離均值若干標准差的點;二,頂點分類。

掃描統計常稱為滑動窗口分析,其在數據的特徵區域中發現測度統計量的局部最小或最大值。對某個特定圖,掃描統計量可以是圖不變特徵的最大值,如邊的數量。

【8】使用了一個適應測度統計量的變數,即每個節點的0-2度鄰居數,然後對每個頂點的局部統計量使用近期值的均值和標准差進行標准化,圖的掃描統計量即最大的標准化局部統計量。標准化可以解釋每個頂點的歷史信息,代表每個頂點的統計量只與自己的歷史信息有關而與其他頂點無關。這保證測度的最大變化與變化的絕對量無關而與比例有關。基於掃描統計量標准化時間序列,將序列均值的五個標准差作為異常值。最負責的頂點被確定為為整個圖的掃描統計值所選擇的頂點。

類似於使用鄰居進行掃描統計,我們還可以用Markov隨機場(MRF)來發現節點的狀態,並通過信念傳播演算法推斷最大似然分配,其中,每個頂點標簽取決於其鄰居節點。【99】通過發現二部核來檢測異常點(即詐騙犯),二部核定義為詐騙犯與從犯間的交互。利用邊的插入或刪除隻影響局部子圖這一事實,它在添加新邊時逐步更新模型。在傳播矩陣中,一個頂點可以處於三種狀態之一:欺詐者、共犯者或誠實者。

邊異常檢測通常使用計數過程建模,統計上顯著異於該模型的邊標記為異常邊。

【50】用貝葉斯離散時間計數過程來建模頂點間的通信次數(邊權重),並根據新圖更新模型。基於學習到的計數的分布,對新觀測的邊進行預測 值計算,基於 值標記異常頂點對。

首先用固定的子圖,多重圖,累積圖來構造預期行為的模型,對模型的偏離可作為子圖異常檢測的依據。

【104】結合掃描統計量和隱馬爾可夫模型(HMM)建模邊行為,其使用的局部掃描統計量是基於兩種圖形狀:k-path圖和星型圖,其將滑動窗口的掃描統計數據與其過去的值進行比較,並使用在線閾值系統識別局部異常,局部異常是所有統計上顯著的子圖(代表k個路徑或恆星)的並集。

另一個建模動態圖的方法是基於多重圖,其中平行邊對應於兩個連續時間步頂點間的通信,初始的多重圖可分解為多個針對每個時間窗口的疊套子圖(TSG),TSG滿足兩個條件:(1)對於任何兩個有共同點的邊,首先開始通信的邊最後完成通信;(2)存在一個根頂點r,它沒有傳入的邊,並且有一條到TSG中每個頂點的路徑。出現概率低的TSG視為異常子圖。【102】

累積圖即為包含直到當前時點的所有邊的圖,邊權重依據衰減函數定義,通過識別「持久模式」來定義子圖的正常行為。該持久模型識別模型如下:首先構造一種圖,該圖每個邊根據時間來加權,然後基於該圖迭代抽取最重連接成分來發現。隨著累積圖的發展,提取的子圖將被監控,並將其當前活動與基於最近行為的預期活動進行比較來進行子圖異常檢測。【101】

事件檢測可以基於偏離圖似然模型或特徵值分布的偏差來進行。

【103】提出了一種新的蓄水池抽樣方法來抽取圖流的結構摘要,這種在線抽樣方法維持多個網路劃分以構造統計上顯著的摘要,當一個新圖進入圖流,每個邊都根據不同分區的邊生成模型計算出一種似然性,然後以這些似然性的幾何均值作為全局圖似然性。

【98】使用了類似的邊生成模型,每個邊 的概率都存儲在矩陣 中,概率基於期望最大化估計,基於所有收發對的分布,然後為每個收發對給出潛在得分,基於所有邊似然得分的均值即得到每個圖的得分。

【100】計算了特徵值和壓縮特徵等式的分布(而非計算收發對的分布),基於每個頂點都存在一個頂點局部特徵時間序列的假設,可在每個時間步構造一個頂點-頂點相關矩陣,通過保留最大特徵值和一組低維矩陣(每個頂點對應一個矩陣),可對相關矩陣的特徵方程進行壓縮,通過學習特徵值和矩陣的分布,即可發現異常頂點和事件。當特徵值偏離期望分布時,即認為發生了事件,當頂點的矩陣偏離矩陣分布時,可認為該頂點為異常頂點。

③ GCAN:可解釋的社交媒體假新聞檢測方法

目前假新聞檢測問題仍然存在一些重要的挑戰。比如:
①目前的一些方法要求文檔為長文本,以便於能夠更好地學習詞和句子的表示。然而社交媒體上的一些推文大多是短文本,這就導致了一些數據稀疏性問題。
②一些SOTA的方法要求收集大量的用戶評論,然而大多數用戶僅僅是簡單地轉發推文而並不留下任何評論。
③一些研究認為社交網路中的信息擴散(即retweet)路徑有助於錯誤信息的分類,從而學習基於樹的傳播結構的表示。然而,由於隱私問題,獲取轉發的擴散結構往往代價高昂,許多用戶選擇隱藏或刪除社交記錄。
④目前的一些方法缺乏可解釋性,不能為支持謠言的可疑用戶以及他們在製造謠言時關心的話題提供證據。

本文提出的方法利用源推文的短文本內容、轉發用戶序列以及用戶資料來進行假新聞檢測。也就是說本文的方法滿足以下設置:
①短文本源推文;
②沒有使用用戶評論文本;
③沒有使用社交網路和擴散網路的網路結構。

此外,我們要求假新聞檢測模型具有可解釋性,即在判斷新聞是否虛假時突出證據。該模型將指出支持傳播假新聞的可疑轉發者,並突出他們特別關注的源推文中的詞。

本文提出一個新的模型,即Graph-aware Co-Attention Network(GCAN)。首先從用戶資料和社交互動中提取用戶特徵,然後使用CNN和RNN來學習基於用戶特徵的轉發傳播表示。另外使用圖來建模用戶之間的潛在交互,並且採用GCN來學習graph-aware的用戶交互的表示。同時提出了al co-attention機制來學習源推文和轉發傳播之間的相關性,以及源推文和用戶交互之間的相互影響。最終利用學習到的embedding來進行假新聞的二分類預測。

1. 問題陳述

是推文的集合, 是用戶的集合。每個 都是短文本文檔(也叫做源推文)。 表明 由 個單片語成。 中的每個用戶 都對應一個用戶特徵向量 。當一個推文 發布以後,一些用戶將會轉發 從而形成一個轉發記錄的序列,這被稱為 傳播路徑 。給定一個推文 ,它的傳播路徑表示為 , 表明第 個用戶(其用戶特徵向量為 )轉發了 ,這里 。轉發了 的用戶集合記作 ,最先轉發 的用戶記作 ,轉發時間記作 ,其餘用戶 在時間 轉發了 ( )。每個 有一個binary的標簽 表明是否是假新聞( 代表 是假新聞)。我們希望能夠利用上述數據來利用神經網路模型識別 是否是假新聞,另外,希望模型能夠突出能夠表明 真實性的一部分用戶 和一些推文中的詞 。

2. GCAN框架

GCAN主要包括5個部分:
①user characteristics extraction,創建特徵來量化用戶如何參與在線社交網路;
②new story encoding,生成源推文中單詞的表示;
③user propagation representation,使用提取的用戶特徵建模和表示源推文如何由用戶傳播;
④al co-attention mechanisms,捕獲源推文和用戶交互/傳播之間的相關性;
⑤making prediction,通過連接所有學習的表示生成檢測結果。

GCAN的架構圖如下:

3. 模型

用戶 的特徵向量 是定義得到的,具體的,包含以下特徵:
①用戶自我描述的字數;
②用戶賬戶名的字數;
③關注用戶 的數量;
④用戶關注的人的數量;
⑤用戶創建的story數量;
⑥舉例用戶第一個story經過的時間;
⑦用戶的賬戶是否被驗證過;
⑧用戶是否允許地理空間定位;
⑨源推文發布時間和用戶轉發時間的時差;
⑩用戶和源推文之間轉發路徑的長度(如果用戶轉發源推文則為1)。

最終得到 , 是特徵的數量。

給定的源推文將使用一個word-level的encoder進行編碼,輸入是 中的每一個單詞的獨熱向量。由於每個推文長度都不一樣,這里設置 為最大長度,不足 的推文進行zero padding。使用 來表示源推文的獨熱編碼表示, 是詞的獨熱向量,使用一個全連接網路來獲得word embedding , 是word embedding的維度,過程是:

然後使用GRU來學習詞序列表示,也就是 ,最終得到 。

我們的目的是利用提取的用戶特徵 以及推文的傳播序列來學慣用戶傳播表示。其根本觀點是,真實新聞傳播中的用戶特徵與虛假新聞傳播中的用戶特徵是不同的。這里的輸入是推文 的轉發用戶特徵向量序列,用 表示, 是選定的固定長度的轉發用戶數量。如果轉發用戶數量超過 則截取前 個,如果少於 則從 中重采樣直至長度為 。

給定傳播序列 ,使用GRU來學習傳播表示, ,最終通過平均池化獲得傳播表示 , 。

採用2D卷積來學習 內特徵的相關性,考慮 個連續用戶來建模其序列相關性,比如 ,卷積核 的大小就是 ,總共使用 個卷積核,因此最終學習到的表示序列 。

我們的目的是創建一個圖來建模轉發用戶之間潛在的交互,想法是擁有特殊特徵的用戶之間的相關性對揭示源推文是否是假新聞能夠起到作用。每個源推文 的轉發用戶集合 都被用來構建一個圖 。由於用戶間的真實交互是不清楚的,因而這個圖是全連接的,也就是任意節點相連, 。結合用戶特徵,每條邊 都被關聯到一個權重 ,這個權重也就是節點用戶特徵向量 和 的餘弦相似度,即 ,圖的鄰接矩陣 。

然後使用第三代GCN來學慣用戶交互表示。給定鄰接矩陣 和用戶特徵矩陣 ,新的 維節點特徵矩陣 計算過程為:

是層數, , 是度矩陣, 是第 層的學習參數, 是激活函數。這里 ,實驗時選擇堆疊兩層GCN層,最終學習到的表示為 。

我們認為假新聞的證據可以通過調查源推文的哪些部分是由哪些類型的轉發用戶關注的來揭開,並且線索可以由轉發用戶之間如何互動來反映。因此,本文提出了al co-attention機制,來建模:
①源推文( )與用戶傳播embedding( )之間以及
②源推文( )與graph-aware的交互embedding( )之間
的相互作用。通過al co-attention的注意力權重,模型可以具有可解釋性。

首先計算一個相似性矩陣 :

這里 是一個 的參數矩陣。接著按照以下方式得到 和 :

這里 ,這里的 和 可以看做在做user-interaction attention空間和source story word attention空間的轉換。接下來得到attention的權重:

這里 , 是學習的參數。最後可以得到源推文和用戶交互的attention向量:

和 描述源推文中的單詞是如何被用戶參與互動的。

按照上述類似過程生成 和 的attention向量 和 。

注意基於GRU的傳播表示沒有用來學習與 的交互。這是因為對於假新聞的預測來說,轉發序列的用戶特徵能夠起到重要的作用。因此本文採用基於GRU和CNN的兩種方式來學習傳播表示,其中基於CNN的傳播表示被用來學習與 的交互,基於GRU的傳播表示在進行最終預測時用作最終分類器的直接輸入。

最終使用 來進行假新聞檢測:

損失函數採用交叉熵損失。

對比了多項baseline的結果,效果有明顯的提升:

GCAN也可以用於假新聞早期的檢測,也就是在轉發用戶不多的時候進行檢測,實驗改動了使用的轉發用戶數量來進行驗證:

另外移除了一部分組件進行了消融實驗,圖中-A,-R,-G,-C分別代表移除al co-attention,基於GRU的表示,graph-aware的表示和基於CNN的表示:

-S-A代表既沒有源推文embedding也沒有al co-attention,由於源推文提供了基本線索,因此-S-A有一個明顯的性能下降。

source-propagation co-attention學習到的attention權重可以用來為預測假新聞提供證據,採用的方式就是標識出源推文中的重要的詞和可疑的用戶。注意,我們不考慮source-interaction Co-attention的可解釋性,因為從構造的圖中學到的用戶交互特徵不能直觀地解釋。

下圖是根據對源推文中的attention權重繪制的兩個例子的詞雲(權重越大,詞雲中的詞就越大):

圖中結果滿足常識,也就是假新聞傾向於使用戲劇性和模糊的詞彙,而真實新聞則是被證實和核實事實的相關詞彙。

另外我們希望利用傳播中的轉發順序來揭示假新聞與真新聞的行為差異。下圖採集並展示了三個假新聞和三個真新聞的傳播序列attention的權重:

結果表明,要確定一個新聞是否虛假,首先應該檢查早期轉發源推文的用戶的特徵。假新聞的用戶attention權重可能在傳播過程中均勻分布。

source-propagation co-attention可以進一步解釋可疑用戶的特徵及其關注的詞語,舉例如下圖:

可以發現,可疑用戶在轉發傳播中的特徵有:
①賬號未被驗證;
②賬號創建時間較短;
③用戶描述長度較短;
④距發布源推文用戶的圖路徑長度較短。

他們高度關注的詞是「breaking」和「pipeline」這樣的詞。我們認為這樣的解釋有助於解讀假新聞的檢測,從而了解他們潛在的立場。

④ 為什麼登陸新浪微博總顯示網路異常

有以下可能:

1、由於您的帳號或所在網路環境違反了新浪微博的安全規則被判斷為帳號異常,此時只需要按照引導完成手機驗證即可恢復正常使用;http://help.weibo.com/selfservice/mobile_check

2、系統檢測到您的帳號有被盜風險,為了保障帳號安全,請您完成手機驗證後進行帳號安全設置以提升帳號安全等級。
提示:使用手機號即可進行驗證,目前已支持部分非大陸地區手機號驗證,包括美國、加拿大、台灣、香港、澳門、馬來西亞、澳洲、日本、韓國(南韓)、韓國(北韓)、新加坡、英國、法國、俄羅斯、印度、泰國。

非大陸地區用戶操作時根據頁面提示選擇對應的國家分類輸入手機號碼即可。

新浪微博是一個由新浪網推出,提供微型博客服務類的社交網站。用戶可以通過網頁、WAP頁面、手機客戶端、手機簡訊、彩信發布消息或上傳圖片。新浪可以把微博理解為"微型博客"或者"一句話博客"。用戶可以將看到的、聽到的、想到的事情寫成一句話,或發一張圖片,通過電腦或者手機隨時隨地分享給朋友,一起分享、討論;還可以關注朋友,即時看到朋友們發布的信息。

新浪科技於2016年1月20日中午獲悉,微博開放平台將於近日,正式開放微博140字的發布限制。此項功能,預計於1月28日對微博會員開放試用許可權,預計於2月28日正式對微博全量用戶開放。2月25日,國家互聯網信息辦公室有關業務局會同北京市網信辦就傳播淫穢色情信息突出問題聯合約談新浪微博負責人,要求其切實履行好互聯網信息服務提供者主體責任,立即開展自查自糾,全面清理淫穢色情信息,切實維護良好網路生態。2017年10月12日下午新浪微博發布在未來會增加兩大功能,一是微博發布內容後可編輯;二是博主對評論的先審後放。

1.網頁本身的問題,目前許多網站都是用的免費共享型模板,一般這樣的模板都存在不通用,原模板的所有js(javascript)腳本可能又沒有被完全用到。加之設計者的水平或是疏忽等問題。導致在頁面上找不到js對象。就會顯示出網頁有問題的現象。
2.用戶電腦本身問題。如是用的瀏覽器的版本問題,或者所瀏覽頁面需要某些插件和組件,可能曾經設置屏蔽和沒有安裝都可能出現網頁上有錯誤問題。
3.惡意病毒和流氓插件引起。許多網民在不知情的情況下,安裝一些帶有流氓捆綁插件的安裝程序,這樣的情況也容易導致出現網頁上有錯誤。
網頁上有錯誤解決方案
首先,來介紹下手動解決網頁上有錯誤解決方法(操作較繁瑣)
1、點擊「開始」菜單,打開「運行」。
2、輸入regsvr32 jscript.dll後選擇「確定」。 出現提示(jscript.dll中的DIIRegisterServer成功)後,點擊「確定」。
3、再次輸入regsvr32 vbscript.dll選擇「確定」。 再一次出現提示(vbscript.dll中的DIIRegisterServer成功)後,點「確定」。 經過以上兩次成功提示,說明已成功修復IE組件。
4、將瀏覽器的過濾等功能關閉後,清除一下瀏覽器的緩存(工具->Internet選項->(在Internet臨時文件框中-刪除Cookies),再點Internet臨時文件框中刪除文件(記得勾上刪除所有離線內容),確定後,然後再重新打開瀏覽器嘗試

⑤ 微信為什麼登錄不上去,顯示網路異常怎麼辦

原因和處理辦法如下:
1、微信登錄的身份驗證已經過期,可以在登錄窗口重新輸入微信賬號和登錄密碼進行登錄操作。
2、添加好友操作過於頻繁,被系統檢測到並進行限制,可以先停止目前頻繁的操作,等過了24小時之後再操作。
3、微信程序出現異常,可以先退出微信並關閉手機其他後台運行的軟體,然後再重新打開和登錄微信。
4、可能是設置了自動清理,正好微信就在清理的列表裡面,在安全中心裡的授權管理看看就知道了。
拓展資料:
微信是騰訊公司於2011年1月21日推出的一個為智能終端提供即時通訊服務的免費應用程序 ,由張小龍所帶領的騰訊廣州研發中心產品團隊打造 。微信支持跨通信運營商、跨操作系統平台通過網路快速發送免費(需消耗少量網路流量)語音簡訊、視頻、圖片和文字,同時,也可以使用通過共享流媒體內容的資料和基於位置的社交插件「搖一搖」、「漂流瓶」、「朋友圈」、」公眾平台「、」語音記事本「等服務插件。
截止到2016年第二季度,微信已經覆蓋中國 94% 以上的智能手機,月活躍用戶達到 8.06億,用戶覆蓋 200 多個國家、超過 20 種語言。此外,各品牌的微信公眾賬號總數已經超過 800 萬個,移動應用對接數量超過 85000 個,廣告收入增至36.79億人民幣,微信支付用戶則達到了 4 億左右。
微信提供公眾平台、朋友圈、消息推送等功能,用戶可以通過「搖一搖」、「搜索號碼」、「附近的人」、掃二維碼方式添加好友和關注公眾平台,同時微信將內容分享給好友以及將用戶看到的精彩內容分享到微信朋友圈。

⑥ 風靡社交網路讓明星都為之瘋狂的MBTI人格測試,究竟是科學還是玄學

你據說過「MBTI」嗎?近期它正悄悄的爬上各種社交網路平台,遭受許多年青人的青睞。很多人立即用神奇的四個字母來替代性情,ENTP、ISTP……乃至冬季奧運會總冠軍谷愛凌在訪談中也曾透露,自己做過MBTI檢測,數據顯示她是INTJ。許多網民高興地說:「我居然和谷愛凌是同一種人耶!」聽說,有很多全球500強企業招聘時都是採用這一評定量表,來分辨應聘者的個性化是不是合乎企業氣場。「MBTI」一檢測,就能給人判定了?真有那麼玄妙嗎?

許毅說,現如今的社會心理學,有兩極化的發展趨勢,一極是愈來愈認真細致,一極是愈來愈趣味性。從科學正確引導視角而言,可不必草率地封建迷信這種盛行互聯網的考試題。「人的個性是流動性的,個人經歷、心理狀態承受力的不一樣,造成的性子也會各有不同,千萬不要被框死,那便是為自己畫地成牢了。」

⑦ 陌陌檢測設備信息存在異常什麼原因

陌陌檢測設備信息存在異常什麼原因,如果提示設備異常,這是由於你之前在這台手機設備上的陌陌存在違規的操作或者注冊過多個號,所以平台將你的手機設備記錄進黑名單,當你在這台手機再次注冊或者上號的時候系統就會檢測你的設備是異常的,你的號會被封禁。解決這個問題,只能通過硬改手機設備的方法,硬改可不是刷機哦,刷機只是恢復一下系統,硬體信息還是沒變的,而手機硬改就是通過技術手段更改手機內部的所有硬體參數,改成真正的全新的能過平台檢測的手機,硬改過之後這台手機就和新手機是一樣的。陌陌不只是檢測你的設備,而是從多個層面去檢測你的注冊環境也就是常說的大數據分析,首先有三個方面:設備,定位,網路。如果這三個都正常那麼就不會出現設備異常了。飛哥技術專門解決這些問題,有需要的可以去問問!

就智能入口而言,利用圖像識別技術,可以快速地識別出陌生人的喜好,並把他們聯系起來。它的理論依據是:物以類聚,人以群分。例如,掃一款萬物社交產品「牛羊」APP,以及掃萌寵社交產品「握爪」APP,要加對方好友,只需使用一個攝像頭,瞄準你想掃的物體(比如自己的寵物),可以通過APP內置的圖像識別技術把「同類人」進行配對(相關技術已申請國家發明專利)。

對於提高聊天體驗,AI的應用也很廣泛。比方說語音識別技術,大大提高了發送語音消息/視頻消息的體驗,甚至可以解放雙手,不用再用一隻手指按住錄音按鈕。這兩只手的自由體驗,很像一次「新生」,我們已經在「牛」APP和「握爪子」APP中使用了這一專利技術,以提高該產品目前的聊天體驗。比如,利用人臉識別技術,可以產生許多炫酷的圖片和視頻效果,目前已有不少產品採用這種技術。

而在內容構建方面,AI除了之前已經提到過的對相機特效的提升,還主要用於智能分發。就像今天的頭條,抖音的智能推薦演算法,完全改變了以前的朋友關注機制,基本上是所有社交產品中使用的。這一智能推薦的發布機制,可以不需要朋友或者特殊注意的存在,而是通過查看用戶的閱讀、評論互動等歷史信息,推薦自己喜歡的內容。如今,《握拳》APP已經建立了萌寵社區,並且採用智能推薦演算法,能夠更好的滿足用戶的個性化需求。值得注意的是,我們已申請發明專利的智能推薦演算法並不依賴於用戶的肖像,而是受用戶自身行為的驅使(比如完播情形)。

除了騰訊,莫莫自己做盲盒產品,一些大廠商選擇搭建潮玩平台。

這里最典型的就是騰訊。2019年,騰訊體育推出了一項名為呵呵社區的業務,這是騰訊首次試水拓展運動鞋業務,以得物App為目標。依託騰訊體育在直播比賽中的推廣,甚至包括送賓士的活動,呵呵社區在騰訊體育的粉絲中站穩了腳跟,為大量喜歡時尚運動鞋的用戶提供了新的平台。

隨著業務的發展,騰訊於今年1月推出了應用,正式進入潮鞋市場,將業務拓展到玩具、服裝等,為不同類型的潮玩家提供了聚集地。

拼多多也以潮鞋、潮衣為切入點進入潮玩市場,但與騰訊相比,拼多多更願意打造賣方市場。

去年,品多多對時尚游戲的新興市場感興趣。在上半年的100億補貼期間,推出了時尚鞋玩家日,並在其應用程序中建立了時尚鞋館,交易時尚游戲產品,取得了良好的效果。

同年8月,品多多推出了一款名為多潮的微信小程序,旨在為年輕人提供一個觀點和交流時尚商品的平台。用戶可以在多潮中發帖或加入特定圈子進行討論和交流。可以理解為發展時尚游戲業務的補充,努力打造時尚游戲愛好者社區。但很快項目就停止了。

Tech星球(微信ID:Tech618)了解到品多多有新的動作,最近測試了潮衣館和潮鞋館兩個軟體。據相關人士透露,這兩款軟體瞄準了目前最熱門的潮玩分類市場,年後將上線。經過一年對潮玩業務的測試,品多多似乎把更完善的功能集中在這兩款軟體上,試圖通過這些軟體在潮玩市場佔有一席之地。

張小龍認為,視頻表達將成為未來十年內容領域的主旋律,而且未來的視頻格式不應該以文件的形式出現,應該以結構數據的形式,標記諸如創造者等信息,存儲在雲中。

但是視頻號僅僅是因為「近5年來,微信用戶每天發送的視頻消息數量增加了33倍,朋友圈發布視頻數量增加了10倍」,是否能夠滿足用戶需求?也許沒有。

大家都知道快手系App是短視頻的代表,它正搶奪其他公司App用戶的使用時間。

QuestMobile數據顯示,短視頻行業MAU用戶已達8.52億,短視頻用戶已佔總時長的20%,僅次於以微信為代表的即時通訊。與此同時,頭條系、快手系App使用率不斷上升,比去年同期分別增長了3.3%和2.7%,微信所屬的騰訊系App使用時也比去年同期下降4.3%。[1]

圖片|QuestMobile。

在整個視頻產業中,創作者/UP主之間發生了幾場爭斗。

據業內媒體《深燃》采訪,從2020年下半年起,除了原本計劃中的視頻外,騰訊視頻、在網路好看視頻之外,長視頻平台芒果tv,斗魚虎牙,知識社區甚至是生活方式分享平台,小規模ACG愛好者社區半次元等,開始向他們扔橄欖枝。[2]

但是問題在於,視頻行業的火爆,難道和張小龍所說的「微信用戶每天發送的視頻信息增加33倍」是一回事嗎?《朋友圈視頻發表數增長10倍》,跟抖音B站UP主發視頻,也是一件事嗎?

沒有一個。微博的誕生,與微信生態中視頻分享弱相關,而與視頻領域的競爭強相關、讓人感到矛盾和疑惑的,是微信號打著個人分享的旗號,卻是在到處都是試圖將用戶原本向周圍人分享的內容。

仔細看一下昨晚的微信之夜,關於視頻號的爭論已經略微平息。另一方面,張小龍否認視頻號是緩解騰訊短視頻焦慮的一個辦法。現場明確淡化視頻號在騰訊系統中的權重,表示視頻號並未向公司詢問資源,甚至沒有立項,騰訊的戰略重點不是視頻號,而是微視。

⑧ 如何檢測社交網路中兩個人是否是朋友關系(union-find演算法)

春節放假會了老家,停更了很多天,這是年後連夜肝出來的第一篇文章,先來聊聊春節放假期間發生的事,這次回家遇到了我學生時代的女神,當年她在我心目中那是

沒想到這次遇到了她,身體發福,心目中女神的形象瞬間碎了,就像達芬奇再次遇到了蒙娜麗莎

好了,言歸正傳。

有時候我們可以需要判斷在大型網路中兩台計算機是否相連,是否需要建立一條新的連接才能通信;或者是在社交網路中判斷兩個人是否是朋友關系(相連表示是朋友關系)。在這種應用中,通常我們可能需要處理數百萬的對象和數億的連接,如何能夠快速的判斷出是否相連呢?這就需要使用到union-find演算法

假如輸入一對整數,其中每個數字表示的是某種對象(人、地址或者計算機等等),整數對p,q理解為「p與q相連」,相連具有以下特性:

假設相連是一個種等價關系,那麼等價關系能夠將對象劃分為多個等價類,在該演算法中,當且僅當兩個對象相連時他們才屬於同一個等價類

整個網路中的某種對象稱為觸點

將整數對稱為連接,將等價類稱作連通分量或者簡稱分量

union-find演算法的目標是當程序從輸入中讀取了整數對p q時,如果已知的所有整數對都不能說明p q是相連的,那麼將這一對整數輸出,否則忽略掉這對整數;我們需要設計數據結構來保存已知的所有整數對的信息,判斷出輸入的整數對是否是相連的,這種問題叫做動態連通性問題。

如果兩個觸點在不同的分量中,union操作會使兩個分量歸並。一開始我們有N個分量(每個觸點表示一個分量),將兩個分量歸並之後數量減一。

抽象實現如下:

接下來我們就主要來討論如何實現union方法和find方法

這種演算法的實現思路是在同一個連通分量中所有觸點在id[]中的值都是相同的,判斷是否連通的connected的方法就是判斷id[p]是否等於id[q]。

為了提高union方法的速度,我們需要考慮另外一種演算法;使用同樣的數據結構,只是重新定義id[]表示的意義,每個觸點所對應的id[]值都是在同一分量中的另一個觸點的名稱

在數組初始化之後,每個節點的鏈接都指向自己;id[]數組用 父鏈接 的形式表示了 森林 ,每一次union操作都會找出每個分量的 根節點 進行歸並。

find方法需要訪問數組n-1次,那麼union方法的時間復雜度是O(n²)

為了保證quick-union演算法最糟糕的情況不在出現,我需要記錄每一個樹的大小,在進行分量歸並操作時總是把小的樹連接到大的樹上,這種演算法構造出來樹的高度會遠遠小於未加權版本所構造的樹高度。

union-find演算法只能判斷出給定的兩個整數是否是相連的,無法給出具體達到的路徑;後期我們聊到圖演算法可以給出具體的路徑

文中或許會存在或多或少的不足、錯誤之處,有建議或者意見也非常歡迎大家在評論交流。

最後, 寫作不易,請不要白嫖我喲 ,希望朋友們可以 點贊評論關注 三連,因為這些就是我分享的全部動力來源🙏

⑨ 對於社交網路的數據挖掘應該如何入手,使用哪些演算法

3月13日下午,南京郵電大學計算機學院、軟體學院院長、教授李濤在CIO時代APP微講座欄目作了題為《大數據時代的數據挖掘》的主題分享,深度詮釋了大數據及大數據時代下的數據挖掘。

眾所周知,大數據時代的大數據挖掘已成為各行各業的一大熱點。
一、數據挖掘
在大數據時代,數據的產生和收集是基礎,數據挖掘是關鍵,數據挖掘可以說是大數據最關鍵也是最基本的工作。通常而言,數據挖掘也稱為DataMining,或知識發現Knowledge Discovery from Data,泛指從大量數據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統化的過程。
不同的學者對數據挖掘有著不同的理解,但個人認為,數據挖掘的特性主要有以下四個方面:
1.應用性(A Combination of Theory and Application):數據挖掘是理論演算法和應用實踐的完美結合。數據挖掘源於實際生產生活中應用的需求,挖掘的數據來自於具體應用,同時通過數據挖掘發現的知識又要運用到實踐中去,輔助實際決策。所以,數據挖掘來自於應用實踐,同時也服務於應用實踐,數據是根本,數據挖掘應以數據為導向,其中涉及到演算法的設計與開發都需考慮到實際應用的需求,對問題進行抽象和泛化,將好的演算法應用於實際中,並在實際中得到檢驗。
2.工程性(An Engineering Process):數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅僅是演算法分析和應用,而是一個包含數據准備和管理、數據預處理和轉換、挖掘演算法開發和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的數據挖掘過程還是一個交互和循環的過程。
3.集合性(A Collection of Functionalities):數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的演算法支撐。
4.交叉性(An Interdisciplinary Field):數據挖掘是一門交叉學科,它利用了來自統計分析、模式識別、機器學習、人工智慧、信息檢索、資料庫等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機演算法、資訊理論、可視化、分布式計算和最優化也對數據挖掘的發展起到重要的作用。數據挖掘與這些相關領域的區別可以由前面提到的數據挖掘的3個特性來總結,最重要的是它更側重於應用。
綜上所述,應用性是數據挖掘的一個重要特性,是其區別於其他學科的關鍵,同時,其應用特性與其他特性相輔相成,這些特性在一定程度上決定了數據挖掘的研究與發展,同時,也為如何學習和掌握數據挖掘提出了指導性意見。如從研究發展來看,實際應用的需求是數據挖掘領域很多方法提出和發展的根源。從最開始的顧客交易數據分析(market basket analysis)、多媒體數據挖掘(multimedia data mining)、隱私保護數據挖掘(privacy-preserving data mining)到文本數據挖掘(text mining)和Web挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應用推動的。工程性和集合性決定了數據挖掘研究內容和方向的廣泛性。其中,工程性使得整個研究過程里的不同步驟都屬於數據挖掘的研究范疇。而集合性使得數據挖掘有多種不同的功能,而如何將多種功能聯系和結合起來,從一定程度上影響了數據挖掘研究方法的發展。比如,20世紀90年代中期,數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘。到20世紀90年代末,研究人員開始研究基於關聯規則和時間序列模式的分類演算法(如classification based on association),將兩種不同的數據挖掘功能有機地結合起來。21世紀初,一個研究的熱點是半監督學習(semi-supervised learning)和半監督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特徵抽取和聚類的結合)和圖分類(graph classification)(圖挖掘和分類的結合)也是將多種功能聯系和結合在一起。最後,交叉性導致了研究思路和方法設計的多樣化。
前面提到的是數據挖掘的特性對研究發展及研究方法的影響,另外,數據挖掘的這些特性對如何學習和掌握數據挖掘提出了指導性的意見,對培養研究生、本科生均有一些指導意見,如應用性在指導數據挖掘時,應熟悉應用的業務和需求,需求才是數據挖掘的目的,業務和演算法、技術的緊密結合非常重要,了解業務、把握需求才能有針對性地對數據進行分析,挖掘其價值。因此,在實際應用中需要的是一種既懂業務,又懂數據挖掘演算法的人才。工程性決定了要掌握數據挖掘需有一定的工程能力,一個好的數據額挖掘人員首先是一名工程師,有很強大的處理大規模數據和開發原型系統的能力,這相當於在培養數據挖掘工程師時,對數據的處理能力和編程能力很重要。集合性使得在具體應用數據挖掘時,要做好底層不同功能和多種演算法積累。交叉性決定了在學習數據挖掘時要主動了解和學習相關領域的思想和技術。
因此,這些特性均是數據挖掘的特點,通過這四個特性可總結和學習數據挖掘。
二、大數據的特徵
大數據(bigdata)一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數據的意義在於發現和理解信息內容及信息與信息之間的聯系。研究大數據首先要理清和了解大數據的特點及基本概念,進而理解和認識大數據。
研究大數據首先要理解大數據的特徵和基本概念。業界普遍認為,大數據具有標準的「4V」特徵:
1.Volume(大量):數據體量巨大,從TB級別躍升到PB級別。
2.Variety(多樣):數據類型繁多,如網路日誌、視頻、圖片、地理位置信息等。
3.Velocity(高速):處理速度快,實時分析,這也是和傳統的數據挖掘技術有著本質的不同。
4.Value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的數據並對其進行正確、准確的分析,將會帶來巨大的商業和社會價值。
上述「4V」特點描述了大數據與以往部分抽樣的「小數據」的主要區別。然而,實踐是大數據的最終價值體現的唯一途徑。從實際應用和大數據處理的復雜性看,大數據還具有如下新的「4V」特點:
5.Variability(變化):在不同的場景、不同的研究目標下數據的結構和意義可能會發生變化,因此,在實際研究中要考慮具體的上下文場景(Context)。
6.Veracity(真實性):獲取真實、可靠的數據是保證分析結果准確、有效的前提。只有真實而准確的數據才能獲取真正有意義的結果。
7.Volatility(波動性)/Variance(差異):由於數據本身含有噪音及分析流程的不規范性,導致採用不同的演算法或不同分析過程與手段會得到不穩定的分析結果。
8.Visualization(可視化):在大數據環境下,通過數據可視化可以更加直觀地闡釋數據的意義,幫助理解數據,解釋結果。
綜上所述,以上「8V」特徵在大數據分析與數據挖掘中具有很強的指導意義。
三、大數據時代下的數據挖掘
在大數據時代,數據挖掘需考慮以下四個問題:
大數據挖掘的核心和本質是應用、演算法、數據和平台4個要素的有機結合。
因為數據挖掘是應用驅動的,來源於實踐,海量數據產生於應用之中。需用具體的應用數據作為驅動,以演算法、工具和平台作為支撐,最終將發現的知識和信息應用到實踐中去,從而提供量化的、合理的、可行的、且能產生巨大價值的信息。
挖掘大數據中隱含的有用信息需設計和開發相應的數據挖掘和學習演算法。演算法的設計和開發需以具體的應用數據作為驅動,同時在實際問題中得到應用和驗證,而演算法的實現和應用需要高效的處理平台,這個處理平台可以解決波動性問題。高效的處理平台需要有效分析海量數據,及時對多元數據進行集成,同時有力支持數據化對演算法及數據可視化的執行,並對數據分析的流程進行規范。
總之,應用、演算法、數據、平台這四個方面相結合的思想,是對大數據時代的數據挖掘理解與認識的綜合提煉,體現了大數據時代數據挖掘的本質與核心。這四個方面也是對相應研究方面的集成和架構,這四個架構具體從以下四個層面展開:
應用層(Application):關心的是數據的收集與演算法驗證,關鍵問題是理解與應用相關的語義和領域知識。
數據層(Data):數據的管理、存儲、訪問與安全,關心的是如何進行高效的數據使用。
演算法層(Algorithm):主要是數據挖掘、機器學習、近似演算法等演算法的設計與實現。
平台層(Infrastructure):數據的訪問和計算,計算平台處理分布式大規模的數據。
綜上所述,數據挖掘的演算法分為多個層次,在不同的層面有不同的研究內容,可以看到目前在做數據挖掘時的主要研究方向,如利用數據融合技術預處理稀疏、異構、不確定、不完整以及多來源數據;挖掘復雜動態變化的數據;測試通過局部學習和模型融合所得到的全局知識,並反饋相關信息給預處理階段;對數據並行分布化,達到有效使用的目的。
四、大數據挖掘系統的開發
1.背景目標
大數據時代的來臨使得數據的規模和復雜性都出現爆炸式的增長,促使不同應用領域的數據分析人員利用數據挖掘技術對數據進行分析。在應用領域中,如醫療保健、高端製造、金融等,一個典型的數據挖掘任務往往需要復雜的子任務配置,整合多種不同類型的挖掘演算法以及在分布式計算環境中高效運行。因此,在大數據時代進行數據挖掘應用的一個當務之急是要開發和建立計算平台和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
之前提到一個數據挖掘有多種任務、多種功能及不同的挖掘演算法,同時,需要一個高效的平台。因此,大數據時代的數據挖掘和應用的當務之急,便是開發和建立計算平台和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
2.相關產品
現有的數據挖掘工具
有Weka、SPSS和SQLServer,它們提供了友好的界面,方便用戶進行分析,然而這些工具並不適合進行大規模的數據分析,同時,在使用這些工具時用戶很難添加新的演算法程序。
流行的數據挖掘演算法庫
如Mahout、MLC++和MILK,這些演算法庫提供了大量的數據挖掘演算法。但這些演算法庫需要有高級編程技能才能進行任務配置和演算法集成。
最近出現的一些集成的數據挖掘產品
如Radoop和BC-PDM,它們提供友好的用戶界面來快速配置數據挖掘任務。但這些產品是基於Hadoop框架的,對非Hadoop演算法程序的支持非常有限。沒有明確地解決在多用戶和多任務情況下的資源分配。
3.FIU-Miner
為解決現有工具和產品在大數據挖掘中的局限性,我們團隊開發了一個新的平台——FIU-Miner,它代表了A Fast,Integrated,and User-Friendly System for Data Miningin Distributed Environment。它是一個用戶友好並支持在分布式環境中進行高效率計算和快速集成的數據挖掘系統。與現有數據挖掘平台相比,FIU-Miner提供了一組新的功能,能夠幫助數據分析人員方便並有效地開展各項復雜的數據挖掘任務。
與傳統的數據挖掘平台相比,它提供了一些新的功能,主要有以下幾個方面:
A.用戶友好、人性化、快速的數據挖掘任務配置。基於「軟體即服務」這一模式,FIU-Miner隱藏了與數據分析任務無關的低端細節。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現有演算法直接組裝成工作流,輕松完成一個復雜數據挖掘問題的任務配置,而不需要編寫任何代碼。
B.靈活的多語言程序集成。允許用戶將目前最先進的數據挖掘演算法直接導入系統演算法庫中,以此對分析工具集合進行擴充和管理。同時,由於FIU-Miner能夠正確地將任務分配到有合適運行環境的計算節點上,所以對這些導入的演算法沒有實現語言的限制。
C.異構環境中有效的資源管理。FIU-Miner支持在異構的計算環境中(包括圖形工作站、單個計算機、和伺服器等)運行數據挖掘任務。FIU-Miner綜合考慮各種因素(包括演算法實現、伺服器負載平衡和數據位置)來優化計算資源的利用率。
D.有效的程序調度和執行。
應用架構上包括用戶界面層、任務和系統管理層、邏輯資源層、異構的物理資源層。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘演算法的集成、多重任務的配置及系統用戶的交付功能。一個典型的數據挖掘任務在應用之中需要復雜的主任務配置,整合多種不同類型的挖掘演算法。因此,開發和建立這樣的計算平台和工具,支持應用領域的數據分析人員進行有效的分析是大數據挖掘中的一個重要任務。
FIU-Miner系統用在了不同方面:如高端製造業、倉庫智能管理、空間數據處理等,TerraFly GeoCloud是建立在TerraFly系統之上的、支持多種在線空間數據分析的一個平台。提供了一種類SQL語句的空間數據查詢與挖掘語言MapQL。它不但支持類SQL語句,更重要的是可根據用戶的不同要求,進行空間數據挖掘,渲染和畫圖查詢得到空間數據。通過構建空間數據分析的工作流來優化分析流程,提高分析效率。
製造業是指大規模地把原材料加工成成品的工業生產過程。高端製造業是指製造業中新出現的具有高技術含量、高附加值、強競爭力的產業。典型的高端製造業包括電子半導體生產、精密儀器製造、生物制葯等。這些製造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數、精確的過程式控制制和材料的嚴格規范。產量和品質極大地依賴流程管控和優化決策。因此,製造企業不遺餘力地採用各種措施優化生產流程、調優控制參數、提高產品品質和產量,從而提高企業的競爭力。
在空間數據處理方面,TerraFly GeoCloud對多種在線空間數據分析。對傳統數據分析而言,其難點在於MapQL語句比較難寫,任務之間的關系比較復雜,順序執行之間空間數據分許效率較低。而FIU-Miner可有效解決以上三個難點。
總結而言,大數據的復雜特徵對數據挖掘在理論和演算法研究方面提出了新的要求和挑戰。大數據是現象,核心是挖掘數據中蘊含的潛在信息,並使它們發揮價值。數據挖掘是理論技術和實際應用的完美結合。數據挖掘是理論和實踐相結合的一個例子。
-
-

⑩ 微博賬號異常狀態怎麼辦

1、在手機或者電腦上登錄自己的微博,電腦上是一樣的操作,發現有提示賬號異常,點擊選擇激活。

2、然後就可以選擇自己的好友的頭像和昵稱匹配,答對了就可以激活賬號了,如果不記得好友的頭像,那麼可以點擊選擇簡訊驗證碼(需要綁定了手機才行,沒綁定手機的話還是用頭像和昵稱匹配)。

3、點擊了簡訊驗證碼後,在新彈出的界面選擇免費獲取驗證碼。

4、手機收到驗證碼後,將驗證碼輸入,然後點擊激活微博即可。

5、在電腦上也是相同的操作,既可以選擇通過昵稱與頭像匹配,也可以通過手機簡訊驗證。

閱讀全文

與社交網路異常檢測相關的資料

熱點內容
網路語言22k是多少錢 瀏覽:347
手機上最好玩的不需要網路的游戲 瀏覽:511
無線網路連接顯示受限 瀏覽:40
怎麼看網路在不在一個網段 瀏覽:517
攝像頭怎麼設置24g網路 瀏覽:897
網路直播帶貨哪個平台好 瀏覽:69
進行網路學習的原因有哪些 瀏覽:117
手機上4g網路的標記 瀏覽:349
網路共享啟用網路失敗 瀏覽:877
網路延遲請使用密碼開門 瀏覽:926
wifi網路電話l 瀏覽:784
手機卡網路差也連不了網怎麼回事 瀏覽:455
開啟無線連接後網路不能用 瀏覽:59
為什麼電視信號比網路信號清晰 瀏覽:878
網路和現實的邊界在哪裡 瀏覽:252
魅族手機鏈接不上網路 瀏覽:636
下列哪個是所有直接參與網路通信 瀏覽:256
pr軟體安裝需要網路么 瀏覽:479
學校網路歸哪個部門管 瀏覽:299
瑞風s3導航網路連接失敗 瀏覽:439

友情鏈接