但單從發文時間判定有一定的危險性。因為此次 Twitter 公佈的 936 個刪除帳號中,有高達 50 個帳號其實從來沒有發過文。
我們從機器學習找到了另一個兩組帳號的共同特徵:帳號追蹤與被追蹤的人數,這兩個數據某種程度代表這些帳號是不是真的是使用社群網站來「交朋友」。同樣地,我們也取得大量隨機帳號,比較兩者的差別。
在去除極端值之後,我們發現被視為「網軍」的帳號,無論被追蹤人數(follower)多寡,他們都會追蹤大量的人(following)。網軍帳號通常追蹤很多人,但是追蹤人數比一般人低,驗證了另一篇報導中的網軍互動模式:這些帳號會嘗試標注(mention)其他流量較高的帳號,但他們實際上很少透過 Twitter 跟別人社交。
註:為了讓圖表內的特徵表現更明顯,我們去除極端值,只留下追蹤其他帳號個數以及追蹤者人數都低於 15,000 人的帳號呈現)
長期研究網軍、台北大學犯罪學研究所助理教授沈伯洋在 READr 的上一篇關於 Twitter 的報導中提到,網軍行動通常有不同分工,作為「節點」功能的帳號,會在乎雙向追蹤;作為「海量發文」功能的帳號,就比較不在乎他人是否追蹤。從這些帳號特徵一致性,再次彰顯「這批中國網軍的分工沒有那麼細」。
再加上這批帳號明顯在亞洲上班時間發文,「很遵守《勞基法》。」沈伯洋笑道。他指出,中國的省台辦、市台辦有自己的網軍,這種就是很有系統地在上班;另一種就是外包給行銷公司,而發文時間算是近年 Twitter 會去注意的標準,「如果外包給行銷公司還這麼守時,那就是很低級的錯誤。」
「但這可能是件好事。因為就我所知,臺灣的行銷公司都不會犯這種低級錯誤,那至少這批中國網軍不是外包給臺灣公司做的。」沈伯洋說。
除了以上兩個行為,從「網軍帳號」跟「隨機一般帳號」的使用行為比較中,另一個可能的歧異是「使用者回報地點」(user_reported_location)。
由於此欄位可以自行填寫,從我們作為隨機樣本的 1227 個帳號中,共有 595 個不同的答案(48%);而這批 940 個網軍帳號只有 181 個不同的答案(19%),比例低了很多,且刪除帳號中有相當高的比例的回報地點是「空白」,也成為一種特徵。
(註:由於「發文時間」完整呈現在另一張圖表,此圖排名已扣除「發文時間」,否則影響辨識網軍帳號與一般帳號差別程度的前三名應該是發文時間 1 時、21 時、20 時)
我們透過幾次不同的隨機帳號取得,總共測試超過千萬筆貼文模式,讓機器學習的結果有更好的理論基礎,雖然明確地找出幾個可疑的特徵,但我們相信 Twitter 仍然隱藏了部分資料沒有公佈,而這些隱藏的資料可能是判斷網軍帳號與否的重要依據。
隨著俄羅斯網軍影響美國大選的證據慢慢浮上檯面,社群平台也開始重視這些可能是以國家資源支援(potential state-backed)、在社交平台上影響各國政治的活動。如 Twitter 於 2016 年在美國國會承諾,將定期公布他們對外國勢力如何干預 Twitter 上政治議題的調查成果。2018 年 10 月,Twitter 首次公佈刪除的伊朗網軍帳號資料集,至今已經有數以千計的研究人員下載這些資料進行研究。 今年 6 月,從 Twitter 的新聞稿中可以看見他們的調查成果以及釋出的資料,包括伊朗、俄羅斯、西班牙、委內瑞拉的網軍,隨後,就是 8 月公布的中國網軍。按照往例,Twitter 會釋出這些被刪除資料集,代表他們已經調查一段時間了。Twitter 的調查工作除了例行性的監測,有所發現時會花數天至數月的時間進行深入調查,除了技術人員與研究單位以外,他們也與當地的執法機關合作,在調查結束後,也會將相關的結果交給同業及相關執法機關。 從機器網軍發展到國家資源支持的政治網軍,有困擾的不只是社群平台,還有被動搖民主的政府體系、以及直接被不實訊息或片面資訊影響的一般大眾。社群平台嘗試透過增加透明度來對抗,如何將這股力量延續到最基層的民眾,培養辨識網軍的認知,將是民主社會的巨大挑戰。