媒體在報導不同的政治人物時會有情緒差異嗎?針對同一位候選人,媒體報導的情緒在選舉前後會不會有所轉變?我們借助 Google 人工智慧來嘗試解答這些問題,並持續追蹤至 2020 年。
每一種工具或統計方法都會有它的限制,以下是在開始之前,我們想讓你暸解的事:
聲量與情緒
我們以 g0v people-in-news 專案從 2018 年10 月 19 日開始蒐集的新聞內容為基準(工具頁的內容會持續更新到 2020 年選舉,目前分析文章使用的數據則截至 2019 年 1 月 20 日為止),並以 2018 年縣市長候選人、公投議題等分類切成 211 個關鍵字,未來也會根據選舉的變化新增相關關鍵字。
在 261 個媒體來源中,我們刪去了平台服務類(如Google News Feed、LINE、Facebook)、非新聞類(各種部落格如 T 客邦)、非媒體新聞類(政府、NGO 新聞稿)、評論類的網站。
當然,新聞數量不能被視為聲量評估的唯一標準,因為內容涉及了正面與負面。我們使用了 Google 雲端自然語言處理應用程式(Cloud Natural Language API)來分析不同媒體報導新聞時的情緒。
Google 會根據分析結果為每一段文字評分,包括「情緒分數」與「情緒強度」兩個項目。我們主要使用「情緒分數」來作為判定文件情緒的標準,分數介於 -1(負面)和 1(正面)之間。為避免非新聞內容的文字被列入統計,例如字體大小選擇、新聞作者姓名等等,我們排除了「情緒強度」小於 0.1 的語句。
另外,為符合使用者直覺,我們將分數轉換成 1 至 10 分。
將情緒強度也納入計算
需要注意的是,情緒分數落在中立區間( 3.75~6.25 )的新聞,會有兩種狀況:
A. 情緒真的不明顯(中立)
B. 情緒明顯,但因為有正面、有負面,被抵銷了(混合)
這種狀況可以用「情緒強度」這個數值來輔助判斷,上述 A 和 B 兩種類型的新聞,分數分佈的特徵分別是:
A. 情緒強度分數低
B. 情緒強度分數高
再加上由於情緒強度是累加的,只要文字內容出現情緒用字(無論正負面),都會提高情緒強度,所以文章長度也需要被列入考量,文章的篇幅愈長,情緒強度通常也會愈高。
接著,將標準化過的「情緒強度」除以「文章長度」,得到「平均情緒強度」,去掉篇幅對情緒造成的影響。並將「情緒分數」乘以「平均情緒強度」作加權,凸顯情緒強度的影響,得到該篇文章的情緒分數。
透過標準化與加權,最後在專題內使用的「情緒分數」與 Google 最初回傳的數字不同。
情緒沒有指向性
另外,Google 只能分辨是「正面」還是「負面」,無法確切分辨情緒內容。舉例來說,生氣和難過都是負面情緒,但 Google 只會標示其為負面情緒,而非生氣或難過。
我們也無法判斷這篇新聞的情緒實際是指向誰。若一篇讚揚 A 的正面新聞,同時提到同選區的參選人 B,則這篇新聞中的兩個關鍵字(A和B)都會獲得正面分數。
因此,在情緒有高度起伏時,與它關聯的關鍵字也會受到一些影響。如韓國瑜的平均新聞情緒大幅往負面掉落時,陳其邁的平均新聞情緒也會被拉低,你可以透過觀看當天的新聞標題來理解情緒的起伏來自誰。