選舉新聞風向球——使用說明書

2019/01/29

閱讀時間 3 分鐘

媒體在報導不同的政治人物時會有情緒差異嗎？針對同一位候選人，媒體報導的情緒在選舉前後會不會有所轉變？我們借助 Google 人工智慧來嘗試解答這些問題，並持續追蹤至 2020 年。
每一種工具或統計方法都會有它的限制，以下是在開始之前，我們想讓你暸解的事：
聲量與情緒
我們以 g0v people-in-news 專案從 2018 年10 月 19 日開始蒐集的新聞內容為基準（工具頁的內容會持續更新到 2020 年選舉，目前分析文章使用的數據則截至 2019 年 1 月 20 日為止），並以 2018 年縣市長候選人、公投議題等分類切成 211 個關鍵字，未來也會根據選舉的變化新增相關關鍵字。

在 261 個媒體來源中，我們刪去了平台服務類（如Google News Feed、LINE、Facebook）、非新聞類（各種部落格如 T 客邦）、非媒體新聞類（政府、NGO 新聞稿）、評論類的網站。
當然，新聞數量不能被視為聲量評估的唯一標準，因為內容涉及了正面與負面。我們使用了 Google 雲端自然語言處理應用程式（Cloud Natural Language API）來分析不同媒體報導新聞時的情緒。
根據使用說明，情緒分析會檢查指定的文字內容，進而識別文字內容的主要情緒主張，特別是判斷撰寫者的態度為正面、負面或中立。
Google 會根據分析結果為每一段文字評分，包括「情緒分數」與「情緒強度」兩個項目。我們主要使用「情緒分數」來作為判定文件情緒的標準，分數介於 -1（負面）和 1（正面）之間。為避免非新聞內容的文字被列入統計，例如字體大小選擇、新聞作者姓名等等，我們排除了「情緒強度」小於 0.1 的語句。
另外，為符合使用者直覺，我們將分數轉換成 1 至 10 分。

將情緒強度也納入計算
需要注意的是，情緒分數落在中立區間（ 3.75~6.25 ）的新聞，會有兩種狀況：
A. 情緒真的不明顯（中立）
B. 情緒明顯，但因為有正面、有負面，被抵銷了（混合）
這種狀況可以用「情緒強度」這個數值來輔助判斷，上述 A 和 B 兩種類型的新聞，分數分佈的特徵分別是：
A. 情緒強度分數低
B. 情緒強度分數高
再加上由於情緒強度是累加的，只要文字內容出現情緒用字（無論正負面），都會提高情緒強度，所以文章長度也需要被列入考量，文章的篇幅愈長，情緒強度通常也會愈高。
為了將「情緒強度」和「文章長度」都納入考量，但 google 給這兩個數值的範圍都是 0 到無限大，我們將所有語句的情緒強度以邏輯函數（logistic function）標準化，長度（字數）以自然對數函數標準化，讓它被限制在某個數值區間內。
接著，將標準化過的「情緒強度」除以「文章長度」，得到「平均情緒強度」，去掉篇幅對情緒造成的影響。並將「情緒分數」乘以「平均情緒強度」作加權，凸顯情緒強度的影響，得到該篇文章的情緒分數。
透過標準化與加權，最後在專題內使用的「情緒分數」與 Google 最初回傳的數字不同。
情緒沒有指向性
另外，Google 只能分辨是「正面」還是「負面」，無法確切分辨情緒內容。舉例來說，生氣和難過都是負面情緒，但 Google 只會標示其為負面情緒，而非生氣或難過。
我們也無法判斷這篇新聞的情緒實際是指向誰。若一篇讚揚 Ａ 的正面新聞，同時提到同選區的參選人 Ｂ，則這篇新聞中的兩個關鍵字（Ａ和Ｂ）都會獲得正面分數。
因此，在情緒有高度起伏時，與它關聯的關鍵字也會受到一些影響。如韓國瑜的平均新聞情緒大幅往負面掉落時，陳其邁的平均新聞情緒也會被拉低，你可以透過觀看當天的新聞標題來理解情緒的起伏來自誰。
我們會持續追蹤到 2020 年，你可以使用我們開發的查詢工具觀看各個關鍵字媒體報導的風向，也可以加入編輯室來追蹤我們的最新發現。

贊助 READr 一起媒體實驗改革