閱讀進度0%

選舉新聞風向球——使用說明書

閱讀時間 3 分鐘

    媒體在報導不同的政治人物時會有情緒差異嗎?針對同一位候選人,媒體報導的情緒在選舉前後會不會有所轉變?我們借助 Google 人工智慧來嘗試解答這些問題,並持續追蹤至 2020 年。
    每一種工具或統計方法都會有它的限制,以下是在開始之前,我們想讓你暸解的事:

    聲量與情緒

    我們以 g0v people-in-news 專案從 2018 年10 月 19 日開始蒐集的新聞內容為基準(工具頁的內容會持續更新到 2020 年選舉,目前分析文章使用的數據則截至 2019 年 1 月 20 日為止),並以 2018 年縣市長候選人、公投議題等分類切成 211 個關鍵字,未來也會根據選舉的變化新增相關關鍵字。
    在 261 個媒體來源中,我們刪去了平台服務類(如Google News Feed、LINE、Facebook)、非新聞類(各種部落格如 T 客邦)、非媒體新聞類(政府、NGO 新聞稿)、評論類的網站。
    當然,新聞數量不能被視為聲量評估的唯一標準,因為內容涉及了正面與負面。我們使用了 Google 雲端自然語言處理應用程式(Cloud Natural Language API)來分析不同媒體報導新聞時的情緒。
    根據使用說明,情緒分析會檢查指定的文字內容,進而識別文字內容的主要情緒主張,特別是判斷撰寫者的態度為正面、負面或中立。
    Google 會根據分析結果為每一段文字評分,包括「情緒分數」與「情緒強度」兩個項目。我們主要使用「情緒分數」來作為判定文件情緒的標準,分數介於 -1(負面)和 1(正面)之間。為避免非新聞內容的文字被列入統計,例如字體大小選擇、新聞作者姓名等等,我們排除了「情緒強度」小於 0.1 的語句。
    另外,為符合使用者直覺,我們將分數轉換成 1 至 10 分。

    將情緒強度也納入計算

    需要注意的是,情緒分數落在中立區間( 3.75~6.25 )的新聞,會有兩種狀況:
    A. 情緒真的不明顯(中立)
    B. 情緒明顯,但因為有正面、有負面,被抵銷了(混合)
    這種狀況可以用「情緒強度」這個數值來輔助判斷,上述 A 和 B 兩種類型的新聞,分數分佈的特徵分別是:
    A. 情緒強度分數低
    B. 情緒強度分數高
    再加上由於情緒強度是累加的,只要文字內容出現情緒用字(無論正負面),都會提高情緒強度,所以文章長度也需要被列入考量,文章的篇幅愈長,情緒強度通常也會愈高。
    為了將「情緒強度」和「文章長度」都納入考量,但 google 給這兩個數值的範圍都是 0 到無限大,我們將所有語句的情緒強度以邏輯函數(logistic function)標準化,長度(字數)以自然對數函數標準化,讓它被限制在某個數值區間內。
    接著,將標準化過的「情緒強度」除以「文章長度」,得到「平均情緒強度」,去掉篇幅對情緒造成的影響。並將「情緒分數」乘以「平均情緒強度」作加權,凸顯情緒強度的影響,得到該篇文章的情緒分數。
    透過標準化與加權,最後在專題內使用的「情緒分數」與 Google 最初回傳的數字不同。

    情緒沒有指向性

    另外,Google 只能分辨是「正面」還是「負面」,無法確切分辨情緒內容。舉例來說,生氣和難過都是負面情緒,但 Google 只會標示其為負面情緒,而非生氣或難過。
    我們也無法判斷這篇新聞的情緒實際是指向誰。若一篇讚揚 A 的正面新聞,同時提到同選區的參選人 B,則這篇新聞中的兩個關鍵字(A和B)都會獲得正面分數。
    因此,在情緒有高度起伏時,與它關聯的關鍵字也會受到一些影響。如韓國瑜的平均新聞情緒大幅往負面掉落時,陳其邁的平均新聞情緒也會被拉低,你可以透過觀看當天的新聞標題來理解情緒的起伏來自誰。
    我們會持續追蹤到 2020 年,你可以使用我們開發的查詢工具觀看各個關鍵字媒體報導的風向,也可以加入編輯室來追蹤我們的最新發現。
    贊助 READr 一起媒體實驗改革
    最新報導