需要注意的是,情緒分數落在中立區間( 3.75~6.25 )的新聞,會有兩種狀況:
B. 情緒明顯,但因為有正面、有負面,被抵銷了(混合)
這種狀況可以用「情緒強度」這個數值來輔助判斷,上述 A 和 B 兩種類型的新聞,分數分佈的特徵分別是:
再加上由於情緒強度是累加的,只要文字內容出現情緒用字(無論正負面),都會提高情緒強度,所以文章長度也需要被列入考量,文章的篇幅愈長,情緒強度通常也會愈高。
為了將「情緒強度」和「文章長度」都納入考量,但 google 給這兩個數值的範圍都是 0 到無限大,我們將所有語句的情緒強度以邏輯函數(logistic function)標準化,長度(字數)以自然對數函數標準化,讓它被限制在某個數值區間內。 接著,將標準化過的「情緒強度」除以「文章長度」,得到「平均情緒強度」,去掉篇幅對情緒造成的影響。並將「情緒分數」乘以「平均情緒強度」作加權,凸顯情緒強度的影響,得到該篇文章的情緒分數。
透過標準化與加權,最後在專題內使用的「情緒分數」與 Google 最初回傳的數字不同。
另外,Google 只能分辨是「正面」還是「負面」,無法確切分辨情緒內容。舉例來說,生氣和難過都是負面情緒,但 Google 只會標示其為負面情緒,而非生氣或難過。
我們也無法判斷這篇新聞的情緒實際是指向誰。若一篇讚揚 A 的正面新聞,同時提到同選區的參選人 B,則這篇新聞中的兩個關鍵字(A和B)都會獲得正面分數。
因此,在情緒有高度起伏時,與它關聯的關鍵字也會受到一些影響。如韓國瑜的平均新聞情緒大幅往負面掉落時,陳其邁的平均新聞情緒也會被拉低,你可以透過觀看當天的新聞標題來理解情緒的起伏來自誰。
我們會持續追蹤到 2020 年,你可以使用我們開發的查詢工具觀看各個關鍵字媒體報導的風向,也可以加入編輯室來追蹤我們的最新發現。