閱讀進度0%

記者筆記:READr 如何探索武漢肺炎的假訊息(下)

記者筆記:READr 如何探索武漢肺炎的假訊息(下)

閱讀時間 8 分鐘

(本篇記者筆記內容曾在 7 月 12 日 Hack/Hackers Taipei 小聚分享過!此為文字版本~)
現在好像流行結論先講。這篇會分享的內容有:
  • 這個題目是怎麼來的?
  • 資料選擇、處理和分析(及不知道誰會用得上的小撇步)
  • 從資料到報導,可以更好的地方
上一篇分享了:
  • READr 到底做了什麼?
  • 形式呈現有什麼考量?
做資料新聞最常被問的問題,就是:是先有題目、還是先有資料?這個問題我自己回答過、也四處問過國際的資料新聞團隊,答案通常都一樣,就是兩種都有。而這次的題目是標準的「先有資料,才有題目」。
先有資料再找題目其實非常困難,因為要做非常多的假設,一個一個實驗,也可能得到全部的假設都落空的結果,並在落空的過程中找出新的路。
雖然最初也是帶著一個假設才找到資料的。大約 3 月時,我們想要暸解全世界的人是怎麼看待跟討論武漢肺炎,因為 Twitter 是外國人比較常用的、也是相對比較容易取得資料的社群媒體,有了探索 Twitter 資料的想法。剛好政治大學的鄭宇君老師從 1 月就開始備份武漢肺炎的 Twitter 資料,讓我們有極好的資料可以探索。
所謂完整的資料,是 500 萬筆資料(這是截至 3 月底,然後到這篇的時候截至 5 月底,已經變成800 萬)。要在這麼大量的資料中找到寶藏,真的是非~常~痛~苦的探索過程,每天都在懷疑人生,懷疑自己是在浪費時間還是在對的路上前進。
總之在 5 月時,我成功產出了第一篇:武漢肺炎熱門推文的報導。而在推文熱門榜中,出現了假訊息。在還沒正式產出、在團隊的例行會議上報告這篇報導的架構時,有同事就提出特別想看假訊息這個角度。
正好,我知道國際事實查核組織聯盟(IFCN)有一個武漢肺炎查核報告資料庫,就決定從這份資料下手。而當時台灣民主實驗室也出了一份報告,是關於臺灣假訊息的研究,收了不少臺
灣社群平台的資料,可以當作輔佐;再加上 cofact (LINE 的回報謠言機器人)的資料,應該綽綽有餘⋯⋯吧?

資料選擇、處理和分析

IFCN 事實查核報告資料庫中,每篇查核報告都有英文標題、摘要、日期、散佈地點、查核組織名稱、原始的查核報告連結,以及該謠言在哪些平台散佈。
首先,我將 IFCN 資料庫中的查核報告用爬蟲的方式抓下來,得到超過 5000 篇查核報告。最一開始的視野也只是臺灣,我依照受訪者給我的角度:臺灣在口罩的假訊息特別有特色,跟國際相比是兩個極端,只先探索關於口罩的假訊息。
邊看邊分類,邊想,我要怎麼知道臺灣是「特別」的?如果沒有比較的基準,要怎麼知道臺灣的特色呢?我就跟主管報備,難得有這麼好的資料,我想要將人工分析的範圍從受訪者提到的特色點擴大到全部的資料,也就是 5000 多篇查核報告。
4 月 7 日,路透社新聞研究所出了一篇假訊息報告,我心想:「動作太慢果然被搶題目了!」我從中看到很精彩的假訊息分析,但細看了圖表裡的樣本數,只有 200 多篇⋯⋯嗯!?我當時才突然意識到,做 5000 多篇的分析是一件多瘋狂的事!
但也感謝路透社新聞研究所,提供了一個很好的研究方法。我們參考了他們的研究方法,再新增了 2 個類別,開始這 5000 多篇查核報告的資料探索。

工人智慧

資料探索聽起來很浪漫,其實「工人智慧」就是一篇一篇看,然後幫它歸類,就這樣。沒有什麼很酷炫的技術,就是眼睛跟頭很痛而已。
接下來跟大家分享一些人工作業的小訣竅(雖然我不知道有誰會有機會用到 XD):

1. Google spreadsheet 一鍵翻譯

這份資料的好處是有英文的摘要,比一篇一篇點進查核報告看容易多了。但對我來說,看中文還是比看英文快,這時就推薦 google spreadsheet 的公式:
=googletranslate("要翻譯的文字位置","原文語言代號","翻譯語言代號")
一瞬間!5000 多篇查核報告就翻譯完成了!

2. 透過斷詞輔助歸類

本來是想用斷詞來看各個國家假訊息的特色,但發現僅有摘要的話,文本不太足夠,但我發現這份資料(斷詞結果)有另一個功能!它可以協助我的歸類工作。
例如斷詞結果出現了「cure」,可以想見是有關醫學偏方的假訊息(例如,咖啡可以治癒武漢肺炎),當然也有可能是別的內容,但我只要先在文本裡搜索「cure」這個詞,稍微掃一下過濾出來的結果有沒有其他例外,就可以很快速地幫過濾出來的幾百筆查核報告標上醫學偏方的標籤。真的比一篇一篇看快多了
除了斷詞以外,如果我發現有個謠言出現很多次(同一則假訊息常常出現在不同國家),我也會已此關鍵字過濾整批資料。
我採用的斷詞方式有 2 種,一種是單純的數量斷詞(看一個文本中同一個詞出現的次數)、以及 TFIDF(可以過濾掉常用詞,算出文本中獨特的詞彙分數)。兩種結果我都有採用。

3. Google 文件內建 OCR

Google 文件內建 OCR
除了假訊息的主題以外,我們也想要看看這些假訊息的影響力。「謠言的原文」是追溯謠言的影響力非常重要的關鍵,但在這批資料裡,並沒有這個欄位,謠言的原文藏在每一篇查核報告裡,不同組織的撰寫方式不同,有的組織會寫在文字裡,有的只貼圖片。
最土炮的方式,如果有 100 家查核組織,我就要研究這 100 家查核組織的查核報告寫法、及網站架構寫 100 隻爬蟲(而且這還是假定同一家組織只會有一種報告的寫法)。但在這 5000 多篇事實查核報告中,只有 16% 在 Twitter 上散佈過,成本有點不符。
所以我選擇了比土炮更土炮的方式:人工!我們人工閱覽這些查核報告,把報告裡的假訊息原文抓出來,再丟到鄭宇君老師 800 多萬筆武漢肺炎 Twitter 封存資料裡尋找這些推文的轉推數。找不到的(因為封存資料是用武漢肺炎等特定關鍵字抓取的,若原文沒有相關的關鍵字,就不會被抓到),我有再一篇一篇丟到 Twitter 搜尋查詢。
那麼,如果事實查核報告裡的假訊息原文是用「圖片」,怎麼辦?英文可能還能照著打出來,那日文、韓文、阿拉伯文,怎麼辦?這裡要再次介紹 google 大神出場:
將截圖傳到 google 雲端硬碟中,點擊右鍵,選擇以「google 文件」開啟;就會自動生成一個 google 文件,打開這個 google 文件(見右方紅框),系統會將圖片中的內容轉成文字!
來源:READr 截圖
它支援多國語言,我試過,連我根本看不懂的阿拉伯文也可以正確轉換,大力推薦~

從資料到到資料新聞,對於資料開放者的建議

這次的報導有點像是高麗菜,一層剝一層,從第一篇找到假訊息的角度,而這兩篇做完之後,我現在還在做更深入的內容。
能夠有這麼多分析、這麼多角度可以做,真的仰賴好的資料來源。這一陣子,有蠻多單位來跟 READr 洽談報導合作的機會,都會問到要提供什麼樣的資料才適合?其實這個問題,在過去 3 年和 g0v 社群參與者多次合作的過程中自己也有一些心得,就來分享一下。
以這次的事實查核報告資料庫為例,我就有建議臺灣事實查核中心,若資料的欄位可以包括「假訊息原文」,那會讓追溯假訊息影響力的分析容易許多。
這些資料還有非常多的角度可以探索,光是路透社新聞研究所的分析,就有謠言是從上到下還是從下到上傳播(這裡的上是指權威,如政府、政治人物或名人);謠言的形式是憑空產出還是挪用舊謠言;被查核的假訊息有沒有標上警告標示了等等。
正因原始資料提供的資訊不夠,人工的成本非常高,我猜測這是路透社新聞研究所的樣本只有 200 多篇的原因。曾經起心動念,想要發起協作來邀請讀者一起幫忙標記這些事實查核報告,我們就有更多的內容可以分析。但事後想想,這個資料庫有人維護,所以這個工作應該交給資料維護者(我覺得啦 XD),我就只有把意見反應給他們。
當然,資料維護者不可能在事先就預知所有的使用者會怎麼使用這些資料,而每個研究團會也都會有不同的研究方法,不可能百分之百配合。但光是「資料乾淨」這件事就是可以進步的地方。
首先,這批資料有沒有更容易下載的方式(例如一鍵產出 csv,不用用爬蟲的)?或是資料的欄位可以有固定的寫法(例如,這批資料裡面光 Facebook 就有 facebook、fb、FB 等寫法)?
另外就是持續更新。過去跟社群合作的經驗,很多時候是資料使用方提出一些問題,回頭去問資料維護方有沒有增加欄位、或是新增資料的可能。這非常仰賴兩方的互動,彼此的交流愈緊密,可以創造出的可能性愈大。每一次經驗的累積,也都有助於下一次資料使用能創造出來的可能性。
最後就是開放資料。把階段性的成果開放出來,下一個使用者就可以不用重工,在既有的基礎上繼續發展。而且,把資料開放出來,也才有機會讓別人發現你的盲點,幫忙發現錯誤,有改進的機會。
但這次真的很可惜,因為國際事實查核組織聯盟資料庫基本上沒有授權,所以我們只有開放事實查核報告的網址跟我們歸類的結果。所以大家開放資料的時候也要記得要寫資料授權的方式喔。
贊助 READr 一起媒體實驗改革
相關報導
最新報導