但這些都是散落在四處的「點」。即便有資料,我們還是必須花費大量的人工,將這些親屬關係全數蒐集起來、驗證後建檔,才能進行下一步的視覺化與分析。
過去曾經做過公眾人物關係專題的至少就有公視 P# 新聞實驗室、關鍵評論網、天下雜誌,但就我所知,包括 READr 在內,儘管網路上的資料眾多、過去也有這麼多相關專題的前例,我們仍得從零開始。
但如果每次做完類似的專題,花大把人力蒐集完資料,都可以將這些資料上傳到同一個地方,這些新聞專題的資料與力量就不再只是個體,而是 1+1+1⋯⋯不用多久,我們就能有一個大型的公眾人物關係資料庫了。
不只新聞媒體,現存的「關係資料」專案如:g0v 獎助金得主「台電金流追追追」爬梳的「立委關係人」、「透明足跡」爬梳的「集團與子公司」資料等等,國外的 Popolo 計畫也有許多鄉民自願寫政府網頁爬蟲程式,資料生產的方式五花八門,但只要透過一致的格式匯出結果,就能將這些「線」匯集成「面」。
當然,資料的建立需要有所依據。除了上傳資料一定要附上資料來源以外,我們也新增「驗證」關卡,讓其他網友來幫你確認資料是不是對的。所以,協力的方式除了新增資料,你也以隨時打開網頁,點選「驗證」按鈕,協助看看其他人新增的資料是不是正確的。
驗證正確次數達到一定比例,該筆資料就會匯進資料庫。我們也會在不久後公開這些驗證完成的資料,以 CC0 授權。
READr 在 2018 年推出《 數讀政治獻金 》專題時,因為政治獻金資料只能進監察院印出紙本,需要大量人力整理數位化,當時我們花了近 2 個月的時間,才完成資料整理、視覺化及分析報導。 後來《政治獻金法》修法,選舉政治獻金明細全數公開上網,今年我們在更新第 10 屆立委的政治獻金資料庫時,從資料校對、清理到上線只花了一週。
耗費時間大量減少,除了歸功於資料終於開放上網以外,我們沿用已開發好的視覺化套件,只要把乾淨的、同樣格式的資料倒進去,第十屆的立委政商關係圖就能立刻呈現。
原計畫 Popolo 就是這樣的概念。我當年是在韓國首爾參加世界調查記者組織舉辦的亞洲年會時聽到講者分享,講者當場展示了很多可以套用 Popolo 資料的視覺化套件。只要倒進同樣格式的資料,就能馬上將你的關係資料視覺化。
READr 也預計針對臺灣政商人物關係資料庫推出視覺化查詢資料庫,讓讀者可以方便地搜尋群眾協力建置完成的資料。
如果你不滿意 READr 的呈現方式,你也可以寫一個自己的視覺化套件。反正資料是全數開放的,大家盡量拿去用!
我自己覺得當記者的這幾年來,我的腦袋就充斥著這樣的資料。資訊四散在各處,在報導裡、在筆記裡、在錄音檔裡、有些只是模糊的印象,但一直缺乏系統性的整理。每做一個題目,關於資料的整理都得從頭來過。
READr 透過開放資料與程式碼開源,希望降低新聞行業的「重工」比例,這次推出臺灣政商人物關係資料庫也是同樣的初衷。枯燥無味的基本功大家一起來做,打好基礎,就有更多的時間可以花在精進資訊傳遞的方式、深度或調查報導上面。
目前臺灣政商關係資料庫計畫仍在初初初初版,我們預計會推出的功能有:
開放標籤功能,讓參與者能知道資料庫已經有哪類的資料被上傳(例如,選舉後要一次更新很多資料。若你想協助幫忙更新立委的資料,你可以在資料加上「第X屆立法委員」的標籤,這樣別人就知道這份資料已經被上傳,可以去處理其他的資料)
將已驗證的資料以 csv 格式開放給使用者下載
開放更多表單,目前預計會開放的表單還有:選舉資料、著作資料(想幫忙新增政治人物的論文?請期待!)、行動資料、表決資料、談話資料、資產資料、政治獻金資料⋯⋯還有什麼資料是你覺得可以新增的嗎?歡迎許願!
推出視覺化版本的臺灣政商關係資料庫,方便使用者查詢