萬華區糖■里

這是全國村里界圖(http://data.gov.tw/node/5968 )裡的小錯誤。應該是編碼轉檔所造成。

edit:原檔案是 big5 編碼,裡面寫的是「糖廍里」,所以應該是由我們這邊 big5 轉 utf8 所產生的編碼錯誤。原政府網站應是正確的。)

之所以可以抓到這一個錯誤,是因為我們對造另外一筆「用電資料」。因為兩個資料集都有完整的名稱,所以我們可以相互對照,哪邊不一致。

可是問題來了,就算我們知道一個資料集有一個錯誤,假如我們沒有辦法「指出」這一個錯誤在哪裡,我們其實沒有辦法改進。這一份資料集總共 7,000 列 x 27 欄,約 20 萬格。

但假如每一個欄位都有一個 unique url,我們就可以給一個超連結,說:「看,這就是哪一個錯誤的資料」,而不是一次丟給別人 20 萬格。

我們有做這一件事情,所以請看,這就是錯誤的資料: https://sheethub.com/ronnywang/全台灣村里界圖_20140501/i/38/臺北市/萬華區/糖■里

所以這是一個小例子,展示為什麼「四星級」資料,讓每一行資料都有 unique url 很重要,以及「五星級」資料,當你可以把不同資料連結起來的時候,就可以對照清理。

這是藏在 20 萬筆裡面的一個小問題,但是因為這些小問題令人抓狂:讓你地圖畫出來會破洞,程式可能會爆掉,並且需要額外來做 type-check預防,預防後還要清理,清理完之後也就只有你一個人使用。其他人需要做一樣的事情。