已匯入:高雄市政府

  • 匯入:https://sheethub.com/data.kaohsiung.gov.tw
  • 網址:高雄市政府
  • 狀態:目前只有把有 JSON API 的部份上傳(約 70 多個檔案,出現 4 個錯誤),還有 34 個 XML 沒有上傳。此網站因為前後檔案不一,這是目前花費最大心力爬的網站。

  • 網站分析:

    • 扣分:網頁上每一個頁面的簡介沒有一致性,沒有使用一致的 html tag 標記,而且用字稍微有一點不一樣,像是:「資料下載」以及「下載」,導致機器很難處理。推測這一個平台是他們自己從頭刻出來的,包含分類顯示使用 javascript display: none 的方式我還是第一次看到。但資料管理頁面假如是一個文字區塊,而需要每一筆資料的文字是手動複製貼上,這樣難以管理而且容易出錯。比如說視障按摩的資料裡,「下載即時資訊XML」,但網頁上大部份連結都是「下載即時資訊: XML」。解決方法,是使用正面表列:告訴 scrapper 哪些欄位要,才放進來
    • 扣分:經濟建設無法使用:瀏覽器似乎要先經過 cookie 驗證,然後跳到 IBM 頁面,我沒有辦法透過機器存取這一個頁面。而且該頁面的 XML 下載到 SheetHub 後有問題(還在研究是哪一端出現的問題,不過現在的檔案 Google Refine 也沒有辦法順利 parsing)
    • 更新頻率寫即時,但諸如經濟指標的資料是每年才有一次
    • 這目前唯一看到有日文、英文介面。不過資料簡介還是中文,或許沒有多少的幫助。