資料視覺化 李慕約公司

Data Visualization

網路政策白皮書 智慧國土

綜合討論

整合性

  • 不要做整合性網站了,這樣只會用 n + 1 個網站解決 n 個網站的問題,把民意溝通留給民間
  • 政府可以做的事情,統一 ID
    • 比如道路、鄉鎮 ID (現在都是用文字,有編碼問題)
  • 資料、資源整合:https://project-open-data.cio.gov/

資料品質

  • 質量標準: 五顆星開放資料
  • 我們先前寫了機器人,光顧台灣 18 個開放資料平台, 7000 筆資料,只有 25% 機器可讀

民意

  • 美國做法:在 300 個政府網站使用同一個 Google
Continue reading...

SheetHub.com 使用問題集

Q: 下載的csv顯然不是big5,試了幾種的格型,顯然也不適用,用excel 2003開也無法打開,請問是否要如何處理?(想到你有暴力的解法,顯然不該用土法煉鋼一個一個試)

A: CSV 的編碼是 UTF-8,不過 Excel 對於處理 UTF-8 CSV 會有些問題,所以如果你想要匯入 Excel 處理的話,建議還是匯出 xlsx 檔案比較好

--

Q: 在sheethun中有可下sql指令的地方,但下了 SELECT count(*) FROM "資料集名稱" 卻不work,不知是否有其他的語法?

A: 目前 SQL 還沒有支援 COUNT(*),因為 SheetHub

Continue reading...

煩惱:資料、資料維度超展開

前言

多謝 @clkao 分享 sdmx-json,一個關於資料維度的定義。

也感謝 @au、@clkao 的訂正,我先前搞錯上面的連結的意思了。我以為是跟資料定義有關。

我認真閱讀了 w3.org 關於資料的文件。 我自已對於閱讀標準蠻排斥,但是因為 SheetHub.com 已經有相當的實作,所以讀起來很有感覺。

關於 URI

URI 應該永遠不要改變。所以這跟我們現在 SheetHub 的做法不一樣,我們現在可以讓使用者自由的更改名字。我們現在有兩個地方會改變,一是使用者可以改資料集的名字,二是使用者加索引的時候,名字會從 ID 變成標籤。

所以這兩件事都不太好,原因是因為別人會連到你的資料,假如你容許可以改變的話,東西就會爆掉。

我們原本的初衷,

Continue reading...

資料就像樂高,邪惡強力膠

資料集就像樂高。

開放資料,就像是接手其他人(政府)玩到一半的樂高。別人通常已經蓋東西蓋到一半,有一個隱含的結構。這一種結構,只是資料一種組合方式而已,應該還有各式各樣的組合方式。

而拿到樂高的第一件事情,就是把別人的結構拆掉。拆成碎片。政府不太了解為什麼資料要把結構拆掉,而且拆掉的人還口口聲聲說政府原本蓋的東西很醜。

一方面是越多人使用,本來就越有創意。

二方面是政府受到不同部門的限制,在過去每一個人都只能玩自己單位的樂高,很難進行跨部門整合。像是國土測繪圖資可以出現,算是少數的反例。

假如有這一個想法的話,就不難理解一些相關的問題:

清理樂高:想像樂高的前一個主人,給你了一大箱樂高。他曾經不小心尿在幾塊的樂高上,這幾塊樂高沒救了,所以你想要把它挑出來。因為假如不先挑出來的話,你的程式會爆掉。

要在一箱樂高裡挑出沒救的樂高很困難。現實世界中,一個資料集平均有 2 萬行資料,約 10 個欄位。

Continue reading...

這是你覺得好的資料嗎? 台灣(開放)資料平台九大常見問題

五星級開放資料

(這是初稿,持續更動中)

www.google.com 前面的 www 代表 World Wide Web。網路是一項發明,而且發明網路的人 Tim Berners-Lee 還健在。他的另外一項發明是 5 星級開放資料,我們下面就會用這一個標準檢視資料:

一星級的資料:開放授權

make your stuff available on the Web (whatever format) under an open license

(翻譯)資料以開放授權的方式,任意格式釋出

開放授權就像是民主一樣,每一個國家都可以宣稱自己是民主國家。

圖為香港大學校園,

Continue reading...