開放資料,其實並不如想像中容易。
試想一下,生物學家們研究各種不同的動物和植物,不同的紀錄方式、研究目的、不同的田野調查,並收集了大量的相關資料,以便日後的研究和比較。可是,每個研究者都使用不同的方式來記錄這些資料,這樣就會讓人很難將這些資料整理在一起,也很難做出準確的比較。這就像是大家都在寫不同的語言,無法溝通一樣。
為了瞭解物種多樣性,我們需知道哪些生物在何時、何地出現,這就是「資料」。資料是根據公認標準的觀測紀錄、測量或事實。而「資訊」是通過資料分析與解釋獲得的知識。💡
生物資料的類型
生物資料的內容包山包海,例如點位紀錄、照片、聲音、影片、DNA序列等等都囊括其中;通過生物多樣性資料的累積,我們可以認識不同地區的物種多樣性。
當累積了足夠的資料,研究人員就可將其與其他資料進行分析、評估、和多元的研究,以促進生物資源的保育與應用。舉例來說,我們可以從現有的資料中找到有用的生物資源,或制定策略以解決社會與生態系統所面臨的挑戰。
那麼,要怎麼能讓大家的資料,能夠跨世界的被不同人給理解、並使用呢?
DwC達爾文核心集
為了讓不同研究者的生物資料可以被妥善的使用,資料整理的專家們,就生出了達爾文核心集( Darwin Core, DwC),DwC是一個用於生物學資料的標準格式。它的目的是讓科學家能夠共享、整理和比較生物學資料,特別是物種的描述和分類資訊。🔍 (TDWG團隊訂立的:https://www.tdwg.org/)
DwC就像是一種通用的語言,它定義了生物多樣性資料應該以怎樣的方式組織和呈現,提供一套共同的規範,使得不同的研究者可以使用相同的結構來描述他們的資料。這樣一來,無論資料來自哪個研究者或來源,我們都可以將它們整合到一個統一的資料庫中,而標準化格式對於生物學研究的進展非常重要,因為它可以促進合作、重複實驗和跨領域的研究。
舉例來說
如果A在研究鳥類,B在研究昆蟲,當他們都使用DwC的標準格式來描述與紀錄其研究的生物資料,那麼不論資料是什麼樣的內容,其他人都可以將他們整合在一起,進行不同領域的研究。 在進行生物調查的紀錄,如能清楚定義欄位格式與說明,讓資料符合「資料標準」,那麼將使研究工作事半功倍,資料集主要可以被分為以下三大類: 出現紀錄 (occurrence)、物種名錄(taxon)、調查活動(sampling event),以這些基礎欄位為核心,並再補充說明調查目的與相關資訊,能讓資料集更佳加完整。 你是否有疑問,明明不同研究者紀錄的方式跟內容都不同,為什麼會分為這三類的?因為即使紀錄內容不同,依然可以從三個大方向做初步的資料架構分類:
⭐️ taxon 物種名錄: 主要以物種清單及分類學資訊為主,舉例:植物誌、動物誌
⭐️ occurrence 出現紀錄: 像是某個物種在什麼時間什麼地點出現,舉例:博物館標本典藏資料、大多數的公民科學資料等
⭐️sampling event 調查活動: 就是有系統性的調查方式跟設計,舉例:長期監測資料、自動相機資料