資料標準化

資料標準與模板

在生物多樣性的領域,主要負責開發及維護資料標準的是生物多樣性資訊標準組織。 作為國際生命科學聯盟的附屬機構,該非營利的科學及教育協會專注於開發生物及生物多樣性資料的交換標準。 生物多樣性的社群成員一般將此組織稱為TDWG(音同 Tad-Wig),因其前身為分類學資料庫工作小組(Taxonomic Databases Working Group)。

Darwin Core Standard 達爾文核心標準(簡稱 DwC),是目前國際通用的生物多樣性資料標準,也是TaiBIF和GBIF體系在推廣並提供的資料架構及概念。

Ecological Metadata Language 生態詮釋資料語言(簡稱 EML),則是一種詮釋資料(metadata)規範。 它使用一系列模組化、可擴展的 XML 文件類型來記錄生態資料集的資訊。 所有資料集的描述都依賴詮釋資料; 也就是說,關於資料的資訊都使用此開源 EML 標準—它是由生物複雜性知識網絡所管理及維護。 每個達爾文核心集資料檔案的組成部件中都包含一個 EML 文件(以XML 格式撰寫)。

達爾文核心標準 Darwin Core

一份好的資料集,必須可以再利用(具互操作性),若能提供越多欄位資料,則資料的品質及價值也能相對地提高,在任何情況下,資料集至少要有下列所述的 Darwin Core 欄位

相關參考連結:
  • DwC 資料欄位的各集合內容:Darwin Core Registered Extensions(按核心資料表 core 和延伸資料表 extension 分類
  • DwC 資料欄位標準英文定義快速查詢:Darwin core quick reference guide(按詞條的類別 Category 分類)

物種名錄 Checklist

DwC 欄位名稱 所屬類別 定義 常見對應名稱 範例
taxonID Taxon 分類識別碼,可設定有意義的組合格式,或使用全球唯一辨識碼(GUID)或通用唯一辨識碼(UUID),序號不可有重複。 ID、編號 32567
scientificName Taxon 完整的學名,包括已知的作者和日期資訊。若是作為鑑定的一部分,應是可確定的最低分類階層的名稱。 學名、Name、名字 "Coleoptera" (目), "Vespertilionidae"(科), "Manis" (屬), "Ctenomys sociabilis" (屬 + 種小名),"Ambystoma tigrinum diaboli" (屬 +種小名 + 亞種小名), "Roptrocerus typographi (Györfi, 1952)" (屬 + 種小名 + 學名命名者), "Quercus agrifolia var. oxyadenia (Torr.) J.T.
taxonRank Taxon 物種的分類階層 分類階層 "genus", "species", "subspecies", "family"

出現紀錄 Occurrence

DwC 欄位名稱 所屬類別 定義 常見對應名稱 範例
occurrenceID Occurrence 出現紀錄識別碼,可設定有意義的組合格式,或使用全球唯一辨識碼(GUID)或通用唯一辨識碼(UUID),序號在此資料集中不可有重複。 ID、編號 32567
basisOfRecord Record-level 資料紀錄的特定性質、類型,建議使用 Darwin Core 的控制詞彙 紀錄類型、樣本來源 保存標本 PreservedSpecimen, 化石標本 FossilSpecimen, 活體標本 LivingSpecimen, 人為觀測 HumanObservation, 材料樣本 MaterialSample, 機器觀測 MachineObservation
eventDate Event 該筆資料被記錄的日期。 調查日期、Date、日期 「1994-11-05」代表單日;「1996-06」代表 1996 年 6 月;「2022-01/02」代表2022年1-2月(以 "/" 區分);「2023-05-06/12」代表2023年5月6-12日;「1989/1993」代表1989-1993年
individualCount Occurrence 出現紀錄被記錄時存在的個體數量。 數量、個體數 0, 1, 25
locality Location 採集或觀測地點的明確描述。 地點 "觀音山", "Caribbean Sea", "Florida"
verbatimLatitude Location 字面緯度,採集或觀測取得紀錄的緯度,任何座標系統皆可。 緯度 41d 16'N
verbatimLongitude Location 字面經度,採集或觀測取得紀錄的緯度,任何座標系統皆可。 經度 121d 10' 34" W
verbatimCoordinateSystem Location 紀錄的座標單位 座標單位 "decimal degrees", "degrees decimal minutes", "degrees minutes seconds"
decimalLatitude Location 十進位緯度 十進位緯度 -41.0983423
decimalLongitude Location 十進位經度 十進位經度 -121.1761111
geodeticDatum Location 座標的大地基準。建議使用控制詞彙;若全未知,則填入"未知(unknown)"。 大地基準、大地系統 "EPSG:4326", "WGS84", "EPSG:3826" (TWD97 / TM2 臺灣), "EPSG:3828"(TWD67 / TM2 臺灣)

調查活動 Sampling event

DwC 欄位名稱 所屬類別 定義 常見對應名稱 範例
eventID Event 調查活動識別碼,可設定有意義的組合格式,或使用全球唯一辨識碼(GUID)或通用唯一辨識碼(UUID),序號不可有重複。 ID、編號 32567
eventDate Event 該筆資料被記錄的日期。 調查日期、Date、日期 「1994-11-05」代表單日;「1996-06」代表 1996 年 6 月;「2022-01/02」代表2022年1-2月(以 "/" 區分);「2023-05-06/12」代表2023年5月6-12日;「1989/1993」代表1989-1993年
samplingProtocol Event 調查方法或流程的名稱、描述,或其參考文獻。 調查方法、材料方法、Method、Sampling method "UV light trap", "mist net", "bottom trawl", "ad hoc observation",https://doi.org/10.1111/j.1466-8238.2009.00467.x, "Takats et al. 2001. Guidelines for Nocturnal Owl Monitoring in North America."
sampleSizeValue Event 採樣調查中單次採樣的大小數值(時間間隔、長度、範圍,或體積) 採樣量、取樣大小 5 (sampleSizeValue) with metre (sampleSizeUnit)
sampleSizeUnit Event 採樣大小的量測單位 採樣量單位 "minute", "day", "metre", "square metre"
samplingEffort Event 一次調查的努力量 調查努力量 "40 trap-nights", "10 observer-hours", "10 km by foot"

詮釋資料 EML 標準

填寫說明

資料標準概念介紹

PDF講義下載:

主題資料發布指引

Darwin Core 達爾文核心標準(簡稱 DwC),是目前國際通用的生物多樣性資料標準, 也是TaiBIF和GBIF體系在推廣並提供的資料架構及概念。由於DwC根據不同類型的資料需求,提供自由且彈性的欄位及格式參考, 卻也讓資料發布初學者不易上手,無法快速了解自己的資料符合或可用哪些DwC欄位; 加上近年有越來越多新興主題的生物多樣性資料加入開放資料的行列,需求越趨多樣化,因此GBIF開始規劃不同主題的資料發布指引, 並與社群合作設計不同的主題資料架構,希望能更精準地對應不同生物多樣性背景的資料發布者的需求。

目前大多指引文件為英文版,TaiBIF及翻譯協作者們繁體中文翻譯完成將陸續列於下列清單, 更多英文資訊請見GBIF New Data Model

DNA 資料發布指引

說明文件

調查活動資料發布

說明文件