在生物多樣性的領域,主要負責開發及維護資料標準的是生物多樣性資訊標準組織。 作為國際生命科學聯盟的附屬機構,該非營利的科學及教育協會專注於開發生物及生物多樣性資料的交換標準。 生物多樣性的社群成員一般將此組織稱為TDWG(音同 Tad-Wig),因其前身為分類學資料庫工作小組(Taxonomic Databases Working Group)。
Darwin Core Standard 達爾文核心標準(簡稱 DwC),是目前國際通用的生物多樣性資料標準,也是TaiBIF和GBIF體系在推廣並提供的資料架構及概念。
Ecological Metadata Language 生態詮釋資料語言(簡稱 EML),則是一種詮釋資料(metadata)規範。 它使用一系列模組化、可擴展的 XML 文件類型來記錄生態資料集的資訊。 所有資料集的描述都依賴詮釋資料; 也就是說,關於資料的資訊都使用此開源 EML 標準—它是由生物複雜性知識網絡所管理及維護。 每個達爾文核心集資料檔案的組成部件中都包含一個 EML 文件(以XML 格式撰寫)。
一份好的資料集,必須可以再利用(具互操作性),若能提供越多欄位資料,則資料的品質及價值也能相對地提高,在任何情況下,資料集至少要有下列所述的 Darwin Core 欄位
DwC 欄位名稱 | 所屬類別 | 定義 | 常見對應名稱 | 範例 |
---|---|---|---|---|
taxonID | Taxon | 分類識別碼,可設定有意義的組合格式,或使用全球唯一辨識碼(GUID)或通用唯一辨識碼(UUID),序號不可有重複。 | ID、編號 | 32567 |
scientificName | Taxon | 完整的學名,包括已知的作者和日期資訊。若是作為鑑定的一部分,應是可確定的最低分類階層的名稱。 | 學名、Name、名字 | "Coleoptera" (目), "Vespertilionidae"(科), "Manis" (屬), "Ctenomys sociabilis" (屬 + 種小名),"Ambystoma tigrinum diaboli" (屬 +種小名 + 亞種小名), "Roptrocerus typographi (Györfi, 1952)" (屬 + 種小名 + 學名命名者), "Quercus agrifolia var. oxyadenia (Torr.) J.T. |
taxonRank | Taxon | 物種的分類階層 | 分類階層 | "genus", "species", "subspecies", "family" |
DwC 欄位名稱 | 所屬類別 | 定義 | 常見對應名稱 | 範例 |
---|---|---|---|---|
occurrenceID | Occurrence | 出現紀錄識別碼,可設定有意義的組合格式,或使用全球唯一辨識碼(GUID)或通用唯一辨識碼(UUID),序號在此資料集中不可有重複。 | ID、編號 | 32567 |
basisOfRecord | Record-level | 資料紀錄的特定性質、類型,建議使用 Darwin Core 的控制詞彙 | 紀錄類型、樣本來源 | 保存標本 PreservedSpecimen, 化石標本 FossilSpecimen, 活體標本 LivingSpecimen, 人為觀測 HumanObservation, 材料樣本 MaterialSample, 機器觀測 MachineObservation |
eventDate | Event | 該筆資料被記錄的日期。 | 調查日期、Date、日期 | 「1994-11-05」代表單日;「1996-06」代表 1996 年 6 月;「2022-01/02」代表2022年1-2月(以 "/" 區分);「2023-05-06/12」代表2023年5月6-12日;「1989/1993」代表1989-1993年 |
individualCount | Occurrence | 出現紀錄被記錄時存在的個體數量。 | 數量、個體數 | 0, 1, 25 |
locality | Location | 採集或觀測地點的明確描述。 | 地點 | "觀音山", "Caribbean Sea", "Florida" |
verbatimLatitude | Location | 字面緯度,採集或觀測取得紀錄的緯度,任何座標系統皆可。 | 緯度 | 41d 16'N |
verbatimLongitude | Location | 字面經度,採集或觀測取得紀錄的緯度,任何座標系統皆可。 | 經度 | 121d 10' 34" W |
verbatimCoordinateSystem | Location | 紀錄的座標單位 | 座標單位 | "decimal degrees", "degrees decimal minutes", "degrees minutes seconds" |
decimalLatitude | Location | 十進位緯度 | 十進位緯度 | -41.0983423 |
decimalLongitude | Location | 十進位經度 | 十進位經度 | -121.1761111 |
geodeticDatum | Location | 座標的大地基準。建議使用控制詞彙;若全未知,則填入"未知(unknown)"。 | 大地基準、大地系統 | "EPSG:4326", "WGS84", "EPSG:3826" (TWD97 / TM2 臺灣), "EPSG:3828"(TWD67 / TM2 臺灣) |
DwC 欄位名稱 | 所屬類別 | 定義 | 常見對應名稱 | 範例 |
---|---|---|---|---|
eventID | Event | 調查活動識別碼,可設定有意義的組合格式,或使用全球唯一辨識碼(GUID)或通用唯一辨識碼(UUID),序號不可有重複。 | ID、編號 | 32567 |
eventDate | Event | 該筆資料被記錄的日期。 | 調查日期、Date、日期 | 「1994-11-05」代表單日;「1996-06」代表 1996 年 6 月;「2022-01/02」代表2022年1-2月(以 "/" 區分);「2023-05-06/12」代表2023年5月6-12日;「1989/1993」代表1989-1993年 |
samplingProtocol | Event | 調查方法或流程的名稱、描述,或其參考文獻。 | 調查方法、材料方法、Method、Sampling method | "UV light trap", "mist net", "bottom trawl", "ad hoc observation",https://doi.org/10.1111/j.1466-8238.2009.00467.x, "Takats et al. 2001. Guidelines for Nocturnal Owl Monitoring in North America." |
sampleSizeValue | Event | 採樣調查中單次採樣的大小數值(時間間隔、長度、範圍,或體積) | 採樣量、取樣大小 | 5 (sampleSizeValue) with metre (sampleSizeUnit) |
sampleSizeUnit | Event | 採樣大小的量測單位 | 採樣量單位 | "minute", "day", "metre", "square metre" |
samplingEffort | Event | 一次調查的努力量 | 調查努力量 | "40 trap-nights", "10 observer-hours", "10 km by foot" |
Darwin Core 達爾文核心標準(簡稱 DwC),是目前國際通用的生物多樣性資料標準, 也是TaiBIF和GBIF體系在推廣並提供的資料架構及概念。由於DwC根據不同類型的資料需求,提供自由且彈性的欄位及格式參考, 卻也讓資料發布初學者不易上手,無法快速了解自己的資料符合或可用哪些DwC欄位; 加上近年有越來越多新興主題的生物多樣性資料加入開放資料的行列,需求越趨多樣化,因此GBIF開始規劃不同主題的資料發布指引, 並與社群合作設計不同的主題資料架構,希望能更精準地對應不同生物多樣性背景的資料發布者的需求。
目前大多指引文件為英文版,TaiBIF及翻譯協作者們繁體中文翻譯完成將陸續列於下列清單, 更多英文資訊請見GBIF New Data Model