【科學月刊 498 期】當開放資料遇上生物多樣性—TaiBIF讓世界看見你的資料


作者
劉璟儀/中央研究院生物多樣性研究中心TaiBIF內容經理。
何芷蔚/中央研究院生物多樣性研究中心TaiBIF博士後研究員。
端木茂甯/中央研究院生物多樣性研究中心TaiBIF助研究員兼代理執行長。

近年來,愈來愈多的生物多樣性研究不只透過田野調查取得資料,更結合開放資料(open data)讓研究的視野擴大;許多學者也開始跳脫傳統科學研究思維,結合科技走向新型態的生物多樣性資料應用,如聲音資料、衛星遙測、環境DNA(environment DNA, eDNA)等,讓研究尺度在時空或物種上有機會能拓展延伸。

廣義而言,生物多樣性資料涵括了任何跟生物相關的資料。舉凡野外調查記錄到的各種生物、採集的標本、拍攝的物種照片或影片、錄到的聲音檔,乃至從生物體抽取的DNA或在土壤中擷取的eDNA,都屬於生物多樣性資料的一環。總歸來說,資料的來源主要有四個途徑,分別為個人研究/生態調查、自然史標本典藏、政府監測計畫,以及公民科學(citizen science)。

隨著資料開放觀念的興起而且愈來愈受到重視,各個研究領域都逐漸結合巨量資料的應用,拓展出新型的研究方法或工具,生物多樣性領域也不例外。無論是大數據(big data)、統計分析、模型建立、機器學習(machine learning),甚至是近期話題度爆高的人工智慧(artificial intelligence, AI)的開發,大多皆需要仰賴大規模的開放資料做為基底。

討論開放資料,就必須提到2016年威爾金森(Mark Wilkinson)等人於《科學數據》(Scientific Data)期刊的論文中所定義的「FAIR原則」:資料若要符合開放的概念,必須要找得到(Findable)、拿得到(Accessible)、可互用(Interoperable)、可再用(Reusable)。詳細地說,就是資料能在網路上被搜尋並可下載,同時提供的資料格式是有依據標準且可與其他來源的資料整合,也有開放授權聲明允許任何人將資料重新再利用。

生物多樣性資訊連結的重要窗口|TaiBIF與GBIF

在成熟的大數據概念尚未被建立起的時代,聯合國經濟合作暨發展組織(Organisation for Economic Cooperation and Development, OECD)下的生物多樣性資訊小組就已經針對生物多樣性的資料提出建議:「國際間需要建立可以自由存取生物多樣性資料、資訊的機制,藉由提供可靠正確的科學證據,可為經濟、社會帶來益處並促進永續發展。」於是,全球生物多樣性資訊機構(Global Biodiversity Information Facility, GBIF)便背負著這樣的期望,在2001年正式成立。GBIF由多國政府共同簽署合作備忘錄(MOU)加入成為會員並設立節點(nodes),以「提供大眾無論何時何地,均能公開且自由存取有關地球上各種生物的資料」為宗旨,建立了整合全球的生物多樣性資訊開放平臺(GBIF.org)和相關資訊基礎建設。

而臺灣在GBIF成立之初,也率先由當時的國家科學委員會簽署MOU成為創始會員,並於中央研究院(以下簡稱中研院)成立「臺灣生物多樣性資訊機構」(Taiwan Biodiversity Information Facility, TaiBIF),不僅是推動國內生物多樣性資料整合及流通的領導者,更是臺灣與國際生物多樣性資訊連結的重要窗口。除了推展 GBIF 的策略目標,引進國際共通的資料標準與工具、資料授權與開放的概念,也建立了與GBIF網絡串連的生物多樣性資訊基礎建設,提供可自由開放取用生物多樣性資料的入口網站,串起理想的資料生命週期。

TaiBIF目前對外提供的服務主要有四個,分別為

1. TaiBIF官網(taibif.tw):提供國內生物多樣性開放資料搜尋與下載、資料開放與發布的相關資源和工具,以及資料新聞及推廣活動發布。不僅能讓資料提供者與使用者得知臺灣的資料開放現況、檢視物種分布資料地圖,同時也能取得所需的相關資源與知識。

TaiBIF 官網首頁。(TaiBIF 臺灣生物多樣性資訊機構 , CC-BY 4.0)

2. 資料發布工具IPT(ipt.taibif.tw):是目前國內開放資料並與國際平臺GBIF連結的重要管道,除了可透過此工具讓自己的生物多樣性資料與全球社群共享,也可以是免費的個人資料倉儲及管理的空間,更提供版本控制功能,讓使用者方便管理不同的資料發布版本。

每一個光點都代表了一筆GBIF 收到的生物資料。在臺灣發布者的努力下,累積了足以點亮臺灣輪廓的巨量資料。
(OpenStreetMap®,GBIF.org, CC-BY-SA 2.0)

3. TaiCOL臺灣物種名錄(taicol.tw):透過各生物類群分類學專家的名錄審訂,此資料庫提供了國內所有物種有效學名及分類資訊搜尋,還可檢視學名變動的歷史及相關文獻。為目前國內生物多樣性領域工作者確認物種學名的重要參考依據,也是生物多樣性資料庫串連生物各類資訊的關鍵基礎。

4. 物種學名管理工具(nametool.taicol.tw):為管理名錄資料與分類資訊的線上平臺,除了物種名錄的整合查詢檢視,還有管理學名與文獻資訊及產出分類處理架構等功能,貼近分類學者的工作流程,協助分類工作的進行,同時也提升分類資訊更新的速率。

GBIF在過去20年的努力下累積了超過22億筆的開放資料,也支持了全球生物多樣性研究及保育政策制定與決策;而臺灣目前於GBIF資料平臺上開放的資料已超過1500萬筆,資料量排名亞洲第二。然而,在資訊基礎建設逐漸完備並累積了巨量的資料後,緊接而來的是另一個階段的挑戰,包括彌補資料在時空間與類群分布上的空缺、處理新興生物多樣性資料及與傳統資料來源的互補、提升資料品質,以及增加資料於研究與政策上的應用等。面對這些挑戰,TaiBIF除持續針對上述問題提出解方,也希望以過去累積的經驗與技術,領導國內生物多樣性資訊學的發展、協助政府達成永續發展目標願景,並主導GBIF亞洲區域事務的推動,提升臺灣在國際生物多樣性資訊研究領域的能見度。

開放生物多樣性資料的重要性

討論至此,可能需要進一步說明,生物多樣性資料為何要以開放資料的方式做累積?累積大量資料能做什麼?我們可從四個層面來看。首先,對全球生物多樣性保育而言,去(2022)年聯合國的生物多樣性公約締約方大會(Conference of the Parties, COP)正式通過《昆明—蒙特婁全球生物多樣性框架》與23項目標,其中第21項明確指出,在2030年之前,要確保能取得的最佳生物多樣性資料、資訊與知識,得以用來指引生物多樣性的管理與治理。也因此,生物多樣性資料的開放、流通與整合,以及從資料擷取資訊,到產生知識以支援政策制定,將會是世界各國接下來幾年的重要工作之一。

其次,對政府決策單位來說,資料的整合開放不僅能成為自然資源管理部門重要的保育決策依據,公共衛生部門也可透過物種的分布,了解人畜共通疾病的傳染及擴散模式,協助疾病的監控。再者,對政府、學研及民間組織來說,資料共享的前提是需要團隊內部將資料進行標準化、系統化的管理,除了有利於內部的資料彙整和永續管理,在資料標準及格式統一的狀態下,也能更容易與其他單位溝通合作。

最後,對個別研究者來說,與他人相互共享資料,能讓辛苦調查所取得的資料發揮最大的研究價值。不但增加研究的時空尺度,了解生物多樣性的整體樣貌,甚至還能發展出新的研究課題,擴展研究的深度與廣度。若開放資料到全球生物多樣性資訊平臺,或進一步發表資料論文(data paper),還可以提高研究資料的能見度與被引用率,促進更多的交流合作機會。

一石二鳥,開放資料也能發表

所謂資料論文,是描述開放資料集的同儕審查(peerreview)文章,它與學術文章架構不同,不需要完整的科學論證,只需說明資料集的內容與涵蓋的時空及物種範圍、資料採集與處理的方法、資料集的存放位置與取得方式,以及強調該資料集的應用價值等。目前有愈來愈多專門發表資料論文的資料期刊(data journal),如《科學數據》、《生物多樣性數據期刊》(Biodiversity Data Journal)等。如同學術論文,這些期刊也一樣有學術圈重視的影響指數(impact factor, IF),可彰顯研究人員、甚至資料管理人員的貢獻。

發表資料論文還有個最主要的好處,是將資料作更結構化的描述,讓其他人能輕易看懂,也就增加了能見度與可信度,並最大化資料的價值。另一方面,有時收集到的資料不一定都能發表成學術論文,而資料論文便能讓研究者收集的每一筆資料都適得其所,最終有所貢獻。

如何將開放資料應用到研究上?|臺灣的案例分享

時至今日,在TaiBIF與許多夥伴單位如林務局、特有生物研究保育中心(以下簡稱特生中心)等共同推動開放資料的氛圍下,使用臺灣開放資料來做主題研究的論文發表已橫跨各生態領域。研究主題除了分類學、生態學及生物地理學等基礎研究之外,也有探討氣候變遷、外來入侵種衝擊等重要社會與環境議題的研究。截至今(2023)年3月中旬,依據GBIF的文獻追蹤系統,在全球使用GBIF資料的研究論文中,有146篇來自臺灣學者的參與,另有至少47篇使用了從臺灣發布的開放資料。 接著分享幾篇應用TaiBIF和GBIF上開放資料的案例:

1. 透過自然史典藏資料,探討物種分布模式: 中研院生物多樣性中心(簡稱生多中心)前博士後研究員吳士緯、研究員沈聖峰等人利用特生中心在GBIF發布的蛾類典藏資料集,結合AI尋找蛾類色彩多樣性和海拔高度與溫度的相關性。發現在高海拔及低溫的環境下,蛾類的色彩多樣性較低,並藉此預測蛾類在不同海拔的分布模式。文章已在2019年發表於《自然通訊》(Nature Communications)期刊。

2. 結合公民科學資料,驗證動物遷徙模式: 中研院生多中心研究助理蔡佩妤、助理研究員端木茂甯及特生中心助理研究員柯智仁等人,從公民科學eBird資料,分析臺灣繁殖鳥類在不同季節的海拔分布變化,呈現出過去難以觀測到的遷徙模式,並結合鳥類行為與形態特徵,驗證了多個海拔垂直遷徙的假說。此篇已在2020年發表於《生態地理學》(Ecography)期刊。

3. 運用氣候及物種開放資料,預測氣候變遷的影響: 特生中心助理研究員呂明倫及黃靜宜,從GBIF及其他開放資料庫的資料,評估未來氣候變遷對臺灣特有種——信義熊蜂(Bombus formosellus)的負面影響,並找出在此衝擊下合適的山區棲息地。結果顯示臺灣山區的暖化越趨顯著,未來將不再適合信義熊蜂棲息,可能因此滅絕。此文章去年發表於《昆蟲保育誌》(Journal of Insect Conservation)期刊。

4. 利用系統性調查資料,建立國家鳥類指標: 特生中心與中華鳥會運用「臺灣繁殖鳥類大調查」的資料,分析2011∼2019年間的100種繁殖鳥類在臺灣的數量變化趨勢,並建置「臺灣森林鳥類指標」及「臺灣農地鳥類指標」兩項國家級指標,作為監測臺灣繁殖鳥類生存狀態及保育成效的重要儀表板,讓臺灣成為亞洲第二個發布複合物種指標的國家。本篇已於今年發表於《生態指標》(Ecological Indicators)期刊。

除研究外,國內政府部門也愈來愈重視開放資料的應用,開始跟學者合作分析資料並作為保育決策(如保護區設置)的參考。2021年中研院生多中心與國內管理生物多樣性資料庫的政府單位,包括林務局、特生中心、林業試驗所、海洋委員會海洋保育署、營建署、國立臺灣博物館與水利署,共同成立了臺灣生物多樣性資訊聯盟(Taiwan Biodiversity Information Facility, TBIA),並由TaiBIF團隊擔任資訊系統開發及維運的角色,提供整合各單位資料庫所需的技術及基礎建設,支援更多生物多樣性的應用發展。

隨著生物多樣性資訊逐漸受到重視,相信未來相關的應用研究會更加多元且創新,甚至可樂觀地迎接新研究時代的來臨。然而,不論這些研究應用如何革新,TaiBIF都將為不同受眾的需求存在著,並給予最大支持,成為生物多樣性資訊基礎建設最強而有力的推動者。


延伸閱讀
1. Wu, S. et al. (2019). Artificial intelligence reveals environmental constraints on colour diversity in insects. Nature Communication, 10,4554.
2. Tsai, P., et al. (2021). New insights into the patterns and drivers of avian altitudinal migration from a growing crowdsourcing data source. Ecography, 44, 75–86.
3. Lu, M. & Huang, J. (2023). Predicting negative Effects of Climate Change on Taiwan's endemic Bumblebee Bombus formosellus.Journal of Insect Conservation, 27, 193–203.
4. Lin, D. et al. (2023). Taiwan's Breeding Bird Survey reveals very few declining species. Ecological Indicators, 146, 109839.

推薦文章