مروری بر تاریخچه و روند توسعهی بستههای ENM در R
خلاصه مقاله
این مقاله یک بررسی جامع از بستههای R برای مدلسازی آشیانهای اکولوژیکی گونه ها ارائه میدهد. با معرفی و مقایسهی این بستهها، شما میتوانید بهترین ابزار را برای تحلیل دادههای زیستی و پیشبینی پراکنش گونهها انتخاب کنید. این راهنمای کامل، بهویژه برای محققان، دانشجویان، و متخصصان حفاظت از محیط زیست که به دنبال بهبود دانش و مهارتهای خود در زمینه مدلسازی آشیان اکولوژیکی هستند، بسیار مفید خواهد بود.
مروری بر بستههای R برای مدلسازی آشیان اکولوژیکی
مدلسازی آشیان اکولوژیکی (ENM) روشی برای برآورد آشیان اکولوژیکی گونهها با استفاده از روابط ریاضی و آماری بین دادههای پراکنش گونهها و متغیرهای محیطی است. این مدلها به درک بهتر نیازهای رویشگاهی گونهها، پیشبینی پراکنش آنها در مناطق ناشناخته و بررسی تأثیر تغییرات محیطی بر پراکنش گونهها کمک میکنند. ENMها کاربردهای متنوعی در زمینههای حفاظت از تنوع زیستی، مدیریت منابع طبیعی و غیره دارند.
برای انجامENM، نرمافزارهای مختلفی وجود دارند که میتوان آنها را به چهار دسته تقسیم کرد:
- نرمافزارهای آماری مانند SPSS و Statistica
- سیستمهای اطلاعات جغرافیایی مانند ArcGIS، QGIS و DIVA-GIS
- نرمافزارهای اختصاصی با رابط کاربری گرافیکی مانند OpenModeller، ModEco، Maxent، Biomapper، Wallace و ShinyBiomod
- زبانهای برنامهنویسی مانند R و پایتون
در میان این گزینهها، زبان برنامهنویسی R به دلیل ویژگیهای منحصر به فردش، محبوبیت زیادی در میان محققان و متخصصان ENM پیدا کرده است. R یک نرمافزار متنباز و رایگان است که به کاربران اجازه میدهد بستههای مختلفی برای تقویت و تکمیل کارکردهای موجود ایجاد کنند. تا تاریخ 18 شهریور 1403، بیش از 21000 بسته تنها در مخزن اصلی بستههای (CRAN) R وجود دارد. در این مقاله، به معرفی و دستهبندی بستههای R برای ENM بر اساس چهار مرحله اصلی فرآیند مدلسازی میپردازیم:
1) جمعآوری و آمادهسازی دادهها: این مرحله شامل دریافت دادههای پراکنش گونهها و متغیرهای محیطی، پیشپردازش و آمادهسازی دادهها برای مدلسازی است.
2) محاسبه مدل: در این مرحله، با استفاده از الگوریتمهای مختلف مانند حداکثر آنتروپی، جنگلهای تصادفی، مدلهای خطی تعمیمیافته و شبکههای عصبی مصنوعی، مدلهای ENM ساخته میشوند.
3) ارزیابی و اعتبارسنجی مدل: پس از ساخت مدل، عملکرد و دقت آن با استفاده از معیارهای مختلف ارزیابی میشود و در صورت نیاز، مدل بهینهسازی میگردد.
4) کاربرد مدل: در نهایت، مدلهای ساخته شده برای پیشبینی پراکنش گونهها در مناطق ناشناخته، ارزیابی تأثیر تغییرات محیطی بر پراکنش گونهها و سایر کاربردهای مرتبط استفاده میشوند.
روش
برای پیدا کردن بستههای R که در زمینه مدلسازی آشیان بومشناختی (ENM) کاربرد دارند، جستجوی گستردهای در موتورهای جستجوی علمی مانند Google Scholar و Web of Science انجام شد. در این جستجوها از کلیدواژههایی نظیر «ecological niche model package»، «species distribution package» و «species distribution model package» استفاده گردید تا طیف وسیعی از بستههای مرتبط شناسایی شوند.
پس از یافتن بستههای بالقوه، به دقت بررسی شد که آیا هدف اصلی این بستهها، فراهم آوردن توابع و ابزارهایی برای یک یا چند مرحله از فرآیند مدلسازی آشیان بومشناختی است یا خیر. به عبارت دیگر، هدف این بود که اطمینان حاصل شود بستههای یافت شده، به طور مستقیم و ویژه برای ENMها طراحی و توسعه داده شدهاند.
علاوه بر این، وضعیت دسترسی هر بسته نیز مورد بررسی قرار گرفت. چک شد که آیا بسته مورد نظر از طریق مخزن جامع بستههای R یعنی CRAN قابل نصب و استفاده است یا خیر. همچنین جستجو صورت گرفت که آیا بسته دارای یک مخزن توسعه در پلتفرمهای مدیریت کد منبع مانند GitHub میباشد یا نه.
برای تعیین سال انتشار هر بسته، ابتدا سال انتشار آن در CRAN مورد جستجو قرار گرفت. در صورتی که بسته در CRAN موجود نبود، سال انتشار آن در GitHub به عنوان سال انتشار در نظر گرفته شد.
پس از تهیه فهرست نهایی بستههای R مرتبط با ENMها، برای ارزیابی میزان استفاده و محبوبیت هر بسته در جامعه علمی، تعداد ارجاعات به خود بسته یا مقالهای که بسته را معرفی کرده بود در Google Scholar جستجو شد. این کار کمک کرد تا بستههای پرکاربردتر و تأثیرگذارتر در این حوزه شناسایی شوند.
نتایج
در این مطالعه، جستجویی گسترده برای شناسایی بستههای R مرتبط با مدلسازی آشیان اکولوژیک (ENM) انجام شد. این جستجو منجر به شناسایی 60 بسته شد که از سال 2007 به بعد منتشر شدهاند. از میان این بستهها، 39 مورد از طریق مخزن شبکه آرشیو جامع (CRAN) در دسترس هستند و 21 بسته دیگر در حال حاضر در دست توسعه میباشند. این بستهها در مجموع 9664 بار مورد استناد قرار گرفتهاند، به طوری که هجده بسته بیش از 100 استناد و دو بسته (ENMeval و biomod2) بیش از 1000 استناد داشتهاند.
جدول 1. خلاصهای از بستههای R برای مدلسازی آشیان اکولوژیک (آخرین جستجو در تاریخ ۲۸/۱۰/۲۰۲۲ انجام شده است).
هدف اصلی بسته | تعداد کل | مخزن CRAN | در حال توسعه |
گردآوری و آمادهسازی داده | 18 | 14 | 4 |
محاسبهی مدل | 24 | 14 | 10 |
ارزیابی و اعتبارسنجی مدل | 7 | 6 | 1 |
کاربرد مدل | 11 | 5 | 6 |
جمع کل | 60 | 39 | 21 |
شکل 1. رشد تعداد بستههای R برای مدلسازی آشیان اکولوژیک در طول زمان.
بستههای شناسایی شده اهداف مختلفی را دنبال میکنند، از جمله گردآوری و آمادهسازی داده (18 بسته)، محاسبهی مدل (24 بسته)، ارزیابی و اعتبارسنجی مدل (7 بسته)، و کاربرد مدل (11 بسته). روند توسعهی این بستهها در طول زمان رشد قابل توجهی داشته است.
اولین بستهی R با توابعی برای مدلسازی آشیان اکولوژیک، PresenceAbsence بود که در سال 2007 منتشر شد. این بسته توابعی برای ارزیابی تحلیل حضور-عدم حضور ارائه میدهد. اما اولین بستهای که بهطور خاص برای این حوزه توسعه یافت، BIOMOD بود که در سال 2009 منتشر شد و سپس نسخهی دوم آن، biomod2، در سال 2012 جایگزین آن گردید. این بستهها روشهای پیشبینی ترکیبی برای الگوریتمهای مختلف مدلسازی آشیان اکولوژیک را ارائه میکنند.
بستهی dismo که در سال 2010 منتشر شد، ابزارهایی را برای کل فرآیند مدلسازی فراهم میکند و الگوریتمهای مدلسازی مبتنی بر دادههای صرفاً-حضور و حضور-عدم حضور را پیادهسازی میکند. بستهی maxlike نیز در سال 2011 منتشر شد و یک الگوریتم حداکثر درستنمایی را به عنوان روشی جایگزین برای الگوریتم حداکثر آنتروپی (Maxent) ارائه میدهد.
در سال 2012، علاوه بر biomod2، چندین بستهی دیگر برای وظایف مختلفی مانند به دست آوردن رکوردهای گونه، محاسبهی پراکنش و فراوانی، تجزیه و تحلیل عدم قطعیت مدل، و مدلسازی پراکنش گونه منتشر شدند.
در سال 2014، چندین بسته با قابلیتهای نوآورانه معرفی شدند، از جمله فیلتر کردن مکانی رکوردهای گونه، تولید گونههای مجازی، مدلسازی پویایی دامنه پراکنش گونه، و تنظیم دقیق و اعتبارسنجی خودکار مدلها. بستهی ENMeval که در ابتدا برای مدلهای Maxent ساخته شده بود، در سال 2014 منتشر شد و نسخهی جدید آن در سال 2021 با قابلیت توسعه برای سایر الگوریتمهای مدلسازی ارائه گردید.
در سال 2014، دو بستهی دیگر به نامهای ecospat و hypervolume منتشر شدند که ابزارهایی را برای برآورد آشیان اکولوژیکی گونهها با استفاده از درونیابیهای kernel به جای الگوریتمهای مبتنی بر رگرسیون و یادگیری ماشین ارائه میدهند. بستهی ecospat علاوه بر این، توابعی را برای مقایسهی آماری آشیان اکولوژیک گونهها، محاسبهی مجموعهای از مدلهای کوچک، تجزیه و تحلیل اقلیمهای غیرتشابهی و ارزیابی عملکرد مدل فراهم میکند.
در سال 2015، بستههای zoon و SDMTools منتشر شدند. بستهی zoon توابعی را برای مقایسه و تشخیص مدلها ارائه میدهد و امکان به اشتراک گذاری نتایج از طریق یک مخزن آنلاین را فراهم میکند. بستهی SDMTools نیز شامل ابزارهایی برای پس-پردازش مدلها، از جمله انتخاب آستانه، محاسبهی اعتبارسنجی و معیارهای سیمای سرزمین، و ردیابی تغییرات پراکنش در طول زمان است.
در سال 2016، ده بستهی جدید منتشر شد. بستهی sdm سومین بستهای بود که مجموعهای کامل از ابزارها را برای چهار مرحلهی مدلسازی، شامل آمادهسازی دادهها، محاسبهی مدل با چندین الگوریتم، ارزیابی مدل و پیشبینی مدل، ارائه میدهد. بستهی SDMPlay نیز توابعی را برای این چهار مرحله، اما فقط برای الگوریتمهای حداکثر آنتروپی و درختان رگرسیونی تقویتشده، فراهم میکند.
بستهی maxnet پیادهسازی مستقیم الگوریتم حداکثر آنتروپی در R را بدون نیاز به فراخوانی جاوا ارائه میدهد. این بسته از بستهی glmnet برای برازش مدل فرآیند پواسون ناهمگن، که معادل الگوریتم حداکثر آنتروپی است، استفاده میکند. بستهی rmaxent نیز مستقل از جاوا است و شامل قابلیتهای اضافی برای پیشبینی مدلهای Maxent، محاسبهی معیارهای اطلاعاتی، تجزیهی فایلهای .lambdas Maxent و برآورد MESS میشود. بستهی MIAmaxent نیز توابع پیشپردازش و ارزیابی برای مدلهای حداکثر آنتروپی و رگرسیون لجستیک را ارائه میدهد.
بستهی ENiRG یک رابط برای R و GRASS GIS است و ENFA را پیادهسازی میکند. بستهی modEvA مجموعهی متنوعی از ابزارها را برای ارزیابی ENMها، از جمله معیارهای تشخیص و کالیبراسیون، بهینهسازی آستانههای طبقهبندی، و تحلیل برونیابی مدل با MESS روی دیتافریم ارائه میدهد.
بستهی sdmpredictors دادههای محیطی را از مجموعه دادههای اقلیمی مختلف، شامل محیطهای خشکی، دریایی و آب شیرین دانلود میکند و در حال حاضر WorldClim، ENVIREM، Bio-ORACLE، MARSPEC و Freshwater را پشتیبانی میکند.
بستهی biogeo اولین بستهای بود که برای تشخیص و تصحیح خودکار خطاها در مجموعه دادههای وقوع گونهها توسعه یافته بود. این بسته شامل توابعی برای ارزیابی کیفیت دادههای رکوردهای وقوع، شناسایی رکوردهای بالقوهی اشتباه در فضای جغرافیایی و محیطی، و ارائهی موقعیتهای جایگزین احتمالی برای آن رکوردها میشود.
در سال 2016، بستهی red نیز منتشر شد که بر تجزیه و تحلیل وقوع گونه تمرکز دارد. این بسته گستره وقوع، سطح اشغال و شاخص فهرست سرخ را برای گروههای گونهای محاسبه میکند. همچنین وقوع گونه را دانلود و پیشپردازش میکند، دامنه پراکنش گونهها را نقشهسازی میکند و با استفاده از بستهی dismo، مدلهای Maxent را محاسبه میکند.
تا این سال، بستههای R مرتبط با مدلسازی آشیان اکولوژیک عمدتاً بر الگوریتمهای همبستگی تمرکز داشتند، اما بستهی NicheMapR بهطور خاص برای مدلهای mechanistic آشیان گونه طراحی شده است و قابلیت کار با مجموعه دادههای میکرو اقلیم را نیز دارد. بستهی SPEDInstabR نیز متغیرهای محیطی را بر اساس شاخص نوسان انتخاب میکند که این شاخص، عوامل محیطی را که بهتر بتواند شرایط موجود در زیستگاه گونه را از شرایط پسزمینه تشخیص دهد، شناسایی میکند.
در سال 2018، شش بستهی جدید با کارکردهای جالبتری بر روی CRAN منتشر شدند. برای مثال، CENFA پیادهسازی جدیدی از ENFA را ارائه کرد که شامل الگوریتمهایی برای تحلیل عوامل اقلیمی و بومشناختی آشیان و مصورسازی تغییرپذیری مکانی، شرایط رویارویی و آسیبپذیری گونهها در برابر تغییرات اقلیمی است. سه بستهی دیگر نیز ابزارهای مختلفی را برای پشتیبانی از فرآیند مدلسازی ارائه دادند، از جمله بستهی rangeModelMetadata که مدلهای ENM را با ساختار سلسلهمراتبی فهرستبندی میکند تا برقراری ارتباط و اشتراکگذاری الگوریتمها و پارامترهای استفادهشده برای محاسبهی مدلها، آسانتر و دقیقتر شود.
بستهی mopa توابعی را برای مدلهای قابل انتقال، تولید دادههای شبهغیاب و کمیسازی سهم عوامل ارائه میدهد. بستهی fuzzySim نیز شامل توابعی برای محاسبهی نسخههای فازی الگوی وقوع گونه و شباهت فازی جفتی از پراکنش بالقوهی گونهها است و در حال حاضر دارای توابع اضافی برای آمادهسازی دادهها، اجماع مدلها و مقایسهی آنها است. بستهی Metrics چندین معیار برای ارزیابی مدلهای محاسبهشده با الگوریتمهای یادگیری ماشین ارائه میدهد، در حالی که bdclean، مانند biogeo، توابعی را برای پاکسازی و اعتبارسنجی دادههای وقوع گونه ارائه میدهد.
در سال 2019، بستههای جدیدی مانند kuenm برای کالیبره کردن و تنظیم مدلهای Maxent با انتخاب پارامترهای بهینه، ESDM برای مدلسازی ترکیبی پراکنش و وفور گونهها، و MinBAR برای برآورد مساحت حداقل سطح پسزمینه و تعیین بهترین مدل منتشر شدند.
بستههای SDMtune و sdmbench با استفاده از الگوریتمهای مختلف یادگیری ماشین، توابعی را برای محاسبه، انتخاب و اعتبارسنجی مدلها ارائه میدهند. بستههای ellipsenm و Humboldt نیز توابع پیشرفتهای را برای انجام تحلیل در فضای محیطی، از جمله محاسبهی پوشهای بیضوی، تنظیم و انتخاب مدلها، تکرار مدلها و پیشبینیها، ارزیابی همپوشانی آشیان اکولوژیک، تحلیل میزان فضای محیطی مشاهدهشدهی گونه که توسط فضای محیطی در دسترس truncated شده است، و ابزارهایی برای تجزیه و تحلیل همپوشانی و واگرایی آشیان اکولوژیک و برای rarefying دادههای وقوع گونه جهت کاهش اریبی ناشی از نمونهبرداری ارائه میدهند.
بستهی CoordinateCleaner نیز مشابه بستههای biogeo و bdclean به پاکسازی مجموعه دادههای وقوع میپردازد. این بسته براساس واژهنامههای جغرافیایی و پایگاه داده جهانی از مؤسسات تنوع زیستی زمین مرجع شده و به شیوهای استاندارد و قابل تکرار، عدم دقتهای موجود در مرجعسازی و تاریخگذاری را شناسایی میکند و سوابق مربوط به مواردی مانند باغبانی یا اسارت را از مجموعه دادهها در سال 2020، چندین بستهی جدید با قابلیتهای پیشرفته منتشر شدند.
بستهی ntbox توابعی را برای تجزیه و تحلیل آشیان اکولوژیک در فضای جغرافیایی و محیطی ارائه میدهد، از جمله محاسبهی حجم آشیان و همپوشانی آشیان بین گونهها. بستهی ENMTools نیز ابزارهایی را برای تجزیه و تحلیل آشیان اکولوژیک، از جمله آزمون فرضیههای مربوط به تمایز آشیان، پیشبینی پراکنش گونهها و شبیهسازی الگوهای پراکنش فراهم میکند.
بستهی wallace یک رابط کاربری گرافیکی (GUI) برای انجام کل فرآیند مدلسازی پراکنش گونهها ارائه میدهد. این بسته شامل توابعی برای دانلود دادههای وقوع گونه و دادههای محیطی، پیشپردازش دادهها، پارتیشنبندی دادهها، محاسبهی مدلها با استفاده از الگوریتمهای مختلف، ارزیابی مدلها و پیشبینی پراکنش گونهها است.
بستهی SSDM نیز یک رابط کاربری گرافیکی برای مدلسازی پراکنش گونهها ارائه میدهد، اما بر روی مدلسازی پراکنش گونههای کمیاب (rare species) تمرکز دارد. این بسته شامل توابعی برای نمونهبرداری مجدد (resampling) از دادههای وقوع، محاسبهی مدلها با استفاده از الگوریتمهای مختلف، ارزیابی مدلها و پیشبینی پراکنش گونهها است.
در سال 2021، بستههای بیشتری با قابلیتهای جدید منتشر شدند. بستهی SDMtune نسخهی بهروزشدهای از توابع موجود در بستههای قبلی را برای محاسبه، انتخاب و اعتبارسنجی مدلها با استفاده از الگوریتمهای مختلف یادگیری ماشین ارائه میدهد. بستهی ODMAP نیز یک رابط کاربری گرافیکی برای تجزیه و تحلیل الگوهای تنوع زیستی و پیشبینی پراکنش گونهها فراهم میکند.
بستهی eSDM توابعی را برای پیشپردازش دادههای محیطی، انتخاب متغیرها، محاسبه و ارزیابی مدلهای پراکنش گونهها، و پسپردازش خروجی مدل ارائه میدهد. این بسته همچنین شامل توابعی برای تجزیه و تحلیل عدم قطعیت در پیشبینیهای مدل است.
در سال 2020، نسخهی R بستهی ENMTools منتشر شد. این بسته علاوه بر ارائهی ابزارها و آزمونهای آماری برای مقایسهی آشیان اکولوژیک گونهها، مجموعهای کامل از ابزارها را برای هر چهار مرحلهی مدلسازی فراهم میکند. این ابزارها شامل الگوریتمهایی برای مدلهای حضور-پسزمینه و حضور-عدم حضور، و همچنین ابزارهای منحصربهفردی برای ارزیابی مدل مانند آزمونهای مونتکارلو و مدلهای صفر هستند. ENMTools تنها بستهای است که مدلهای صفر را همزمان با مدلهای تجربی و به عنوان یک پارامتر در تابع الگوریتم محاسبه میکند. برخلاف سایر بستههای جامع مانند biomod2 یا sdm که یک تابع اصلی محاسبهی مدل با همهی الگوریتمها به عنوان پارامتر دارند، ENMTools توابع مستقلی برای هر الگوریتم ارائه میدهد.
بستهی دیگری به نام ENMTML نیز در سال 2020 منتشر شد که با ارائهی یک تابع واحد با تمامی آرگومانهای لازم، کاربر را قادر میسازد کل فرآیند مدلسازی را با یک دستور واحد ساده کند. این بسته شامل کنترل همخطی متغیرها، کنترل اریبی، تعیین محدودهی ناحیهی در دسترس، تخصیص شبهغیاب، تقسیمبندی دادهها، 13 الگوریتم مدلسازی، آستانههای طبقهبندی، معیارهای ارزیابی مدل، تحلیل پیشبینی بیش از حد، مدلسازی اجماعی، و پیشبینی در زمان و مکان است.
پنج بستهی دیگر نیز در سال 2020 منتشر شدند. بستهی blockCV توابعی را برای ایجاد foldهایی که از نظر مکانی یا محیطی برای اعتبارسنجی متقابل تفکیک شدهاند، ارائه میدهد و میتوان آن را برای تفکیک دادههای آموزشی و آزمایشی برای سایر بستههای مدلسازی نیز به کار برد. بستهی enmSdm مکمل بستهی dismo است و دارای توابع پیشرفته برای آمادهسازی داده، آموزش و ارزیابی مدلهای dismo و مقایسهی آشیان اکولوژیک میباشد. بستهی embarcadero مدلهای ENM را با استفاده از درختان رگرسیونی جمعی بیزی محاسبه میکند و شامل آمارههای خلاصهی مدل، تشخیصهای آماری، معیارهای اهمیت متغیرها و نمودار آنها است. بستهی modleR یک گردش کار مدلسازی مبتنی بر dismo ارائه میدهد و بستهی ssdm غنای گونهای بالقوه را از مجموعهای از مدلهای انفرادی پشتهشده (Stacked) محاسبه میکند.
در سال 2021، چهار بستهی دیگر منتشر شدند. بستهی geodata دادههای جغرافیایی و محیطی را مستقیماً به محیط R دانلود میکند. سه بستهی دیگر به نامهای occAssess، sampbias و bRacatus توابعی را برای شناسایی خطاها در مجموعه دادههای وقوع گونهها ارائه میدهند. به طور خاص، بستهی bRacatus روشی را برای تخمین احتمال درست یا نادرست بودن یک رکورد زمین مرجع شده و مطابقت آن با یک وقوع بومی یا غیربومی ارائه میدهد و با اجرای یک چارچوب احتمالی، از آستانههای ذهنی فیلتر کردن دادهها اجتناب میکند. بستههای occAssess و sampbias نیز اریبیهای جغرافیایی را در دادههای وقوع گونهها شناسایی میکنند.
در سال 2022، پنج بستهی دیگر منتشر شدند. بستهی flexsdm یکی دیگر از بستههایی است که توابع مربوط به چهار مرحلهی مدلسازی را ارائه میدهد. این بسته شامل الگوریتمهایی برای مدلسازی حضور-پسزمینه و حضور-عدم حضور، و همچنین توابعی جهت تصحیح اریبی تحقیق، نمونهگیری شبهغیابها و نقاط پسزمینه، تفکیک دادهها و کاهش همخطی بین متغیرهای پیشگو، برازش و ارزیابی مدلها، ترکیب و اجماع مدلهای کوچک و مدلهای اجماعی، و پیشبینی، درونیابی و تصحیح پیشبینی بیش از حد است.
در سال 2022، بستههای جدیدی با قابلیتهای متنوع منتشر شدند. بستهی itsdm توابعی را برای مدلسازی دادههای صرفاً حضور با استفاده از جنگل ایزوله و انواع مختلف آن فراهم میکند. بستهی mcera5 دومین بستهی R است که برای مدلهای mechanistic طراحی شده و شامل توابعی برای دریافت دادههای میکرواقلیم از دادههای اقلیمی ERA5 است. بستهی specieschrom مقدار بهینه، دامنه و همپوشانی آشیان اکولوژیک را کمیسازی میکند و متمایزترین ترکیب متغیرهای محیطی را شناسایی مینماید. بستهی bdc نیز شامل توابعی برای ادغام مجموعه دادههای تنوع زیستی، پرچمگذاری و حذف دادههای وقوع نادرست، پاکسازی، تجزیه و یکسانسازی نامهای علمی و پرچمگذاری و تصحیح تاریخهای جمعآوری نادرست است.
بحث
با گذشت زمان، تعداد بستههای نرمافزاری برای مدلهای آشیان اکولوژیک (ENM) رو به افزایش بوده است. از سال 2010 به بعد، به جز سال 2013، هر ساله حداقل یک بسته در مخزن CRAN منتشر شده است و این روند احتمالاً ادامه خواهد داشت. اما آیا تمام بستههای مورد نیاز در دسترس هستند؟ با توجه به فهرست طبقهبندیشده، به نظر میرسد برخی از توابع برای این مدلها ممکن است اضافی باشند.
در حال حاضر، مجموعهای متنوع از مدلهای آشیان اکولوژیک را میتوان با استفاده از چندین بسته محاسبه و اعتبارسنجی کرد. بستههایی مانند dismo، biomod2، sdm، ENMeval، ENMTools، ENMTML، flexsdm، SDMtune و sdmbench الگوریتمهای متعددی را برای دادههای حضور-عدم حضور، حضور-پس زمینه یا صرفاً حضور ارائه میدهند. بستهی ssdm نیز تمام توابع لازم برای محاسبه و اعتبارسنجی مدلهای ENM را در اختیار میگذارد، اما بهطور خاص برای محاسبهی غنای گونهای بالقوه از ENMهای انفرادی پشتهشده (Stacked) طراحی شده است. علاوه بر این، چندین بسته برای پاکسازی و فیلتر کردن دادههای وقوع گونه، مانند spThin، bdclean، CoordinateCleaner، bdc، bRacatus و biogeo، و بستههای occAssess و sampbias برای تصحیح اریبیهای جغرافیایی در دادههای وقوع گونهها در دسترس هستند.
برخی الگوریتمها، مانند Maxent، از طریق بستههای تخصصی و عمومی متعددی قابل محاسبه هستند، اما بسیاری از این بستهها از توابع موجود در بستههای دیگر استفاده میکنند. با این حال، ممکن است کارکردهای مهمی، به ویژه در زمینهی ارزیابی و اعتبارسنجی مدلها، در بستههای R برای مدلهای آشیان اکولوژیک کمتر گنجانده شده باشند. به طور کلی، احتمالاً به توابع بیشتری برای اعتبارسنجی مدلها، به ویژه برای محاسبهی مدلهای صفر، نیاز است. تنها بستهی ENMTools محاسبهی مدلهای صفر را به عنوان پارامتری از توابع برای محاسبهی الگوریتمهای ENM پیادهسازی کرده است و بستهی ENMeval نیز توابعی برای محاسبهی مدلهای صفر ارائه میدهد. مطلوب است که اعتبارسنجی ENMها با مدلهای صفر به یک رویهی گستردهتر و استاندارد تبدیل شود. همچنین، در زمینهی ارزیابی صحیح مدلها بر اساس دادههای صرفاً حضور واقعی بدون نیاز به مکانهای پسزمینه خالی و اشغال نشده، جای پیشرفت وجود دارد.
برای اجرای تمامی مراحل مدلسازی، در صورت نیاز به گردآوری مستقیم دادههای جغرافیایی، محیطی و تنوع زیستی از محیط R، به چندین بسته نیاز خواهد بود. اما پس از گردآوری دادهها، چندین بسته مانند dismo، biomod2، sdm، ENMeval، ENMTools، ENMTML، flexsdm و SDMtune وجود دارند که تمامی توابع لازم برای محاسبه، اعتبارسنجی و کاربرد مدلها را ارائه میدهند، اگرچه این بستهها لزوماً کارکردهای یکسانی ندارند. برای مثال، بستهی dismo فاقد توابع مدلسازی اجماعی است، در حالی که ENMTools ابزاری برای تکرار مدلها ارائه نمیدهد. از سوی دیگر، ENMTools اعتبارسنجی مدلها را هم در فضای محیطی و هم در فضای جغرافیایی انجام میدهد و محاسبهی مدلهای صفر را نیز به عنوان بخشی از محاسبات کلی مدل در نظر میگیرد. بستههای جدیدتر همچنین تعداد مراحل محاسبهی مدلها را کاهش دادهاند. در مقایسه با biomod2 که نیازمند قالببندی دادهها از طریق چندین تابع قبل از محاسبهی مدلها است، بستههای دیگر مراحل لازم را به حداقل رساندهاند. به عنوان مثال، بستهی sdm تنها به یک تابع برای مرحلهی پیش از مدلسازی نیاز دارد و ENMTML تمامی مراحل مدلسازی را در یک تابع واحد ادغام کرده است.
بستههای biomod2 و ENMeval پراستنادترین بستهها هستند، که احتمالاً نشاندهندهی نیاز کاربران به بستههایی است که هم برای محاسبه و هم برای اعتبارسنجی مدلها کاربرد داشته باشند. برخی بستهها مانند dismo استنادات کمتری دارند، شاید به دلیل عدم انتشار مقالهای مرتبط با آنها. کاربران اغلب فراموش میکنند به بستههای R ارجاع دهند یا نمیدانند چگونه این کار را انجام دهند، زیرا استنادات را نمیتوان به سادگی به نرمافزارهای مدیریت منابع منتقل کرد.
ارتباط بین بستهها نیز نیازمند بهبود است. R یک نرمافزار متنباز رایگان است که توسط جامعهی گستردهای از توسعهدهندگان و کاربران پشتیبانی میشود و در نتیجه، رویکردهای بسیار متنوعی را شامل میشود. چندین بسته ابزارهایی را برای خواندن، وارد کردن و خروجی گرفتن دادهها در قالبهای مختلف جدولی یا مکانی ارائه میدهند. بستههای مختلف اغلب به کلاسهای متفاوتی از شیهای ورودی نیاز دارند و خروجیها را نیز با همان کلاسها تولید میکنند، که این امر انعطافپذیری برای به اشتراک گذاشتن شیها بین توابع از بستههای مختلف را کاهش میدهد. این موضوع هنگام اعمال آمار مکانی بر نتایج بستههای پرکاربردی مانند dismo و biomod2 اهمیت پیدا میکند.
این دو بسته در حال حاضر به شیهای ورودی پیادهسازی شده توسط بستههای raster و sp نیاز دارند که از بستههای rgdal و rgeos برای وارد کردن و مدیریت دادههای مکانی استفاده میکنند. با این حال، spatstat، کاملترین بسته برای آمار مکانی، در حال حاضر به sp و sf وابسته است. بنابراین، اتصال و ارتباط بین بستهها باید بهبود یابد. اکثر بستههای مدلسازی آشیان اکولوژیک در حال حاضر از فرمتهای بستههای sp و raster به عنوان ورودی دادههای مکانی استفاده میکنند، اما پشتیبانی از برخی وابستگیها یا پیشنهادات این بستهها در سال 2023 پایان خواهد یافت.
تنها تعداد کمی از بستههای مدلسازی آشیان اکولوژیک کد خود را به بستههای مکانی جدیدتر مانند terra یا sf که جایگزین بستههای raster و sp شدهاند و بهطور فعال نگهداری میشوند و سرعت بالاتری دارند، منتقل کردهاند. بهروزرسانیهای آیندهی R میتواند با کنار گذاشتن بستههای مکانی قدیمی، مشکلاتی را بین نسخههای بستهها ایجاد کند. بنابراین، انتقال کد به بستههای مکانی مدرن باید اولویت فعلی توسعهدهندگان بستههای مدلسازی آشیان اکولوژیک باشد.
برخی بستهها توابعی را برای روشهایی ارائه میدهند که به ندرت در مدلسازی آشیان اکولوژیک استفاده میشوند. همچنین، برخی بستهها از این مدلها برای انجام تحلیلهای فیلوجغرافیایی و جغرافیای زیستی استفاده میکنند. تعدادی از بستهها در حال توسعه هستند و در حال حاضر در مخزن CRAN قرار ندارند. بستههای بیشتری، حتی بستههای پرکاربرد، اکنون به جای CRAN، روی Github نگهداری میشوند، زیرا برآورده کردن الزامات CRAN اغلب دشوار است. برخی از این بستهها در صورت انتشار در یک مجلهی علمی، حتی اگر در مخزن CRAN نباشند، در این مطالعه گنجانده شدهاند و نیازمند نصب طبق دستورالعملهای موجود در وبسایت توسعهی خود هستند.
پیشبینی آیندهی بستههای R برای مدلسازی آشیان اکولوژیک کار سادهای نیست. بستهها باید متریکها و معیارهای بهتری را برای ارزیابی و روشهای بهتری را برای اعتبارسنجی، از جمله مدلهای صفر، پیادهسازی کنند و ارتباط و یکپارچگی خود را بهبود بخشند. انتقال به بستههای مکانی مدرن مانند terra میتواند سرعت و پایداری محاسبات را افزایش دهد. همچنین، بستهها باید محاسبهی مدلهای تکرارشده برای تعداد زیادی از گونهها را بدون نیاز به استفاده از حلقههای for تسهیل کنند و syntax بهینهتری را در ارتباط با زبان R ارائه دهند.
در مجموع، با وجود پیشرفتهای قابل توجه در توسعهی بستههای R برای مدلسازی آشیان اکولوژیک، همچنان فرصتهایی برای بهبود و ارتقا وجود دارد. این بهبودها میتواند شامل پیادهسازی متریکها و معیارهای ارزیابی بهتر، روشهای اعتبارسنجی پیشرفتهتر مانند مدلهای صفر، افزایش ارتباط و یکپارچگی بین بستههای مختلف، انتقال به بستههای مکانی مدرنتر برای افزایش سرعت و پایداری محاسبات، تسهیل محاسبهی مدلهای تکرارشده برای تعداد زیادی از گونهها، و بهینهسازی syntax در راستای هماهنگی بیشتر با زبان R باشد.
با توجه به اهمیت روزافزون مدلسازی آشیان اکولوژیک در مطالعات بومشناختی و حفاظت از تنوع زیستی، انتظار میرود که توسعهی بستههای R در این زمینه همچنان ادامه یابد و شاهد معرفی قابلیتها و ویژگیهای جدیدی در آینده باشیم. این توسعهها میتواند شامل پیادهسازی الگوریتمها و روشهای جدید مدلسازی، بهبود کارایی محاسباتی، افزایش سهولت استفاده برای کاربران، و ارائهی ابزارهای پیشرفتهتر برای تجزیه و تحلیل و تفسیر نتایج مدلها باشد.
همچنین، با گسترش همکاری و تعامل بین توسعهدهندگان بستههای مختلف و جامعهی کاربران، امکان شناسایی نیازها و چالشهای موجود و یافتن راهحلهای مناسب برای آنها فراهم خواهد شد. این تعامل میتواند منجر به ایجاد استانداردها و رویههای مشترک در زمینهی مدلسازی آشیان اکولوژیک شود و کیفیت و قابلیت مقایسهی نتایج حاصل از مطالعات مختلف را افزایش دهد.
در نهایت، با ادامهی روند فعلی توسعهی بستههای R و تلاش جامعهی علمی برای بهبود و ارتقای آنها، میتوان انتظار داشت که در آینده شاهد ابزارهای قدرتمندتر، کاراتر و کاربرپسندتری برای مدلسازی آشیان اکولوژیک باشیم که امکان درک بهتر و عمیقتر الگوهای پراکنش گونهها و ارتباط آنها با عوامل محیطی را فراهم میکنند.
متن فوق بر اساس مقاله زیر ترجمه و بازنویسی تهیه شده است:
Sillero, N., Campos, J. C., Arenas-Castro, S., & Barbosa, A. M. (2023). A curated list of R packages for ecological niche modelling. Ecological Modelling, 476, 110242.
این منبع، لیستی منتخب از بستههای R برای مدلسازی آشیان اکولوژیکی را معرفی میکند که مبنای این بررسی قرار گرفته است.