راهنمای جامع بسته‌های R برای مدل‌سازی آشیان اکولوژیکی

مروری بر تاریخچه و روند توسعه‌ی بسته‌های ENM در R

خلاصه مقاله

این مقاله یک بررسی جامع از بسته‌های R برای مدل‌سازی آشیان‌های اکولوژیکی گونه ها ارائه می‌دهد. با معرفی و مقایسه‌ی این بسته‌ها، شما می‌توانید بهترین ابزار را برای تحلیل داده‌های زیستی و پیش‌بینی پراکنش گونه‌ها انتخاب کنید. این راهنمای کامل، به‌ویژه برای محققان، دانشجویان، و متخصصان حفاظت از محیط زیست که به دنبال بهبود دانش و مهارت‌های خود در زمینه مدل‌سازی آشیان اکولوژیکی هستند، بسیار مفید خواهد بود.

مروری بر بسته‌های R برای مدل‌سازی آشیان اکولوژیکی

مدل‌سازی آشیان اکولوژیکی (ENM) روشی برای برآورد آشیان اکولوژیکی گونه‌ها با استفاده از روابط ریاضی و آماری بین داده‌های پراکنش گونه‌ها و متغیرهای محیطی است. این مدل‌ها به درک بهتر نیازهای رویشگاهی گونه‌ها، پیش‌بینی پراکنش آنها در مناطق ناشناخته و بررسی تأثیر تغییرات محیطی بر پراکنش گونه‌ها کمک می‌کنند. ENMها کاربردهای متنوعی در زمینه‌های حفاظت از تنوع زیستی، مدیریت منابع طبیعی و غیره دارند.

برای انجامENM، نرم‌افزارهای مختلفی وجود دارند که می‌توان آنها را به چهار دسته تقسیم کرد:

نرم‌افزارهای آماری مانند SPSS و Statistica
سیستم‌های اطلاعات جغرافیایی مانند ArcGIS، QGIS و DIVA-GIS
نرم‌افزارهای اختصاصی با رابط کاربری گرافیکی مانند OpenModeller، ModEco، Maxent، Biomapper، Wallace و ShinyBiomod
زبان‌های برنامه‌نویسی مانند R و پایتون

در میان این گزینه‌ها، زبان برنامه‌نویسی R به دلیل ویژگی‌های منحصر به فردش، محبوبیت زیادی در میان محققان و متخصصان ENM پیدا کرده است. R یک نرم‌افزار متن‌باز و رایگان است که به کاربران اجازه می‌دهد بسته‌های مختلفی برای تقویت و تکمیل کارکردهای موجود ایجاد کنند. تا تاریخ 18 شهریور 1403، بیش از 21000 بسته تنها در مخزن اصلی بسته‌های (CRAN) R وجود دارد. در این مقاله، به معرفی و دسته‌بندی بسته‌های R برای ENM بر اساس چهار مرحله اصلی فرآیند مدل‌سازی می‌پردازیم:

1) جمع‌آوری و آماده‌سازی داده‌ها: این مرحله شامل دریافت داده‌های پراکنش گونه‌ها و متغیرهای محیطی، پیش‌پردازش و آماده‌سازی داده‌ها برای مدل‌سازی است.

2) محاسبه مدل: در این مرحله، با استفاده از الگوریتم‌های مختلف مانند حداکثر آنتروپی، جنگل‌های تصادفی، مدل‌های خطی تعمیم‌یافته و شبکه‌های عصبی مصنوعی، مدل‌های ENM ساخته می‌شوند.

3) ارزیابی و اعتبارسنجی مدل: پس از ساخت مدل، عملکرد و دقت آن با استفاده از معیارهای مختلف ارزیابی می‌شود و در صورت نیاز، مدل بهینه‌سازی می‌گردد.

4) کاربرد مدل: در نهایت، مدل‌های ساخته شده برای پیش‌بینی پراکنش گونه‌ها در مناطق ناشناخته، ارزیابی تأثیر تغییرات محیطی بر پراکنش گونه‌ها و سایر کاربردهای مرتبط استفاده می‌شوند.

روش

برای پیدا کردن بسته‌های R که در زمینه مدل‌سازی آشیان بوم‌شناختی (ENM) کاربرد دارند، جستجوی گسترده‌ای در موتورهای جستجوی علمی مانند Google Scholar و Web of Science انجام شد. در این جستجوها از کلیدواژه‌هایی نظیر «ecological niche model package»، «species distribution package» و «species distribution model package» استفاده گردید تا طیف وسیعی از بسته‌های مرتبط شناسایی شوند.

پس از یافتن بسته‌های بالقوه، به دقت بررسی شد که آیا هدف اصلی این بسته‌ها، فراهم آوردن توابع و ابزارهایی برای یک یا چند مرحله از فرآیند مدل‌سازی آشیان بوم‌شناختی است یا خیر. به عبارت دیگر، هدف این بود که اطمینان حاصل شود بسته‌های یافت شده، به طور مستقیم و ویژه برای ENMها طراحی و توسعه داده شده‌اند.

علاوه بر این، وضعیت دسترسی هر بسته نیز مورد بررسی قرار گرفت. چک شد که آیا بسته مورد نظر از طریق مخزن جامع بسته‌های R یعنی CRAN قابل نصب و استفاده است یا خیر. همچنین جستجو صورت گرفت که آیا بسته دارای یک مخزن توسعه در پلتفرم‌های مدیریت کد منبع مانند GitHub می‌باشد یا نه.

برای تعیین سال انتشار هر بسته، ابتدا سال انتشار آن در CRAN مورد جستجو قرار گرفت. در صورتی که بسته در CRAN موجود نبود، سال انتشار آن در GitHub به عنوان سال انتشار در نظر گرفته شد.

پس از تهیه فهرست نهایی بسته‌های R مرتبط با ENMها، برای ارزیابی میزان استفاده و محبوبیت هر بسته در جامعه علمی، تعداد ارجاعات به خود بسته یا مقاله‌ای که بسته را معرفی کرده بود در Google Scholar جستجو شد. این کار کمک کرد تا بسته‌های پرکاربردتر و تأثیرگذارتر در این حوزه شناسایی شوند.

نتایج

در این مطالعه، جستجویی گسترده برای شناسایی بسته‌های R مرتبط با مدل‌سازی آشیان اکولوژیک (ENM) انجام شد. این جستجو منجر به شناسایی 60 بسته شد که از سال 2007 به بعد منتشر شده‌اند. از میان این بسته‌ها، 39 مورد از طریق مخزن شبکه آرشیو جامع (CRAN) در دسترس هستند و 21 بسته دیگر در حال حاضر در دست توسعه می‌باشند. این بسته‌ها در مجموع 9664 بار مورد استناد قرار گرفته‌اند، به طوری که هجده بسته بیش از 100 استناد و دو بسته (ENMeval و biomod2) بیش از 1000 استناد داشته‌اند.

جدول 1. خلاصه‌ای از بسته‌های R برای مدل‌سازی آشیان اکولوژیک (آخرین جستجو در تاریخ ۲۸/۱۰/۲۰۲۲ انجام شده است).

هدف اصلی بسته	تعداد کل	مخزن CRAN	در حال توسعه
گردآوری و آماده‌سازی داده	18	14	4
محاسبه‌ی مدل	24	14	10
ارزیابی و اعتبارسنجی مدل	7	6	1
کاربرد مدل	11	5	6
جمع کل	60	39	21

شکل 1. رشد تعداد بسته‌های R برای مدل‌سازی آشیان اکولوژیک در طول زمان.

بسته‌های شناسایی شده اهداف مختلفی را دنبال می‌کنند، از جمله گردآوری و آماده‌سازی داده (18 بسته)، محاسبه‌ی مدل (24 بسته)، ارزیابی و اعتبارسنجی مدل (7 بسته)، و کاربرد مدل (11 بسته). روند توسعه‌ی این بسته‌ها در طول زمان رشد قابل توجهی داشته است.

اولین بسته‌ی R با توابعی برای مدل‌سازی آشیان اکولوژیک، PresenceAbsence بود که در سال 2007 منتشر شد. این بسته توابعی برای ارزیابی تحلیل حضور-عدم حضور ارائه می‌دهد. اما اولین بسته‌ای که به‌طور خاص برای این حوزه توسعه یافت، BIOMOD بود که در سال 2009 منتشر شد و سپس نسخه‌ی دوم آن، biomod2، در سال 2012 جایگزین آن گردید. این بسته‌ها روش‌های پیش‌بینی ترکیبی برای الگوریتم‌های مختلف مدل‌سازی آشیان اکولوژیک را ارائه می‌کنند.

بسته‌ی dismo که در سال 2010 منتشر شد، ابزارهایی را برای کل فرآیند مدل‌سازی فراهم می‌کند و الگوریتم‌های مدل‌سازی مبتنی بر داده‌های صرفاً-حضور و حضور-عدم حضور را پیاده‌سازی می‌کند. بسته‌ی maxlike نیز در سال 2011 منتشر شد و یک الگوریتم حداکثر درست‌نمایی را به عنوان روشی جایگزین برای الگوریتم حداکثر آنتروپی (Maxent) ارائه می‌دهد.

در سال 2012، علاوه بر biomod2، چندین بسته‌ی دیگر برای وظایف مختلفی مانند به دست آوردن رکوردهای گونه، محاسبه‌ی پراکنش و فراوانی، تجزیه و تحلیل عدم قطعیت مدل، و مدل‌سازی پراکنش گونه منتشر شدند.

در سال 2014، چندین بسته با قابلیت‌های نوآورانه معرفی شدند، از جمله فیلتر کردن مکانی رکوردهای گونه، تولید گونه‌های مجازی، مدل‌سازی پویایی دامنه پراکنش گونه، و تنظیم دقیق و اعتبارسنجی خودکار مدل‌ها. بسته‌ی ENMeval که در ابتدا برای مدل‌های Maxent ساخته شده بود، در سال 2014 منتشر شد و نسخه‌ی جدید آن در سال 2021 با قابلیت توسعه برای سایر الگوریتم‌های مدل‌سازی ارائه گردید.

در سال 2014، دو بسته‌ی دیگر به نام‌های ecospat و hypervolume منتشر شدند که ابزارهایی را برای برآورد آشیان اکولوژیکی گونه‌ها با استفاده از درون‌یابی‌های kernel به جای الگوریتم‌های مبتنی بر رگرسیون و یادگیری ماشین ارائه می‌دهند. بسته‌ی ecospat علاوه بر این، توابعی را برای مقایسه‌ی آماری آشیان اکولوژیک گونه‌ها، محاسبه‌ی مجموعه‌ای از مدل‌های کوچک، تجزیه و تحلیل اقلیم‌های غیرتشابهی و ارزیابی عملکرد مدل فراهم می‌کند.

در سال 2015، بسته‌های zoon و SDMTools منتشر شدند. بسته‌ی zoon توابعی را برای مقایسه و تشخیص مدل‌ها ارائه می‌دهد و امکان به اشتراک گذاری نتایج از طریق یک مخزن آنلاین را فراهم می‌کند. بسته‌ی SDMTools نیز شامل ابزارهایی برای پس-پردازش مدل‌ها، از جمله انتخاب آستانه، محاسبه‌ی اعتبارسنجی و معیارهای سیمای سرزمین، و ردیابی تغییرات پراکنش در طول زمان است.

در سال 2016، ده بسته‌ی جدید منتشر شد. بسته‌ی sdm سومین بسته‌ای بود که مجموعه‌ای کامل از ابزارها را برای چهار مرحله‌ی مدل‌سازی، شامل آماده‌سازی داده‌ها، محاسبه‌ی مدل با چندین الگوریتم، ارزیابی مدل و پیش‌بینی مدل، ارائه می‌دهد. بسته‌ی SDMPlay نیز توابعی را برای این چهار مرحله، اما فقط برای الگوریتم‌های حداکثر آنتروپی و درختان رگرسیونی تقویت‌شده، فراهم می‌کند.

بسته‌ی maxnet پیاده‌سازی مستقیم الگوریتم حداکثر آنتروپی در R را بدون نیاز به فراخوانی جاوا ارائه می‌دهد. این بسته از بسته‌ی glmnet برای برازش مدل فرآیند پواسون ناهمگن، که معادل الگوریتم حداکثر آنتروپی است، استفاده می‌کند. بسته‌ی rmaxent نیز مستقل از جاوا است و شامل قابلیت‌های اضافی برای پیش‌بینی مدل‌های Maxent، محاسبه‌ی معیارهای اطلاعاتی، تجزیه‌ی فایل‌های .lambdas Maxent و برآورد MESS می‌شود. بسته‌ی MIAmaxent نیز توابع پیش‌پردازش و ارزیابی برای مدل‌های حداکثر آنتروپی و رگرسیون لجستیک را ارائه می‌دهد.

بسته‌ی ENiRG یک رابط برای R و GRASS GIS است و ENFA را پیاده‌سازی می‌کند. بسته‌ی modEvA مجموعه‌ی متنوعی از ابزارها را برای ارزیابی ENMها، از جمله معیارهای تشخیص و کالیبراسیون، بهینه‌سازی آستانه‌های طبقه‌بندی، و تحلیل برون‌یابی مدل با MESS روی دیتافریم ارائه می‌دهد.

بسته‌ی sdmpredictors داده‌های محیطی را از مجموعه داده‌های اقلیمی مختلف، شامل محیط‌های خشکی، دریایی و آب شیرین دانلود می‌کند و در حال حاضر WorldClim، ENVIREM، Bio-ORACLE، MARSPEC و Freshwater را پشتیبانی می‌کند.

بسته‌ی biogeo اولین بسته‌ای بود که برای تشخیص و تصحیح خودکار خطاها در مجموعه داده‌های وقوع گونه‌ها توسعه یافته بود. این بسته شامل توابعی برای ارزیابی کیفیت داده‌های رکوردهای وقوع، شناسایی رکوردهای بالقوه‌ی اشتباه در فضای جغرافیایی و محیطی، و ارائه‌ی موقعیت‌های جایگزین احتمالی برای آن رکوردها می‌شود.

در سال 2016، بسته‌ی red نیز منتشر شد که بر تجزیه و تحلیل وقوع گونه تمرکز دارد. این بسته گستره وقوع، سطح اشغال و شاخص فهرست سرخ را برای گروه‌های گونه‌ای محاسبه می‌کند. همچنین وقوع گونه را دانلود و پیش‌پردازش می‌کند، دامنه پراکنش گونه‌ها را نقشه‌سازی می‌کند و با استفاده از بسته‌ی dismo، مدل‌های Maxent را محاسبه می‌کند.

تا این سال، بسته‌های R مرتبط با مدل‌سازی آشیان اکولوژیک عمدتاً بر الگوریتم‌های همبستگی تمرکز داشتند، اما بسته‌ی NicheMapR به‌طور خاص برای مدل‌های mechanistic آشیان گونه طراحی شده است و قابلیت کار با مجموعه داده‌های میکرو اقلیم را نیز دارد. بسته‌ی SPEDInstabR نیز متغیرهای محیطی را بر اساس شاخص نوسان انتخاب می‌کند که این شاخص، عوامل محیطی را که بهتر بتواند شرایط موجود در زیستگاه گونه را از شرایط پس‌زمینه تشخیص دهد، شناسایی می‌کند.

در سال 2018، شش بسته‌ی جدید با کارکردهای جالب‌تری بر روی CRAN منتشر شدند. برای مثال، CENFA پیاده‌سازی جدیدی از ENFA را ارائه کرد که شامل الگوریتم‌هایی برای تحلیل عوامل اقلیمی و بوم‌شناختی آشیان و مصور‌سازی تغییرپذیری مکانی، شرایط رویارویی و آسیب‌پذیری گونه‌ها در برابر تغییرات اقلیمی است. سه بسته‌ی دیگر نیز ابزارهای مختلفی را برای پشتیبانی از فرآیند مدل‌سازی ارائه دادند، از جمله بسته‌ی rangeModelMetadata که مدل‌های ENM را با ساختار سلسله‌مراتبی فهرست‌بندی می‌کند تا برقراری ارتباط و اشتراک‌گذاری الگوریتم‌ها و پارامترهای استفاده‌شده برای محاسبه‌ی مدل‌ها، آسان‌تر و دقیق‌تر شود.

بسته‌ی mopa توابعی را برای مدل‌های قابل انتقال، تولید داده‌های شبه‌غیاب و کمی‌سازی سهم عوامل ارائه می‌دهد. بسته‌ی fuzzySim نیز شامل توابعی برای محاسبه‌ی نسخه‌های فازی الگوی وقوع گونه و شباهت فازی جفتی از پراکنش بالقوه‌ی گونه‌ها است و در حال حاضر دارای توابع اضافی برای آماده‌سازی داده‌ها، اجماع مدل‌ها و مقایسه‌ی آن‌ها است. بسته‌ی Metrics چندین معیار برای ارزیابی مدل‌های محاسبه‌شده با الگوریتم‌های یادگیری ماشین ارائه می‌دهد، در حالی که bdclean، مانند biogeo، توابعی را برای پاکسازی و اعتبارسنجی داده‌های وقوع گونه ارائه می‌دهد.

در سال 2019، بسته‌های جدیدی مانند kuenm برای کالیبره کردن و تنظیم مدل‌های Maxent با انتخاب پارامترهای بهینه، ESDM برای مدل‌سازی ترکیبی پراکنش و وفور گونه‌ها، و MinBAR برای برآورد مساحت حداقل سطح پس‌زمینه و تعیین بهترین مدل منتشر شدند.

بسته‌های SDMtune و sdmbench با استفاده از الگوریتم‌های مختلف یادگیری ماشین، توابعی را برای محاسبه، انتخاب و اعتبارسنجی مدل‌ها ارائه می‌دهند. بسته‌های ellipsenm و Humboldt نیز توابع پیشرفته‌ای را برای انجام تحلیل در فضای محیطی، از جمله محاسبه‌ی پوش‌های بیضوی، تنظیم و انتخاب مدل‌ها، تکرار مدل‌ها و پیش‌بینی‌ها، ارزیابی هم‌پوشانی آشیان اکولوژیک، تحلیل میزان فضای محیطی مشاهده‌شده‌ی گونه که توسط فضای محیطی در دسترس truncated شده است، و ابزارهایی برای تجزیه و تحلیل هم‌پوشانی و واگرایی آشیان اکولوژیک و برای rarefying داده‌های وقوع گونه جهت کاهش اریبی ناشی از نمونه‌برداری ارائه می‌دهند.

بسته‌ی CoordinateCleaner نیز مشابه بسته‌های biogeo و bdclean به پاکسازی مجموعه داده‌های وقوع می‌پردازد. این بسته براساس واژه‌نامه‌های جغرافیایی و پایگاه داده جهانی از مؤسسات تنوع زیستی زمین مرجع شده و به شیوه‌ای استاندارد و قابل تکرار، عدم دقت‌های موجود در مرجع‌سازی و تاریخ‌گذاری را شناسایی می‌کند و سوابق مربوط به مواردی مانند باغبانی یا اسارت را از مجموعه داده‌ها در سال 2020، چندین بسته‌ی جدید با قابلیت‌های پیشرفته منتشر شدند.

بسته‌ی ntbox توابعی را برای تجزیه و تحلیل آشیان اکولوژیک در فضای جغرافیایی و محیطی ارائه می‌دهد، از جمله محاسبه‌ی حجم آشیان و هم‌پوشانی آشیان بین گونه‌ها. بسته‌ی ENMTools نیز ابزارهایی را برای تجزیه و تحلیل آشیان اکولوژیک، از جمله آزمون فرضیه‌های مربوط به تمایز آشیان، پیش‌بینی پراکنش گونه‌ها و شبیه‌سازی الگوهای پراکنش فراهم می‌کند.

بسته‌ی wallace یک رابط کاربری گرافیکی (GUI) برای انجام کل فرآیند مدل‌سازی پراکنش گونه‌ها ارائه می‌دهد. این بسته شامل توابعی برای دانلود داده‌های وقوع گونه و داده‌های محیطی، پیش‌پردازش داده‌ها، پارتیشن‌بندی داده‌ها، محاسبه‌ی مدل‌ها با استفاده از الگوریتم‌های مختلف، ارزیابی مدل‌ها و پیش‌بینی پراکنش گونه‌ها است.

بسته‌ی SSDM نیز یک رابط کاربری گرافیکی برای مدل‌سازی پراکنش گونه‌ها ارائه می‌دهد، اما بر روی مدل‌سازی پراکنش گونه‌های کمیاب (rare species) تمرکز دارد. این بسته شامل توابعی برای نمونه‌برداری مجدد (resampling) از داده‌های وقوع، محاسبه‌ی مدل‌ها با استفاده از الگوریتم‌های مختلف، ارزیابی مدل‌ها و پیش‌بینی پراکنش گونه‌ها است.

در سال 2021، بسته‌های بیشتری با قابلیت‌های جدید منتشر شدند. بسته‌ی SDMtune نسخه‌ی به‌روزشده‌ای از توابع موجود در بسته‌های قبلی را برای محاسبه، انتخاب و اعتبارسنجی مدل‌ها با استفاده از الگوریتم‌های مختلف یادگیری ماشین ارائه می‌دهد. بسته‌ی ODMAP نیز یک رابط کاربری گرافیکی برای تجزیه و تحلیل الگوهای تنوع زیستی و پیش‌بینی پراکنش گونه‌ها فراهم می‌کند.

بسته‌ی eSDM توابعی را برای پیش‌پردازش داده‌های محیطی، انتخاب متغیرها، محاسبه و ارزیابی مدل‌های پراکنش گونه‌ها، و پس‌پردازش خروجی مدل ارائه می‌دهد. این بسته همچنین شامل توابعی برای تجزیه و تحلیل عدم قطعیت در پیش‌بینی‌های مدل است.

در سال 2020، نسخه‌ی R بسته‌ی ENMTools منتشر شد. این بسته علاوه بر ارائه‌ی ابزارها و آزمون‌های آماری برای مقایسه‌ی آشیان اکولوژیک گونه‌ها، مجموعه‌ای کامل از ابزارها را برای هر چهار مرحله‌ی مدل‌سازی فراهم می‌کند. این ابزارها شامل الگوریتم‌هایی برای مدل‌های حضور-پس‌زمینه و حضور-عدم حضور، و همچنین ابزارهای منحصربه‌فردی برای ارزیابی مدل مانند آزمون‌های مونت‌کارلو و مدل‌های صفر هستند. ENMTools تنها بسته‌ای است که مدل‌های صفر را همزمان با مدل‌های تجربی و به عنوان یک پارامتر در تابع الگوریتم محاسبه می‌کند. برخلاف سایر بسته‌های جامع مانند biomod2 یا sdm که یک تابع اصلی محاسبه‌ی مدل با همه‌ی الگوریتم‌ها به عنوان پارامتر دارند، ENMTools توابع مستقلی برای هر الگوریتم ارائه می‌دهد.

بسته‌ی دیگری به نام ENMTML نیز در سال 2020 منتشر شد که با ارائه‌ی یک تابع واحد با تمامی آرگومان‌های لازم، کاربر را قادر می‌سازد کل فرآیند مدل‌سازی را با یک دستور واحد ساده کند. این بسته شامل کنترل هم‌خطی متغیرها، کنترل اریبی، تعیین محدوده‌ی ناحیه‌ی در دسترس، تخصیص شبه‌غیاب، تقسیم‌بندی داده‌ها، 13 الگوریتم مدل‌سازی، آستانه‌های طبقه‌بندی، معیارهای ارزیابی مدل، تحلیل پیش‌بینی بیش از حد، مدل‌سازی اجماعی، و پیش‌بینی در زمان و مکان است.

پنج بسته‌ی دیگر نیز در سال 2020 منتشر شدند. بسته‌ی blockCV توابعی را برای ایجاد foldهایی که از نظر مکانی یا محیطی برای اعتبارسنجی متقابل تفکیک شده‌اند، ارائه می‌دهد و می‌توان آن را برای تفکیک داده‌های آموزشی و آزمایشی برای سایر بسته‌های مدل‌سازی نیز به کار برد. بسته‌ی enmSdm مکمل بسته‌ی dismo است و دارای توابع پیشرفته برای آماده‌سازی داده، آموزش و ارزیابی مدل‌های dismo و مقایسه‌ی آشیان اکولوژیک می‌باشد. بسته‌ی embarcadero مدل‌های ENM را با استفاده از درختان رگرسیونی جمعی بیزی محاسبه می‌کند و شامل آماره‌های خلاصه‌ی مدل، تشخیص‌های آماری، معیارهای اهمیت متغیرها و نمودار آن‌ها است. بسته‌ی modleR یک گردش کار مدل‌سازی مبتنی بر dismo ارائه می‌دهد و بسته‌ی ssdm غنای گونه‌ای بالقوه را از مجموعه‌ای از مدل‌های انفرادی پشته‌شده (Stacked) محاسبه می‌کند.

در سال 2021، چهار بسته‌ی دیگر منتشر شدند. بسته‌ی geodata داده‌های جغرافیایی و محیطی را مستقیماً به محیط R دانلود می‌کند. سه بسته‌ی دیگر به نام‌های occAssess، sampbias و bRacatus توابعی را برای شناسایی خطاها در مجموعه داده‌های وقوع گونه‌ها ارائه می‌دهند. به طور خاص، بسته‌ی bRacatus روشی را برای تخمین احتمال درست یا نادرست بودن یک رکورد زمین مرجع شده و مطابقت آن با یک وقوع بومی یا غیربومی ارائه می‌دهد و با اجرای یک چارچوب احتمالی، از آستانه‌های ذهنی فیلتر کردن داده‌ها اجتناب می‌کند. بسته‌های occAssess و sampbias نیز اریبی‌های جغرافیایی را در داده‌های وقوع گونه‌ها شناسایی می‌کنند.

در سال 2022، پنج بسته‌ی دیگر منتشر شدند. بسته‌ی flexsdm یکی دیگر از بسته‌هایی است که توابع مربوط به چهار مرحله‌ی مدل‌سازی را ارائه می‌دهد. این بسته شامل الگوریتم‌هایی برای مدل‌سازی حضور-پس‌زمینه و حضور-عدم حضور، و همچنین توابعی جهت تصحیح اریبی تحقیق، نمونه‌گیری شبه‌غیاب‌ها و نقاط پس‌زمینه، تفکیک داده‌ها و کاهش هم‌خطی بین متغیرهای پیشگو، برازش و ارزیابی مدل‌ها، ترکیب و اجماع مدل‌های کوچک و مدل‌های اجماعی، و پیش‌بینی، درون‌یابی و تصحیح پیش‌بینی بیش از حد است.

در سال 2022، بسته‌های جدیدی با قابلیت‌های متنوع منتشر شدند. بسته‌ی itsdm توابعی را برای مدل‌سازی داده‌های صرفاً حضور با استفاده از جنگل ایزوله و انواع مختلف آن فراهم می‌کند. بسته‌ی mcera5 دومین بسته‌ی R است که برای مدل‌های mechanistic طراحی شده و شامل توابعی برای دریافت داده‌های میکرواقلیم از داده‌های اقلیمی ERA5 است. بسته‌ی specieschrom مقدار بهینه، دامنه و همپوشانی آشیان اکولوژیک را کمی‌سازی می‌کند و متمایزترین ترکیب متغیرهای محیطی را شناسایی می‌نماید. بسته‌ی bdc نیز شامل توابعی برای ادغام مجموعه داده‌های تنوع زیستی، پرچم‌گذاری و حذف داده‌های وقوع نادرست، پاکسازی، تجزیه و یکسان‌سازی نام‌های علمی و پرچم‌گذاری و تصحیح تاریخ‌های جمع‌آوری نادرست است.

بحث

با گذشت زمان، تعداد بسته‌های نرم‌افزاری برای مدل‌های آشیان اکولوژیک (ENM) رو به افزایش بوده است. از سال 2010 به بعد، به جز سال 2013، هر ساله حداقل یک بسته در مخزن CRAN منتشر شده است و این روند احتمالاً ادامه خواهد داشت. اما آیا تمام بسته‌های مورد نیاز در دسترس هستند؟ با توجه به فهرست طبقه‌بندی‌شده، به نظر می‌رسد برخی از توابع برای این مدل‌ها ممکن است اضافی باشند.

در حال حاضر، مجموعه‌ای متنوع از مدل‌های آشیان اکولوژیک را می‌توان با استفاده از چندین بسته محاسبه و اعتبارسنجی کرد. بسته‌هایی مانند dismo، biomod2، sdm، ENMeval، ENMTools، ENMTML، flexsdm، SDMtune و sdmbench الگوریتم‌های متعددی را برای داده‌های حضور-عدم حضور، حضور-پس زمینه یا صرفاً حضور ارائه می‌دهند. بسته‌ی ssdm نیز تمام توابع لازم برای محاسبه و اعتبارسنجی مدل‌های ENM را در اختیار می‌گذارد، اما به‌طور خاص برای محاسبه‌ی غنای گونه‌ای بالقوه از ENMهای انفرادی پشته‌شده (Stacked) طراحی شده است. علاوه بر این، چندین بسته برای پاکسازی و فیلتر کردن داده‌های وقوع گونه، مانند spThin، bdclean، CoordinateCleaner، bdc، bRacatus و biogeo، و بسته‌های occAssess و sampbias برای تصحیح اریبی‌های جغرافیایی در داده‌های وقوع گونه‌ها در دسترس هستند.

برخی الگوریتم‌ها، مانند Maxent، از طریق بسته‌های تخصصی و عمومی متعددی قابل محاسبه هستند، اما بسیاری از این بسته‌ها از توابع موجود در بسته‌های دیگر استفاده می‌کنند. با این حال، ممکن است کارکردهای مهمی، به ویژه در زمینه‌ی ارزیابی و اعتبارسنجی مدل‌ها، در بسته‌های R برای مدل‌های آشیان اکولوژیک کمتر گنجانده شده باشند. به طور کلی، احتمالاً به توابع بیشتری برای اعتبارسنجی مدل‌ها، به ویژه برای محاسبه‌ی مدل‌های صفر، نیاز است. تنها بسته‌ی ENMTools محاسبه‌ی مدل‌های صفر را به عنوان پارامتری از توابع برای محاسبه‌ی الگوریتم‌های ENM پیاده‌سازی کرده است و بسته‌ی ENMeval نیز توابعی برای محاسبه‌ی مدل‌های صفر ارائه می‌دهد. مطلوب است که اعتبارسنجی ENMها با مدل‌های صفر به یک رویه‌ی گسترده‌تر و استاندارد تبدیل شود. همچنین، در زمینه‌ی ارزیابی صحیح مدل‌ها بر اساس داده‌های صرفاً حضور واقعی بدون نیاز به مکان‌های پس‌زمینه خالی و اشغال نشده، جای پیشرفت وجود دارد.

برای اجرای تمامی مراحل مدل‌سازی، در صورت نیاز به گردآوری مستقیم داده‌های جغرافیایی، محیطی و تنوع زیستی از محیط R، به چندین بسته نیاز خواهد بود. اما پس از گردآوری داده‌ها، چندین بسته مانند dismo، biomod2، sdm، ENMeval، ENMTools، ENMTML، flexsdm و SDMtune وجود دارند که تمامی توابع لازم برای محاسبه، اعتبارسنجی و کاربرد مدل‌ها را ارائه می‌دهند، اگرچه این بسته‌ها لزوماً کارکردهای یکسانی ندارند. برای مثال، بسته‌ی dismo فاقد توابع مدل‌سازی اجماعی است، در حالی که ENMTools ابزاری برای تکرار مدل‌ها ارائه نمی‌دهد. از سوی دیگر، ENMTools اعتبارسنجی مدل‌ها را هم در فضای محیطی و هم در فضای جغرافیایی انجام می‌دهد و محاسبه‌ی مدل‌های صفر را نیز به عنوان بخشی از محاسبات کلی مدل در نظر می‌گیرد. بسته‌های جدیدتر همچنین تعداد مراحل محاسبه‌ی مدل‌ها را کاهش داده‌اند. در مقایسه با biomod2 که نیازمند قالب‌بندی داده‌ها از طریق چندین تابع قبل از محاسبه‌ی مدل‌ها است، بسته‌های دیگر مراحل لازم را به حداقل رسانده‌اند. به عنوان مثال، بسته‌ی sdm تنها به یک تابع برای مرحله‌ی پیش از مدل‌سازی نیاز دارد و ENMTML تمامی مراحل مدل‌سازی را در یک تابع واحد ادغام کرده است.

بسته‌های biomod2 و ENMeval پراستنادترین بسته‌ها هستند، که احتمالاً نشان‌دهنده‌ی نیاز کاربران به بسته‌هایی است که هم برای محاسبه و هم برای اعتبارسنجی مدل‌ها کاربرد داشته باشند. برخی بسته‌ها مانند dismo استنادات کمتری دارند، شاید به دلیل عدم انتشار مقاله‌ای مرتبط با آن‌ها. کاربران اغلب فراموش می‌کنند به بسته‌های R ارجاع دهند یا نمی‌دانند چگونه این کار را انجام دهند، زیرا استنادات را نمی‌توان به سادگی به نرم‌افزارهای مدیریت منابع منتقل کرد.

ارتباط بین بسته‌ها نیز نیازمند بهبود است. R یک نرم‌افزار متن‌باز رایگان است که توسط جامعه‌ی گسترده‌ای از توسعه‌دهندگان و کاربران پشتیبانی می‌شود و در نتیجه، رویکردهای بسیار متنوعی را شامل می‌شود. چندین بسته ابزارهایی را برای خواندن، وارد کردن و خروجی گرفتن داده‌ها در قالب‌های مختلف جدولی یا مکانی ارائه می‌دهند. بسته‌های مختلف اغلب به کلاس‌های متفاوتی از شی‌های ورودی نیاز دارند و خروجی‌ها را نیز با همان کلاس‌ها تولید می‌کنند، که این امر انعطاف‌پذیری برای به اشتراک گذاشتن شی‌ها بین توابع از بسته‌های مختلف را کاهش می‌دهد. این موضوع هنگام اعمال آمار مکانی بر نتایج بسته‌های پرکاربردی مانند dismo و biomod2 اهمیت پیدا می‌کند.

این دو بسته در حال حاضر به شی‌های ورودی پیاده‌سازی شده توسط بسته‌های raster و sp نیاز دارند که از بسته‌های rgdal و rgeos برای وارد کردن و مدیریت داده‌های مکانی استفاده می‌کنند. با این حال، spatstat، کامل‌ترین بسته برای آمار مکانی، در حال حاضر به sp و sf وابسته است. بنابراین، اتصال و ارتباط بین بسته‌ها باید بهبود یابد. اکثر بسته‌های مدل‌سازی آشیان اکولوژیک در حال حاضر از فرمت‌های بسته‌های sp و raster به عنوان ورودی داده‌های مکانی استفاده می‌کنند، اما پشتیبانی از برخی وابستگی‌ها یا پیشنهادات این بسته‌ها در سال 2023 پایان خواهد یافت.

تنها تعداد کمی از بسته‌های مدل‌سازی آشیان اکولوژیک کد خود را به بسته‌های مکانی جدیدتر مانند terra یا sf که جایگزین بسته‌های raster و sp شده‌اند و به‌طور فعال نگهداری می‌شوند و سرعت بالاتری دارند، منتقل کرده‌اند. به‌روزرسانی‌های آینده‌ی R می‌تواند با کنار گذاشتن بسته‌های مکانی قدیمی، مشکلاتی را بین نسخه‌های بسته‌ها ایجاد کند. بنابراین، انتقال کد به بسته‌های مکانی مدرن باید اولویت فعلی توسعه‌دهندگان بسته‌های مدل‌سازی آشیان اکولوژیک باشد.

برخی بسته‌ها توابعی را برای روش‌هایی ارائه می‌دهند که به ندرت در مدل‌سازی آشیان اکولوژیک استفاده می‌شوند. همچنین، برخی بسته‌ها از این مدل‌ها برای انجام تحلیل‌های فیلوجغرافیایی و جغرافیای زیستی استفاده می‌کنند. تعدادی از بسته‌ها در حال توسعه هستند و در حال حاضر در مخزن CRAN قرار ندارند. بسته‌های بیشتری، حتی بسته‌های پرکاربرد، اکنون به جای CRAN، روی Github نگهداری می‌شوند، زیرا برآورده کردن الزامات CRAN اغلب دشوار است. برخی از این بسته‌ها در صورت انتشار در یک مجله‌ی علمی، حتی اگر در مخزن CRAN نباشند، در این مطالعه گنجانده شده‌اند و نیازمند نصب طبق دستورالعمل‌های موجود در وب‌سایت توسعه‌ی خود هستند.

پیش‌بینی آینده‌ی بسته‌های R برای مدل‌سازی آشیان اکولوژیک کار ساده‌ای نیست. بسته‌ها باید متریک‌ها و معیارهای بهتری را برای ارزیابی و روش‌های بهتری را برای اعتبارسنجی، از جمله مدل‌های صفر، پیاده‌سازی کنند و ارتباط و یکپارچگی خود را بهبود بخشند. انتقال به بسته‌های مکانی مدرن مانند terra می‌تواند سرعت و پایداری محاسبات را افزایش دهد. همچنین، بسته‌ها باید محاسبه‌ی مدل‌های تکرارشده برای تعداد زیادی از گونه‌ها را بدون نیاز به استفاده از حلقه‌های for تسهیل کنند و syntax بهینه‌تری را در ارتباط با زبان R ارائه دهند.

در مجموع، با وجود پیشرفت‌های قابل توجه در توسعه‌ی بسته‌های R برای مدل‌سازی آشیان اکولوژیک، همچنان فرصت‌هایی برای بهبود و ارتقا وجود دارد. این بهبودها می‌تواند شامل پیاده‌سازی متریک‌ها و معیارهای ارزیابی بهتر، روش‌های اعتبارسنجی پیشرفته‌تر مانند مدل‌های صفر، افزایش ارتباط و یکپارچگی بین بسته‌های مختلف، انتقال به بسته‌های مکانی مدرن‌تر برای افزایش سرعت و پایداری محاسبات، تسهیل محاسبه‌ی مدل‌های تکرارشده برای تعداد زیادی از گونه‌ها، و بهینه‌سازی syntax در راستای هماهنگی بیشتر با زبان R باشد.

با توجه به اهمیت روزافزون مدل‌سازی آشیان اکولوژیک در مطالعات بوم‌شناختی و حفاظت از تنوع زیستی، انتظار می‌رود که توسعه‌ی بسته‌های R در این زمینه همچنان ادامه یابد و شاهد معرفی قابلیت‌ها و ویژگی‌های جدیدی در آینده باشیم. این توسعه‌ها می‌تواند شامل پیاده‌سازی الگوریتم‌ها و روش‌های جدید مدل‌سازی، بهبود کارایی محاسباتی، افزایش سهولت استفاده برای کاربران، و ارائه‌ی ابزارهای پیشرفته‌تر برای تجزیه و تحلیل و تفسیر نتایج مدل‌ها باشد.

همچنین، با گسترش همکاری و تعامل بین توسعه‌دهندگان بسته‌های مختلف و جامعه‌ی کاربران، امکان شناسایی نیازها و چالش‌های موجود و یافتن راه‌حل‌های مناسب برای آن‌ها فراهم خواهد شد. این تعامل می‌تواند منجر به ایجاد استانداردها و رویه‌های مشترک در زمینه‌ی مدل‌سازی آشیان اکولوژیک شود و کیفیت و قابلیت مقایسه‌ی نتایج حاصل از مطالعات مختلف را افزایش دهد.

در نهایت، با ادامه‌ی روند فعلی توسعه‌ی بسته‌های R و تلاش جامعه‌ی علمی برای بهبود و ارتقای آن‌ها، می‌توان انتظار داشت که در آینده شاهد ابزارهای قدرتمندتر، کاراتر و کاربرپسندتری برای مدل‌سازی آشیان اکولوژیک باشیم که امکان درک بهتر و عمیق‌تر الگوهای پراکنش گونه‌ها و ارتباط آن‌ها با عوامل محیطی را فراهم می‌کنند.

متن فوق بر اساس مقاله زیر ترجمه و بازنویسی تهیه شده است:

Sillero, N., Campos, J. C., Arenas-Castro, S., & Barbosa, A. M. (2023). A curated list of R packages for ecological niche modelling. Ecological Modelling, 476, 110242.

این منبع، لیستی منتخب از بسته‌های R برای مدل‌سازی آشیان اکولوژیکی را معرفی می‌کند که مبنای این بررسی قرار گرفته است.

برچسب ها

اشتراک گذاری

آخرین دورها

دوره های محبوب

آخرین مقاله ها

مروری بر تاریخچه و روند توسعه‌ی بسته‌های ENM در R

نظرات کاربران

ژئولرن آر