التصنيفات
البومات الصور
فيديوهات
الهاشتاجات
لايوجد بيانات لعرضها
روابط ذات صله
Posted in أبحاث علمية تقنية, مقالات برمجية وتقنية on سبتمبر 06, 2024
A Comparison between 10 Data Mining Tools
المقدمة Introduction:
لقد شهد أواخر القرن العشرين والقرن الحادي والعشرين أهمية متزايدة لتكنولوجيا المعلومات في البيئة الاجتماعية والمؤسسية على حد سواء. وفي هذا الصدد، هناك حاجة إلى جوانب مختلفة من تكنولوجيا المعلومات في دعم اتخاذ القرار وإدارة أداء الأعمال والاستعلام والمعالجة التحليلية لإعداد التقارير والتحليل التنبؤي وغيرها.
أحد مجالات تكنولوجيا المعلومات التي شهدت أهمية متزايدة في دعم اتخاذ القرار والتحليل التنبؤي في العالم الحالي هو التنقيب في البيانات.
و تشير الأبحاث والدراسات إلى أن التنقيب في البيانات يلعب دوراً هاماً في مساعدة الشركات على تقييم البيانات وبالتالي اتخاذ قرارات مستنيرة فيما يتعلق بالجوانب المختلفة لعملياتها وعملياتها.
ويُعد التنقيب في البيانات خطوة أساسية في عملية اكتشاف المعرفة من قواعد البيانات (KDD)، والتي تتكون من تطبيق خوارزميات تحليل البيانات واكتشافها على البيانات من أجل اكتشاف أنماط مفيدة [1].
وقد أدى تزايد قوة التكنولوجيا وتعقيد مجموعات البيانات إلى تطور التنقيب عن البيانات من عملية ثابتة إلى عملية أكثر ديناميكية واستباقية لتقديم المعلومات. وبمرور الوقت، أصبح من المستحيل تحليل حجم البيانات التي يجب إدارتها يدويًا من أجل الحصول على معلومات قيّمة لاتخاذ القرارات. لذلك، ظهرت حاجة ملحة ومستمرة لأجيال جديدة ومحسنة من أدوات التنقيب عن البيانات، من أجل المساعدة في استخلاص المعلومات المفيدة من كمية البيانات المتزايدة بسرعة.
ونتيجة لذلك، استمر عدد أدوات التنقيب عن البيانات المتاحة في النمو، مع التركيز على برمجيات التنقيب عن البيانات مفتوحة المصدر. مثّلت الأدوات مفتوحة المصدر اتجاهًا جديدًا في مجال التنقيب عن البيانات، خاصةً في الشركات الصغيرة والمتوسطة في أوائل العقد الأول من القرن الحادي والعشرين [2].
في الوقت الحاضر هو اتجاه راسخ، حيث يتم تطوير وتجديد أدوات التنقيب عن البيانات مفتوحة المصدر باستمرار، مما يوفر مرونة أكبر ومجتمع تطوير واسع النطاق قد تحدث مشكلة للمديرين والمطورين وعلماء البيانات وغيرهم من أصحاب المصلحة أثناء اختيار أداة مفتوحة المصدر مناسبة، حيث توجد مجموعة واسعة من الأدوات في السوق والعديد منها غير معروف جيدًا في مجتمع التنقيب عن البيانات. تتزايد الحاجة إلى إجراء مقارنات بين الأدوات المختلفة، حيث أصبحت عملية اتخاذ القرار أكثر تعقيدًا.
لذلك، قمنا بعرض عشر أدوات معاصرة ومفتوحة المصدر للتنقيب عن البيانات ومقارنتها بمميزاتها المهمة من أجل مساعدة العلماء في عملية اتخاذ القرار.
فئات أدوات التنقيب عن البيانات Categories of data mining tools
هناك أساسا ثلاث فئات مختلفة من أدوات التنقيب عن البيانات. أدوات التنقيب عن البيانات التقليدية، والأدوات القائمة على التطبيقات/البرمجيات التجارية وأدوات التنقيب عن البيانات على شبكة الإنترنت. وفيما يلي وصف لكل منها:
أدوات التنقيب عن البيانات التقليدية Traditional data mining tools
تعمل بعض برامج التعدين كطريقة تقليدية لجمع وتحليل البيانات التي تستخدمها الشركات المختلفة في عملية اتخاذ القرارات الخاصة بمجموعات البيانات الكبيرة. معظم هذه البرامج مدعومة من قبل إصدارات ويندوز ويونيكس. ومع ذلك، بعض البرامج المتخصصة في نظام تشغيل واحد وأحيانًا تتعامل مع نوع واحد فقط من قواعد البيانات.
1- الأدوات القائمة على التطبيقات Application based tools
تطبيق يعرض الواجهة الموجهة للأعمال لأداء البيانات. في هذه البيانات التاريخية يتم تمثيل البيانات التاريخية كمراجع والتحقق من الاتجاهات الحالية من أجل رؤية التغييرات في الأعمال. لذا، فإن الأدوات القائمة على التطبيقات سهلة الاستخدام وتساعد في الأعمال الإدارية وتقدم خدمات لأداء الشركة.
2- أدوات التنقيب عن البيانات المستندة إلى الويبWeb based data mining tools
يُطلق على هذا النوع من الأدوات اسم أداة التنقيب عن النصوص بسبب قدرتها على التنقيب عن أنواع مختلفة من النصوص من أي موارد مكتوبة. وتساعد أيضًا في مسح البيانات وتحويلها بتنسيق محدد متوافق مع أي أدوات.
3- خلفية عن مصادر المقارنة Background on comparative sources:
كانت المصادر عبارة عن مجموعة من الأوراق البحثية التي قامت بدراسة وتحليل أدوات التنقيب عن البيانات ومقارنتها. تم تضمين المصادر في قسم المراجع. أيضًا، من خلال تجربتنا وخبرتنا مع هذه الأدوات، أوصينا بعشر أدوات للتنقيب عن البيانات.
لمحة عامة عن الأدوات العشرة المرشحة والتي تم وصفها على النحو التالي:
Rapid Miner:
تم تطوير أداة RapidMiner التي تسمى أيضًا (RapidMiner) وتسمى أيضًا (بيئة تعلم أخرى)، تم تطويرها في عام 2001، وهي مكتوبة بلغة جافا من قبل كلينكنبرغ وآخرين [8].
يوفر RapidMiner بيئة متكاملة لإعداد البيانات، والتعلم الآلي، والتعلم العميق، والتنقيب عن النصوص، والتحليلات التنبؤية. وهو متاح كإصدارين مجاني وتجاري. وهي واحدة من أكثر أدوات التحليل التنبؤي استخدامًا. وقد اعترفت شركة Gartner بـ Rapid Miner و Knife كرائدين في الربع السحري لمنصات التحليل المتقدمة في عام 2016. وهي متاحة لأنظمة التشغيل Mac OS وLinux وWindows. مكتبة سهلة الاستخدام وغنية بخوارزميات علم البيانات وخوارزميات التعلم الآلي تجعلها الخيار الأول للمؤسسات لتنفيذ التحليل التنبؤي في عملياتها التجارية. وتتمثل ميزاته الفريدة في تدفقات العمل القابلة للتكرار، والقوالب المدمجة، والتصور والتكامل مع لغات مختلفة مثل Weka و SPSS و Python و R التي تساعد في وضع النماذج الأولية السريعة. يُستخدم RapidMiner بشكل أساسي في المجالات التعليمية والبحثية لاستكشاف البيانات وتصورها، والتنقيب عن البيانات، والتنبؤ المالي، ويمكن دمج التنقيب عن الصور المجزأة مع Weka.
يعتمد RapidMiner على Java ولديه القدرة على التنقيب في الويب والتنقيب في البيانات والتنقيب في النصوص.
RapidMiner عبارة عن منصة برمجيات لعلوم البيانات توفر بيئة متكاملة لإعداد البيانات، والتعلم الآلي، والتعلم العميق، والتنقيب في النصوص، والتحليل التنبؤي. وهو أحد الأنظمة مفتوحة المصدر الرائدة الرائدة في مجال التنقيب عن البيانات.
يجمع Rapid Miner Studio بين التكنولوجيا وقابلية التطبيق لخدمة تكامل سهل الاستخدام لأحدث تقنيات التنقيب عن البيانات وكذلك التقنيات الراسخة. يحتوي RapidMiner على مجموعة واسعة للغاية من خوارزميات التصنيف والانحدار، بالإضافة إلى خوارزميات للتجميع، واستخراج قواعد الارتباط، وتطبيقات أخرى. يحتوي برنامج RapidMiner على أكثر من 400 مشغل للتنقيب عن البيانات Java. وبالإضافة إلى ذلك، يحتوي هذا البرنامج على واجهة مستخدم رسومية سهلة الاستخدام، وميزات السحب والإفلات، ويحتوي على خيارات مع معالج التطبيقات التي تساعد في معالجة البيانات تلقائيًا وفقًا لأهداف المشروع.
تعد لغة البرمجة الرسومية في RapidMiner أقوى نسبيًا من تلك الموجودة في معظم أدوات التنقيب عن البيانات الأخرى، مع وظائف كبيرة لمواصفات المستخدم.
Weka:
تم تطوير بيئة ويكا و لتحليل المعرفة في عام 1992. و ويكا عبارة عن مجموعة من خوارزميات التعلم الآلي المختلفة التي يمكن استخدامها لاستخراج البيانات.
وهي مكتوبة بلغة جافا وتستخدم بشكل خاص لأغراض البحث التعليمي. ويكا هي أداة مستقلة عن المنصة ومفتوحة المصدر وسهلة الاستخدام ومعالجة البيانات ومرنة لكتابة التجارب النصية و3 أدوات واجهة مستخدم رسومية. يحتوي ويكا على أدوات وخوارزميات مختلفة للانحدار والتصنيف والمعالجة المسبقة والتجميع. يمكن دعمه على منصات مختلفة مثل Mac OS و Linux و Windows. عند التعامل مع مجموعات كبيرة من البيانات، من الأفضل استخدام نهج قائم على CL حيث يحاول Explorer تحميل مجموعة البيانات بأكملها في الذاكرة الرئيسية مما يتسبب في حدوث مشكلات في الأداء.
Weka عبارة عن منصة تدعم العديد من مهام التنقيب عن البيانات القياسية، وبشكل أكثر تحديدًا المعالجة المسبقة للبيانات، والتجميع، والتصنيف، والانحدار، والتصور، واختيار الميزات. تم تطوير هذا النظام بلغة جافا ويمكن تطبيق الخوارزميات مباشرةً على مجموعة بيانات أو استدعاؤها من كود جافا، وذلك بسبب واجهة برمجة تطبيقات جافا.
ويكا هو نظام تنقيب عن البيانات تم تطويره من قبل جامعة وايكاتو في نيوزيلندا، وهو نظام تنقيب عن البيانات يقوم بتنفيذ خوارزميات التنقيب عن البيانات. يوفر ويكا 3 طرق لاستخدام البرنامج: واجهة المستخدم الرسومية، وواجهة برمجة تطبيقات جافا، وواجهة سطر الأوامر (CLI) ويكا مستكشف ويكا أدوات المعالجة المسبقة والتصنيف والتجميع والتجميع والارتباط واختيار السمات والتصور.
ويكا عبارة عن مجموعة من خوارزميات التعلم الآلي لمهام التنقيب عن البيانات ومناسبة تمامًا لتطوير مخططات جديدة للتعلم الآلي.
ويكا هو برنامج قائم على جافا قادر على العمل تحت أنظمة تشغيل مختلفة. مع الإصدار القائم على جافا، الأداة متطورة للغاية وتستخدم في العديد من التطبيقات المختلفة بما في ذلك التصور والخوارزميات لتحليل البيانات والنمذجة التنبؤية. وهي مجانية بموجب رخصة GNU العامة، وهي ميزة كبيرة مقارنةً بأداة Rapid miner، لأنه يمكن للمستخدمين تخصيصها كيفما يشاؤون.
بيئة وايكاتو لتحليل المعرفة (ويكا، http://www.cs.waikato.ac.nz/mi/Weka/) هي حزمة برمجيات مجانية ومفتوحة المصدر تجمع مجموعة واسعة من خوارزميات التنقيب عن البيانات وبناء النماذج. وهي لا تدعم إنشاء ميزات جديدة، على الرغم من أنها تدعم الاختيار التلقائي للميزات
يحتوي ويكا على مجموعة واسعة من خوارزميات التصنيف والتجميع والتنقيب عن الارتباطات التي يمكن استخدامها بشكل منفصل أو مجتمعة، من خلال طرق مثل التجميع والتجميع والتكديس.
يمكن للمستخدمين استدعاء خوارزميات التنقيب عن البيانات من سطر الأوامر أو من واجهة المستخدم الرسومية (واجهة المستخدم الرسومية) أو من خلال واجهة برمجة تطبيقات جافا. تُعد واجهة سطر الأوامر وواجهة المستخدم الرسومية أقوى من واجهة المستخدم الرسومية، والتي لا تتيح للمستخدمين الوصول إلى جميع الوظائف المتقدمة. يمكن ل Weka إخراج النماذج التي يولدها إما من حيث النماذج الرياضية الفعلية، أو في ملفات لغة ترميز النمذجة التنبؤية
لغة ترميز النمذجة التنبؤية) والتي يمكن استخدامها لتشغيل النموذج على بيانات جديدة باستخدام
ملحق تسجيل ويكا لتشغيل النموذج.
تعلم استخدام ويكا مدعوم بكتاب من تأليف ويتن وفرانك وهال (2011)، وهو الآن في طبعته الثالثة. يستضيف موقع ويكا الإلكتروني أيضًا قائمة بريدية نشطة وويكي وتقارير عن الأخطاء.
مجموعة أدوات ويكا:
هي مجموعة أدوات مستخدمة على نطاق واسع للتعلم الآلي والتنقيب عن البيانات، تم تطويرها في الأصل في جامعة وايكاتو في نيوزيلندا. تحتوي على مجموعة كبيرة من أحدث خوارزميات التعلم الآلي والتنقيب عن البيانات المكتوبة بلغة جافا. تحتوي WEKA على أدوات للانحدار، والتصنيف، والتجميع، وقواعد الارتباط، والتصور، والمعالجة المسبقة للبيانات. وقد أصبح WEKA شائعًا جدًا بين الباحثين الأكاديميين والصناعيين، ويستخدم أيضًا على نطاق واسع لأغراض التدريس.
ويكا هو أحد أكثر برامج التنقيب عن البيانات واللغة الآلية شهرة. بالإشارة إلى [3]،
تم تأسيس WEKA في عام 1992 بتمويل من الحكومة النيوزيلندية. يشتهر هذا البرنامج بقدراته في التنقيب عن البيانات ويعتمد على منصة برمجة JAVA.
إحدى القدرات الرئيسية لبرنامج WEKA هي المعالجة المسبقة للبيانات.
مع وضع ذلك في الاعتبار، فإن WEKA قادر على تحويل البيانات الخام إلى تنسيق يمكن فهمه. وفقًا لـ [3]،
تحتوي أداة التنقيب عن البيانات هذه على مجموعة واسعة من أدوات المعالجة المسبقة للبيانات أو بالأحرى مرشحات تمكن المستخدمين من أداء وظائف مختلفة على البيانات. تتضمن هذه الفلاتر أو الأدوات إضافة تصنيف، إضافة
المعرف، وإضافة القيم، وإعادة ترتيب السمات، والنطاق الرباعي، والمرشح النواتي، والمنظف العددي، والعددي إلى الاسمي، والمرشح المتعدد المقسم، والمقترح إلى متعدد المثيلات والعكس,
مجموعة فرعية عشوائية، و RELAGGS، وعينة الخزانات، والمجموعة الفرعية حسب التعبير، والموجة. وبالمثل، يتمتع البرنامج بقدرات تصنيف البيانات. ولتحقيق ذلك، يستخدم البرنامج أربع خطوات رئيسية لتصنيف البيانات وهي إعداد البيانات، واختيار التصنيف وتطبيق الخوارزمية، وتوليد الأشجار، وتحليل المخرجات أو النتائج، [11].
بالإضافة إلى ذلك,يمتلك ويكا قدرات تجميع البيانات من خلال خوارزميات غير خاضعة للإشراف. ومن بين الأساليب التي يستخدمها ويكا لتجميع البيانات تجميع البيانات تجميع K-means، والتجميع الهرمي والتجميع القائم على الكثافة. وبالمثل، يدعم هذا البرنامج العديد من ملفات البيانات بما في ذلك تنسيق ARFF وتنسيق CSV وتنسيق LibSVM وتنسيق C4.5، بينما يدعم WEKA 3.6 استيراد انحدار PMML [3].
علاوة على ذلك، يمكنه قراءة البيانات من قواعد البيانات التي تدعم برنامج تشغيل JDBC والملفات و
وعناوين URL. فيما يتعلق بواجهة المستخدم الخاصة به، يحتوي برنامج التنقيب عن البيانات WEKA على أربع ميزات رئيسية وهي المستكشف، و
Experimenter، وتدفق المعرفة، وواجهة مستخدم بسيطة. وبالمثل,
يتمتع برنامج WEKA بإمكانيات توسعة يتم تنفيذها باستخدام 3 مكونات إضافية. والأهم من ذلك أن WEKA هو برنامج مفتوح المصدر، ويتم توزيعه مجانًا بموجب رخصة جنو العمومية العامة، وهو قابل للنقل بشكل كامل.
ArcGIS[4]
ArcGIS ، أو برنامج نظم المعلومات الجغرافية هو عبارة عن منصة برامج متعلقة بأنظمة ، وعلوم المعلومات الجغرافية ، أي أنها مجموعة من البرامج مقدمة من شركة ESRI تعمل على إنشاء ، وإدارة ومشاركة ، وتجميع البيانات الجغرافية ، وكذلك تحليل المعلومات الجغرافية ، وعرضها على شكل خرائط دقيقة .
وتعتبر شركة ESRI ، هي الشركة الرائدة في مجال تكنولوجيا المعلومات الجغرافية ، حيث تقدم العديد من التطبيقات المختلفة ، التي تخدم هذا المجال ، وتعمل باستمرار على تطوير منصة ArcGIS ، عن طريق إضافة المزيد من الأدوات ، والقدرات الجديدة التي تلبي احتياجات العملاء ، والسوق للتحليلات الجغرافية المكانية .
يعتمد النظام في عمله على تكوين طبقات مجمعة من البيانات الجغرافية ، وتصميم خرائط ، أو نماذج مجسمة لمنطقة ، ثم القيام بالتحليل الجغرافي .
مكونات نظام ArcGIS
يتكون النظام بشكل أساسي ، من ثلاث أجزاء :
- : ArcGIS Desktop وهو النسخة التي تستخدم لأجهزة سطح المكتب ، ويحتوي على مجموعة عناصر متكاملة ، من تطبيقات المعلومات الجغرافية .
- :Arc SDE الواجهة التي يتم من خلالها إدارة قواعد البيانات الجغرافية .
- :Arc IMS هو البرنامج الخاص بالعمل على الانترنت .[4]
خصائص برنامج ArcGIS
- إنشاء الخرائط والمعلومات الجغرافية.
- تحليل المعلومات الجغرافية ، وعرض النتائج بصورة واضحة ، وبسيطة يسهل التعامل معها .
- إدارة كافة المعلومات الجغرافية على الأنظمة المختلفة ، لأجهزة سطح المكتب ، والهواتف المحمولة ، وتعديلها ، والتحكم بها .
- مشاركة المعلومات ، والتحليلات ، وكذلك التطبيقات مع المؤسسات ، أو الأفراد عبر الويب ، أو عن طريق شبكة داخلية .
وغير ذلك من الخصائص التي تختلف باختلاف مهام التطبيقات المختلفة للنظام [4].
- QGIS[5].
QGIS هو نظام معلومات جغرافي مجاني، مفتوح المصدر يتمتع بقدرات متقدمة، يستخدم لإنشاء المعلومات الجغرافية المكانية وتحريرها وتصويرها وتحليلها ونشرها على أنظمة Windows وMac وLinux وBSD والأجهزة المحمولة.[5]
وظائف ومميزات برنامج QGIS
عرض البيانات و استكشاف البيانات وتأليف الخرائط و تحليل البيانات و إنشاء البيانات وتحريرها وإدارتها وتصديرها و نشر الخرائط على الإنترنت[5]
- GRASS GIS[6]
هو مجموعة برمجيات نظم معلومات جغرافية (GIS) تستخدم لإدارة وتحليل البيانات الجغرافية المكانية ، ومعالجة الصور ، وإنتاج الرسومات والخرائط ، والنمذجة المكانية والزمانية ، والتجسيد المرئي. ويمكنها التعامل مع الرسومات النقطية ، المتجهات الطوبوغرافية ، معالجة الصوروالبيانات الرسومية.[6]
يحتوي GRASS GIS على أكثر من 350 وحدة لعرض الخرائط والصور على الشاشة والورق ؛ معالجة البيانات النقطية والمتجهية بما في ذلك شبكات المتجهات ؛ معالجة بيانات الصورة متعددة الأطياف ؛ وإنشاء وإدارة وتخزين البيانات المكانية.
تم ترخيصه وإصداره كبرنامج مجاني ومفتوح المصدر بموجب رخصة جنو العمومية (GPL). يعمل على أنظمة تشغيل متعددة ، بما في ذلك ماك أو إس و Windows وLinux . يمكن للمستخدمين التفاعل مع ميزات البرنامج من خلال واجهة مستخدم رسومية (GUI) أو عن طريق التوصيل بـ GRASS عبر برامج أخرى مثل QGIS . يمكن أيضًا التفاعل مع الوحدات مباشرة من خلال غلاف مصمم يقوم بتشغيله التطبيق أو عن طريق استدعاء الوحدات الفردية مباشرة من غلاف قياسي. أحدث إصدار مستقر (LTS) هو GRASS GIS 7 ، وهو متاح منذ عام 2015م.
فريق تطوير GRASS هو مجموعة متعددة الجنسيات تتكون من مطورين أماكن مختلفة. GRASS هو واحد من ثمانية مشاريع برمجية أولية لمؤسسة Open Source Geospatial Foundation .
هندسة معماريتها:
يدعم GRASS البيانات النقطية والمتجهية في بعدين وثلاثة أبعاد. نموذج بيانات المتجه الطوبولوجي ، يعني أن المناطق محددة بحدود ونقط الوسطى ولا يمكن أن تتداخل الحدود داخل طبقة واحدة. في المقابل ، تحدد ميزات OpenGIS البسيطة ، المتجهات بحرية أكبر ، مثلما يفعل برنامج توضيح النواقل غير المحددة جغرافيًا.
تم تصميم GRASS كبيئة يتم فيها تنفيذ الأدوات التي تقوم بحسابات GIS محددة. على عكس برامج التطبيقات المستندة إلى واجهة المستخدم الرسومية ، يتم تقديم GRASS مع غلاف Unix يحتوي على بيئة معدلة تدعم تنفيذ أوامر GRASS ، تسمى الوحدات النمطية. تحتوي البيئة على حالة تتضمن معلمات مثل المنطقة الجغرافية المغطاة وإسقاط الخريطة قيد الاستخدام. تقرأ جميع وحدات GRASS هذه الحالة بالإضافة إلى أنها تُعطى معلمات محددة (مثل خرائط الإدخال والإخراج ، أو القيم لاستخدامها في الحساب) عند تنفيذها. يمكن تشغيل معظم وحدات وقدرات GRASS عبر واجهة مستخدم رسومية (يتم توفيرها بواسطة وحدة GRASS) ، كبديل لمعالجة البيانات الجغرافية في غلاف.
يتضمن توزيع GRASS أكثر من 350 وحدة أساسية. يتم تقديم أكثر من 100 وحدة إضافية تم إنشاؤها بواسطة المستخدمين على موقع الويب الخاصة بهم. المكتبات والوحدات الأساسية مكتوبة بلغة البرمجة C. الوحدات النمطية الأخرى مكتوبة بلغة C أو C ++ أو Python أو Unix shell أو Tcl أو لغات البرمجة الأخرى. تم تصميم الوحدات وفقًا لفلسفة Unix ، وبالتالي يمكن دمجها باستخدام برمجة Python أو shell لبناء وحدات أكثر تعقيدًا أو تخصصًا ، من قبل المستخدمين ، دون معرفة بلغة [6] C
لغة (R) [13]:
R هي لغة برمجة مفتوحة المصدر وبيئة مفتوحة المصدر للحوسبة العددية. تُستخدم لغة R في جميع أنحاء العالم وهي لغة شائعة لاستخراج البيانات وتطوير البرمجيات العددية. يُكتب برنامج R بشكل أساسي بلغة C و FORTRAN و R. وهو مدعوم في أنظمة التشغيل Mac OS و Windows و Linux. يمكن التعامل مع كائنات R باستخدام C و C++C وJava و .net وPython. استوديو R هو واجهة المستخدم الرسومية المستخدمة بشكل أساسي في R. لتصور البيانات أو التنقيب عنها في R، قد يلزم تثبيت بعض الحزم مثل RODBC و Gmodels و class و tm و e107i و neural net و kernlab و rpart وما إلى ذلك. قد يستغرق تثبيت كل هذه الحزم مساحة إضافية في النظام المضيف. يحتوي R على معظم الحزم المتوفرة في جميع أدوات التنقيب عن البيانات المتوفرة في CRAN و github، مما يجعلها متنوعة أكثر من غيرها. تتوفر جميع خوارزميات التعلم الآلي تقريبًا في [13]R.
: [7] Python
وهي متوفرة كلغة مجانية ومفتوحة المصدر؛ وعادةً ما تكون تصورات البيانات ذات الاستخدام التجاري واضحة ومباشرة طالما أنك مرتاح مع مفاهيم البرمجة الأساسية مثل المتغيرات وأنواع البيانات.
Python و Jupyter Notebook لعلماء البيانات الذين لديهم معرفة بالبرمجة، هناك عدد قليل من اللغات المناسبة بشكل خاص لمعالجة البيانات وهندسة الميزات. يعتبر الكثيرون لغة بايثون لغة مفيدة بشكل خاص لهذه الأغراض. وعلى وجه الخصوص، تعد هندسة الميزات المعتمدة على السياق أو الميزات الزمنية أسهل في لغة بايثون مقارنةً بلغة إكسل أو جداول بيانات جوجل. ميزة أخرى مفيدة في لغة بايثون هي دفتر ملاحظات Jupyter، وهو تطبيق خادم-عميل يسمح بإنشاء وتعديل كود بايثون وعناصر نصية غنية مثل الرسوم البيانية والجداول داخل متصفح الويب. دفتر جوبتر هو طريقة للاحتفاظ بسجل للتحليلات التي تم إجراؤها والنتائج الوسيطة، وعرض كل إجراء يقوم به المستخدم ونتيجته بالترتيب. ومع ذلك، وعلى الرغم من هذه الميزة، لا يزال من الأسهل فحص البيانات والميزات التي تم إنشاؤها في Excel أو جداول بيانات Google بصريًا.
بايثون قادرة على التعامل مع العديد من الأنواع المختلفة من تنسيقات البيانات غير المعتادة أو المتخصصة، مثل ملفات JavaScript Object Notation (JSON) التي تنتجها العديد من منصات MOOC ومنصات التعلم عبر الإنترنت. على الرغم من أن بايثون أقوى من الناحية الحسابية من الأدوات الأخرى، إلا أن قدراتها في هذه المجالات ليست بلا حدود. وعلى الرغم من أن بايثون قادرة على استيعاب مجموعات بيانات أكبر من الأدوات الأخرى، إلا أنها لا تزال خاضعة لقيود الحجم، حيث تصبح أبطأ في حدود 10 ملايين صف من البيانات بالنسبة لأجهزة الكمبيوتر الخاصة بهؤلاء الباحثين. من المهم ملاحظة أن بعض أنواع البرامج (على سبيل المثال، تلك التي تتضمن حلقات متداخلة) تكون أبطأ بكثير عند استخدام دفتر الملاحظات مقارنةً بالبايثون القياسية [7].
[9]Orange:
ويتضمن ذلك مجموعة متنوعة من المهام مثل الطباعة الجميلة لأشجار القرار ومجموعة السمات الفرعية والتعبئة والتعزيز وما شابه ذلك. تتضمن Orange أيضًا مجموعة من الأدوات المصغّرة الرسومية التي تستخدم أساليب من المكتبة الأساسية ووحدات Orange. من خلال البرمجة المرئية، يمكن تجميع الأدوات معًا في تطبيق بواسطة أداة برمجة مرئية تسمى Orange Canvas. كل هذا معًا يجعل من أداة Orange، إطار عمل شامل قائم على المكونات للتعلم الآلي والتنقيب عن البيانات، مخصصًا لكل من المستخدمين والباحثين ذوي الخبرة في التعلم الآلي الذين يرغبون في تطوير واختبار خوارزمياتهم الخاصة مع إعادة استخدام أكبر قدر ممكن من التعليمات البرمجية، ولأولئك الذين دخلوا للتو والذين يمكنهم الاستمتاع ببيئة برمجة مرئية قوية وسهلة الاستخدام في الوقت نفسه. أورانج هي أداة مفتوحة المصدر للتنقيب عن البيانات وبرنامج تصوري مفتوح المصدر مع مجتمع نشط ويساعد المبتدئين والخبراء في تحليلاتهم. هذه الأداة متوافقة مع أنظمة تشغيل ويندوز وماك أو إس سي وجنو/لينكس. كما أنها مفيدة جدًا للعملية التحليلية التي تحتوي على برمجة مرئية سهلة الاستخدام أو برمجة نصية من نوع بايثون. تحتوي هذه الأداة على جميع خوارزميات التنقيب عن البيانات الرئيسية. بشكل خاص، تحتوي هذه الأدوات على أدوات مساعدة لإضافة المعلوماتية الحيوية وإضافة التنقيب عن النصوص[9].
KNIME[10]:
KNIME (KNIME) هي منصة سهلة الاستخدام ومفتوحة المصدر لتكامل البيانات ومعالجتها وتحليلها واستكشافها. وقد تم تطوير KNIME منذ اليوم الأول باستخدام ممارسات هندسة البرمجيات الصارمة ويستخدمها حاليًا أكثر من 6000 متخصص في جميع أنحاء العالم، في كل من الصناعة والأوساط الأكاديمية. KNIME هي منصة استكشاف بيانات معيارية تمكّن المستخدم من إنشاء تدفقات البيانات بصريًا (يشار إليها غالبًا باسم خطوط الأنابيب)، وتنفيذ بعض أو كل خطوات التحليل بشكل انتقائي، ثم التحقيق في النتائج لاحقًا من خلال طرق عرض تفاعلية على البيانات والنماذج. كُتبت KNIME بلغة جافا وتعتمد على برنامج Eclipse، وهي سهلة التوسيع وإضافة المكونات الإضافية. يمكن إضافة وظائف إضافية أثناء التنقل. يتم تضمين الكثير من وحدات تكامل البيانات بالفعل في الإصدار الأساسي[10].
SPSS[10]:
مثل Excel، فإن SPSS معروف خارج نطاق مجتمع علوم البيانات فقط. SPSS هو في المقام الأول حزمة إحصائية، ويقدم مجموعة من الاختبارات الإحصائية وأطر الانحدار والارتباطات وتحليلات العوامل. يُستكمل SPSS بحزمة IBM SPSS Modeler Premium، وهي حزمة تحليلات وتنقيب عن البيانات أحدث نسبيًا تدمج حزم التحليلات السابقة وحزم التنقيب عن النصوص
يحتوي SPSS Modeler على وظائف خاصة لإنشاء ميزات جديدة من الميزات الموجودة، ولتصفية البيانات، ولتحديد الميزات وتقليل مساحة الميزات. يمكن مقارنة أدوات تحويل البيانات واختيار الميزات وتقليل مساحة الميزات بتلك الموجودة في حزم التنقيب عن البيانات، مع تنوع أقل في أساليب الاختيار. هناك أيضًا وظيفة لاستخدام الفئة المستهدفة في اختيار الميزات، والتي لا تتوفر في العديد من الحزم الأخرى[10].
- أوجه مقارنة أدوات التنقيب عن البيانات المقترحة
- سهولة الاستخدام :
تحدد هذه الميزة سهولة استخدام كل أداة. وهذا يصف واجهة المستخدم الأسهل استخدامًا نسبيًا.
- السرعة :
تعد السرعة عاملاً مميزًا مهمًا بين أدوات التنقيب عن البيانات المختلفة. تساعد هذه الميزة على فهم كيفية تأثير تكوين النظام على عمل أداة معينة للتنقيب عن البيانات.
- الخوارزميات المدعومة :
تصنّف هذه الميزة أدوات التنقيب عن البيانات بناءً على تطبيق الخوارزمية التي تدعمها وخيار اختيار الواصف المتاح.
- الواجهة :
يعد نوع الواجهة المتوفرة لتنفيذ الخوارزمية إحدى ميزات المقارنة من سياق هذه المقارنة، واستخدام واجهة المستخدم الرسومية (GUI) أو واجهة سطر الأوامر (CLI) يميز كل أداة.
- الاستخدام الأساسي:
لكل أداة من أدوات التنقيب عن البيانات استخدام معين وهو أحد الميزات القابلة للمقارنة. على سبيل المثال، يمكن استخدام كل من R وWeka لتنفيذ خوارزميات التنقيب عن البيانات ولكن الاستخدام الأساسي لأداة R هو في الحوسبة الإحصائية.
- حجم مجموعة البيانات:
يعد دعم مجموعة البيانات الصغيرة أو الكبيرة ميزة أخرى قابلة للمقارنة بين أدوات التنقيب عن البيانات المختلفة.
- استخدام الذاكرة:
نظرًا لأن استخدام الذاكرة يؤثر على الأداء، فإن استخدام الذاكرة ميزة أخرى مهمة لمقارنة أدوات التنقيب عن البيانات.
- لغة البرمجة:
لغات البرمجة التي تُكتب بها الأكواد البرمجية والتي تسمح الأداة بالوصول إليها، بمعنى أن الأداة تدعمها.
جدول يوضح الفرق بين الادوات ولغات البرمجة
Tool |
Usability |
Speed |
Algorithms supported |
Interface |
Primary Usage |
Data Set Size |
Memory Usage |
Programming language |
|
Rapid Miner |
قابلة للاستخدام للمبتدئين والخبراء |
|
يتطلب المزيد من الذاكرة للتشغيل |
التصنيف والتجميع |
GUI |
التنقيب عن البيانات، التحليل التنبؤي |
يدعم مجموعة البيانات الكبيرة والصغيرة |
يتطلب المزيد من الذاكرة |
Java, R, Python |
Weka |
الأكثر سهولة في الاستخدام |
|
يعمل بشكل أسرع على أي جهاز. |
التصنيف والتجميع |
GUI / CLI |
التعلّم الآلي |
يدعم مجموعات البيانات الصغيرة فقط |
ذاكرة أقل وبالتالي تعمل بشكل أسرع |
Java |
R |
سهلة للمحللين الإحصائيين، لكن قد تكون صعبة للمبتدئي |
|
ليست الأسرع، ولكن يمكن تحسين الأداء باستخدام حزم خاصة |
تدعم مجموعة واسعة من الخوارزميات الإحصائية والتعلم الآلي |
تستخدم واجهة سطر الأوامر، مع دعم لواجهات رسومية مثل RStudio |
مخصصة للتحليل الإحصائي، والتصور البياني، والتعلم الآلي. |
تتعامل مع بيانات كبيرة لكن قد تواجه مشاكل مع البيانات الضخمة جداً. |
تعتمد على الذاكرة المتاحة، حيث يتم تحميل البيانات في الذاكرة.
|
R, |
Python |
سهل الاستخدام |
|
أبطأ |
التجميع أو التصنيف، وقواعد الارتباط، وتحليل التسلسل |
GUI / CLI |
التنقيب عن البيانات، التحليل التنبؤي |
يدعم أي مجموعة بيانات |
المزيد من الذاكرة |
Python |
Knime |
قابلة للاستخدام والتعلم والتفاعل |
|
يعمل بسرعة |
الكشف عن القيم المتطرفة وتحليل المجموعات |
GUI |
التقارير المؤسسية, ذكاء الأعمال |
يدعم أي مجموعة بيانات |
ذاكرة أقل |
Java |
Orange
|
واجهة سهلة الاستخدام |
|
يعمل بسرعة |
التجميع أو التصنيف، وقواعد الارتباط، وتحليل التسلسل |
GUI / CLI |
التعلّم الآلي، التنقيب عن البيانات تصوُّر البيانات |
يدعم مجموعات البيانات الصغيرة فقط |
ذاكرة أقل |
Java, C++ and Python |
SPSS |
معقدة |
|
يعمل بسرعة |
التجميع أو التصنيف وتحليل التسلسل |
GUI
|
الإحصاء وخوارزميات التنقيب عن البيانات في شجرة القرار
|
يدعم أي مجموعة بيانات |
ذاكرة أقل |
Java and Python |
. ArcGIS
|
يعتبر معتدلًا إلى قويًا من حيث سهولة الاستخدام، حيث يوفر واجهة مستخدم بديهية وأدوات تفاعلية لإنشاء وتحليل البيانات الجغرافية. |
|
يعتبر سريعًا وفعالًا في معالجة البيانات الجغرافية الكبيرة، ولديه قدرات قوية في تحليل البيانات وتنفيذ الخوارزميات |
يوفر مجموعة واسعة من الخوارزميات الجغرافية لتحليل البيانات والنمذجة الجغرافية |
GUI |
يستخدم على نطاق واسع في البيانات الجغرافية والنظم البيئية والتخطيط الحضري والمساحة والموارد الطبيعية وغيرها. |
يدعم مجموعات بيانات كبيرة ويتمتع بقدرات قوية في التعامل مع البيانات الجغرافية الكبيرة |
يعتمد على حجم وتعقيد البيانات والعمليات المطلوبة، وقد يتطلب استهلاك ذاكرة عالي في بعض الحالات |
يستخدم لغة برمجة خاصة تسمى ArcGIS Python API، ويدعم أيضًا البرمجة باستخدام VB.NET وC#. |
GRASS GIS |
يعتبر صعبًا إلى متوسطًا من حيث سهولة الاستخدام، حيث يتطلب معرفة مسبقة بالأوامر والإعدادات لاستخدامه بشكل فعال. |
|
يعتبر متوسطًا إلى بطيئًا بالمقارنة مع الأدوات الأخرى، خاصة عند معالجة البيانات الكبيرة أو تنفيذ العمليات المعقدة. |
يوفر مجموعة كبيرة من الخوارزميات الجغرافية والأدوات المتقدمة لتحليل البيانات الجغرافية. |
يعتمد بشكل رئيسي على واجهة سطر الأوامر (Command Line Interface (GUI) لبعض العمليات. |
يستخدم بشكل أساسي في البحث العلمي وتحليل البيانات الجغرافية والنظم البيئية والمساحة والتضاريس. |
يمكنه التعامل مع مجموعات بيانات كبيرة ولكنه قد يواجه تأثيرًا على الأداء عند التعامل مع بيانات ضخمة. |
يستخدم ذاكرة معتدلة إلى عالية، وقد يحتاج إلى موارد نظام جيدة لتشغيله بكفاءة. |
|
QGIS
|
يعتبر متوسطًا إلى سهل من حيث سهولة الاستخدام، حيث يوفر واجهة مستخدم بديهية ومرونة في تخصيص العمليات والأدوات. |
|
يعتبر متوسطًا إلى سريعًا، ويعتمد على حجم وتعقيد البيانات ونوع العملية المطلوبة |
يدعم مجموعة واسعة من الخوارزميات الجغرافية ويوفر إمكانية توسيعه عن طريق الإضافات الإضافية. |
(GUI) |
يستخدم في مجموعة متنوعة من التطبيقات بما في ذلك التحليل الجغرافي وإدارة البيانات الجغرافية وتصور الخرائط وتحليل البيانات المكانية |
يمكنه التعامل مع مجموعات بيانات متوسطة إلى كبيرة، ويعتمد على قوة الجهاز الذي يستخدم لتشغيله في التعامل مع البيانات الكبيرة |
يستخدم ذاكرة معتدلة، ويعتمد على حجم البيانات والعمليات المطلوبة. |
يستخدم لغة البرمجة Python بشكل رئيسي ويدعم أيضًا البرمجة باستخدام C++ وJavaScript وغيرها من اللغات. |
اضغط على الملف التالي لتحميلة
التعديل_الاخير_للبيبرات_والادوات.docx
apers in the geographic field
- Python Tools:
- A Survey of Machine Learning Applications in Geospatial Data Analysis (2022)
- Foundation Models for Time Series Analysis: A Tutorial and Survey(2024)
- Evaluation of Soil Physical Properties of Long-Used Cultivated Lands as a Deriving Indicator of Soil Degradation, North Ethiopia(2024)
- Spatial Data Analysis and Mining: Theory, Techniques, and Applications(2021)
- Advanced Geospatial Analysis Techniques in Environmental Science (2022)
-
- QGIS Tools:
- A Survey on Geographical Modeling Techniques for Disaster Management (2021)
- Survey of Spatial Analysis Techniques in Human Geography (2020)
- Geospatial Analysis of Environmental Changes in Coastal Areas (2023)
-
- ArcGIS Tools:
- Survey of Geographic Information Systems in Public Health Research (2020)
- A Survey on Geographic Information Systems for Climate Change Analysis (2022)
- A Comprehensive Survey of Geographic Information System (GIS) Applications in Urban Planning (2024)
- Assessing Renewable Energy Potential Using GIS (2021)
- A Survey on the Use of GIS in Transportation Planning (2023)
-
- R Tools (Spatial Packages)
- Survey on Spatial Data Mining Techniques (2023)
-
- WEKA Tools:
- Geospatial Data Mining: Techniques and Tools (2020)
-
-
- Research Sites:
Google scholer |
Francis Online |
Springer Link
|
ScienceDirect |
MDPI |
|
References:
[1] https://link.springer.com/article/10.1007/s00500-024-07035-3
[2] https://arxiv.org/abs/2403.14735
[3] https://www.tandfonline.com/doi/full/10.1080/02723646.2019.1568148
[4] https://link.springer.com/book/10.1007/978-3-030-52952-3
[5] https://onlinelibrary.wiley.com/doi/10.1002/env.2675
[6] https://www.sciencedirect.com/science/article/pii/S1110016821000999
[7] https://link.springer.com/article/10.1007/s10462-019-09752-2
[8 ] https://link.springer.com/article/10.1007/s10707-023-00556-6
[9] https://www.mdpi.com/2220-9964/9/5/274
[10] https://link.springer.com/article/10.1007/s10707-022-00450-1
[11]https://link.springer.com/article/10.1007/s10707-024-00555-7
[12] https://www.sciencedirect.com/science/article/pii/S1110016821000565
[13] https://www.sciencedirect.com/science/article/pii/S1110016823000552
[14]https://link.springer.com/article/10.1007/s10707-023-00555-7
[15]https://www.sciencedirect.com/science/article/pii/S1110016819302530
:Conclusion الخاتمة
لتحليل البيانات الجغرافية الكبيرة وتنفيذ الخوارزميات المعقدة، فإن ArcGIS يمكن أن يكون خيارًا جيدًا. يوفر ArcGIS واجهة مستخدم بديهية وأدوات تفاعلية، وهو سريع وفعال في معالجة البيانات الجغرافية الكبيرة. كما يوفر مجموعة واسعة من الخوارزميات الجغرافية لتحليل البيانات والنمذجة الجغرافية
References
[1] Chaurasia, V., Pal, S., & Tiwari, B. B. (2018). Prediction of benign and malignant breast cancer using data mining techniques. Journal of Algorithms & Computational Technology, 12(2), 119-126.
[2] Bisht, P., Negi, N., Mishra, P., & Chauhan, P. (2018). A comparative study on various data mining tools for intrusion detection. International Journal of Scientific & Engineering Research, 9(5).
[3] Patel, P. S., & Desai, S. (2015). A comparative study on data mining tools. International Journal of Advanced Trends in Computer Science and Engineering, 4(2).
[5] https://tech.mawdoo3.com/b/%D8%B4%D8%B1%D8%AD-%D8%A8%D8%B1%D9%86%D8%A7%D9%85%D8%AC-qgis
[7] https://arabicprogrammer.com/article/47721537847
[8] Borges, L. C., Marques, V. M., & Bernardino, J. (2013, July). Comparison of data mining techniques and tools for data classification. In Proceedings of the International C* Conference on Computer Science and Software Engineering (pp. 113-116)
[10]https://dlarabic.com/%d8%b9%d9%84%d9%85%d8%a7%d9%84%d8%a8%d9%8a%d8%a7%d9%86%d8%a7%d8%aa-%d8%a8%d8%af%d9%88%d9%86-%d8%a8%d8%b1%d9%85%d8%ac%d8%a9-%d9%85%d8%b9-knime/
[11] Inkiläinen, Z. A. (2017). The effect of accounting conservatism and its impacts on the fair value of the corporation. Middle East Comprehensive Journal For Education And Science Publications (MECSJ), 62.
[12] https://emtyiaz.com/what-spss
تم اعداد هذا البحث من قبل الباحثة المهندسة/ سهى صادق الشابع
لطلب البحث يرجى مراسلتنا عبر الواتساب من خلال الضغط على الرابط التالي