البحث والاسترجاع باللغة العربية في نظام دى سبيس

عند البحث والاسترجاع والفرز باللغة العربية تتم المعالجات التالية:

  • توحيد "ي ى"   -   مثل على  علي  

  • توحيد "ه ، ة" -   مثل  مدينة  و  مدينه  

  • توحيد "أ ، إ ، ا، آ"  -   مثل  أحمد   و   احمد

  • تجاهل الكشيدة (المدة) -   مثل  مـديـنــــــــــــــــة   و   مدينة

  • تجاهل علامات التشكيل -   مثل مُعَامِل

  • تجاهل ال التعريف و واو العطف  -   مثل المدينة و والمدينة

  • تجاهل كافة حروف السوابق مثل للـ و فـ و كـ و مـ و بـ و تـ مثل بالمدينة  فالمدينة  للمدينة   

  • تجاهل كافة حروف الللواحق مثل سعودي سعودة سعودية سعوديتان سعوديان سعوديات سعوديون سعوديين وكذلك مثل معلومات و معلوماتية

  • صيانة قائمة كلمات التوقفStop Words List  بحيث يتم تجاهلها في الفهرسة والبحث

  •    من    لكن    الذى    الى    انت    خلال    إلا    أو

  • صيانة قائمة الكلمات الاستثنائية التي تحتوي على ألف لام أصلية بحيث لا يتم تجاهلها في الفرز والبحث،  مثل :

  •    الله    وزارة    الاسكا    البرت

  • تجاهل الفراغات بين عناصر الاسم العربي المركب في البحث والاسترجاع، مثل "عبد الرحمن" و "أبا بكر"، بحيث يتم معاملة الاسم "عبد  الرحمن" مثلاً مثل "عبدالرحمن" بدون فراغ بين "عبد" و "الرحمن". هذا التعامل يضمن الوصول الى الاسم بكلتا الصيغتين عند البحث بأي منهما.

  • معالجة قواعد فرز الأسماء العربية مثل ابن عباس، أبابكر أو عبدالسلام، حيث تختار المكتبة القاعدة التي تفضلها في فرز هذه الأسماء. هناك بعض المكتبات التي تفضل فرز الاسم الأول تحت حرف العين باستبعاد ابن والاسم الثاني تحت حرف الباء باستبعاد أبا أما الثالث فيفرز  تحت حرف السين بتجاهل عبد وال في حين يفضل بعض المكتبات الفرز على الأحرف الأولى، وأحيانا يتم المزج بين الأسلوبين.


التعامل مع نتائج البحث وأساليب الفرز المتاحة في نظام دى سبيس

يوفر نظام دى سبيس ميزات متقدمة في التعامل من نتائج البحث وطرق الفرز باللغة العربية، بما في ذلك ميزة البحث النطاقي Faceted Search التي تعتبر من الميزات المتقدمة في تبسيط وتوجيه نتائج البحث عن طريق توظيف تقنيات معالج البحث في النص الكامل، حيث يمكن للباحث صياغة بحث عام ومن ثم بمجرد الضغط على اسم مؤلف او رأس موضوع في صندوق "إكتشف" يتم اعادة البحث في نتائج البحث السابقة.



ومع دى سبيس مدعوماً بمحرك البحث Solr تم تمديد الدعم لمعالجة اللغة العربية لتشمل كافة الضمائر اللاحقة للأسماء، كما هو موضح في الجدول المرفق أدناه.