كيفية إنشاء محرك بحث في PHP وMySQL

لماذا تريد إنشاء محرك بحث على أي حال؟ يوجد بالفعل محرك بحث للحكم عليهم جميعًا. يمكنك استخدام Google للعثور على أي شيء تقريبًا على الإنترنت، وأشك في أنك ستتمتع بنفس قدرات الحوسبة والتخزين التي يتمتع بها G الكبير.

فلماذا إذن تصنع محرك البحث الخاص بك؟ — لكسب المال بالطبع!

... وأن تصبح مشهورًا كمنشئ محرك البحث الكبير التالي أو لأنك كمبرمج أو مهندس تحب التحديات. يعد إنشاء محرك بحث للإنترنت العام أمرًا صعبًا، وإذا كنت مثلي فأنت ترغب في حل المشكلات الصعبة.

التطبيق الثالث عبارة عن موقع مخصص وعالي السرعة للبحث في آلاف الصفحات الكبيرة من موقع الويب الخاص بك. سيكون محرك البحث المفهرس أسرع بكثير من وظيفة البحث عن النص الكامل، وإذا لم يكن البحث في موقع Google مرنًا بدرجة كافية لموقعك، فيمكنك إنشاء وظيفة البحث الخاصة بك.

أساسيات البحث

أساس أي محرك بحث كبير هو فهرس الكلمات لصفحات الويب، وهو في الأساس قائمة طويلة من الكلمات ومدى ارتباطها بصفحات الويب المختلفة.

لإنشاء محرك بحث عليك القيام بأربعة أشياء:

* حدد الصفحات التي تريد جلبها وإحضارها
* تحليل الكلمات والعبارات والروابط من الصفحةجوجل مخصص SE
* أعط درجة لكل كلمة رئيسية أو عبارة رئيسية تشير إلى مدى ارتباط العبارة بتلك الصفحات وقم بتخزين النتائج في فهرس محرك البحث
* توفير طريقة للمستخدمين للاستعلام عن الفهرس والحصول على قائمة بصفحات الويب المطابقة

هذا ليس بالأمر الصعب بالنسبة للمبرمج المتمرس. يمكن القيام بذلك في يوم واحد إذا كنت تعرف التعبيرات العادية ولديك بعض الخبرة في استخدام HTML وقواعد البيانات.

الآن لديك محرك بحث يعمل، ما عليك سوى إضافة الكثير من أجهزة الكمبيوتر ومحركات الأقراص الثابتة وستقوم قريبًا بفهرسة كل شبكة الإنترنت. إذا لم تكن مستعدًا للذهاب إلى هذا الحد، فسيحتوي قرص سعة 50 تيرابايت على فهرس يبلغ حوالي XNUMX مليون صفحة.

كيفية تسجيل الصفحات

بعد إكمال وظيفة البحث الأساسية، هناك الكثير من العمل قبل أن يرغب أي شخص في استخدام جهازك الجديد. الفهرس لا يكفي. التحدي الأكبر هو كيفية تسجيل الصفحات لمنح المستخدم النهائي نتائج البحث الأكثر صلة بفكرته حول ما يبحث عنه.

ستحتاج إلى تحديد مقدار الأهمية التي يجب وضعها على الكلمات الرئيسية في علامة التجانب والوصف ومحتويات صفحة الويب الرئيسية. لتحقيق نتائج جيدة، ستحتاج أيضًا إلى تعزيز الكلمات الرئيسية الموجودة في عنوان URL للصفحة والتحقق من النص الأساسي للروابط الواردة. يعد تتبع الروابط الواردة هو الأكثر فائدة والأكثر تحديًا مما سبق، ستحتاج إلى الاحتفاظ بجدول قاعدة بيانات منفصل يحتوي على معلومات حول جميع الروابط بين الصفحات التي تقوم بفهرستها.

ما يجب فهرسته وليس فهرسته

العوائق الأخرى التي ستجدها عند البدء في فهرسة محتوى الإنترنت الحقيقي هي حقيقة أن هناك كميات مهدرة من النفايات غير المفيدة التي تطفو في كل مكان وفي النهاية سيصبح الفهرس الخاص بك مليئًا بالبريد العشوائي والصفحات التابعة والمجالات المتوقفة والصفحات الرئيسية قيد التقدم بدون محتوى والرابط المزارع التي يستخدمها مُحسِّنو محركات البحث، والمواقع المتطابقة التي تستخدم خلاصات البيانات لإنشاء آلاف الصفحات التي تحتوي على قوائم المنتجات أو أي محتوى آخر مُعاد إنتاجه، وما إلى ذلك...

عند الفهرسة من الإنترنت، سيتعين عليك إيجاد طرق لتصفية المحتوى غير المرغوب فيه مما يقرأه الأشخاص بالفعل ويبحثون عنه. للبدء، يمكنك تحديد مدى عمق الزحف في الأدلة الفرعية، وعدد روابط الارتباط من صفحة فهرس المجال التي تزحف إليها، وعدد الروابط المسموح بها لكل صفحة ويب.

تحليل المواقع

هناك مليون طريقة، سواء كانت صحيحة أو خاطئة لكتابة HTML، وعندما تقوم بالفهرسة من الإنترنت، فسوف تحتاج إلى التعامل معها جميعًا.

عند تحليل الكلمات الرئيسية من الصفحات، لا تحتاج فقط إلى التعامل مع معيار HTML الكامل ولكن أيضًا جميع الطرق غير القياسية التي تدعمها متصفحات الإنترنت بشكل غير رسمي.

لتتمكن من قراءة جميع الصفحات، ستحتاج أيضًا إلى تحليل جافا سكريبت من جانب العميل، والتعامل مع الإطارات، وCSS، وiframes.
يعد هذا جزءًا كبيرًا من العمل على محرك بحث عام، لتتمكن من قراءة جميع أنواع المحتوى.

لماذا يوجد الكثير من عناوين URL؟

أخيرًا، ستحتاج إلى التعامل مع حقيقة أن العديد من مواقع الويب تحتوي على العديد من عناوين URL التي تشير إلى صفحة الويب نفسها. مجرد إلقاء نظرة على هذا المثال:

dmoz.org
www.dmoz.org
dmoz.org/index.html
www.dmoz.org/index.html

تشير جميع عناوين URL هذه إلى صفحة الويب نفسها. إذا لم تقم بإنشاء رمز خاص للتعامل مع ذلك، فسيكون لديك قريبًا 4 نتائج في محرك البحث الخاص بك (واحدة لكل عنوان URL) ستذهب جميعها إلى نفس الصفحة. لن يحبك المستخدمون.
هناك أيضًا إمكانية لسلاسل الاستعلام حيث سيؤدي معرف الجلسة بعد علامة الاستفهام في عنوان URL إلى إنشاء عناوين URL لا حصر لها تقريبًا لنفس صفحة الويب.

google.com?SID=4434324325325
google.com?SID=4387483748377
google.com?SID=7654565644466

بالنسبة لمحرك البحث، سيكون هناك عدد كبير جدًا من الصفحات التي تحتوي جميعها على نفس المحتوى. الحل السريع بالطبع هو عدم فهرسة الصفحات التي تتضمن سلسلة استعلام. أو لتجريد سلسلة الاستعلام من الصفحات. يعمل هذا ولكنه سيؤدي أيضًا إلى إزالة الكثير من المحتوى الشرعي (مثل المنتديات) من الفهرس الخاص بك.

لديك الآن كافة المعلومات التي تحتاجها لإنشاء محرك بحث للموقع. إذا كنت تريد استخدام محرك بحث عام على الإنترنت، فهناك الكثير من التفاصيل التي تحتاج إلى تضمينها. مثل ملف robots.txt، وخرائط الموقع، وعمليات إعادة التوجيه، وكلاءوالتعرف على أنواع المحتوى وخوارزميات التصنيف المتقدمة بالإضافة إلى التعامل مع تيرابايت من البيانات. سأغطي المزيد من التفاصيل في مقال مستقبلي. حظا سعيدا في مشروع محرك البحث القادم الخاص بك!

الفئات مدونة
  1. بينغبك:التغريدات التي تشير إلى TopTut.com - أهم البرامج التعليمية » كيفية إنشاء محرك بحث في PHP وMySQL - Topsy.com

  2. تنبيه: TopTut.com – أهم البرامج التعليمية » كيفية إنشاء محرك بحث في PHP … | الترويج عبر محركات البحث على الإنترنت

التعليقات مغلقة.