Kuidas teha otsingumootorit PHP-s ja MySQL-is

Miks sa ikkagi tahad otsingumootorit teha? Nende kõigi valitsemiseks on juba olemas otsingumootor. Google'i abil saate Internetist leida peaaegu kõike ja ma kahtlen, kas teil on kunagi samasugused arvutus- ja salvestusvõimalused nagu suurel G-l.

Miks siis luua oma otsingumootor? — Muidugi raha teenimiseks!

…ja saada kuulsaks järgmise suure otsingumootori loojana või sellepärast, et programmeerijana või insenerina meeldivad sulle väljakutsed. Avaliku Interneti otsingumootori loomine on keeruline ja kui olete nagu mina, siis meeldib teile keerulisi probleeme lahendada.

Kolmas rakendus on kohandatud kiire saidiotsing teie tuhandete lehekülgede veebisaidi jaoks. Indekseeritud otsingumootor on palju kiirem kui täistekstiotsingu funktsioon ja kui Google'i saidiotsing pole teie saidi jaoks piisavalt paindlik, saate luua oma otsingufunktsiooni.

OTSINGU ALUSED

Iga SUURE otsingumootori aluseks on sõnadest veebilehtede indeks, põhimõtteliselt pikk sõnade loend ja nende seos erinevate veebilehtedega.

Otsingumootori loomiseks peate tegema nelja asja:

* Otsustage, milliseid lehti tuua ja tooge need
* Sõeluge lehelt välja sõnad, fraasid ja lingidgoogle-custom-se
* Andke igale märksõnale või võtmefraasile hinne, mis näitab, kui hästi see fraas selle leheküljega seostub, ja salvestage hinded otsingumootori registrisse
* Pakkuge kasutajatele võimalust teha päringuid registrist ja hankida sobivate veebilehtede loend

See ei ole kogenud programmeerijale raske. Seda saab teha ühe päevaga, kui tunnete regulaaravaldisi ning teil on HTML-i ja andmebaasidega kogemusi.

Nüüd on teil töötav otsingumootor, lisage lihtsalt palju arvuteid ja kõvakettaid ning indekseerite peagi kogu Interneti. Kui te pole valmis nii kaugele minema, mahutab ühe terabaidine ketas umbes 50 miljoni lehekülje indeksit.

KUIDAS LEHKE HINNATA

Pärast põhiotsingu funktsioonide täitmist on veel palju tööd, enne kui keegi soovib teie uut masinat kasutada. Indeksist ei piisa. Väljakutseks on lehtede hindamine, et anda lõppkasutajale otsingutulemused, mis on kõige asjakohasemad tema ettekujutuse jaoks sellest, mida hi otsib.

Peate otsustama, kui palju kaalu panna märksõnadele paanisildis, kirjelduses ja peamise veebilehe sisus. Hea skoori saamiseks peaksite ka suurendama lehe URL-is leiduvaid märksõnu ja kontrollima sissetulevate linkide ankurteksti. Sissetulevate linkide jälgimine on ülaltoodust kõige kasulikum ja keerulisem. Peate pidama eraldi andmebaasitabelit, mis sisaldab teavet kõigi indekseeritavate lehtede vaheliste linkide kohta.

MIDA INDEKSERIDA JA MITTE INDEKSERIDA

Teised takistused, mida tõelise Interneti-sisu indekseerima asudes leiate, on asjaolu, et igal pool vedeleb raisatud kogused kasutut rämpsu ja lõpuks saab teie register täis rämpsposti, sidusettevõtete lehti, pargitud domeene, pooleliolevaid sisuta kodulehti, linke. farmid, mida kasutavad otsingumootori optimeerijad, peegeldavad saidid, mis kasutavad andmevooge tuhandete lehtede loomiseks tooteloendite või muu reprodutseeritud sisuga jne jne.

Internetist indekseerimisel peate leidma viise, kuidas filtreerida välja rämpssisu sellest, mida inimesed tegelikult loevad ja otsivad. Alustuseks võiksite piirata seda, kui sügavale alamkataloogidesse roomate, kui palju linkide hüppeid domeeni registrilehelt roomate ja kui palju linke veebilehe kohta lubada.

VEEBISAITIDE PARSIIMINE

HTML-i kirjutamiseks on miljon viisi, nii õiget kui ka valet, ja kui indekseerite Internetist, peate neid kõiki käsitlema.

Lehekülgedelt märksõnade sõelumisel ei pea te käsitlema mitte ainult täielikku HTML-standardit, vaid ka kõiki mittestandardseid viise, mida Interneti-brauserid mitteametlikult toetavad.

Kõigi lehtede lugemiseks peate sõeluma ka kliendipoolset JavaScripti, käsitlema raame, CSS-i ja iframe'e.
See on suur osa üldise otsingumootori tööst, et oleks võimalik lugeda igasugust sisu.

MIKS NII PALJU URL-e?

Lõpuks peate tegelema tõsiasjaga, et paljudel veebisaitidel on palju URL-e, mis osutavad samale veebilehele. Vaadake lihtsalt seda näidet:

dmoz.org
www.dmoz.org
dmoz.org/index.html
www.dmoz.org/index.html

Kõik need URL-id viitavad samale veebilehele. Kui te ei loo käsitsemiseks spetsiaalset koodi, kuvatakse teie otsingumootoris peagi neli tulemust (üks iga URL-i kohta), mis kõik suunatakse samale lehele. Te ei meeldi kasutajatele.
Samuti on võimalik päringustringe, kus seansi ID pärast küsimärki URL-is loob samale veebilehele peaaegu lõpmatu arvu URL-e.

google.com?SID=4434324325325
google.com?SID=4387483748377
google.com?SID=7654565644466

Otsingumootorile on tõesti suur hulk lehti, mis kõik sisaldavad sama sisu. Kiire lahendus on loomulikult mitte indekseerida lehti, mis sisaldavad päringutringi. Või päringustringi eemaldamiseks lehtedelt. See toimib, kuid eemaldab teie registrist ka palju legitiimset sisu (mõelge foorumitele).

Nüüd on teil kogu teave, mida vajate saidi otsingumootori loomiseks. Kui otsite üldist Interneti-otsingumootorit, peate lisama palju rohkem üksikasju. Nagu robots.txt, saidikaardid, ümbersuunamised, volikirju, sisutüüpide, täpsemate järjestamisalgoritmide ja terabaitide suuruse andmetöötluse tuvastamine. Täpsemalt käsitlen tulevases artiklis. Edu teie järgmise otsingumootori projektiga!

Kategooriadblogi
  1. Pingback:Säutsud, mis mainivad TopTut.com – parimad õpetused » Kuidas teha otsingumootorit PHP-s ja MySQL-is – Topsy.com

  2. Pingback:TopTut.com – parimad õpetused » Kuidas PHP-s otsingumootorit luua … | Otsingumootori reklaam võrgus

Kommentaarid on suletud.