Jeffrey Cross
Jeffrey Cross

Kus on avatud lähtekoodiga hajutatud otsing?

Tagasi enne Google'it kirjutasid paljud häkkerid otsingumootorid oma vabal ajal. Üldine üksmeel, vähemalt minu enda mälestusest, oli see, et otsing oli probleem, mida tuli lahendada ja et kõik praegused lahendused on enam-vähem imetud. Tänapäeval hõlmab otsing tohutut territooriumi ja on veel palju lahendatavaid probleeme, kuid enamasti on veebiotsing äärmiselt kasutatav ja usaldusväärne. See ei ole täiuslik, seal on ruumi parandamiseks, kuid see läheb tööle. Ma ei tea nendel päevadel liiga palju inimesi, kes veedavad aega häkkimise otsimisel. Miks taastada selline madalatasemeline teenus, kui ehitatakse nii palju uuenduslikke ja kõrgema taseme veebirakendusi?

Asi on selles, et otsing on veebi operatsioonisüsteem. Asjaolu, et meil ei ole avatud lähtekoodiga / avatud andmeotsingu infrastruktuuri, on sama halb kui Linuxi või OpenBSD puudumine. Kui Google, Yahoo ja MS ei pakkunud sellist suurt toodet, siis arvan, et häkkerikogukond ründab seda probleemi, nagu kapten Kirk on sisalikuguril.

Kus me oleme:

Praegu on olemas mitmeid avatud lähtekoodiga projekte, mis on seotud üldise veebiotsinguga. Kõige olulisem on see, et Java-põhine Lucene projekt on tugev alus indekseerimiseks ja teabe otsimiseks ning see on see, mida Nutch'i otsingumootor on ehitatud.

On mõned jaotatud indeksoijat, nagu Grub ja Majestic 12. Kahjuks edastavad need mõlemad keskandmebaasi. Indekseerimise ja indekseerimise raske töö on kõigile avatud, kuid tulemuseks olevad andmed pole.

Kus me peame olema:

Minu arvates peavad otsingu häkkerid looma järgmise lähtekoodiga lahenduse:

  • Jaotatud mehhanism veebi indekseerimiseks ja massiliseks mõõtmiseks.
  • Vahemälu ja indeksi jaotatud, detsentraliseeritud, koondatud andmete salvestamine.
  • Lõppkasutaja, avalikkuse ees seisev liides hajutatud indeksi päringute tegemiseks.
  • Mehhanism indeksi ja vahemälu kohaliku, eraviisilise lõigu otsimiseks või indekseerimiseks uurimiseks või isiklikuks kasutamiseks.
  • Võimalus levitada jaotatud võrku alternatiivseid indeksimudeleid.

Kõik need vahendid tuleb kujundada eeldusel, et igaüks saab ja saab juurdepääsu süsteemi andmetele ning kui süsteem kasvab, tekib inimesi, ettevõtteid ja valitsusi, kes otsivad otsinguinfrastruktuuri nende kasuks.

See ei ole lihtne lahendada, kuid peate tunnistama, et see on huvitav probleem. Kas keegi soovib olla Torvaldsi otsing?

Kus alustada:

The Lucene Project - Link Nutch Avatud lähtekoodiga otsingumootor - Link avatud lähtekoodiga otsingu Wiki - Link

Kas ma olen midagi ära võtnud? Palun jaga oma mõtteid avatud lähtekoodiga otsingust kommentaarides.

Osa

Jätnud Kommentaari