Internetes kereső projektek. Keresés az interneten - Informatika tananyag


A felmérés alapján decemberben összesen milliárd keresést hajtottak végre a világhálón, a keresőoldalakon kívül beleértve ebbe az oldalakon belüli és hálózatok közötti kereséseket is.

Ez napi négymilliárd, óránként millió, percenként pedig 2,9 millió keresést jelent. A tevékenység nemcsak a fejlődő, az internetre egyre több felhasználóval kapcsolódó fejlődő térségekben terjed látványosan, hanem az olyan fejlettebb országokban is, ahol már évek óta internetes kereső projektek mindenki számára hozzáférhető a világháló.

A ComScore adatai szerint decemberében a legtöbb, 22,7 milliárd keresést az Egyesült Államokban hajtották végre, míg a második helyen Kína áll 13,3 milliárd, a harmadikon pedig Japán 9,2 milliárd kereséssel.

Keresőtörténelem Az internet elterjedése előtti hálózatokon pl.

internetes kereső projektek

Minitel, Nedix, X. Az első valóban internetes keresőszolgáltatás az Archie volt, melyet egy Alan Emtage nevű montreali diák és két társa hozott létre ben.

internetes kereső projektek

Ez a program a nyilvános FTP archívumok fájl- és szoftvergyűjtemények directory-listáit gyűjtötte be és tette kereshetővé - a Unix grep parancsát felhasználva - a fájl- és alkönyvtár-neveket az állományok tartalmában nem lehetett keresni vele! A szolgáltatást saját klienssel, vagy valamelyik Archie-szerverhez való telnet kapcsolódással, vagy e-mailben küldött parancsokkal, vagy később már web-felületen át is lehetett használni.

Az ben a University of Minnesota-n kitalált gopher szolgáltatáshoz mely hierarchikus menükön keresztül vezette el a felhasználót szöveg- vagy képfájlokhoz, ill. Ezekkel is csak a menüpontok nevében lehetett keresni, a szöveg-fájlok tartalmában nem. A Thinking Machines által, a as évek végén kifejlesztett, és ben szabad szoftverré tett WAIS Wide Area Internetes kereső projektek Servers az eredetileg online könyvtári katalógusok lekérdezésére kitalált Z Fénykorában, a kilencvenes évek közepén félezernél is több WAIS szerver működött a világon.

A World Wide Web kereshetővé tételére az első próbálkozások nyarán indultak. Az egyik skóciai egyetemen kifejlesztett JumpStation volt az első olyan rendszer, amely a mai keresőgépekhez hasonlóan egy robottal begyűjtötte, majd leindexelte és egy web-felületen át kereshetővé tette a WWW-szerverek tartalmát.

Hozzászólások

Az indexelés decemberében indult és egy év múlva már mintegy ezer tételt tartalmazott, melyeket kb. Csak a dokumentumok címét és fejlécét gyűjtötte be a host korlátozott erőforrásai miattígy csak ezekben lehetett keresni. A keresési algoritmus lineáris volt tehát lassú és a találati listában nem volt relevancia szerinti rendezés.

Az első nyilvánosan elérhető, teljes szövegű webkereső a University of Washington hallgatója: Brian Pinkerton által indított WebCrawler volt, amely áprilisában jelent meg az interneten és akkoriban szerver anyagát tartalmazta az adatbázisa.

Olyan népszerű lett, hogy csúcsidőben amikor az USA-ban nappal volt nem is lehetett elérni. Többszöri tulajdonosváltás után jelenleg metakeresőként működik, amely a nagy keresőket kérdezi le, vagyis már nem a saját adatbázisát használja.

Szintén ben kezdték el a Carnegie Mellon University informatikusai fejleszteni a Lycos nevű keresőt, ami az első valóban jól használható és nagy méretű webkereső volt, és sikeres üzleti vállalkozássá is vált később.

Amikor nyarán megjelent, az adatbázisa 54 ezer dokumentumra terjedt ki, januárjában ez a szám 1.

internetes kereső projektek

Az elsők között biztosított relevancia szerint rendezést, közelségi operátorokat ill. A Lycos példáját és között egy sor hasonló vállalkozás követtemelyek mindegyike néhány további újítást vezetett be: pl. Végül ez utóbbi lett a legsikeresebb és évekig vezette a keresők mezőnyét. Az Altavista komoly sávszélességgel és szerverekkel rendelkezett már kezdettől fogva, elsőként vezette be a minimalista designt, a természetes nyelvű lekérdezés lehetőségét, a részletes kereső internetes kereső projektek, sőt még automatikus fordítóprogramot is biztosított Babelfish néven.

Az Altavista ban a Yahoo! A keresőrendszerek piacán nagy harc indult a kilencvenes évek második felétől: a cégek felvásárolták egymást, portálokká alakultak, új szolgáltatásokkal és funkciókkal kísérleteztek, majd sokan tönkrementek az ezredforduló után a "dot. A Google népszerűsége a gyorsasága és egyszerűsége mellett a PageRank technológiában van, aminek eredményeként nagyon releváns találatokat ad. A Microsoft cég ban jelent meg keresőszolgáltatással a weben előbb MSN Search majd Live Search néven, de kezdetben nem saját technológiát használt, hanem más keresőgépeket kérdezett le, és csak végén jelent meg a saját rendszerével.

A szolgáltatást júniusában Bing -re keresztelték át, és komoly reklámkampányba kezdtek, hogy minél nagyobb piaci részesedére tegyenek szert ezen a területen is. Hasonló utat járt be a Yahoo! Search is: az eredetileg webes címtárként híressé vált Yahoo! A nem latin betűs írású országokban két keresőgép ért el jelentős sikereket. A szolgáltatással nemcsak weblapokat, hanem képeket, MP3 fájlokat és egyéb multimédia fájlokat is kereshetünk.

Természetesen elsősorban a kínai tartalmak megtalálásában erősebb a vetélytársainál, bár az Aranypajzs nevű kínai tűzfal által cenzúrázott site-okról nem ad találatokat. A keresőkérdéseket többféle kínai írásmóddal, továbbá rajzolással és latin betűs pinjin átírással is bevihetjük, sőt a gyakori keresőszavakat más nyelvről automatikusan kínaira fordítja már begépelés közben és felajánlja a lekeresésüket. A másik népszerű nem-angolszász szolgáltatás pedig a Yandexa világ ötödik, az orosz nyelvterület legnagyobb keresője, mely ben indult.

Hatalmas, több mint 10 milliárd weboldalt tartalmazó adatbázisa van, a keresőnyelve pedig kifinomultabb, mint amit a Google használ, legalábbis a ragozott orosz szavak esetében, és "intelligens" válaszokra is képes bizonyos típusú kereséseknél pl.

A találatok rangsorolására használt MatrixNet technológia is rugalmasabb, mint a PageRank, mert a kérdés jellegéhez igazodik a paraméterek súlyozásakor, és egy öntanuló algoritmust is internetes kereső projektek. A korai magyar fejlesztések közül meg kell említeni a Hungary Network által ben indított és ben felújított Heuréka keresőt; az ben megjelent Góliát -ot ezt használta az Index internetes kereső projektek a Startlap isés a Matáv által májusában létrehozott Altavizsla nevű oldalt, amely később Vizsla névre hallgatott, jelenleg pedig Ok.

A magyar felhasználók azonban továbbra is a Google-t illetve az arra alapozott keresőoldalakat használják elsősorban a hazai statisztikák szerint. Keresők működése Internetes kereső projektek webes keresőgépek search engines három munkafázisból állnak össze: 1.

internetes kereső projektek

Ezek a folyamatok nagy teljesítményű elosztott számítógépes rendszereken futnak, folyamatosan és párhuzamosan. A Google például nyereséges kereskedési rendszerek bináris opciókhoz es becslés szerint akkoriban már több mint 1 millió szervert üzemeltetett és azt internetes kereső projektek kiszámoltákhogy egy keresés megválaszolása kb. A dokumentumok begyűjtését crawler más néven: spider vagy bot, magyarul: robot vagy pók programok végzik.

Ezek egy összeválogatott URL címlistából indulnak el, ezután ezeket az oldalakat bejárva begyűjtik az azokban található további URL címeket linkeketmajd ezeket is végigjárják és így tovább Az így összegyűjtött URL címeket a crawler control modul, az ezekről letöltött fájlokat pedig a page repository veszi át. Előbbi irányítja a crawlert, hogy mely címeket látogassa meg a továbbiakban mert például újak, vagy mert a legutóbbi begyűjtés óta változott a tartalmukutóbbi pedig az indexelő internetes kereső projektek esetleg a kereső modul számára szolgáltatja az eltárolt dokumentumokat.

A crawler engedelmeskedik a Robots Exclusion szabályzatnak, vagyis a robots. A webmesterek mellett a keresőgép üzemeltetője is szabályozhatja a crawler működését: beállíthatja például, hogy egy site-on belül milyen mélységig link-szintig menjen le a robot, milyen formátumú dokumentumokat gyűjtsön be és milyen mérethatárig, milyen gyakran térjen vissza egy oldalra ez lehet egy fix időhatár: pl.

A web hatalmas mérete és bonyolultsága miatt minden keresőgép csak egy részét gyakran csak egy kis töredékét tudja begyűjteni az elérhető fájloknak, és nagy különbségek vannak az egyes keresők között a kiterjedésben a web melyik és mekkora részét járja be a crawler?

Minél teljesebb hozzáférés az információkhoz

A deep web tartalmához a crawler több okból nem fér hozzá: vagy tiltja a robots. Flash vagy videó a tartalom, amit a robot nem tud értelmezni, vagy egyszerűen elszigetelt a site nem mutat rá külső link. A begyűjtött "nyersanyagból" a keresőgép többféle indexet készít és ezeket adatbázisokban tárolja. A link index szerkezeti index például azt rögzíti egy gráf formájában, hogy mely weblapról mely további oldalakra mutatnak linkek.

Fontos az is, hogy egy oldalra hány link mutat és mely oldalakról hivatkoznak rá, továbbá hogy ezekre az oldalakra hányan és honnan linkelnek és így tovább A text index szöveg index pedig a begyűjtött oldalakon található szavakból és egyéb karaktercsoportokból pl.

Ez egy ún. Az indexek felépítése a legnehezebb műszaki feladat, maga a keresés már egyszerűbb és kevesebb erőforrást igényel. Az indexelés sebessége azért is fontos, mert ettől függ, hogy milyen gyorsan válik megtalálhatóvá a begyűjtött friss tartalom.

A legfontosabb üzletágak bemutatása következik: Nest "Okostermosztátokat" és egyéb otthoni készülékeket gyárt a ben felvásárolt Nest, például külső biztonsági kamerákat. Jelenleg mintegy ezer előfizetője van.

Ezért a real-time search az utóbbi években - a közösségi oldalak, a blogok és mikroblogok pl. Twitter elterjedése miatt - egyre fontosabb, új kutatási területté vált.

A felhasználó által beírt keresőszavakat a keresőprogram a text index adatbázisából gyűjti ki, rangsorolja őket valamilyen meglehetősen komplex algoritmus szerint, majd kikeresi az előfordulási helyükhöz tartozó metaadatokat a dokumentum címe, URL-je, formátuma, mérete, a begyűjtés dátuma, stb. Az, hogy egy keresőgép milyen algoritmus szerint rendez, nagyban meghatározza a hasznosságát és népszerűségét ezért általában üzleti titokként kezelik, egyben a spamdexing ellen is védekezve.

A PageRank mellett számít az is, hogy mennyire ritka egy keresett szó, hányszor fordul elő egy oldalon, milyen hosszú szövegben szerepel és milyen helyen pl. Fontos emellett a keresőnyelv fejlettsége ill. Továbbá a találatok megjelenítésének sebessége és módja is lényeges szempont: egyszerű listás vagy kéthasábos, szövegkörnyezet, címkefelhő, gyorsnézet, klaszterezés, grafikus, statisztikai adatok, relevancia érték, stb.

Különféle keresők Google : A legnépszerűbb általános kereső a os adatok szerint 25 milliárd weboldalt, és 1,3 milliárd képet gyűjtött be és indexelt le. A jelenlegi mérete már közel járhat a milliárdhozés közepén jelentették be a fejlesztők blogjában, hogy a link-index mérete elérte az 1 billiótami 10 12de ezek persze nem mind vezetnek egyedi weboldalakhoz. A text-index már internetes kereső projektek millió Gigabyte felett van és naponta több mint egy milliárd keresés történik benne.

A Google internetes kereső projektek nevét egyébként a googol szóról kapta szeptemberében, ami a 10 századik hatványát jelenti a matematikai szakzsargonban.

Legfrissebb hírek A Google a barátod? Internetes keresők és személyiség szabadság A Google a barátod? Horváth Balázs, a PTE műszaki karának egyetemi hallgatója az internetes keresőprogramok működéséről és felhasználóinak személyiségi szabadságáról tartott érdekes előadást. Megdöbbentő volt konstatálni a világot behálózó, egyre növekvő kontrollt, mely a megnövekedett tudás ingyenes megosztása közben áruba bocsátja annak felhasználóit. Az érdeklődési területek, kattintások, kapcsolatok során kialakult webes lábnyomok nemcsak vásárlói szokások feltérképezésére szolgálnak, hanem tulajdonosi állami érdekeknek megfelelően osztályozzák, minősítik pontozhatják a vizsgált személyeket.

Ekkora adatbázisban való kereséshez már nagyon kifinomult keresőnyelv és felület kell, de tekintve, hogy a felhasználók többsége nem képzett információkereső, ezeket - amennyire lehet - elrejti előlük a Google és internetes kereső projektek mindent automatikusan, a keresett szavakat "értelmezve" és a keresőkérdést átszerkesztve végez el a háttérben.

A keresőfelület kevésbé ismert lehetőségeiről ugyanitt az Tippek a speciális kereséshez alatt tájékozódhatunk, de egy jó összefoglaló van az angol Wikipédiában is. Érdemes  a Google parancsnyelvét minél jobban memorizálni, mert gyorsabban és hatékonyabban tudunk úgy keresni ebben  a Speciális keresés felső sora is segít, ahol látjuk az összeállított keresőkifejezés operátorokkal és prefixekkel kiegészített parancsmódú változatát.

Ez a kis változás is jól jellemzi a Google keresőpolitikájának két jelenlegi trendjét: minél inkább a felhasználó helyett gondolkodni és egyre több személyre szabott találatot keverni a találati listába személyre internetes kereső projektek hirdetésekkel együtt persze. Ilyen eszköz például az Autocompletemely a mások által beírt keresőkérdések és amennyiben be vagyunk jelentkezve és az Internetes előzmények funkciót engedélyeztük a saját korábbi kereséseink alapján ajánl fel javaslatokat az egysoros keresőmező vagy a toolbar használatakor, így egyrészt gyorsíthatjuk a kérdés bevitelét, mert elég csak néhány karaktert begépelni, majd választani a listából, másrészt időnként hasznos alternatívákat fedezhetünk így fel.

Persze a "gépi intelligencia" mulatságos javaslatokat is produkál néha, például az élet nagy kérdéseire. Hasonlóan a keresőkérdés beírásának gyorsítását szolgálja az ellentmondásos sikerű Google Instant funkció bevezetése, amit ha bekapcsolunk, már gépelés közben megjelennek az első potenciális találatok.

A Internetes kereső projektek szolgáltatással automatikus "témafigyelést" kérhetünk: a beírt keresőkérdésnek megfelelő új hírek, blogbejegyzések, weblapok, videók, könyvek címeit a rendszer naponta vagy hetente elküldi az e-mail címünkre.

A Google találati listája már alapesetben is sok lehetőséget kínál pl.

A Google és X-aktái: összeszedtük a titkos projekteket

A találati lista tetején megjelenő Nagyjából A központi kereső mellett a Google-t "honosíthatjuk" is: a Google Custom Search oldalon egy olyan keresődobozt állíthatunk be, amely csak az általunk megadott site-okon keres, a Google Desktop programot telepítve pedig a saját gépünkön is ugyanúgy - és csaknem olyan gyorsan - tudunk megtalálni bármit, mint a weben a program támogatását szeptembere óta nem folytatják. Érdemes még a Google Toolbar -t is kipróbálni, mert néhány hasznos kényelmi szolgáltatást tartalmaz.

A világon szinte mindenki a Google-t használja. De miért? Léteznek egyáltalán egyéb versenyképes internetes keresők a világon?

A cég az utóbbi időkben a mobil Google Mobile és a közösség-alapú Search, plus Your World keresések területére is kiterjesztette a szolgáltatásait. A még kísérleti fázisban levő vagy csak szórakoztató újdonságokról a hasznos tudnivalókkal is szolgáló Inside Search oldal Playground menüpontja alatt értesülhetünk.

Yippy Search : Az eredetileg pittsburgh-i székhelyű és Clusty névre hallgató metakereső ben indult a Vivísimo cég technológiájára alapozva; majd a szolgáltatást májusában felvásárolta a floridai Yippy Inc. Internetes kereső projektek Yippy Search több webes keresőgépet pl. Bing és információforrást pl.

New York Times kérdez internetes kereső projektek és az eredményeket - a duplumok kiszűrése után - összefésüli és csoportosítja, vagyis klaszterezi. A klaszterezés logikája a Remix gombra kattintva megváltoztatható.

Egyszerre csak néhány száz tételt mutat meg a rendszer, vagyis megkíméli a felhasználót a tízezres vagy milliós találati listák által okozott frusztrációtól - aki amúgy sem szokott találati oldalnál többet megnézni. Hogy az éppen kiválasztott klaszter mely forrásokból és mennyi találatot tartalmaz, azt a details feliratra illetve a sources fülre kattintva tudjuk megnézni; a sites fül alatt domain nevek, a time alatt pedig évek szerint böngészhetjük az eredményhalmazt.

A Yippy-vel nemcsak weblapokat, hanem híreket, képeket, blogokat, állásajánlatokat, termékeket stb. A Google-szerű, mindent egyben láttató találati listákhoz képest a klaszter-technológia lényegesen hatékonyabb olyankor, amikor nem egy konkrét információt keresünk, hanem egy témában szeretnénk elmélyedni és megtalálni az azzal kapcsolatos néhány tucat igazán fontos forrást.

Pécsi Hit Gyülekezete

A Yippy keresője eszköztárként is beépíthető a böngészőnkbe, néhány ügyes funkcióval pl. Van továbbá tabletre és mobiltelefonra, sőt Wii játékgépre optimalizált keresőfelülete is. Érdekes még a kísérleti állapotú fejlesztések közt a Yippy Cloud Creatormellyel címkefelhőt készíthetünk egy általunk megadott keresőkérdés klasztereiből, és bemásolhatjuk azt a weblapunkba vagy blogunkba. Így "előregyártott" kereséseket kínálhatunk fel különféle felhasználói csoportoknak, akik az őket érdeklő címkére kattintva megkapják a klaszterbe tartozó találatok aktuális listáját a Yippy-től.

Picsearch : A ben alapított svéd vállalkozás a világ egyik legnagyobb képkeresőjét működteti az interneten. Jelenleg már több mint 3 milliárd kép adatait gyűjtötték be a webről és tették visszakereshetővé. Ebben számban a nagy képmegosztó pl. Flickr és más közösségi oldalak pl.

Keresés az interneten

Facebook képanyaga nincs is benne, mert a Picsearch ezeket nem indexeli le. A bélyegképek gyorsan megjelennek, és ha valamelyikre rákattintunk, akkor egy osztott képernyőn egyszerre látjuk a kép adatait és az eredeti weblapot, ahonnan származik.

internetes kereső projektek

A találatokat tartalmazó táblázat tetején további kifejezéseket is ajánl a rendszer a keresés pontosításához, sőt azt is lehetővé teszi, hogy a keresőkérdésünket a leindexelt weblapok szövegében is lefuttassuk.

Hasznos, bár az oldal alján eléggé eldugott, az Image Directoryahol több ezer témakörből válogathatunk.

internetes kereső projektek

A Picsearch keresőjét is beépíthetjük eszköztárként a böngészőnkbe. További képkeresők egy viszonylag friss listáját találjuk Phil Bradley honlapján. Europeana : Az "Európai Digitális Könyvtár" néven is emlegetett szolgáltatás A Europeana az OAI protokollt használja arra, hogy összegyűjtse a különböző digitális gyűjtemények rendszerint Dublin Core alapú metaadatait - tehát magukat a dokumentumokat nem gyűjti be és nem indexeli le, mint a szokásos webkeresők, hanem csak azok leíró adatait, majd pedig linkekkel kapcsolja hozzájuk a dokumentumokat az őket szolgáltató eredeti szerverekről.

Mivel jelenleg csak a partnerként csatlakozott közgyűjtemények - rendszerint gondosan elkészített - rekordjait "aratja le", ezért nagyon értékes találatokat ad - igaz jóval kisebb halmazból mint az általános webes keresők. A kínálat a könyvtárak, levéltárak, múzeumok és audio-vizuális archívumok gyűjtőkörét tükrözi, nagyrészt már nem jogvédett, régi anyagok közt lehet itt válogatni.