Filozofie vyhledávání informací

Filozofie vyhledávání informací

19.05.2013 13:56

 

klíčová slova: blogy, wiki, fulltextový vyhledávač, Google hypertextové odkazy  dolování dat, Document Management Systems

anotace

Hromada kamení, cihel, cementu a trámů není dům – je to jenom hromada materiálu. Hromada informací zůstává jenom hromadou informací a bez intelektuálního zpracování za určitým cílem je na nic.

Aby byla informační platforma přínosem, musí uživatelům umožnit najít, co hledají. Užitečné je dodržovat strukturu stránek a navigaci, ale uživatelé dávají čím dál víc přednost vyhledávání pomocí klíčových slov. Z tohoto pohledu přestává platit, že informace se dají snáz najít na strukturovaném intranetu, než v chaosu nekoordinovaného internetu.

Na základě správně položeného dotazu dokáží dnešní vyhledávače vyhledávat libovolné texty, znalosti, překládat mezi mnoha jazyky, umí vyhledat a ukázat na mapě adresu, vyhledat telefonní číslo, nejbližší  definice zkratek, obrázky, filmy, hudbu, kavárnu.

Nicméně – ať již se použijí jakékoliv nástroje, pomůcky a technologie, je to jenom člověk, který může udělat tuto práci, neboť jenom člověk má konkrétní projekt, přání, vůli, obavu či strach. Nezávisle na tom, jak jsou současné vyhledávací nástroje dokonalé nebo “inteligentní”, nedokážou rozlišit pravdu od lži, protože pro vyjádření obojího se používají stejná slova. V dohledné době to bude pouze lidský mozek, který je schopný rozlišit to, co je důležité. A na dobu, kdy to bude schopen dělat nějaký stroj za nás, se raději netěšme.

 

Historie, současnost a predikce blízké budoucnosti

 

Požadavkem dnešní doby je více dat a rychleji

Budoucnost nepatří těm, kdo budou informace produkovat nebo přenášet ale těm, kdo ovládnou nástroje pro jejich účinné filtrování, prohledávání a zobrazování ve smysluplných souvislostech. Paul Saffo, Institute for the Future

Za dávných dob, kdy bylo dost obtížné informace zaznamenávat a přenášet, se zaznamenávalo a přenášelo jenom to skutečně potřebné a hodnotné. Dnes ale např. průměrný Angličan v jednom týdenním vydání Timesů nalezne více informací než se kterými se jeho předek v 17. století měl šanci seznámit za celý svůj život.

I  já jako pamětník vzpomínám  na sedmdesátá léta, kdy existovalo pouze systematické pořádání knih a dokumentů a nověji se začalo využívat průhledových a okrajově děrovaných štítků a také sloupcových rejstříků. Již tehdy bylo základem těchto rešeršních metod vyhledávání podle klíčových slov, které je společné, byť v jiných dimenzích, se současnými vyhledávacími metodami,.  Pro mne se tehdy stala jejich aplikace koníčkem, jehož inspirátorem byl guru československých informatiků Jiří Toman  s kterým jsem strávil v diskusích nejednu hodinu.

Dnes se množství dostupných informací, zvyšuje geometrickou řadou a uvedené metody vzbuzují úsměv. Jen za poslední tři roky vzniklo více dat než za 40 tis. let historie lidského druhu. Přitom data a informace nejsou totéž. Data musíme vyčistit, zajistit k nim přístup. Potřebujeme propojit strategické a reálně taktické informace, nejen z primárních systémů. Současně mezi nimi musíme vytvořit soulad.

V informační společnosti proto, podle některých názorů, získají dominantní pozice tzv. “informační šampióni”, dobří ve svém poměrně úzkém odboru, kteří budou pomocí IT schopni znásobovat svou intelektuální kapacitu a “prodávat” ji komukoliv. Takové lidi se úspěšné organizace snaží získat a vytvářet jim podmínky, aby mohli vytvářet efektivní a neformální týmy pro dosahování stanovených cílů.57

 

Blogy a wiki

Lidé jsou obecně ochotni sdílet své poznatky, názory a zkušenosti.

Internetové nástroje pro sdílení poznatků jsou v zásadě blogy a wiki. Blogy umožňují autorství individuální a na blogu se shromažďují příspěvky a reakce na ně. Wiki umožňují autorství kolektivní a uživatelé upravují a opravují práci jiných.

Může ale elitářské prostředí, a přitom prosté autoritativních zásahů, vést ke konsenzu? Jak je možné, že lidé, kteří nesouhlasí, se neprojevují destruktivně? Vypadá to paradoxně, ale zkušenosti z projektu Wikipedia ukazují, že kolektivní autorství může vést k velmi kvalitnímu obsahu.58

 

Fulltextový vyhledávač

Metadata jsou data o datech. Úložiště metadat nazýváme Metadata repository. Moderní db systémy obsahují slovníky dat – klíčových slov.

Aby byla informační platforma přínosem, musí uživatelům umožnit najít, co hledají. Užitečné je dodržovat strukturu stránek a navigaci, ale uživatelé dávají přednost vyhledávání pomocí klíčových slov. Pak neplatí, že informace se snáze naleznou na strukturovaném intranetu, než v chaosu nekoordinovaného internetu.

Principy, na nichž fungují moderní vyhledávače, přinesly velký skok v kvalitě vyhledávání na internetu. Odkazy jsou užitečným nástrojem při hodnocení kvality obsahu: z tohoto pohledu jsou nejlepší stránky, na něž vede nejvíc odkazů. Tento princip je však využitelný v prostředí mnoha vazeb mezi stránkami, kde navíc funguje statistika (odkazy reflektují názory mnoha uživatelů).

Mnoho lidí bere používání vyhledávače jako něco přirozeného a bezpříznakového. To je chyba. “Googlovat” neznamená jen vyhledávat, ale také filtrovat svět okolo a slušně na tom vydělávat. Google vyvinul algoritmus pro vyhledávání, který náš dotaz zvažuje podle asi 150 kritérií. Měsíčně vyhledává stovky milionů dotazů. Nemálo uživatelů přitom klikne na sponzorovaný odkaz, a ejhle: slušná část z desítek  miliard dolarů je pro Google vydělaná.

Nicméně představa, že indexová db největších vyhledavačů je  komplexním katalogem všech stránek je zcela mylná. Za cca 10 let existence webu totiž vzniklo 3000 miliard stránek. Každou hodinu jich přibývá  přes 25000. Než přestal Google informovat o tom, kolik stránek indexuje zaznamenával jich 8 miliard. Někteří odborníci  však v té době odhadovali, že internetová síť je 400 x větší. Nyní  Google indexuje  sotva desetinu všech všech internetových míst.

Tajemství fulltextového vyhledávače je ukryto v začátku.. Podobně jako čtenář prohlédne nejprve obsah knihy, tedy nadpisy kapitol, tak i Google indexuje pouze metadata, tedy prvních 100kB stránky nebo dokumentu. Předpokládá se totiž že se klíčové výrazy  objeví v  nadpisu stránky, v úvodním textu nebo některém odkazu první stránky. Z toho vyplývá, význam metadat a to zejména pro autory.59

 

Jak dál ve vyhledávání?

Fulltextové vyhledávače se nesnaží stránky třídit a uživatele rychle navést, ale jejich prvořadou úlohou je nalézt stránky s hledaným výrazem a seřadit je podle návštěvnosti.

Zázračné služby jsou schopny vyhledat žhavá témata daného dne, projít miliony www stránek a během sekund zobrazit info o nových produktech, výzkumech, jménech odborníků a další údaje, jež by jinak bylo možno nalézt jen s velkými obtížemi nebo vůbec ne.

Nicméně studie zaměřená na demokratickou debatu  došla k závěru, že jen asi 15% www stránek  nabízí odkazy na na opačná stanoviska! Naproti tomu 60% má odkazy na podobně orientované stránky. Pokaždé tak, když se spojíme s nějakou www stránkou podporujeme její význam. Třeba stránka fyzika může míchat odkazy na fyziku, hudbu, horolezectví a kombinovat tak profesionální zájmy a koníčky. Pro vyhledávání má nesmírný praktický význam /reklama, kontakty, rozšiřování obzoru/.

Je známo, že i lidé znalí webu jsou často líní, nebo nedokáží formulovat správně dotaz. Největší chybou jsou krátké dotazy. Kromě toho i ty nejoblíbenější vyhledavače mají spoustu slabých míst. Zkreslují výsledky ve prospěch inzerentů, a často stahují ohromné množství irelevantních info.

Nicméně některé vyhledavače již indexují pouze to, co má vztah k předem definovaným tématům. A hodnocení přizpůsobují uživateli.60

 

 Příběh

Ještě nedávná absence informací

Někdy kolem r. 1986 jsem se podílel jako spoluautor na patentovém řešení optického pasivního rozbočovače, které bylo logickým pokračováním mého podobného řešení na analogovém základě, využívaném řadu let při řízení liniových produktovodů.

Obor optických telekomunikací byl tehdy ještě v plenkách. A internet byl  pro nás neznámým pojmem. Jedinými informačními zdroji pro průzkumové rešerše byla tedejší “Státní technická knihovna” a “Patentový úřad ČSSR”. Státní technická knihovna odebírala sice značnou část odborných časopisů, ale převážně v max. dvou exemplářích pro celou republiku, na jejichž zapůjčení se dlouho čekalo. A aktuální odborná literatura zde nebyla prakticky vůbec.

Občas bylo sice možno na knižních veletrzích nalézt nejnovější odborné knihy, ovšem pouze za devizy. Deviz nebylo v tehdejším Československu nazbyt, a tak příslušnou literaturu si nemohly často dovolit ani specializované organizace, jako např. tehdejší Výzkumný ústav sdělovací techniky A.S. Popova..

Patrně nejaktuálnějším informačním zdrojem byl tehdy archiv Patentového úřadu, se složitým a často již nelogickým systémem patentového třídění. A mnohdy nepřekonatelnou překážkou byly jazykové problémy, neboť mnohé vynálezy byly sepsány v jazyku jejich původce. K tomu ještě připočtěme orientaci ve složitých pravidlech patentového publikování.

To vše vedlo, nejen v podobných případech, k týdnům až měsícům pracného opatřování informací, přičemž některé informace nebylo možné získat vůbec. A sami si porovnejte, jak by podobný průzkum probíhal dnes. Narozdíl od minulosti, kdy bylo informace nutno pracně získávat, dnes jich získáte na několik kliknutí tolik, že vzniká opačný problémem – oddělit “zrno od plev”.

A ještě na okraj ke zmiňovanému “autorskému osvědčení”. V ČSSR to byla totiž forma autorizace patentu, protože všechna patentované řešení, až na vyjímky, se stávala vlastnictvím státu. Ten se tak  ale i stával  plátcem udržovacích plateb, pokud byl patent přihlášen k mezinárodní ochraně.

 Nicméně po “sametové revoluci” nastala řada změn. Po zániku státního Výzkumného ústavu A.S.Popova neměl samozřejmě udržovací poplatky kdo platit a zanikla tak i ochrana patentu u Europatentu a v řadě dalších zemí, kde jako poslední relikvie zůstal jeho překlad do japonštiny. Zhruba po 15 letech se podobná řešení začala využívat zejména ve vysokorychlostních optických přenosech.

 

 Úhly pohledu

Google

Stejná informace se objeví na internetu stokrát, tisíckrát, desetitisíckrát...  Jak ji vyfiltrovat??

Google dnes obstarává kolem 40% celosvětového vyhledávání na internetu. Jeho sw pročesává 4,5 mld stránek a za den vyřídí přes 200 mil. dotazů. Disponuje 54 000 servery a nuly a jedničky si přehazuje 1000000 procesorů. Je to jeden z největších počitačových systémů světa.

Google rozvinul známé postupy. V principu vyhledávání to byla vztahová nebo také citační analýza, která zohledňuje provázanost stránky na níž byl nalezen hledaný termín s jinými internetovými stránkami. Čím více odkazů se k ní váže, tím větší důležitost  je ji přisouzena ve výsledku  a zvyšuje se tak šance, že se objeví mezi prvními nabídnutými linky.

Zvláště z amerických škol zněji stále častěji povzdechy učitelů, že pro jejich žáky to, co nenajdou na internetu, jako by neexistovalo!!. Většina webových stránek přitom vznikla po r. 95. Sice stále vice z nich nabízí i starší údaje, nicméně internetové prostředí je časově zatím mnohem mělčí než regály a depozita knihoven.

Google k tomu říká: žádný počítač nedokáže vyhodnotit morálnost, vkusnost a čestnost obsahu stránek. Miliony lidí se ke stejnému tématu na vyhledávači dostanou na stejné stránky. Jak lze takovou informaci zhodnotit? Snad jen podle toho o co se svět v daný čas zajímá.

Tisíce linků se  se zdají být tou nejlepší zárukou plastického obrazu Ale přes kolik odkazů se žurnalista v časovém presu dostane? Přes prvních 10, 20, 50? Zpravidla jsou to jen ty, které reflektují mediální mainstream. Novinář píše o tom, co najde na Googlu. Vyhledavač nabízí to, co najde v médiích. Informační smyčka se uzavírá. Google je výtečný sluha, ale umí být i špatný plán.61

 

Vyhledávače

Vítěz bere vše.

Rychlé hledání slova “noviny” na Googlu poskytne 1220000 stránek. Těžko někdo volí náhodně. Většina z nás zná pár zdrojů zpráv.  Všichni nevědomky sledujeme určitý trend a připojujeme se k uzlům  které známe, což jsou zákonitě silněji propojené uzly na webu. Dáváme přednost centrům, kde platí “bohatí bohatnou, chudí chudnou.”

 

Šíření myšlenek a webových stránek 

U myšlenek je to tak, že je sice můžete odmítnout, ale jakmile je přijmete budou se pořád šířit. Jak webové stránky stárnou  a dozvídá se o nich více lidí, přirozeným způsobem putují mezi kontinenty. Jejich pozici určují jak tvůrci webové stránky, tak zájem uživatelů o webové stránky. Jak www stránek a odkazů neustále přibývá, jsou ostraňovány a měněny a přidávají se do nich a odebírají se z nich odkazy, je obyvatelstvo těchto kontinentů v neustálém pohybu.

Ve srovnání s tím je příliv imigrantů z Evropy do Ameriky na rozhraní 20 a 21. stol. zanedbatelný. Jediný, dobře umístěný odkaz může určit osud  a umístění tisíců webových stránek a celá webová krajina se malými i velkými lavinami přeorganizuje.62

 

 Zvažte následující doporučení

 

Na tomto  místě si nejprve ve stručnosti připomeneme pojmy a trendy s kterými se bude každý určitě stále více setkávat: 

 

Klíčová slova informace

Pro informatiku obecně, je významné vyznačování klíčových slov autorem poskytovaného textu. Ta stanoví totiž nejlépe jeho autor. To proto že ví přesně co chce sdělit. Ideální je, stanou-li se 3-4 klíčová slova součástí internetové adresy informace. Takovéto informace lze pak již snadno zařazovat do jakýchkoliv informačních systémů a vytvářet v nch slovníky klíčových slov /tezaury/. Pak nevadí přistupuje-li spotřebitel k informacím s jinou identickou zkušeností než ten, kdo je ukládal.

 

Hypertextové odkazy 

Vývoj internetu směřuje k tomu, že každý člověk, každá informace, dokonce i každý produkt lidské či přírodní činnosti bude mít svoji internetovou adresu. S objekty reálného světa tak bude možné stále ve větší míře zacházet jako se stránkami na webu.

Trendem je nástup tiskových služeb s návazností na internet, jejichž grafika je ovlivněna vzhledem webových stránek. To také nejlépe vyhovuje autorům, kteří chtějí mít jistotu záznamu své práce v tištěném časopisu. Internetové odkazy vidíme také na bilboardech, nejrůznějších výrobcích, manuálech, skriptech, letácích, na materiálech e-govermentu. 

Scannování hypertextových odkazů fotoaparátem z tiskovin či fyzických předmětů, odstraňuje nepohodlné vyťukávání webových odkazů na numerické klávesnici telefonu, řeší již několik technologí. Ke standardizaci tohoto procesu je asi ještě  dlouhá cesta. Ale kdo ví?

 

Dolování dat z audiozáznamů,

Na významu nabývají i nástroje pro dolování dat z audiozáznamů. Systémy pro indexování audia nebo programy na audio-vyhledávání, nabízejí zpracování řeči i vyhledávací technologii v jednom. To umožní na položenou otázku nalézt rychle odpověď.

 

Document Management Systems

DMS řeší uložení různých typů dokumentů do jednotného úložiště. Každý dokument je zde ukládán jako objekt s povinnou strukturovanou částí - metadaty, tj. dat o datech a nepovinnou částí tzv. tělem dokumentu. To představuje obecně binární soubor v libovolném formátu (např.: .doc, .xls, .pdf, .dgw,.xml, html, .tif a další).  Dotazem podle kombinace klíčových slov získá uživatel požadovanou rešerši ve formě dynamických  odkazů (URL adresa) na příslušný dokument, a to napříč všemi systémy.

 

Připomeňme si hlavní  zásady jak rychle a účinně hledat info na webu.

V internetu se nelze vyznat, je v něm možné pouze správně hledat. Jeden chytrý krok, jedno ideální slovo ve vyhledávači může ušetřit celé minuty i hodiny bloudění.

Požehnáním i prokletím fulltextového vyhledávače je velké množství nalezených stránek. První pravidlo zní: nespoléhat se na jedno slovo. Specifikujte dotaz maximálně. Ač znít divně, často pomůže přesně napsat otázku. Pomohou diskuse s odborníky. Hlavně se nespokojte s prvním výsledkem, procházejte první stránku odkazů,   poučte se z chyb a domýšlejte svůj dotaz. Obecně platí, že hned s prvním dotazem člověk málokdy uspěje. Vyplatí se přemýšlet a sousloví upřesňovat, bývá to rychlejší a méně bolestivé, než procházet tisíce stránek.

Pomocí operátorů, lze dokázat pravé divy. Pokud do textového pole  zadáváte slova jednoduše s mezerami, výsledkem jsou všechny stránky, kde se objevují některé z těchto slov, a to kdekoliv.. Přidání + zajistí, že slovo za ní napsané se ve vyhledaných textech musí objevit. Ještě přísnějším omezením je použití úvozovek, které označují tzv. frázi.. Vzhledávač nabídne jen ty stránky, kde jsou slova přesně v tomto pořadí. Zdánlivě zbytečný může být oper. - /not/. Proč zadávat něco, co nechci.. Třeba proto, že některá zásadní informace blokuje  všechny pokusy nalézt ostatní detaily o hledané věci, např. Clinton, Levinská.63

 

 Zamyslete se nad otázkami

 

  Uvědomujete si, že vaše informace zpřístupňujete prostřednictvím sociálních sítí půl miliardě lidí? Také tam sdělujete  věci, které byste v běžném kontaktu nikdy neřekli? Stačí kliknout a dojde k přehmatům které nejde vrátit zpět.

—————