copertina e indiceintroduzionemappain brevestrumentiricerchetemi e percorsi
tecnologieInternet da zeromanuale HTMLglossariobibliografiaprogrammicerca

ricerche
01 | 02 | 03 | 04

Ricerca libera su Web

Tre strumenti diversi

World Wide Web è la risorsa Internet probabilmente più nota, e i suoi ritmi di espansione sono esponenziali. Le pagine informative immesse in rete riguardano gli argomenti più vari, e provengono da fornitori di informazione di natura assai eterogenea: dalle università alle industrie private (grandi e piccole), dai centri di ricerca ai negozi, dalle imprese editoriali ai partiti politici. Vi sono poi le numerosissime 'home page' personali del popolo di Internet.

Chi svolge una ricerca in rete si trova dunque davanti un duplice problema: reperire l'informazione cercata e valutare la sua correttezza, completezza, imparzialità.

Il secondo compito, assai delicato, dipende in parte dall'esperienza; un consiglio generale - una volta trovata una pagina informativa che reputiamo interessante - è quello di risalire sempre alla home page del sito che la ospita (su molte pagine sono disponibili apposite icone attive - altrimenti si può provare ad 'accorciare' progressivamente l'indirizzo nella barra delle URL, salendo di livello in livello nella struttura gerarchica del sito). In questo modo potremo in genere reperire informazioni su chi ha immesso in rete quella particolare pagina, in quale contesto e a quali fini.

Quanto al primo problema - quello di 'scoprire' le pagine esistenti che si occupano di un determinato argomento - una buona partenza è in genere rappresentata dagli strumenti di ricerca disponibili in rete. Vi sono due tipi di risorse che è bene conoscere e che, innanzitutto, occorre saper distinguere (molto spesso queste due diverse tipologie di risorse vengano mescolate e confuse, anche da parte di 'esperti' della rete): i motori di ricerca per termini e gli indici sistematici.

I motori di ricerca per termini permettono di ricercare parole o combinazioni di parole in un archivio indicizzato di documenti in formato digitale. Se vogliamo ad esempio cercare le pagine che si occupano di Lewis Carroll (pseudonimo del reverendo Dodgson, l'autore di Alice nel paese delle meraviglie), potremo fornire al motore di ricerca le due parole 'Lewis' e 'Carroll'. In molti casi è possibile combinare le parole fornite utilizzando i già ricordati operatori booleani: ad esempio, una ricerca con chiave 'Lewis AND Carroll' potrebbe fornirci le pagine in cui compaiono tutti e due i nomi, aiutandoci a scremare pagine che non ci interessano. E, ancor meglio, un operatore capace di 'concatenare' i due termini ci garantirebbe di trovare solo le pagine in cui compare l'esatta stringa 'Lewis Carroll'. Attenzione, però, perché la sintassi corretta per utilizzare AND, OR, NOT e gli eventuali altri operatori disponibili varia da un motore di ricerca all'altro.

La ricerca attraverso un indice per termini è molto comoda nel caso di nomi propri, o nel caso in cui le informazioni che vogliamo trovare si lascino caratterizzare attraverso termini molto specifici. Occorre tuttavia tenere presente che si tratta di una ricerca meccanica: il programma utilizzato non farà altro che cercare i termini da noi forniti all'interno di un immenso indice alfabetico in suo possesso - indice tenuto aggiornato da un 'demone' software che si muove continuamente lungo la rete, seguendo ogni link incontrato e indicizzando tutte le pagine percorse - e fornirci le corrispondenze trovate. L'intelligenza della ricerca dipende dunque in gran parte dalla scelta delle parole usate come parametri, anche se quasi tutti i motori di ricerca hanno la capacità di 'pesare' i risultati in base a elementi quali il numero di occorrenze della parola, l'occorrenza in zone significative del documento come i titoli o i link, e così via. Ciò significa che se abbiamo scelto bene i nostri termini di ricerca, riceveremo un elenco di pagine che avrà alte possibilità di iniziare da quelle per noi più significative. Ma se ad esempio avremo effettuato una ricerca con chiave 'Lewis Carroll', non troveremo mai le pagine nelle quali compare solo il nome di Dodgson. Va ricordato, inoltre, che per quanto estesa la base di indicizzazione di un motore di ricerca per termini copre solo una parte delle pagine realmente disponibili in rete. I dati effettivi sono molto difficili da stimare, ma una recente ricerca del servizio Search Engine Watch (all'indirizzo http://searchenginewatch.com/reports/sizes.html) mostra che nessun motore di ricerca arriva ancora a coprire più del 25% del numero complessivo di pagine in rete, valutato nel settembre 1999 attorno agli 800 milioni.

Al contrario della ricerca alfabetica, la ricerca sistematica avviene su cataloghi ragionati di risorse, suddivisi per settori e organizzati gerarchicamente: in genere la base dati è più ristretta (non saremo sicuri di trovare direttamente tutte, o anche solo la maggioranza delle pagine che ci interessano), ma la valutazione della pertinenza o meno di una determinata informazione non sarà più meccanica, bensì risultato di una decisione umana, e l'informazione stessa sarà inserita all'interno di una struttura di classificazione.

Naturalmente, in questi casi i principi utilizzati per costruire l'impianto sistematico della banca dati sono fondamentali. Un catalogo ragionato di questo tipo si basa in genere su una sorta di 'albero delle scienze', da percorrere partendo da categorizzazioni più generali per arrivare via via a categorizzazioni più specifiche. Ed è importante che questo percorso di 'discesa al particolare' avvenga attraverso itinerari intuitivi e coerenti - compito naturalmente tutt'altro che facile.

La differenza tra questi due tipi di ricerca è sostanziale, nonostante sia invalso l'uso - concettualmente fuorviante - di utilizzare per entrambi il termine 'motore di ricerca', e la confusione sia accresciuta dal fatto che, come vedremo, molti indici sistematici, come Yahoo!, permettono l'accesso anche a un motore di ricerca per termini, e viceversa.

L'esame dettagliato di alcune fra le risorse disponibili per la ricerca su World Wide Web ci aiuterà a comprendere meglio questi problemi. Sottolineiamo però fin d'ora l'importanza di un terzo tipo di ricerca, del quale è assai più difficile fornire un inquadramento generale: la navigazione libera attraverso pagine di segnalazioni di risorse specifiche. È infatti quasi una norma di 'netiquette' che chi rende disponibili informazioni su un determinato argomento, fornisca anche una lista di link alle principali altre risorse esistenti in rete al riguardo. Questo tipo di liste ragionate va naturalmente esso stesso cercato e trovato, cosa che in genere viene fatta usando indici alfabetici o cataloghi sistematici di risorse secondo le modalità sopra delineate. Una volta però che abbiamo individuato una di queste pagine-miniera di link specifici, potrà essere produttivo proseguire la nostra ricerca attraverso di essa. Le risorse in tal modo segnalate presentano infatti due importanti caratteristiche: sono state scelte in maniera esplicita e ragionata, e la scelta è presumibilmente opera di una persona che conosce bene il settore in questione. Abbiamo trovato comodo caratterizzare con l'espressione navigazione orizzontale questa terza modalità di ricerca su Web.

Gli indici sistematici

Il primo strumento di cui ci occuperemo è rappresentato dai cataloghi sistematici e ragionati di risorse. Il modello adottato ricorda l'arbor scientiae di derivazione medievale e rinascimentale, largamente usato anche in ambito enciclopedico e bibliotecario come alternativa alla organizzazione alfabetica. Naturalmente in questo caso la scelta dei rapporti gerarchici e l'importanza relativa attribuita ai vari settori dello scibile hanno finito inevitabilmente per essere influenzati (e lo erano ancor più nei primi anni di vita della rete) dalla rilevanza che gli strumenti informatici e telematici hanno in ogni singolo settore. Così, ad esempio, fra i 'rami' principali dell'albero compaiono discipline come l'informatica e la telematica, mentre discipline come la teologia e la filosofia, che avevano un ruolo prominente negli alberi delle scienze di qualche secolo fa, sono in genere relegate a sottocategorie. I modelli alla base di queste classificazioni, che nascono quasi tutte nel mondo statunitense e tradiscono spesso un certo indebitamento verso la tradizione del positivismo anglosassone, sarebbero un argomento interessante per una ricerca universitaria.

In una risorsa di questo tipo, elemento fondamentale è evidentemente la scelta delle suddivisioni interne delle varie discipline: ad esempio, le informazioni relative alla musica delle popolazioni primitive andranno catalogate sotto la voce 'antropologia' (presumibilmente una sottovoce del settore 'scienze umane') o sotto la voce 'musica'?

Per fortuna la struttura ipertestuale di World Wide Web permette di superare problemi di questo tipo, che avevano angustiato generazioni e generazioni di enciclopedisti e bibliotecari 'lineari'. Nulla impedisce, infatti, di classificare una stessa sottocategoria sotto più categorie diverse (ed eventualmente a 'livelli' diversi dell'albero). Non vi sarà alcun bisogno, per farlo, di duplicare l'informazione: basterà duplicare i link. Visto da un punto di vista lievemente più tecnico, questo significa che gli indici sistematici di risorse sono strutturalmente più simili a grafi complessi che ad alberi: ad uno stesso nodo si può arrivare attraverso percorsi alternativi, tutti egualmente validi. Dal punto di vista dell'utente, invece, ciò comporta semplicemente che - a meno di non andarla a cercare sotto categorie palesemente innaturali - trovare una determinata risorsa informativa sarà assai facile: se ben compilato, l'indice sembrerà 'adattarsi' alle nostre scelte di categorizzazione.

Quanto abbiamo detto finora può sembrare un po' teorico; vediamo allora di capire meglio come funzionano questi strumenti, analizzandone più da vicino l'esempio più importante e più noto.

Yahoo!

Yahoo! sta agli indici sistematici di risorse un po' come HotBot e AltaVista messi insieme stanno ai motori di ricerca per termini: si tratta indubbiamente dello standard, alla luce del quale vengono valutati tutti gli altri tentativi.

Yahoo! è nato nell'aprile 1994, quando David Filo e Jerry Yang, studenti di ingegneria elettronica all'Università di Stanford, iniziarono a creare pagine riassuntive con link ai siti Internet di loro interesse. Nel corso del 1994, Yahoo! (a proposito: la sigla ricorda naturalmente il grido di gioia che si suppone seguire all'individuazione dell'informazione cercata, anche se è ufficialmente sciolta dal curioso acronimo 'Yet Another Hierarchical Officious Oracle') si trasformò progressivamente in un vero e proprio database, ricco di migliaia di pagine indicizzate. All'inizio del 1995 Mark Andreessen, cofondatore della Netscape, percepì l'interesse dello strumento creato da Filo e Yang, e si offrì di contribuire alla trasformazione della iniziativa in una impresa commerciale. Adesso Yahoo! è una florida impresa privata, finanziata fra l'altro attraverso le 'inserzioni' pubblicitarie accolte a rotazione nelle sue pagine. Nell'estate 1996 l'azienda è approdata in borsa, con un buon successo. Probabilmente, l'indice Yahoo! diventerà col tempo solo una delle attività della omonima azienda: a quanto pare, è in particolare il settore delle news finanziarie e dei dati di borsa che sembra ora tentare la giovane e dinamica società.

Utilizzare Yahoo! è assai semplice. Al momento del collegamento (la URL è naturalmente http://www.yahoo.com) ci viene proposta la pagina che trovate nella figura 88.


figura 88: Il principale catalogo sistematico di risorse: Yahoo!

L'indice vero e proprio inizia sotto la linea di separazione (i numerosi rimandi presenti nella zona del titolo testimoniano del gran numero di risorse che ha finito col tempo per collegarsi a questo popolarissimo sito); le voci in grassetto sono le categorie principali, quelle in carattere più piccolo sono alcune fra le loro sottocategorie. Supponiamo di ricercare informazioni sulle agenzie di traduzione raggiungibili attraverso Internet (esistono ormai molti servizi di questo tipo, nei quali la possibilità di scambio veloce e senza limiti geografici di testi costituisce un valore aggiunto notevolissimo). Presumibilmente, una buona categoria di partenza è quella 'Business and Economy'. Se seguiamo il collegamento disponibile, troveremo un'ampia lista di sottocategorie: cerchiamo un'agenzia professionale, e proviamo quindi la voce 'Companies'. La sottovoce 'Communications and media services' sembra fare al caso nostro: in effetti, al suo interno troviamo l'ulteriore specificazione 'Translation Services': una lista che al momento in cui scrivevamo Internet '96 comprendeva i link alle pagine in rete di ben 168 diverse agenzie di traduzione, e che adesso, quattro anni dopo, vede questo numero salito a 759: quasi quintuplicato!

Chi volesse seguire passo passo il percorso di questa ricerca, può farlo attraverso il filmato presente sul CD (filmato su CD).

Saremmo arrivati allo stesso risultato anche seguendo itinerari diversi: ad esempio, saremmo potuti partire dalla categoria 'Social Science', passando alla sottocategoria 'Linguistics and Human Languages', nella quale è pure presente la voce 'Translation Services'. Le categorizzazioni di Yahoo! - come quelle di qualsiasi altro indice sistematico dello stesso genere - sono spesso altamente discutibili [34], ma la moltiplicazione delle strade di accesso rende molto difficile perdersi completamente.

Yahoo! permette inoltre una ricerca per parole chiave che si rivela spesso il sistema più rapido per individuare la categoria cercata: nel nostro caso, sarebbe bastato inserire il termine 'translation' nella casella presente in tutte le pagine del servizio, e premere il bottone 'Search'. A differenza di quanto avviene nel caso dei motori di ricerca su termini che vedremo tra breve, questa ricerca non riguarda tuttavia - almeno in prima istanza - il testo integrale delle pagine World Wide Web, ma solo il database interno di Yahoo!. Questa funzione permette dunque in genere di individuare, più che le singole risorse informative, le categorie che ci interessano. Se però il termine ricercato con quest'ultima modalità non compare all'interno delle voci del database di Yahoo!, esso viene 'passato' a un vero motore di ricerca per termini: anche se può essere difficile rendersene conto, attraverso questo passaggio le caratteristiche della nostra ricerca cambiano completamente, perché cambia la base di dati sulla quale essa viene condotta: a questo punto, infatti, la ricerca non avviene più sull'indice ragionato rappresentato dal database di Yahoo!, ma direttamente sul contenuto delle pagine Web.

Di Yahoo! è disponibile una versione italiana (come anche versioni specifiche per Inghilterra, Francia, Germania, Canada, Giappone), all'indirizzo http://www.yahoo.it. Attenzione, però: non si tratta di una traduzione italiana dell'intero indice disponibile nella versione anglosassone, ma di un indice 'mirato' relativo alle risorse in italiano: il nostro consiglio è di usarlo non come sostituto del sito originale statunitense, ma come utile complemento nel caso di ricerche che riguardino in tutto o in parte il nostro paese.

Altri servizi di catalogazione sistematica

Yahoo! non è l'unico servizio di catalogazione sistematica delle risorse disponibile su Internet, ma come si accennava è al momento quello di gran lunga più completo.

Da segnalare sono comunque i discreti indici sistematici offerti da Altavista (all'indirizzo http://altavista.looksmart.com/; il servizio è realizzato con la collaborazione di Looksmart, a sua volta raggiungibile all'indirizzo http://www.looksmart.com), da Infoseek/Go (http://www.go.com), da Snap (http://www.snap.com), da Excite (http://www.excite.com) anche attraverso la sua alleanza con Magellan (http://magellan.excite.com/), da Web Crawler (http://www.webcrawler.com), da HotBot (http://www.hotbot.com), dal sito statunitense di Lycos (http://www-english.lycos.com/). Indici talvolta più ampiamente commentati di quelli di Yahoo! o costruiti attraverso griglie classificatorie e con criteri diversi (per fare solo un esempio, dalle voci principali dell'indice di HotBot sono completamente assenti letteratura e filosofia!), ma nel complesso assai meno completi e sistematici, e spesso decisamente orientati verso il volto commerciale della rete.

Negli ultimi mesi si sono moltiplicati anche gli indici in italiano, utili per chi desidera evitare eccessive acrobazie linguistiche con le categorizzazioni inglesi, ma soprattutto per chi desidera effettuare ricerche limitate allo specifico del nostro paese. Tenete presente, però, che la completezza è in genere molto inferiore a quella di Yahoo!, spesso anche per quanto riguarda le informazioni relative agli stessi siti italiani.

Da segnalare è in primo luogo Virgilio, uno dei migliori siti del nostro paese, con una ottima home page e una scelta informativa ricca anche di articoli e suggerimenti. La URL è ovviamente http://www.virgilio.it. Utilissimi sono anche la già ricordata versione italiana di Yahoo!, che eredita l'ormai consolidata organizzazione gerarchica del progenitore anglosassone, Arianna, realizzato da Italia On Line, che permette ricerche sia sul proprio indice di siti italiani, sia sui principali motori internazionali (http://www.arianna.it/), e Exploit (http://www.exploit.it), che indicizza oltre 12.000 siti e di cui torneremo a parlare nella sezione dedicata alle comunità virtuali italiane. Una 'new entry' del settembre 1999 è Katalogo (http://www.katalogo.it), indice sistematico realizzato dal gruppo L'Espresso - la Repubblica. Nonostante la giovanissima età, si tratta di uno strumento già utile, che promette molto per il futuro. Ricordiamo poi Dr.Dada, portale sistematico della DadaNet (http://dr.dada.it), Il Trovatore, realizzato dalla Webzone di Perugia (http://www.iltrovatore.it/), ABC, che dichiara un catalogo di 20.000 siti italiani (organizzati in verità in maniera piuttosto caotica; l'indirizzo è http://web.tin.it/ABC) e infine le IWP (Italian Web Pages), che catalogano oltre 13.000 siti italiani, e possono essere utilizzate attraverso una interfaccia in diversi linguaggi (http://www.iwp.it). In molti casi, tuttavia, le scelte di categorizzazioni di questi siti sono davvero arbitrarie e carenti, e comunque palesemente orientate al volto commerciale della rete. Nella singolare classificazione delle Internet Yellow Pages italiane (http://yellow.tecnet.it/), ad esempio, la cultura umanistica e quella scientifica sembrano in gran parte scomparse; in compenso troverete subito le categorie 'abbigliamento', 'ristoranti' e 'spettacolo' (prive, a loro volta, di qualsiasi organizzazione interna diversa dal puro ordinamento alfabetico). Molto meglio strumenti programmaticamente limitati alla catalogazione delle risorse fondamentali di ogni settore, come l'Italian General Subject Tree, sezione italiana della WWW Virtual Library, realizzato sulla base di una organizzazione 'enciclopedica' assai più completa (http://www.igst.it/), o gli sforzi amatoriali - anch'essi dichiaratamente incompleti, ma basati su una selezione utile, informata e commentata - dei collaboratori dello Zibaldone (http://www.freeweb.org/freeweb/zibaldone).

I motori di ricerca

I motori di ricerca per termini

Dagli indici sistematici di risorse, passiamo ora alla seconda grande categoria di strumenti di ricerca su Web: i motori di ricerca per termini.

Come si è accennato in precedenza, in questi casi la ricerca avviene indicando una parola, o una combinazione di parole, che consideriamo associata al tipo di informazione che vogliamo reperire, e insieme abbastanza specifica da non produrre una quantità eccessiva di risultati non pertinenti. Questo evidentemente può avvenire solo se abbiamo un'idea sufficientemente chiara di quello che stiamo cercando, e se l'ambito della nostra ricerca può essere associato in maniera ragionevolmente immediata a un termine, o a un piccolo insieme di termini.

Il caso tipico è quello in cui la nostra ricerca riguarda una persona. Scegliamo come esempio una ricerca di informazioni sulla scrittrice Jane Austen, e vediamo come condurla utilizzando quelli che sono al momento forse i due principali motori di ricerca per termini disponibili su Internet: AltaVista e HotBot.

AltaVista

AltaVista è il risultato di un progetto di ricerca iniziato nell'estate del 1995 nei laboratori di Palo Alto della Digital, una delle grandi aziende storiche nel mondo dell'informatica, acquistata dalla Compaq nel giugno 1998. Fra i più importanti tasselli delle alleanze di Altavista, è il fatto che si tratta del motore di ricerca utilizzato dal portal Microsoft Network. L'indirizzo al quale raggiungerlo è http://www.altavista.com/ (ma si può usare anche il più breve http://www.av.com).

Per comprendere l'importanza e le dimensioni del lavoro di indicizzazione svolto da Altavista, può essere utile ricordarne alcune tappe. A inizio marzo 1997, AltaVista dichiarava di indicizzare circa 31 milioni di pagine; un numero già altissimo, ma inferiore a quello dichiarato dal suo principale rivale dell'epoca, HotBot. Nell'ottobre 1997, tuttavia, la Digital annunciava un'impressionante espansione del proprio parco macchine e del numero delle pagine indicizzate, che raggiungeva i 100 milioni. Nel marzo 1998 tale numero ha superato i 120 milioni di pagine, e nell'agosto 1999 le pagine che Altavista dichiara di indicizzare sono 150 milioni. I soli indici occupano uno spazio di ben 250 Gigabyte, con una media di 40 milioni di richieste soddisfatte al giorno, e sono integralmente aggiornati ogni 28 giorni. Se si aggiunge a questi dati l'estrema velocità nelle risposte fornite da AltaVista, non ci si stupirà del fatto che per molti internauti il passaggio da questo sito sia una tappa quasi obbligata di ogni navigazione.

Le ricerche attraverso AltaVista sono possibili in due distinte modalità: come 'simple search' e come 'advanced search'. La 'simple search' mette a disposizione un modulo come quello della figura 89.


figura 89: Altavista: il modulo di ricerca semplice

Il menu a tendina serve a scegliere se limitare la ricerca a documenti scritti in un determinato linguaggio, i pulsanti permettono di specificare il tipo di documenti sui quali svolgere la ricerca (nell'ultimo anno, Altavista ha molto sviluppato l'aspetto multimediale della propria banca dati, divenuta ormai uno strumento prezioso anche per il reperimento in rete di immagini e brani audio e video). Nella casella principale andranno inseriti il termine o i termini cercati; è anche possibile utilizzare una frase in linguaggio naturale (in inglese, naturalmente): Altavista cercherà di estrarne i termini rilevanti.

Il nostro esempio riguarda una ricerca su un nome; in questo caso, è opportuno racchiudere nome e cognome fra virgolette doppie ("Jane Austen"), per indicare al motore di ricerca di considerarli come un termine unico: troveremo così solo le pagine in cui compare l'espressione 'Jane Austen', e non quelle in cui compare solo il termine 'Jane', o solo il termine 'Austen', o quelle in cui i due termini compaiono lontani. Se non usassimo le virgolette, includeremmo nella ricerca anche questi casi, ma AltaVista - il cui motore di ricerca compie un notevole sforzo per organizzare in base alla rilevanza i risultati che ci vengono restituiti - ci fornirebbe comunque per prime le pagine in cui i due termini compaiono insieme, possibilmente nel titolo.

Il pulsante 'Search' (o il tasto 'Invio' della tastiera) serve ad eseguire la ricerca impostata. Come risultato, riceveremo un elenco di titoli e indirizzi di pagine che rispondono al nostro criterio di ricerca, ordinate cercando di dare il massimo rilievo a quelle in cui i termini di ricerca compaiono nel titolo, all'interno di un link, o con una frequenza maggiore. Assieme ai titoli, troveremo le prime righe o un breve abstract del documento.

A partire dal gennaio 1998, Altavista permette di usufruire di un interessante servizio gratuito di traduzione automatica, ad opera del programma Systran: assieme al titolo e all'abstract delle pagine trovate, avremo infatti a disposizione un link 'Translate' che ci permetterà di impostare la lingua nella quale vogliamo visualizzare la pagina reperita. Per chi avesse spesso bisogno di un aiuto nel tradurre le pagine incontrate in rete, nel 1999 Altavista ha anche introdotto un interessante insieme di 'Power Tools' per Internet Explorer 5, che aggiungono alla barra di strumenti un pulsante (caratterizzato dalla divertente icona di un pesciolino, simbolo della consociata Babelfish) che avvia automaticamente il processo di traduzione. I Power Tools possono essere scaricati gratuitamente dall'indirizzo http://babelfish.altavista.com/content/browser.htm). Tenete presente, comunque, che la traduzione è fatta automaticamente da un computer: i risultati, pur essendo spesso impressionanti, sono ancora largamente approssimativi, e possono servire a darci solo un aiuto di massima nell'interpretazione di un documento scritto in una lingua che non padroneggiamo. Le lingue 'conosciute' da Altavista sono al momento inglese, tedesco, francese, italiano, spagnolo e portoghese.

Ma torniamo all'uso del modulo di ricerca. Il fatto di utilizzare la 'simple search' non deve ingannare: è possibile compiere ricerche molto raffinate, usando fra gli altri gli operatori '+' (va premesso ai termini che vogliamo necessariamente presenti nella pagina), '-' (va premesso ai termini la cui occorrenza vogliamo escludere), '*' (che funziona come 'wild card': il termine 'astronom*' corrisponderà sia ad 'astronomy' che ad 'astronomia', o 'astronomical'). È possibile anche limitare la ricerca a specifiche aree dei documenti: ad esempio inserendo come termine da ricercare 'title: "Jane Austen"' avremmo trovato solo le pagine il cui titolo contiene l'espressione 'Jane Austen'.

Per avere una descrizione dettagliata della sintassi ammissibile in una 'simple search' basterà fare click sull'icona 'Help' presente in apertura della pagina.

Nel momento in cui scriviamo, una simple search con valore 'Jane Austen' porta a un elenco di circa trentasettemila pagine disponibili in rete: fra le altre, pagine dedicate alla scrittrice da università, da appassionati, da librai e case editrici; versioni ipertestuali e testuali di molte fra le sue opere; programmi di corsi universitari dedicati a Jane Austen; bibliografie; articoli accademici che studiano i più disparati aspetti della sua letteratura, e addirittura... barzellette ispirate a Jane Austen, e siti per l'acquisto on-line di vestiti ispirati ai suoi racconti. Per avere un'idea della mole del materiale disponibile, potete dare un'occhiata al curioso sito della 'Republic of Pemberly', alla URL http://www.pemberley.com/. A dimostrazione della continua espansione del Web, basti ricordare che nel marzo 1998 la stessa ricerca portava a un elenco di circa sedicimila pagine, nel 1997 a un elenco di cinquemila pagine, e nel marzo 1996 a un elenco di quattromila pagine (va notato comunque che essendo il database di Altavista ormai 'distribuito' su un largo numero di server, ciascuno dei quali può a volte risultare inaccessibile, il numero di risultati ottenibili può variare, anche considerevolmente, di momento in momento).

Attraverso la pagina principale del sito di Altavista è anche possibile passare, dalla 'simple search', alla cosiddetta 'advanced search', che mette a disposizione una finestra di dialogo più complessa e gli operatori booleani standard, oltre a campi per indicare il lasso temporale di creazione o ultimo aggiornamento del sito. La casella per l'immissione dei parametri di ricerca è simile a quella della 'simple search', ma più ampia. Si possono continuare a usare i doppi apici per racchiudere l'espressione "Jane Austen", ma gli operatori '+' e '-' non funzioneranno più; possiamo invece raffinare la ricerca con operatori booleani. Se vogliamo così ad esempio limitarci a siti creati o modificati fra il maggio e l'agosto 1999, che parlano di Orgoglio e pregiudizio o di Emma, mostrandoci per primi i siti che parlano di Emma, possiamo impostare la ricerca avanzata nel modo suggerito dalla figura seguente.


figura 90: Altavista: il modulo di ricerca avanzata

Per consentire la costruzione di espressioni di ricerca complesse, è possibile anche utilizzare parentesi. Attraverso la casella 'Ranking' possiamo influenzare l'ordine in cui visualizzare le pagine trovate (se 'Pride' lo scriviamo qui, le pagine che trattano di Orgoglio e pregiudizio saranno visualizzate per prime); possiamo anche eliminare le pagine 'poco aggiornate' (nel caso di una ricerca su Jane Austen, questa possibilità non ha probabilmente un gran senso), utilizzando le caselle nelle quali impostare la data iniziale e la data finale di creazione per le pagine cercate.

Per avere un'idea un po' più precisa delle capacità di AltaVista, proviamo altri due esempi: una ricerca con chiave "Eugenio Montale" porta a circa 1.400 pagine (nel marzo 1998 erano circa 800, nel marzo1997 erano circa 200), e una ricerca con chiave "Umberto Eco" a circa 8.000 (contro le circa 7.000 del marzo 1998 e le circa 2.000 del marzo 1997).

HotBot

HotBot (http://www.hotbot.com) è nato nel 1996 per iniziativa di HotWired (http://www.hotwired.com), la controparte in rete della rivista Wired e, come la sorella su carta, sito 'di culto' per molti fra i nuovi profeti del digitale.

Caratterizzato da una interfaccia coloratissima e divertente, HotBot è stato fra i primi motori di ricerca a mettere a disposizione dell'utente possibilità di ricerca veramente avanzate, ed è tuttora un ottimo strumento: nel 1998 le difficoltà economiche di Wired ne avevano messo in forse la sopravvivenza, ma l'acquisto da parte del gruppo Lycos pare segnalare lo scampato pericolo. Il numero di pagine indicizzate da HotBot è di poco inferiore a quello dichiarato da Altavista (nell'agosto 1999, la cifra indicata è quella di 110 milioni di pagine), e l'interfaccia utente - soprattutto nel caso della ricerca avanzata - è sicuramente più semplice e intuitiva. La rilevanza dei risultati ottenuti attraverso HotBot è molto alta, tanto da far guadagnare al sito, sia nel 1998 sia nel 1999, la palma di miglior motore di ricerca da parte dello staff di C|NET, uno dei più noti siti di analisi delle tecnologie di rete (http://www.cnet.com). I tempi di attesa per ottenere i risultati di una ricerca sono tuttavia lievemente più alti di quelli di Altavista. Una curiosità: l'interfaccia di HotBot è stata per anni gestita attraverso Linux, la famosa versione gratuita del sistema operativo Unix che dimostra così una volta di più tutta la sua efficienza, riuscendo a non sfigurare rispetto a concorrenti commercialmente assai più potenti e... costosi. La Inktomi, società alla quale si deve il motore di ricerca di HotBot, è ora responsabile anche dei motori di ricerca su Web di MSN (un servizio assai veloce, raggiungibile alla pagina http://search.msn.com), di Yahoo! (attenzione: questo dato si riferisce naturalmente alla ricerca su Web, non all'indice sistematico per il quale il sito è come abbiamo visto giustamente famoso) e di Snap.com (ne parleremo in seguito).

Un altro aspetto delle tecnologie alla base di Hot Bot che merita di essere segnalato è la recentissima partnership con Direct Hit (http://www.directhit.com), una società che ha studiato una strada nuova per risolvere quello che è uno dei maggiori problemi di ogni motore di ricerca per termini: la scelta dei migliori criteri da usare per 'ordinare per importanza' le diverse pagine individuate attraverso una ricerca. La strategia esplorata dalla Direct Hit è quella denominata 'popularity engine': una volta fornita all'utente la pagina di risultati, sfruttando le caratteristiche (in verità un po' invasive) dei browser di ultima generazione viene 'misurato' per quanto a lungo l'utente stesso si sofferma su ciascuno dei siti proposti, incrementando il tasso di importanza di quelli sui quali si sofferma più a lungo. In effetti, l'adozione di questa tecnologia sembra aver considerevolmente migliorato l'affidabilità dei primi risultati forniti da HotBot, soprattutto nel caso di ricerche abbastanza 'popolari'.

Anche HotBot dispone di due modalità di ricerca, la ricerca semplice e quella avanzata. In entrambi i casi, le varie opzioni sono tutte disponibili attraverso menu a tendina o pulsanti da marcare, senza bisogno di utilizzare sintassi di ricerca complesse.


figura 91: HotBot: il modulo di ricerca semplice

Nel modulo di ricerca semplice, la prima tendina permette di specificare se vogliamo svolgere una ricerca in AND (opzione 'all the words'), in OR (opzione 'any of the words'), sull'espressione esatta da noi introdotta (opzione 'exact phrase'), sul solo titolo delle pagine (opzione 'phrase title'), su nomi di persona (opzione 'the person': viene cercata sia la stringa ''Nome Cognome'' sia quella ''Cognome Nome''; l'ultima volta che abbiamo provato questa opzione, la ricerca sembrava tuttavia limitata al solo titolo delle pagine, fornendo quindi un numero di occorrenze assai più limitato dell'opzione 'exact phrase') sui link (nel modulo di ricerca si dovrà in questo caso introdurre un indirizzo di rete, e verranno restituite le pagine che contengono rimandi a tale indirizzo), o attraverso una espressione booleana. Attraverso i menu successivi è possibile restringere la ricerca ai documenti recenti o a quelli in una determinata lingua, porre come condizione l'inclusione di immagini, video, audio in formato MP3 (la nuova moda della rete) o programmi JavaScript. È poi possibile specificare il formato con il quale visualizzare le risposte.


figura 92: La prima parte delle opzioni comprese nella 'advanced search' di Hotbot

La pagina 'Advanced Search' di HotBot non ha probabilmente rivali per completezza, tanto che abbiamo dovuto suddividerla in due immagini diverse, e non ci è certo possibile esaminarne in dettaglio tutte le opzioni. È possibile combinare fra loro ricerche con operatori differenti e selezionare tipologie estremamente specifiche di documenti (inclusi documenti non HTML come quelli scritti in Adobe Acrobat, e addirittura mondi VRML, applet Java, o documenti con specifiche estensioni). È possibile specificare il dominio all'interno del quale ricercare le pagine, e (limitatamente all'inglese) è anche possibile includere le pagine che contengono il termine richiesto in una sua forma flessa.


figura 93: La seconda parte delle opzioni comprese nella 'advanced search' di Hotbot

Nell'agosto 1999, una ricerca 'exact phrase' condotta sull'espressione 'Jane Austen' portava a circa 14.000 pagine: meno di quelle che la stessa ricerca forniva nel 1998, ma nel frattempo HotBot ha migliorato gli algoritmi per escludere dai propri risultati pagine duplicate. La stessa tendenza si poteva riscontrare attraverso una ricerca con chiave 'Eugenio Montale' (460 pagine nel 1999 contro le 863 dell'anno prima) o con chiave 'Umberto Eco' (4.900 pagine contro 9.163). Naturalmente, nel caso di una ricerca su termini abbastanza rari (ad esempio un personaggio non eccessivamente famoso), converrà utilizzare sia AltaVista sia HotBot (ed eventualmente anche altri motori di ricerca, in particolare la new entry Fast della quale parleremo fra breve): i risultati forniti, infatti, non saranno necessariamente gli stessi.

Altri motori di ricerca

Progressivamente, diversi altri motori di ricerca basati su (tentativi di) indicizzazione globale di World Wide Web si stanno avvicinando alla copertura offerta da HotBot e AltaVista, e come vedremo in almeno un caso sembrano averla addirittura superata. Va detto inoltre che strumenti diversi offrono modalità di ricerca diverse, e non è detto che il motore più adatto per una determinata ricerca sia necessariamente il più esteso in termini di pagine indicizzate.

Fast (http://www.alltheweb.com, o http://www.fast.no/) è una risorsa recentissima, che aggiungiamo a questa sezione del manuale quasi all'ultimo minuto. La piccola società norvegese, alla quale lavorano una sessantina di persone, e che ha dunque dimensioni ben diverse da quelle dei colossi d'oltreoceano, ha infatti scosso il mondo della ricerca in rete con l'annuncio a sorpresa, nell'agosto 1999, di un nuovo motore di ricerca che - per la prima volta - supera il muro dei 200 milioni di pagine indicizzate. E non sembra un vanto campato in aria: le nostre ricerche di test hanno fornito effettivamente un numero di risultati maggiore di quello offerto da Altavista!

Fast ha probabilmente ancora parecchia strada da fare in termini di interfaccia utente e caratteristiche accessorie - è probabile che lo scopo della società sia piuttosto quello di vendere le proprie tecnologie ai giganti del settore - ma certo si tratta di un risultato di tutto rispetto: se dovete svolgere una ricerca su qualche nome poco conosciuto e non siete del tutto soddisfatti dei risultati forniti da siti più famosi, provate senz'altro questo strumento! La ricerca è per ora possibile, attraverso un menu a tendina, solo in AND, OR e in modalità 'exact match' sull'esatta espressione introdotta.

Lycos (http://www.lycos.com) è fra i motori di ricerca più 'anziani'. Nato come progetto sperimentale presso la Carnegie Mellon University sotto la direzione di Michael Mauldin, si è trasformato nel giugno 1995 in una vera e propria impresa, la Lycos Inc. Come abbiamo già accennato, Lycos ha recentemente acquistato HotBot. Per ora i due motori di ricerca continuano ad essere indipendenti (l'unico sintomo dell'alleanza è nel fatto che in calce ai risultati forniti dall'uno è presente un bottone che permette di lanciare la stessa ricerca anche sull'altro), ma è possibile che in futuro finiscano per integrarsi, magari proprio attraverso l'adozione della tecnologia sviluppata da Fast, alla quale Lycos sembra particolarmente interessato e che già incorpora per le ricerche FTP. Una caratteristica notevole di Lycos è quella di 'accorgersi' della provenienza della richiesta, presentandoci automaticamente una interfaccia nella nostra lingua. Il sito italiano (raggiungibile anche all'indirizzo http://www.lycos.it) ha una interfaccia piacevole e completa, e offre link diretti a uno strumento per la ricerca di indirizzi e numeri di telefono nel nostro paese (curato dal già ricordato servizio Pronto.it) e a una pagina che permette di ricercare musica in formato MP3. La ricerca semplice, possibile attraverso qualunque pagina del sito, si svolge attraverso un unico campo, ed è impostata come ricerca in AND; per avere un minimo di flessibilità, tuttavia, è quasi obbligatorio il ricorso al modulo di ricerca avanzata, che permette anche di scegliere i criteri di rilevanza in base ai quali ordinare i risultati.

Senz'altro benvenuta è la capacità di 'spingere' in fondo alla lista dei risultati forniti i siti con contenuto pornografico: non si tratta di moralismo, ma della necessità di arginare la diffusa e inqualificabile abitudine di molti siti pornografici di indicizzare le proprie pagine anche attraverso alcuni termini relativi all'attualità del momento o alle ricerche più frequentemente svolte dal 'popolo della rete'. Accade così che, ad esempio, sulla maggior parte dei motori di ricerca una ricerca con chiave 'Nobel' porti spesso non solo a siti sui premi Nobel, ma anche a siti di tutt'altro genere, a base di fanciulle svestite - e questa tendenza arriva allo sciacallaggio quando è applicata (come è successo) a eventi come la guerra del Kosovo o il terremoto in Turchia dell'agosto 1999. Il filtro fornito da Lycos scoraggia questo censurabile comportamento.

La base di pagine indicizzate da Lycos rimane tuttavia al momento più ristretta di quella di AltaVista o HotBot (50 milioni di pagine dichiarate nel 1999), e l'accuratezza dei risultati forniti è spesso molto minore

Nato come strumento a pagamento, Infoseek/Go (http://www.infoseek.com/ o http://www.go.com) è ormai da tempo gratuito come i suoi principali concorrenti, e ha integrato al motore di ricerca per termini un catalogo sistematico piuttosto bene organizzato. Nel 1999 è divenuto il capofila di una società denominata Go, che raccoglie siti commerciali e di servizio. La base di pagine indicizzate è ampia (75 milioni di pagine dichiarate nell'agosto 1999), ma non al livello di quella di HotBot o AltaVista. I nostri test mostrano comunque una tendenza alla crescita: nel 1999 Infoseek/Go restituiva circa 9.000 pagine su Jane Austen (erano circa 7.000 nel 1999 e circa 5.000 nel 1997), 386 su Eugenio Montale (erano rispettivamente 198 e 180), poco più di 3.400 su Umberto Eco (erano circa 2.000 nel 1998 e nel 1997).

Anche nel caso di Infoseek, per 'ritagliare' la nostra ricerca è quasi obbligatorio l'uso del modulo di ricerca avanzata, che offre anche l'accesso a ricerche su newsgroup, elenchi telefonici, notizie di attualità e finanziarie, siti commerciali. Come Lycos, anche Infoseek/Go dispone di un servizio opzionale di filtraggio dei siti pornografici, denominato GoGuardian.

Excite! (http://www.excite.com/) è un altro dei motori di ricerca 'storici' della rete, ma resta per ora piuttosto lontano dalla copertura di Altavista: nell'agosto 1999 dichiara di indicizzare circa 55 milioni di pagine. Nel momento in cui scriviamo è però freschissimo il preannuncio, a sorpresa, di un vero e proprio 'salto di qualità': l'indice dovrebbe superare i 200 milioni di pagine entro l'autunno. Se questa notizia si dimostrerà realistica, le quotazioni di questo sito dovrebbero salire considerevolmente! I dati della nostra ricerca-test lo mostrano comunque in crescita: circa 11.000 pagine su Jane Austen (contro le 6.500 dell'anno precedente), 443 su Montale (erano 257), mentre resta stabile il numero di pagine relativo a Umberto Eco (circa 2.600). Anche in questo caso, è decisamente consigliabile l'uso del modulo di ricerca avanzato. Excite! è il motore di ricerca utilizzato da Netscape e America On Line, e dispone di una buona versione italiana, specializzata nella ricerca di siti in italiano o ospitati nel nostro paese, all'indirizzo http://www.excite.it.

Snap (http://www.snap.com) è una 'new entry' di questa edizione del nostro manuale; si tratta di un sito in rapido sviluppo, dopo l'acquisizione da parte del colosso americano NBC (acquisizione che in qualche modo lo avvicina a uno dei siti di notizie più popolari della rete, quello di MSNBC, frutto di una collaborazione fra NBC e Microsoft). Come molti portali, Snap integra un potente motore di ricerca (capace di svolgere ricerche separate anche sulle immagini) e un indice sistematico di risorse. Il motore di ricerca usato è lo stesso (Inktomi) utilizzato da HotBot, e il numero di pagine fornito è dunque sostanzialmente analogo a quello raggiungibile attraverso HotBot.

Northern Light (http://www.northernlight.com), anch'essa una 'new entry', ha caratteristiche piuttosto inconsuete e decisamente interessanti. Oltre che sul proprio database di pagine Web, infatti, la ricerca viene svolta anche su una 'Special collection' di circa 5.400 fonti informative esterne (riviste, enciclopedie, testi di riferimento, ecc.). Nortern Light, infatti, è una società specializzata nella vendita di servizi informativi e di documentazione, e ha quindi tutto l'interesse a indicizzare, accanto al Web, anche altre fonti 'non pubbliche' che possono poi essere vendute ai potenziali utenti. La ricerca con chiave "Eugenio Montale", ad esempio, restituisce un discreto numero di risultati, che accanto alle normali pagine Web comprendono articoli su riviste letterarie specializzate: articoli che l'utente può richiedere in copia, a pagamento, alla stessa Northern Light. Una risorsa utilissima, dunque, soprattutto nel caso di ricerche accademiche; anche per l'integrazione della 'Special Collection', il numero di pagine indicizzate dichiarate nell'agosto 1999 è addirittura superiore a quello di Altavista: 161 milioni.

Un'altra caratteristica interessante di Northern Light è l'organizzazione dei risultati in 'cartelle' che cercano di fornire un minimo di ordine all'insieme dei risultati forniti: un sistema che, all'atto pratico, si mostra in certi casi più funzionale degli sforzi di organizzazione per rilevanza compiuti da altri motori di ricerca.

Google (http://www.google.com) è l'ultima delle nostre 'new entry', ed è fra le maggiori novità di quest'anno nel settore. Si basa infatti su un motore di ricerca completamente nuovo e ancora in fase di 'beta testing', sviluppato nel prestigioso dipartimento di Computer Science dell'università di Stanford. Attorno alla giovane società omonima, non ancora quotata in borsa, si è sviluppata una notevole attenzione da parte del 'popolo della rete'. La caratteristica rivoluzionaria di Google risiede nel tentativo di attribuire una misura di 'autorevolezza' ai siti inclusi nel proprio database, in modo da cercare di fornire per ogni ricerca una graduatoria di rilievo basata non solo sul fatto che le parole ricercate compaiano spesso o in posizione prominente (ad esempio nei titoli o nei link), ma anche sull'autorevolezza dei siti nei quali compaiono, misurata attraverso un complesso algoritmo matematico che prende in considerazione il numero di altri siti che rimandano a quello reperito attraverso la ricerca.

Un altro aspetto innovativo di Google è il fatto che le pagine, nel momento in cui vengono indicizzate, restano disponibili anche sul sito del motore di ricerca, che si propone in questo modo come una sorta di... replica completa del World Wide Web! Naturalmente, questo vale solo per le pagine indicizzate da Google, il cui numero dichiarato ha toccato nell'agosto 1999 la rispettabile cifra di 85 milioni. Il vantaggio pratico di questa caratteristica è che l'utente può scegliere, dalla pagina dei risultati fornitagli da Google, di navigare sul 'vero' sito o sulla copia locale che ne ha fatto il motore di ricerca: una possibilità molto comoda, dato che talvolta può capitare che il sito 'esterno' sia difficile da raggiungere, o che la pagina che ci interessava sia stata nel frattempo modificata.


figura 94: La meravigliosa interfaccia del nuovo motore di ricerca 'Google': come pensare a qualcosa di più semplice?

L'interfaccia di Google è quanto di più spartano potrebbe esservi: una pagina bianca, senza pubblicità di alcun tipo, con solo un campo in cui introdurre i termini da ricercare e due bottoni: uno ('Google Search') ha l'intuitiva funzione di lanciare la ricerca, l'altro, dalla curiosa denominazione 'I'm feeling lucky', è una novità assoluta per il settore: se lanciamo la nostra ricerca premendo su di esso anziché sul pulsante 'standard', anziché all'abituale lista di risultati saremo portati direttamente sul singolo sito che, a parere di Google, è per noi il più rilevante. Incredibile ma vero, il sistema spesso funziona!

Google non dispone di una pagina per la ricerca avanzata, e se desideriamo compiere ricerce sofisticate questa carenza si fa certo sentire. È comunque possibile una certa flessibilità anche attraverso la spartana l'interfaccia fornita, tenendo presente che la ricerca viene svolta automaticamente in AND (se cioè inseriamo più di un termine, l'elenco di risultati comprende solo le pagine in cui compaiono tutti i termini che abbiamo inserito), che - come in Altavista - è possibile usare i doppi apici per restringere la ricerca alle sole pagine in cui compare l'esatta espressione da noi inserita, e che - di nuovo, come nel caso di Altavista - il segno '-' può essere usato come equivalente dell'operatore NOT, per escludere le pagine in cui compare il termine al quale lo abbiamo premesso.

Alcune metarisorse

Col moltiplicarsi dei motori di ricerca, acquistano importanza altri due tipi di risorse che può essere utile ricordare in conclusione: i cosiddetti strumenti di 'metaricerca', e gli indici di indici. Prima, però, vorremmo suggerire due siti che il 'ricercatore di rete' dovrebbe tenere d'occhio; il primo è il Search Engine Watch, all'indirizzo http://www.searchenginewatch.com; come indica il nome, questo sito si propone di monitorare in maniera sistematica caratteristiche e prestazioni dei diversi motori di ricerca. Si tratta di una risorsa davvero ricca di notizie e suggerimenti, che raccoglie in un'unica sede i link a tutte le recensioni di motori di ricerca da parte delle principali riviste e dei principali siti 'tecnici' esistenti in rete. Incredibile ma vero, qualcosa di simile esiste anche nel nostro paese (e si tratta del secondo sito di interesse generale che vogliamo segnalarvi): all'indirizzo http://www.motoridiricerca.it trovate una rassegna completa dei principali motori di ricerca, corredata da indicazioni sulle rispettive sintassi, da suggerimenti per il loro uso, e da dati di raffronto. Alcune pagine del sito sono molto aggiornate, altre lo sono meno, ma nel complesso si tratta di una risorsa preziosa per l'internauta nostrano.

Veniamo ora ai veri e propri strumenti di metaricerca. Le 'metaricerche' consistono, in sostanza, nell'inviare in maniera sequenziale o contemporaneamente a più motori di ricerca il termine o i termini che ci interessano. L'invio sequenziale è analogo alla consultazione successiva di più motori di ricerca: è comodo poterlo fare da un'unica pagina, ma non vi è alcun 'valore aggiunto' fornito da uno strumento di questo tipo. Potete comunque dare un'occhiata, fra i servizi che rientrano in questa categoria, a EZ-Find (http://www.theriver.com/TheRiver/Explore/ezfind.html), Find-It (http://www.itools.com/find-it/find-it.html), e il piccolo 'Powersearch assistant' di Starting Point (http://www.stpt.com/pwrsrch.asp).

Decisamente più appetibile è invece la possibilità di consultare contemporaneamente più motori di ricerca, in modo da ottenere un'unica lista di risposte. I servizi di questo tipo hanno conosciuto negli ultimi anni un vero e proprio boom, tanto che ci sembra senz'altro preferibile segnalare, anziché questa o quella risorsa fra le moltissime disponibili, la pagina di Yahoo! che ne raggruppa oltre cento: http://dir.yahoo.com/
Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/
All_in_One_Search_Pages/
.

Savvy Search (http://www.savvysearch.com/) e Meta Crawler (http://www.metacrawler.com) restano comunque fra i più completi. Savvy Search - che dispone anche di una interfaccia in italiano - è altamente personalizzabile: si può scegliere quali includere fra circa cento motori di ricerca diversi e 'dare un nome' al (meta)motore di ricerca personale così creato, tornandovi automaticamente alla successiva visita al sito. I risultati della ricerca svolta sui vari motori di ricerca vengono integrati, eliminando le ripetizioni. Fornendo un risultato basato su strumenti dotati ciascuno di diversi criteri di rilevanza, tuttavia, la lista dei risultati ottenuta risulterà molto completa, ma parecchio disordinata.

Meta Crawler (http://www.go2net.com/search.html) è un altro ottimo strumento di metaricerca. Anche in questo caso, tuttavia, l'ordine di visualizzazione non è sempre quello che ci si aspetterebbe. Come per SavySearch, è possibile personalizzare i criteri di inclusione ed esclusione dei motori di ricerca utilizzati, e salvare le nostre preferenze per un accesso futuro.

Il problema principale di entrambi questi servizi è, paradossalmente, il... numero di risultati forniti. Ci si aspetterebbe una lista lunghissima, invece è molto più breve di quella alla quale si arriverebbe attraverso uno qualunque dei principali motori di ricerca fin qui esaminati. Come mai? La ragione è nella necessità di integrare e fornire i risultati senza costringere l'utente a tempi di attesa biblici. Per farlo, nel caso di ricerche con un consistente numero di risultati vengono selezionati solo quelli che i vari motori di ricerca considerano più rilevanti e forniscono per primi.

Va detto infine che per effettuare metaricerche non è necessario collegarsi a un particolare sito in rete: è anche possibile ricorrere a uno dei molti programmini 'agenti', in grado di interrogare automaticamente i motori di ricerca per i quali li abbiamo configurati, e di fornirci, integrati, i relativi risultati. Ne parleremo fra breve, occupandoci del futuro della ricerca in rete.

Naturalmente, tutti questi tipi di metaricerche, presentando in genere all'utente una interfaccia unica, possono impedire di utilizzare fino in fondo i linguaggi propri dei diversi motori di ricerca, e si tratta di un limite spesso notevole. L'integrazione fra motori di ricerca diversi è comunque senza dubbio una delle strade da esplorare per cercare di organizzare l'informazione disponibile attraverso World Wide Web, ed è probabile che in futuro gli strumenti di metaricerca acquisteranno una rilevanza e una flessibilità maggiori di quelle attualmente possibili.

Un'ultima osservazione riguarda gli indici di indici, che permettono di 'tenersi aggiornati' sui motori di ricerca esistenti: oltre al riferimento obbligato costituito dalla già ricordata pagina di Yahoo!, un esempio davvero impressionante è All-in-one (http://www.allonesearch.com/), che contiene una vera e propria banca dati comprendente oltre 500 indici e motori di ricerca di tutti i tipi, interrogabili direttamente; si tratta dunque anche di uno strumento di metaricerca sequenziale. Un'altra risorsa di questo tipo è Virtual Reference Desk (http://www.refdesk.com/newsrch.html), che unisce ben 260 motori di ricerca in aree anche estremamente specifiche (dalla ricerca di impiego alle previsioni meteorologiche).

Gli strumenti di ricerca offerti dal browser

Sia Netscape 4.6 sia Explorer 5 incorporano alcuni strumenti di ricerca potenzialmente interessanti, anche se nessuno di essi risulta, a conti fatti, davvero preferibile rispetto all'uso 'tradizionale' di un buon motore di ricerca.

Innanzitutto, è presente in entrambi un pulsante 'Cerca' o 'Search' che può sembrare a prima vista attraente: non sarà una buona strada per evitare di perdersi fra motori di ricerca e indici sistematici di risorse, e per eseguire efficaci ricerche guidate?

Purtroppo, la realtà è un po' meno rosea. Il pulsante 'Cerca' di Explorer apre sì, in una finestra sulla sinistra dello schermo, una maschera dall'apparenza assai semplice in cui inserire la stringa su cui effettuare la ricerca. Ed è decisamente comoda la possibilità che ci viene offerta di effettuare la ricerca su doppia finestra, con da un lato i titoli delle pagine trovate e dall'altro il contenuto delle singole pagine di volta in volta visitate. Tuttavia, la scelta dei motori di ricerca utilizzabili (che possono essere inclusi o esclusi attraverso il tasto 'Personalizza' che compare nella barra superiore della finestra di ricerca) sembra rispondere più alle strategie commerciali e alle alleanze Microsoft che all'esigenza di dare all'utente uno strumento davvero completo. Nella sua versione standard, Explorer 5 italiano comprende infatti il motore di ricerca di Microsoft Network (che come abbiamo visto è al momento gestito dallo stesso sistema Inktomi di HotBot), Voile, Virgilio, Excite e Arianna: una scelta che può certo fornire buoni risultati, ma ben lontana dalla completezza di strumenti che sarebbe auspicabile. Inoltre, motori di ricerca e indici sistematici vengono a trovarsi inseriti in una lista unica, accessibile attraverso un'unica interfaccia, con il rischio (ma è quasi una certezza) che l'utente inesperto non si renda conto della fondamentale differenza esistente fra questi due tipi di risorse, e delle diverse strategie di ricerca che la loro utilizzazione presuppone. Non sarebbe utile, inoltre, dare qualche informazione sulla sintassi di ricerca da utilizzare e sulle caratteristiche dei diversi motori di ricerca prescelti?

Un discorso analogo vale per la pagina a cui ci porta il bottone 'Search' di Netscape, che permette di scegliere tra un discreto numero di motori di ricerca (incluso il recente Google), con una preferenza per il preimpostato HotBot. Anche qui si segnala un'assenza di rilievo, quella di AltaVista. Viene poi anche in questo caso nascosta la sintassi di ricerca propria di ogni singolo strumento, col prevedibile risultato di 'indebolire' le funzionalità a nostra disposizione.

Il nostro suggerimento, dunque, è quello di far ricorso a questi strumenti solo dopo aver acquisito una buona familiarità con i principali motori di ricerca e indici sistematici in rete. Molto interessanti, invece, le funzionalità aggiunte da un altro pulsante incluso in Netscape a partire dalla versione 4.5, questa volta all'interno della barra degli indirizzi. Si tratta del pulsante denominato 'What's related', che, una volta premuto, apre un menu di opzioni tutte collegate alla ricerca in rete: una volta visualizzata una pagina, Netscape aggiunge automaticamente a questo menu una serie di voci corrispondenti a pagine il cui contenuto è considerato simile o collegato a quello della pagina che stiamo consultando. Per farlo, viene utilizzata una tecnologia che era stata sviluppata da uno dei più interessanti programmi di ricerca in rete degli ultimi anni, Alexa (http://www.alexa.com). Abbiamo provato a usare in maniera abbastanza regolare questo pulsante, e i risultati sono stati decisamente superiori alle nostre (scettiche) aspettative: si tratta effettivamente di uno strumento utile, a volte utilissimo, anche se alcune fra le voci comprese nel menu del pulsante 'What's related' (ad esempio la voce 'search on this topic') hanno il solito limite di tutti i prodotti proprietari: una decisa preferenza per le risorse ospitate dal sito della Netscape.

Chi volesse ulteriormente 'potenziare' le capacità di ricerca disponibili direttamente dall'interno del proprio browser, può infine consultare la lista di strumenti e programmi aggiuntivi disponibile nella sezione 'Browser Searchboots' di TuCows. Ma con programmi di questo genere siamo ormai nel campo, affascinante, degli agenti di ricerca - un settore che merita senz'altro una trattazione separata.


Note

[34] E cambiano spesso: i percorsi indicati, ad esempio, sono differenti da quelli che avevamo fornito in Internet '96, perché le scelte di categorizzazione operate da Yahoo! sono nel frattempo mutate.



<<< pagina precedente

pagina successiva >>>

Con E-text Internet è facile!

inizio pagina