non siamo

bookblogger

non siamo

bookblogger

Non siamo bookbogger logo

18 Luglio 2020

Anche l’algoritmo di Google legge libri

Ecco come Google Books ha cambiato (in meglio) i contenuti del web

Vi ricordate le vecchie pagine web che ripetevano decine di volte la stessa parola? E i testi tono su tono per nascondere le liste di parole chiave? Nei primi anni Duemila, ci imbattevamo in questo genere di “trucchi” ogni volta che facevamo una ricerca su Google. Vi siete mai chiesti dove sono andate a finire?

Nell’ultimo decennio i motori di ricerca hanno fatto enormi passi avanti, anche grazie a una disciplina che si chiama SEO, letteralmente Ottimizzazione per i motori di ricerca. Il cosiddetto Spider, l’algoritmo che esamina e indicizza le pagine web per conto di Google, si è evoluto al punto da riuscire a riconoscere un contenuto originale e ricco, da uno scarso o attira-click. Come ha fatto? In parte, è stato grazie ai libri.

Costruire la biblioteca di Babele

«L’universo (che altri chiamano la Biblioteca) si compone di un numero indefinito, e forse infinito, di gallerie esagonali…»

Questo è l’incipit del racconto di Jorge Luis Borges La biblioteca di Babele (in Finzioni, Adelphi). Può sembrare un’iperbole, invece ha molto a che vedere col mondo d’oggi. Infatti, una visione simile e altrettanto ambiziosa spinse Sergey Brin e Larry Page, nei primi anni Novanta, a creare quello che sarebbe diventato Google Books (Google Libri). Si legge nella pagina del progetto:

«la loro grande visione [di Brin e Page] era quella di un mondo futuro con vaste raccolte di libri digitalizzati, dove le persone avrebbero utilizzato un software per indicizzare i contenuti dei libri e analizzare le relazioni tra di essi, determinando la pertinenza e l’utilità di un dato libro tramite il numero e la qualità delle citazioni presenti in altri libri.»

Esattamente qui nasce uno dei criteri fondamentali che hanno retto e in parte reggono il motore di ricerca. Si tratta dei link: una pagina o un articolo sul web è tanto più autorevole quanti più testi lo citano. Proprio così nasce Google: per istituire un ordine gerarchico in una biblioteca. Proprio così i territori selvaggi della rete iniziano ad essere attraversati da strade.

Per la competizione di Amazon bisognerà aspettare la nascita di A9.com, nel 2009. Nel frattempo, passando attraverso polemiche e controversie, nel 2015 risultavano acquisiti da Google Books trenta milioni di titoli, per arrivare a quaranta milioni nel 2019, in oltre quattrocento lingue. Alcuni provengono direttamente dagli editori, altri dal “Progetto biblioteche”. Per questo è possibile reperire anche testi antichi e fuori edizione, consultabili integralmente o per estratti. Narrativa e saggi: Macchiavelli, Il codice Da Vinci e le Cinquanta sfumature. Si può impostare la ricerca in maniera da ottenere liste di titoli utili a scopi accademici e di ricerca, e perfino diagrammi della ricorrenza di parole chiave nell’intera biblioteca. Ma soprattutto, a differenza delle pagine web, i testi in Google Books sono passati attraverso una selezione e una curatela editoriale. Rappresentano, se non tutto lo scibile, una parte consistente del thesaurus culturale collettivo.

Ecco un esempio di un diagramma creato con Ngram Viewer. Riporta la frequenza percentuale del nome “Jorge Luis Borges” in tutti i libri di Google Books in lingua italiana pubblicati tra il 1900 e il 2012.

Sinonimi e campi semantici

L’utilizzo di questa biblioteca per l’analisi dei testi (“text mining” o TM) ha permesso una cosa abbastanza sorprendente. L’algoritmo infatti è in grado di muoversi all’interno di cerchie di parole che appartengono a uno stesso campo semantico. Oggi è anche disponibile una vera e propria ricerca semantica su Google (Knowledge Graph) e altri motori di ricerca. Ma come fa l’algoritmo a stabilire il campo semantico e le correlazioni se non capisce il significato e l’uso delle parole? Qui sta la magia. Si chiama “modello vettoriale spaziale“, è costruito a partire dai testi che ha a disposizione, ossia tutte le pagine web già indicizzate e, perché no? i libri. Così, raccogliendo le parole in campi semantici, può rilevare le connessioni tra di loro e la varietà linguistica.

Il vecchio modello di frequenza della parola chiave, infatti, aveva non pochi difetti. Se digitavamo su Google la parola “torta”, il primo risultato ad apparire avrebbe potuto essere un articolo che ripeteva per quindici volte la parola “torta”. Per superarlo sarebbe stato sufficiente scrivere un pezzo che contenesse la parola “torta” venti volte. Gradualmente, è stato introdotto un limite massimo nella ricorrenza della parola chiave espresso in percentuale sulla lunghezza del testo. La densità ideale è tra lo 0.5 e il 3%. Quindi, tanto per cominciare, un articolo che contiene venti volte la parola “torta”, deve essere lungo almeno 646 parole in più.

In secondo luogo, grazie ai campi semantici, l’algoritmo sa identificare come rilevanti non solo le parole chiave, ma anche termini correlati. Così si mette in salvo la ricchezza lessicale, l’approfondimento dei contenuti e lo stile dell’articolo.

Il vecchio modello di frequenza della parola chiave è perciò stato sostituito da modelli più complessi che non eliminano i precedenti (numero di link o di parola chiave) ma li integrano con altri criteri. In questo modo la “biblioteca” della rete vene organizzata in maniera sempre più precisa.

Alexa e Google Books

Scrivere come Macchiavelli e parlare come Alexa

Google Books, tra le altre cose, ha un ruolo primario in quella che è stata (ed è ancora) la decisiva virata del linguaggio sconnesso e agrammaticale proprio di web in direzione di un livello più alto, il cosiddetto “linguaggio naturale”. Infatti, se fino a poco tempo fa il modo migliore per interrogare un motore di ricerca era indovinare le parole chiave, cioè in un certo senso andare incontro all’algoritmo, oggi è l’algoritmo a venirci incontro. Se cerchiamo la ricetta della cheese-cake, non digiteremo più la vecchia stringa “cheese-cake ricetta” ma chiedermo al motore di ricerca “come si prepara la cheese-cake”.

Questo influisce su di noi e sulla nostra percezione della rete, sia in quanto utenti che la consultano, sia in quanto creatori di contenuti (UGC). Quando scriviamo testi per in web, infatti, siamo spinti a utilizzare un linguaggio sempre più vicino allo scritto off-line (quello dei libri, per esempio). Il linguaggio, quantificato attraverso analisi di specifici parametri, può favorire o sfavorire il nostro sito. Come una vecchia lettera di presentazione, il modo in cui scriviamo oggi ci raccomanda agli occhi del nostro superiore, che è per l’appunto il motore di ricerca.

D’altro canto, come utenti, l’avvicinamento al linguaggio naturale è stato favorito dalla recente diffusione degli assistenti vocali. La classica domanda: “Ok Google – Alexa, Siri, Cortana… –, come si fa la cheesecake?” potrebbe rappresentare il futuro dell’interrogazione dei motori di ricerca. In questo caso, ci capita di intuire l’intelligenza dell’assistente vocale, di credere che la macchina ci comprenda. Abbiamo la sensazione di parlare con qualcosa che capisce, e questo ci mette a nostro agio – in fondo è il motivo per cui compiamo gli assistenti vocali.

La tendenza generale, incoraggiata dai motori di ricerca, sembra perciò essere un avvicinamento delle tecnologie web al linguaggio naturale. Proprio in questa direzione si muovono le ultime novità in fatto di intelligenze artificiali, come per esempio Google BERT, che si serve di una “rete neurale artificiale”, o Talk to Books. L’obiettivo è un netto innalzamento del livello (un livello più basso è più vicino al linguaggio macchina). Appare chiaro che col progredire delle tecnologie sottostanti, la superficie del web, cioè l’interfaccia, diventa sempre più umana. Questo è uno dei possibili futuri della rete.


P.S.: Anche questo articolo è stato ottimizzato per i motori di ricerca. Lo avreste detto?

Foto di Andres Urena da Unsplash.