Qualche dato sui feed italiani
Ho iniziato a tempo perso a scrivere la nuove versione del crawler, il processo che recupera i post di tutti i blog presenti in Blogbabel. La prima operazione che ho fatto è stato salvare tutti i tremila e rotti feed e analizzarli per capire i formati utilizzati, e i possibili punti critici da affrontare nel parsing. Nel seguito del post qualche dato statistico ricavato dall’analisi, dopo aver eliminato i circa ducento feed — quasi tutti di Splinder — manifestamente invalidi (HTML invece di XML, XML con schifezze tipo iframe prima della dichiarazione XML, ecc.).
Numero di feed
numero di feed | 3234 | |
feed che utilizzano conditional get | 2121 | (65.58%) |
Content type
Il tipo di documento dichiarato dal server HTTP che offre il feed.
text/xml | 2080 | (64.32%) |
application/xml | 731 | (22.60%) |
application/atom+xml | 264 | (8.16%) |
application/rss+xml | 120 | (3.71%) |
application/rdf+xml | 18 | (0.56%) |
text/plain | 14 | (0.43%) |
text/html | 7 | (0.22%) |
Character set
La codifica del testo dichiarata dal server HTTP, che in pochi casi (4) non corrisponde a quella dichiarata nel feed per problemi di configurazione. Notare l’ultima codifica, che presenta un errore di sintassi.
utf-8 | 1658 | (51.27%) |
iso-8859-1 | 42 | (1.30%) |
windows-1252 | 28 | (0.87%) |
iso-8859-15 | 5 | (0.15%) |
us-ascii | 1 | (0.03%) |
encoding:utf-8 | 1 | (0.03%) |
Character set XML
La codifica del documento dichiarata nell’intestazione XML.
utf-8 | 2073 | (64.10%) |
iso-8859-1 | 379 | (11.72%) |
windows-1252 | 297 | (9.18%) |
iso-8859-15 | 12 | (0.37%) |
us-ascii | 2 | (0.06%) |
windows-1251 | 1 | (0.03%) |
Numero di post nel feed
Il numero di post presenti nel feed. Notate come alcuni blog hanno numeri assurdi di post nel feed, comei Claudio Sabelli Fioretti, e i blog dei podcaster come Da Capo al Fine, Podcasting che funziona, Sandrino con 368 e Tangoblivion con addirittura 910! Tutti blog che verranno rimossi al più presto dalla classifica, il consumo di risorse è già abbastanza alto senza dover tollerare assurdità di questo genere.
10 | 1453 | (44.93%) |
15 | 426 | (13.17%) |
25 | 364 | (11.26%) |
20 | 240 | (7.42%) |
5 | 236 | (7.30%) |
7 | 49 | (1.52%) |
30 | 40 | (1.24%) |
8 | 34 | (1.05%) |
17 | 26 | (0.80%) |
12 | 25 | (0.77%) |
1 | 25 | (0.77%) |
6 | 21 | (0.65%) |
50 | 18 | (0.56%) |
14 | 18 | (0.56%) |
9 | 16 | (0.49%) |
16 | 15 | (0.46%) |
3 | 14 | (0.43%) |
24 | 13 | (0.40%) |
22 | 13 | (0.40%) |
11 | 13 | (0.40%) |
4 | 11 | (0.34%) |
18 | 10 | (0.31%) |
0 | 9 | (0.28%) |
35 | 8 | (0.25%) |
28 | 8 | (0.25%) |
13 | 8 | (0.25%) |
40 | 7 | (0.22%) |
2 | 7 | (0.22%) |
27 | 6 | (0.19%) |
21 | 6 | (0.19%) |
19 | 6 | (0.19%) |
32 | 5 | (0.15%) |
31 | 5 | (0.15%) |
29 | 5 | (0.15%) |
26 | 5 | (0.15%) |
23 | 5 | (0.15%) |
100 | 5 | (0.15%) |
47 | 4 | (0.12%) |
44 | 4 | (0.12%) |
43 | 4 | (0.12%) |
38 | 4 | (0.12%) |
34 | 4 | (0.12%) |
60 | 3 | (0.09%) |
53 | 3 | (0.09%) |
49 | 3 | (0.09%) |
37 | 3 | (0.09%) |
36 | 3 | (0.09%) |
52 | 2 | (0.06%) |
45 | 2 | (0.06%) |
42 | 2 | (0.06%) |
39 | 2 | (0.06%) |
33 | 2 | (0.06%) |
96 | 1 | (0.03%) |
910 | 1 | (0.03%) |
80 | 1 | (0.03%) |
71 | 1 | (0.03%) |
68 | 1 | (0.03%) |
59 | 1 | (0.03%) |
57 | 1 | (0.03%) |
56 | 1 | (0.03%) |
54 | 1 | (0.03%) |
46 | 1 | (0.03%) |
41 | 1 | (0.03%) |
368 | 1 | (0.03%) |
270 | 1 | (0.03%) |
124 | 1 | (0.03%) |
16 gennaio 2007 #
Mi sembra un ottima analisi,tenendo conto che non tutti utilizzano il Conditional GET (è terribile dover rispondere nei casi in cui si abbiano così tanti post), anche se la maggior parte dei Feed sono su Feedburner: tra l'altro hai scelto proprio i giorni in cui chi ha fatto l'upgrade alla versione di WP 2.0.6 ha dovuto combattere con il Feedburner Bug (ho segnalato un post sul mio blog di aggiornamento),perciò se trovi 304 o risposte strane da parte di Feedburner è dovuto a Wp 2.0.6. Sarebbe interessante nell'analisi anche cercare di capire le piattaforme più usate,gli orari di maggior traffico e di posting dei Feed; complimenti comunque per il lavoro che spero andrà avanti.
16 gennaio 2007 #
E' interessante notare come ad avere un alto numero di post sono proprio i podcasters. Tale situazione probabilmente nasce dall'esigenza, o dal desiderio, di rendere facilmente scaricabili tutte le singole trasmissioni prodotte. Produrre un podcast costa tempo, denaro, sacrificio. Un podcast non è un singolo post. La sua realizzazione è un concentrato di conoscenze ad ampio spettro e richiede molto tempo, forse giorni. Vederlo inabissarsi, cadere nel dimenticatoio sepolto dai successivi lavori, fa un po' male, e allora si tende a tener bello nutrito il feed, in maniera tale che i lavori siano sempre facilmente recuperabili e che i nuovi sottoscrittori li abbiano subito tutti sotto mano. Scelta impopolare, non lo nego. Ma forse, se ci immedesimassimo nei panni del podcaster, ci parrebbe un po' meno assurda di quanto sembri. Per il resto, una lacrimuccia accompagnerà il mio sparire dalla classifica :)
16 gennaio 2007 #
Marco, la soluzione è semplice: un feed per i post e un feed per i podcast. Oppure un feed per gli ultimi dieci o dodici podcast, e un feed per l'archivio di tutte le trasmissioni.
16 gennaio 2007 #
Singolare scelta quella di chiedere al mondo di adeguarsi al tuo strumento. Non credo che parsando soltanto i primi 30 feed anche se ce ne sono di piu' risparmieresti le tue preziose risorse?
16 gennaio 2007 #
I primi 30? Se leggi quello che ho scritto, non sono i primi 30 m tutti quanti meno 5 o 6. Capisco che vuoi fare polemica gratuita, ma prova a pensare a cosa significa raccogliere ogni ora un feed con quasi mille post e interpretarne l’XML.
Un feed così "ruba" risorse a 100 blog con un feed da 10 post. In pratica frega gli altri, e per noi rappresenta un problema dato che non abbiamo risorse infinite. Se i proprietari dei blog con 100 o più post nel feed sono disposti a donarci una decina di euro al mese a testa per potenziare i server, per me non c’è problema possono continuare a restare in classifica.
Ti sembra più chiaro adesso?
16 gennaio 2007 #
Bell'analisi. Tra l'altro se non ricordo male text/xml è un mimetype non corretto per i feed. Curioso che sia quello più diffuso :-)
17 gennaio 2007 #
Ludo, non posso darti torto. Però cambiare il feed mi spaventa un po'. Quelli che hanno sottoscritto quello attuale, lo cambieranno? Continueranno a seguirci? Boh. Si fa tanto per riuscire a guadagnare un po' di attenzione, che l'idea di perdere per strada qualche contatto ci spaventa :) Però intanto ho ridotto il feed di Podcasting che funziona. Sono stato bravo? :) Ciao, spero di sentirti presto.
17 gennaio 2007 #
Mi sono espresso male, ho scritto feed al posto di post. Parsa solo i primi 30 post per feed, anche se ne hanno 100. Non voglio fare polemica, solo mi sembri un pochino presuntuoso e allergico a qualunque tipo di critica. :)
17 gennaio 2007 #
Ludovico,
un alternativa ad escludere i blog come dici sopra, puoi trattarli in maniera diversa in base al "costo" di elaborazione:
un blog "leggero" viene elaborato ogni ora;
un blog "pesante" viene elaborato ogni X ore.
I miei 2 € cents :-)
17 gennaio 2007 #
Proba, scusa ma si, sono un po’ allergico alle critiche: per Blogbabel nessuno di noi prende una lira, e c’è più di una persona che ultimamente spara a zero senza minimamente accettare una discussione.
Il tuo suggerimento è sensato, anche se risolve solo parzialmente il problema: un feed come quello di Tangoblivion pesa circa 1Mb, che va comunque scaricato e parsato prima di riconoscere i post.
Walter, grazie ma anche il tuo suggerimento ha lo stesso problema. BTW, buon anno! Come butta? :)
17 gennaio 2007 #
Buon anno anche a te. Tutto bene grazie e tu?
Non devi scaricare completamente un blog tutto per sapere se e` pesante. Immagino che potresti classificare in base alla dimensione:
1)
20 gennaio 2007 #
[...] Forse ultimamente parlo troppo di Wordpress, ma è la piattaforma che uso per curare questo spazio. Matt Mullenweg ha rilasciato una curiosa lista (di seguito), riguardante le ricerche che vengono effettuate sul sito Wordpress.org. Mi ricorda un pò il lavoro che sta facendo Ludo riguardo i feed dei blog italiani; ci sono ovviamente differenze sostanziali, qui si parla di una hit parade delle ricerche, una semplice Top Searches, lì c’è un analisi sui Feed Rss più articolata che ha come scopo migliorare la classifica aggregata di Blogbabel per comprendere le dinamiche della blogosfera. Sarebbe interessante comunque ricevere una lista del genere anche per la comunità di Wordpress: per ora non è possibile ma pare che il buon Matt ci stia lavorando. [...]
27 gennaio 2007 #
Bei reni…
29 gennaio 2007 #
Complimenti per il lavoro che stai facendo. E' sicuramente molto utile. E' imporante il dato che dici riguardo la codifica: l'utf-8 è molto diffoso ed è cosa buona. In ogni caso sono dati molto utili tutti, da analilzzare per traffico, tipologie e altro! Ciao!
12 febbraio 2007 #
Ciao ragazzi
volevo scusarmi con voi
per i problemi causati dai feed troppo lunghi
solo oggi mi sono accorto di questa discussione
e ho provveduto ha ridurre i feed agli ultimi 25 post. Spero possa bastare
Vi faccio i miei complimenti per il lavoro che state svolgendo
Daniele
15 febbraio 2007 #
x Ludo
Ammazza però che astio! Per qualche anomalia la conclusione è subito "Adesso li sbattiamo fuori dalla classifica", ad ogni critica voi di blogbabel rispondete a brutto muso, volete sempre che gli altri si adattino alle vostre scelte, vi fate i vostri criteri di punteggio (prendendo tra l’altro la vostra classifica come parametro primario), è poi vi incavolate ogni volta che si leva una voce fuori dal coro o che vi danno un consiglio.
Se non volevate critiche non vi dovevate imbarcare in una avventura del genere, oppure si vede che non avete capito niente della rete. Almeno risparmiateci le prediche e le lezioncine da maestrini, e se avete dei problemi risolveteli programmando e trovando soluzioni, non ponendo limiti e chiedendo agli utenti di risolvere i problemi per conto vostro. E se non avete tempo, lasciate perdere, nessuno vi obbliga: non comportatevi come se ci aveste fatto un favore e dovessimo esservi riconoscenti a vita. Non siamo noi blogger a doverci adattare a voi, ma l’esatto contrario.
15 febbraio 2007 #
Wow Lotek, ma chi ti ha chiesto niente? Io faccio quel che mi pare e sviluppo quel che mi pare. Se non piace, basta usare altri servizi invece di trattarci male.