altre destinazioni

vedi anche

ultimi post

ultimi commenti

tag principali

categorie

archivi

powered by

  • WPFrontman + WP

friends

copyright

  • © 2004-2011
    Ludovico Magnocavallo
    tutti i diritti riservati

Qualche dato sui feed italiani

16 gennaio 2007

17 commenti

tag

categorie

Ho iniziato a tempo perso a scrivere la nuove versione del crawler, il processo che recupera i post di tutti i blog presenti in Blogbabel. La prima operazione che ho fatto è stato salvare tutti i tremila e rotti feed e analizzarli per capire i formati utilizzati, e i possibili punti critici da affrontare nel parsing. Nel seguito del post qualche dato statistico ricavato dall’analisi, dopo aver eliminato i circa ducento feed — quasi tutti di Splinder — manifestamente invalidi (HTML invece di XML, XML con schifezze tipo iframe prima della dichiarazione XML, ecc.).

Numero di feed

numero di feed 3234
feed che utilizzano conditional get 2121 (65.58%)

Content type

Il tipo di documento dichiarato dal server HTTP che offre il feed.

text/xml 2080 (64.32%)
application/xml 731 (22.60%)
application/atom+xml 264 (8.16%)
application/rss+xml 120 (3.71%)
application/rdf+xml 18 (0.56%)
text/plain 14 (0.43%)
text/html 7 (0.22%)

Character set

La codifica del testo dichiarata dal server HTTP, che in pochi casi (4) non corrisponde a quella dichiarata nel feed per problemi di configurazione. Notare l’ultima codifica, che presenta un errore di sintassi.

utf-8 1658 (51.27%)
iso-8859-1 42 (1.30%)
windows-1252 28 (0.87%)
iso-8859-15 5 (0.15%)
us-ascii 1 (0.03%)
encoding:utf-8 1 (0.03%)

Character set XML

La codifica del documento dichiarata nell’intestazione XML.

utf-8 2073 (64.10%)
iso-8859-1 379 (11.72%)
windows-1252 297 (9.18%)
iso-8859-15 12 (0.37%)
us-ascii 2 (0.06%)
windows-1251 1 (0.03%)

Numero di post nel feed

Il numero di post presenti nel feed. Notate come alcuni blog hanno numeri assurdi di post nel feed, comei Claudio Sabelli Fioretti, e i blog dei podcaster come Da Capo al Fine, Podcasting che funziona, Sandrino con 368 e Tangoblivion con addirittura 910! Tutti blog che verranno rimossi al più presto dalla classifica, il consumo di risorse è già abbastanza alto senza dover tollerare assurdità di questo genere.

10 1453 (44.93%)
15 426 (13.17%)
25 364 (11.26%)
20 240 (7.42%)
5 236 (7.30%)
7 49 (1.52%)
30 40 (1.24%)
8 34 (1.05%)
17 26 (0.80%)
12 25 (0.77%)
1 25 (0.77%)
6 21 (0.65%)
50 18 (0.56%)
14 18 (0.56%)
9 16 (0.49%)
16 15 (0.46%)
3 14 (0.43%)
24 13 (0.40%)
22 13 (0.40%)
11 13 (0.40%)
4 11 (0.34%)
18 10 (0.31%)
0 9 (0.28%)
35 8 (0.25%)
28 8 (0.25%)
13 8 (0.25%)
40 7 (0.22%)
2 7 (0.22%)
27 6 (0.19%)
21 6 (0.19%)
19 6 (0.19%)
32 5 (0.15%)
31 5 (0.15%)
29 5 (0.15%)
26 5 (0.15%)
23 5 (0.15%)
100 5 (0.15%)
47 4 (0.12%)
44 4 (0.12%)
43 4 (0.12%)
38 4 (0.12%)
34 4 (0.12%)
60 3 (0.09%)
53 3 (0.09%)
49 3 (0.09%)
37 3 (0.09%)
36 3 (0.09%)
52 2 (0.06%)
45 2 (0.06%)
42 2 (0.06%)
39 2 (0.06%)
33 2 (0.06%)
96 1 (0.03%)
910 1 (0.03%)
80 1 (0.03%)
71 1 (0.03%)
68 1 (0.03%)
59 1 (0.03%)
57 1 (0.03%)
56 1 (0.03%)
54 1 (0.03%)
46 1 (0.03%)
41 1 (0.03%)
368 1 (0.03%)
270 1 (0.03%)
124 1 (0.03%)

17 commenti

  • Dario
    16 gennaio 2007 #

    Mi sembra un ottima analisi,tenendo conto che non tutti utilizzano il Conditional GET (è terribile dover rispondere nei casi in cui si abbiano così tanti post), anche se la maggior parte dei Feed sono su Feedburner: tra l'altro hai scelto proprio i giorni in cui chi ha fatto l'upgrade alla versione di WP 2.0.6 ha dovuto combattere con il Feedburner Bug (ho segnalato un post sul mio blog di aggiornamento),perciò se trovi 304 o risposte strane da parte di Feedburner è dovuto a Wp 2.0.6. Sarebbe interessante nell'analisi anche cercare di capire le piattaforme più usate,gli orari di maggior traffico e di posting dei Feed; complimenti comunque per il lavoro che spero andrà avanti.

  • Marco Traferri
    16 gennaio 2007 #

    E' interessante notare come ad avere un alto numero di post sono proprio i podcasters. Tale situazione probabilmente nasce dall'esigenza, o dal desiderio, di rendere facilmente scaricabili tutte le singole trasmissioni prodotte. Produrre un podcast costa tempo, denaro, sacrificio. Un podcast non è un singolo post. La sua realizzazione è un concentrato di conoscenze ad ampio spettro e richiede molto tempo, forse giorni. Vederlo inabissarsi, cadere nel dimenticatoio sepolto dai successivi lavori, fa un po' male, e allora si tende a tener bello nutrito il feed, in maniera tale che i lavori siano sempre facilmente recuperabili e che i nuovi sottoscrittori li abbiano subito tutti sotto mano. Scelta impopolare, non lo nego. Ma forse, se ci immedesimassimo nei panni del podcaster, ci parrebbe un po' meno assurda di quanto sembri. Per il resto, una lacrimuccia accompagnerà il mio sparire dalla classifica :)

  • ludo
    16 gennaio 2007 #

    Marco, la soluzione è semplice: un feed per i post e un feed per i podcast. Oppure un feed per gli ultimi dieci o dodici podcast, e un feed per l'archivio di tutte le trasmissioni.

  • proba
    16 gennaio 2007 #

    Singolare scelta quella di chiedere al mondo di adeguarsi al tuo strumento. Non credo che parsando soltanto i primi 30 feed anche se ce ne sono di piu' risparmieresti le tue preziose risorse?

  • ludo
    16 gennaio 2007 #

    I primi 30? Se leggi quello che ho scritto, non sono i primi 30 m tutti quanti meno 5 o 6. Capisco che vuoi fare polemica gratuita, ma prova a pensare a cosa significa raccogliere ogni ora un feed con quasi mille post e interpretarne l’XML.

    Un feed così "ruba" risorse a 100 blog con un feed da 10 post. In pratica frega gli altri, e per noi rappresenta un problema dato che non abbiamo risorse infinite. Se i proprietari dei blog con 100 o più post nel feed sono disposti a donarci una decina di euro al mese a testa per potenziare i server, per me non c’è problema possono continuare a restare in classifica.

    Ti sembra più chiaro adesso?

  • Lawrence Oluyede
    16 gennaio 2007 #

    Bell'analisi. Tra l'altro se non ricordo male text/xml è un mimetype non corretto per i feed. Curioso che sia quello più diffuso :-)

  • Marco Traferri
    17 gennaio 2007 #

    Ludo, non posso darti torto. Però cambiare il feed mi spaventa un po'. Quelli che hanno sottoscritto quello attuale, lo cambieranno? Continueranno a seguirci? Boh. Si fa tanto per riuscire a guadagnare un po' di attenzione, che l'idea di perdere per strada qualche contatto ci spaventa :) Però intanto ho ridotto il feed di Podcasting che funziona. Sono stato bravo? :) Ciao, spero di sentirti presto.

  • Proba
    17 gennaio 2007 #

    Mi sono espresso male, ho scritto feed al posto di post. Parsa solo i primi 30 post per feed, anche se ne hanno 100. Non voglio fare polemica, solo mi sembri un pochino presuntuoso e allergico a qualunque tipo di critica. :)

  • Walter Franzini
    17 gennaio 2007 #

    Ludovico,

    un alternativa ad escludere i blog come dici sopra, puoi trattarli in maniera diversa in base al "costo" di elaborazione:
    un blog "leggero" viene elaborato ogni ora;
    un blog "pesante" viene elaborato ogni X ore.

    I miei 2 € cents :-)

  • ludo
    17 gennaio 2007 #

    Proba, scusa ma si, sono un po’ allergico alle critiche: per Blogbabel nessuno di noi prende una lira, e c’è più di una persona che ultimamente spara a zero senza minimamente accettare una discussione.

    Il tuo suggerimento è sensato, anche se risolve solo parzialmente il problema: un feed come quello di Tangoblivion pesa circa 1Mb, che va comunque scaricato e parsato prima di riconoscere i post.

    Walter, grazie ma anche il tuo suggerimento ha lo stesso problema. BTW, buon anno! Come butta? :)

  • walter franzini
    17 gennaio 2007 #

    Buon anno anche a te. Tutto bene grazie e tu?

    Non devi scaricare completamente un blog tutto per sapere se e` pesante. Immagino che potresti classificare in base alla dimensione:
    1)

  • [...] Forse ultimamente parlo troppo di Wordpress, ma è la piattaforma che uso per curare questo spazio. Matt Mullenweg ha rilasciato una curiosa lista (di seguito), riguardante le ricerche che vengono effettuate sul sito Wordpress.org. Mi ricorda un pò il lavoro che sta facendo Ludo riguardo i feed dei blog italiani; ci sono ovviamente differenze sostanziali, qui si parla di una hit parade delle ricerche, una semplice Top Searches, lì c’è un analisi sui Feed Rss più articolata che ha come scopo migliorare la classifica aggregata di Blogbabel per comprendere le dinamiche della blogosfera. Sarebbe interessante comunque ricevere una lista del genere anche per la comunità di Wordpress: per ora non è possibile ma pare che il buon Matt ci stia lavorando. [...]

  • Roberto Bandini
    27 gennaio 2007 #

    Bei reni…

  • Simone Onofri
    29 gennaio 2007 #

    Complimenti per il lavoro che stai facendo. E' sicuramente molto utile. E' imporante il dato che dici riguardo la codifica: l'utf-8 è molto diffoso ed è cosa buona. In ogni caso sono dati molto utili tutti, da analilzzare per traffico, tipologie e altro! Ciao!

  • Daniele
    12 febbraio 2007 #

    Ciao ragazzi

    volevo scusarmi con voi
    per i problemi causati dai feed troppo lunghi

    solo oggi mi sono accorto di questa discussione
    e ho provveduto ha ridurre i feed agli ultimi 25 post. Spero possa bastare

    Vi faccio i miei complimenti per il lavoro che state svolgendo

    Daniele

  • Lotek
    15 febbraio 2007 #

    x Ludo

    Ammazza però che astio! Per qualche anomalia la conclusione è subito "Adesso li sbattiamo fuori dalla classifica", ad ogni critica voi di blogbabel rispondete a brutto muso, volete sempre che gli altri si adattino alle vostre scelte, vi fate i vostri criteri di punteggio (prendendo tra l’altro la vostra classifica come parametro primario), è poi vi incavolate ogni volta che si leva una voce fuori dal coro o che vi danno un consiglio.

    Se non volevate critiche non vi dovevate imbarcare in una avventura del genere, oppure si vede che non avete capito niente della rete. Almeno risparmiateci le prediche e le lezioncine da maestrini, e se avete dei problemi risolveteli programmando e trovando soluzioni, non ponendo limiti e chiedendo agli utenti di risolvere i problemi per conto vostro. E se non avete tempo, lasciate perdere, nessuno vi obbliga: non comportatevi come se ci aveste fatto un favore e dovessimo esservi riconoscenti a vita. Non siamo noi blogger a doverci adattare a voi, ma l’esatto contrario.

  • ludo
    15 febbraio 2007 #

    Wow Lotek, ma chi ti ha chiesto niente? Io faccio quel che mi pare e sviluppo quel che mi pare. Se non piace, basta usare altri servizi invece di trattarci male.