altre destinazioni

vedi anche

ultimi post

ultimi commenti

tag principali

categorie

archivi

powered by

  • WPFrontman + WP

elsewhere

friends

copyright

  • © 2004-2011
    Ludovico Magnocavallo
    tutti i diritti riservati

Qualche lettore esperto di statistica?

16 luglio 2006

11 commenti

tag

categorie

Sto rifacendo l’applicazione dei top100 blog italiani, estesa in modo da tenere in lista più blog, e soprattutto integrare le misurazioni di Technorati, Alexa, Pagerank, Google, Google Blog Search e Yahoo!. Ogni fonte di dati ha una sua classifica separata, e la classifica generale compone per ogni blog le posizioni nelle diverse classifiche, assegnando un peso relativo ad ognuna in modo, ad esempio, che Technorati e il Pagerank valgano più dei backlink su Yahoo!

Ho praticamente finito la parte di backend (l’interfaccia amministrativa è venuta via gratis con Django), e sto lavorando sulla generazione dei valori che riflettono il posizionamento di ogni blog sulle singole liste, che andranno poi sommati per comporre il listone riepilogativo. Il problema è che non riesco a decidermi se il valore da assegnare ad ogni blog nelle singole classifiche, utilizzato poi per creare la listona di riepilogo, debba tenere conto non solo della posizione in classifica (il blog con più link su Technorati prende un punteggio più alto), ma anche dei valori specifici (i 7.000 link del blog di Beppe Grillo hanno un “peso” maggiore dei 99 di Fullo).

La seconda ipotesi sembra più corretta, dato che premia le performance eccezionali di un blog in un certo settore, ma dove ci sono valori sproporzionati (come nel caso Beppe Grillo), ha come effetto uno schiacciamento verso il basso dei valori di quasi tutti i blog, rendendo poco rilevante la classifica parziale una volta composta con le altre. Se c’è qualche esperto di statistica tra i lettori di questo blog, si faccia avanti. Ovviamente qualsiasi altro commento o discussione sul tema è ben accetto.

11 commenti

  • Luca Lizzeri
    16 luglio 2006 #

    Se si vuole evitare lo schiacciamento dovuto a valori eccezionali, varrebbe la pena di dare sì un punteggio basato sui valori specifici, ma di pesarlo in maniera logaritmica e non lineare.

    Se il numero di link ad un blog tende a distribuirsi secondo una power-law, l'uso del logartimo è il modo di ricondurre le cifre di merito ad un medesimo ordine di grandezza.

    Tutto dipende da quanto peso si voglia dare alle diverse componenti della cifra di merito: ovviamente, per interesse, tendo a tifare per un peso maggiore al numero assoluto di lettori!

  • ludo
    16 luglio 2006 #

    Luca, dai qualche esempio di calcolo e vediamo che succede…

  • fullo
    17 luglio 2006 #

    a parte che i 7000 link di beppe grillo non possono assolutamente avere un "peso" superiore dei miei… ;)

    sono d'accordo con quello che afferma luca, dovresti usare una scala logaritmica per normalizzare i dati.

    per il discorso della valutazione dei "pesi" sul numero di visitatori non so che dire.. sarebbe abbastanza "fair" ma non potendo accedere a dati "certi" fai comunque statistiche su statistiche di terzi. Inoltre come riusciresti a distinguere i visitatori-lettori dai visitatori-spam referrer?

    un dubbio.. nel caso dei classici errori di technorati (ad esempio io da webservice risulto ancora con 0 link) come ti comporteresti?

  • Tony Siino
    17 luglio 2006 #

    Noi ci stiamo lavorando da mesi. :D

  • ludo
    17 luglio 2006 #

    Fullo, da API hai 99 link. Per i casi disperati che Technorati non aggiorna, c'è la possibilità di inserire i dati a mano e congelarli. Riguardo alle visite, non credo che Performancing abbia API pubbliche.

    Forse la cosa più sensata è ricorrere a Excel (che odio). Vedo di preparare un bel foglio di calcolo con i dati in modo che ognuno ci gioca e vdiamo insieme quale è la soluzione più ragionevole.

  • fullo
    17 luglio 2006 #

    si potrebbe tirare su un google spreadsheet comunitario ;)

  • ludo
    17 luglio 2006 #

    Uhm, facciamo che io metto a disposizione un file .csv e tu tiri su il google spreadsheet comunitario? Sono un po' low-tech su queste cose :)

  • fullo
    17 luglio 2006 #

    :) okappa

  • Qix.it
    17 luglio 2006 #

    Come deciso con fullo nei commenti al post precedente, ecco qui un piccolo archivio zip con il dump dei risultati in formato csv, excel e XML. I dati sono aggiornati a ieri, non sono ordinati, e ovviamente non rispecchiano l’organizzazione intern…

  • Luca Lizzeri
    17 luglio 2006 #

    Su Blogo avevamo circa metà dei blog congelati su Technorati. Sono "bastate" due settimane di martellamento al tech support per farli ri-includere.

    Per quanto riguarda gli esempi di calcolo: il logaritmo in base 10 del numero di inbound di Beppe Grillo (7.145) mi dà 3,854, mentre il logaritmo in base 10 degli inbound di Autoblog (261) mi dà 2,417. Per fullo.net si scende a 1,996.

  • Qix.it
    18 luglio 2006 #

    Anche se mancano ancora un sacco di funzionalità (feed, favicon, statistiche sull’andamento storico, tag, commenti, ecc.), ho messo in linea la nuova applicazione sulle statistiche dei blog italiani in modo da poter discutere e calibrare i dati….