Il 1° di questo mese i gestori di Stack Overflow hanno proposto un Pesce d'Aprile di grande successo con il quale veniva comunicato che, a partire da allora, il numero di volte in cui si può copiare gratuitamente dal sito sarebbe stato limitato, con tanto di contatore delle operazioni ancora disponibili. Una volta riuscito lo scherzo, gli stessi si sono però domandati quali potessero essere effettivamente i contenuti più copiati dai propri utenti e hanno provveduto a verificarlo.
L'indagine è stata svolta tramite un Web tracking tool autoprodotto in grado di rilevare eventi specifici: la copia di tag, domande, risposte, commenti, blocchi di codice o semplici testi. Per ogni evento sono stati memorizzati anche attributi come il livello di reputazione di chi ha effettuato la copia, la regione di appartenenza e lo stato del post coinvolto (accettato o meno).
Appartenenza geografica e reputazione
Per quanto riguarda la provenienza geografica, a copiare di più sembrerebbero essere gli Asiatici con il 33%, seguiti dagli Europei (30%) e dai Nordamericani (26%), in ogni caso l'86% delle copie verrebbero effettuate da utenti anonimi con reputazione pari a 0 rispetto al sistema di ranking della piattaforma.
A tal proposito è utile ricordare che il solo fatto di autenticarsi sul sito porta il livello di reputazione automaticamente a 1, questo vuol dire che molto probabilmente un gran numero di copie (comunque difficilmente misurabile) viene effettuato da utenti in possesso di un account ma non loggati.
Curiosamente, misurando il numero di copie per utente invece di tenere conto del dato relativo al numero di copie totali, gli utenti con reputazione meno elevata non sembrerebbero copiare molto di più di quelli che possiedono un ranking più alto. Questi ultimi, tranne i pochi nelle primissime posizioni, continuerebbero quindi a copiare ma in maniera leggermente meno assidua in quanto a volte alla ricerca di risposte introvabili anche su Stack Overflow.
I contenuti più copiati
Almeno in teoria le risposte accettate dovrebbero essere considerate di maggiore qualità rispetto alle altre, i ricercatori avrebbero però scoperto che il 52.4% delle copie sarebbero state effettuate a carico di risposte non accettate.
E' possibile riproporre il confronto sulla base della media di copie per singolo post e, in questo caso, le copie delle risposte accettate sarebbero 7 contro le 5 di quelle non accettate. Le risposte accettate verrebbero quindi riutilizzate più frequentemente. Le percentuali relative alle risposte potrebbero essere però poco affidabili in quanto non è possibile depurarle dal numero di copie complete o parziali effettuate per proporre modifiche, correzioni o eventuali approfondimenti.
Grazie a ben 11.829 eventi registrati la risposta con blocco di codice più copiata sarebbe stata data alla domanda intitolata "How to iterate over rows in a DataFrame in Pandas", pubblicata nel 2013. Tra le risposte in solo testo troviamo invece TypeError: this.getOptions is not a function [closed] con 1.570 copie.
Per quanto riguarda invece le domande, la più copiata con blocco di codice sarebbe How to create an HTML button that acts like a link? con 3.665 copie, meno importanti i numeri (261 copie) di Updates were rejected because the tip of your current branch is behind its remote counterpart che dovrebbe essere la domanda basata sul solo testo più copiata.