L'affermazione di GitHub secondo cui Copilot AI genera codice di qualità superiore è stata messa sotto accusa dallo sviluppatore di software rumeno Dan Cîmpianu. L’azienda ha recentemente pubblicato uno studio in cui si afferma che gli sviluppatori che utilizzano Copilot avevano il 56% di probabilità in più di superare tutti i test unitari, scrivevano il 13,6% in più di righe di codice prive di errori e producevano codice che era l'1-3% più leggibile, affidabile, modificabile e conciso. Inoltre, lo studio ha segnalato una probabilità del 5% in più che gli utenti di Copilot vedessero approvato il loro codice.
Lo studio ha coinvolto 243 sviluppatori Python con almeno cinque anni di esperienza. I partecipanti sono stati divisi in due gruppi: uno che utilizzava Copilot e uno che non lo faceva. Il compito assegnato era quello di creare un server web di base per gestire le recensioni dei ristoranti. Gli invii di codice sono stati valutati tramite peer review dagli stessi partecipanti. Tuttavia, le incongruenze nel numero di recensioni condotte hanno sollevato dubbi sul processo.
Come riportato dal sito The Register, Cîmpianu ha criticato lo studio su più fronti. Ha sostenuto che la scelta del compito, una semplice applicazione CRUD, è ampiamente documentata nei tutorial online e probabilmente inclusa nei dati di formazione di Copilot. Ciò potrebbe falsare i risultati. Ha anche evidenziato incongruenze nella segnalazione di metriche chiave. Ha criticato l'affermazione secondo cui il 60,8% degli utenti di Copilot ha superato tutti i test rispetto al 39,2% dei non utenti. Ciò non era chiaramente supportato dai dati forniti. Inoltre, l'affermazione di GitHub secondo cui gli utenti di Copilot hanno scritto il 13,6% in più di righe di codice senza errori è stata criticata come fuorviante. Equivaleva infatti a sole due righe aggiuntive per errore e non includeva problemi funzionali.
GitHub: gli altri studi che mettono in dubbio Copilot AI
Cîmpianu ha anche contestato le affermazioni di GitHub di un miglioramento dell'1-3% nella leggibilità e manutenibilità del codice. Lo sviluppatore ha osservato che tali valutazioni sono altamente soggettive e non sono supportate da criteri di valutazione trasparenti. Cîmpianu ha inoltre messo in discussione la decisione di utilizzare gli sviluppatori coinvolti nello studio come revisori, suggerendo che un processo di revisione indipendente sarebbe stato più affidabile. Le critiche di Cîmpianu sono simili ai risultati di altri studi. Un rapporto del 2023 di GitClear ha indicato che GitHub Copilot ha ridotto la qualità complessiva del codice. Una ricerca della Bilkent University ha invece scoperto che strumenti di intelligenza artificiale come Copilot, ChatGPT e Amazon Q Developer spesso producevano codice con difetti stilistici. Questi strumenti richiedevano significative correzioni manuali, con Copilot che impiegava in media 9,1 minuti per risolvere i problemi nel codice generato.
Lo studio di GitHub fa luce su una tendenza significativa: la crescente dipendenza dall'intelligenza artificiale nello sviluppo software. Mentre Copilot e strumenti simili possono fornire un valido aiuto, le loro attuali limitazioni evidenziano l'importanza della supervisione dello sviluppatore. Per Cîmpianu, tuttavia, la posta in gioco è più alta: “se non riesci a scrivere un buon codice senza un'intelligenza artificiale, allora non dovresti usarne una”. Il dibattito sottolinea una preoccupazione più ampia sul ruolo dell'intelligenza artificiale nei campi creativi e tecnici. Strumenti come Copilot stanno rimodellando il nostro modo di creare, ma non è privo di controversie.