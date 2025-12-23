Ridurre drasticamente la memoria utilizzata dai modelli di intelligenza artificiale puo’ aumentarne la precisione nei compiti complessi e migliorare l’efficienza energetica. E’ quanto emerge da uno studio condotto da ricercatori dell’Università di Edimburgo e di NVIDIA, presentato alla conferenza internazionale NeurIPS e sottoposto a revisione paritaria. Lo studio mostra che i grandi modelli linguistici (LLM) che utilizzano una memoria fino a otto volte piu’ piccola rispetto ai modelli non compressi ottengono risultati migliori in test di matematica, scienze e programmazione, mantenendo invariato il tempo di ragionamento. In alternativa, la riduzione della memoria consente ai modelli di rispondere a un numero maggiore di richieste simultanee, riducendo il consumo di energia per singola operazione. I ricercatori hanno sviluppato un nuovo metodo di compressione della memoria, chiamato Dynamic Memory Sparsification (DMS), che interviene sulla cosiddetta cache KV, la struttura che conserva i token generati durante il processo di ragionamento. Invece di memorizzare tutti i token, il sistema seleziona dinamicamente quelli ritenuti piu’ rilevanti, eliminando gli altri dopo un breve intervallo che consente al modello di trasferire le informazioni utili.

Secondo gli autori, la cache KV puo’ rappresentare un collo di bottiglia: piu’ i thread di ragionamento sono numerosi e lunghi, maggiore e’ la memoria necessaria e piu’ lento diventa il recupero dei dati durante l’inferenza. La compressione consente quindi ai modelli di “pensare” in modo piu’ approfondito o di esplorare piu’ ipotesi senza richiedere ulteriore potenza di calcolo. Il metodo e’ stato testato su diverse versioni dei modelli Llama e Qwen e confrontato con modelli privi di compressione. Nei test standardizzati, anche con una memoria ridotta a un ottavo delle dimensioni originali, i modelli hanno mantenuto la piena accuratezza e, in molti casi, migliorato le prestazioni. Nel test matematico AIME 24, utilizzato come qualificazione per le Olimpiadi matematiche statunitensi, i modelli compressi hanno ottenuto in media dodici punti in piu’. Nel test GPQA Diamond, basato su domande avanzate di biologia, chimica e fisica, il miglioramento medio e’ stato di oltre otto punti. Anche nel benchmark LiveCode Bench, dedicato alla scrittura di codice, i modelli compressi hanno superato quelli non compressi di circa dieci punti.