Massima segretezza e discrezione da parte di AMD, mentre NVIDIA ha già le carte più o meno in tavola. Tutti i dettagli che conosciamo sul nuovo RX7000 È oro in stoffa, perché ci avvicina un po’ al fatto di sapere come saranno e di posizionare un po’ meglio le loro prestazioni. Per questo il leak di oggi è minore, ma contiene un’informazione molto importante che piacerà sicuramente ai follower della squadra rossa: l’RX 7000 avrà più cache del previsto e le sue prestazioni per watt sono superiori a quanto affermato da AMD.
Ancora una volta, un elenco freedesktop.org ha trovato i dati più chiari che abbiamo fino ad oggi in una sezione importante e trascendentale come le cache delle GPU AMD. Il Cassa dell’infinito che AMD ha introdotto con RDNA 2 diventa più importante, ma richiede modifiche nella gerarchia e nelle dimensioni per adattarsi alle prestazioni e ridurre i colli di bottiglia. Pertanto, e seguendo un percorso ampiamente diverso da NVIDIA, AMD ha apportato le seguenti modifiche che vedremo di seguito.
Cache più grande su tutti i livelli tranne uno, L2 è ancora intatto?
È un movimento molto curioso, ma ha una sua spiegazione, anche se prima andremo con i dati specifici. Come si può notare, sono solo alcune le cifre che non sono state toccate, nello specifico:
- File di registro scalare da SIMD, che è conservato 10 KB.
- Cache di istruzioni scalare L1 da WGP, che è conservato 32KB.
- Cache dati scalare L1 da WGP in 16KB
- Cache dati L2 dal controller di memoria a 32 bit, che è ancora in 512KB.
Oltre a questo, c’è un punto chiave, poiché tra Navi 31 e 32 vs Navi 33 il Vector Register File di SIMD viene mantenuto come in RNDA2 per il chip più piccolo e allo stesso tempo, per Phoenix, qualcosa di logico poiché sarà il modello che include AMD come iGPU: qui vengono mantenuti i 128 KB, principalmente perché, in teoria, si tratterà di un tradizionale chip monolitico.
La nuova architettura MCM ha la risposta
Come già sappiamo, ea meno che AMD non modifichi l’architettura in larga misura, fino ad ora ogni CU del team rosso aveva due Vector ALU come SIMD, due ALU scalari, diversi Vector Register Files, oltre a File di registro scalariuna risorsa di dati condivisa localmente e, naturalmente, 40 onde dagli slot e la memoria locale e globale come calcolo generale.
A questo dovrebbe essere aggiunta la memoria scalare e le connessioni dati e le istruzioni della cache in quanto tali, che ci forniscono in larga misura le informazioni che abbiamo sopra. La prima cosa che dobbiamo capire è che una GPU in termini di istruzioni si divide tra scalare e vettoriale, e sebbene ce ne siano altre aggiunte, le importanti e le più costose da lavorare rientrano in questi due gruppi.
Perché AMD mantiene i 10 KB in RDNA 3? Capiamo che il Wavefront non è stato modificato e che quindi verrà data maggiore priorità alle istruzioni Vector, che verranno eseguite in ogni elemento di lavoro disponibile. Per questo motivo, l’SRF lavorerà nuovamente registrando il flusso di controllo nel 800 registri a 32 bit che ha per SIMD.
Il Il file di registrazione vettoriale passa a 192 KB per un semplice motivo: la larghezza di banda coincide con la dimensione del fronte d’onda, e potendo eseguire lettura e scrittura nello stesso ciclo, si intende mitigare la latenza che, in teoria, i nuclei lontani dal IOD. Pertanto, l’aumento dice indirettamente che ci sarà molto più lavoro da fare e forse questo è dovuto alle nuove unità di seconda generazione per Ray Tracing.
Pertanto, la cache L0 in Vettori e Textures è raddoppiata e, sebbene non si conoscano ancora le modifiche rilevanti, l’uso di Istruzioni VODP (Dual-Issue Wave32)così come WMMA (Wave Matrix Multiply-Accumulate). Si tratta di un salto di qualità in quanto tale, dal momento che fino ad oggi ogni quattro SIMD poteva far girare un Wave32, dando una performance di 256 flop precisione singola per ciclo, qualcosa che non era stato cambiato da RDNA in quanto tale.
Inoltre, WMMA necessita anche di file di registro più grandi per i vettori, poiché funzionerà con gli array come fanno gli array. Architetture CDNAcon la differenza che queste unità sono progettate in questo caso per velocizzare, quasi sicuramente, il prestazioni con FSR 2.0.
AMD RX 7000 e la sua cache scalare L1, senza modifiche alle dimensioni?
Ciò che non è ben compreso è il fatto di mantenere la stessa dimensione di Scalar L1 nei dati e nelle istruzioni per WGP in 32KB e 16KBma invece raddoppia il cache dati grafici L1 di Shader Array da 128 KB fino a 256KB.
Quello che possiamo dedurre è che AMD intende velocizzare le istruzioni vettoriali mantenendo una performance scalare più o meno uguale, e quindi questo Dati grafici L1 più grande, forse il passo successivo per migliorare le prestazioni di ray tracing con algoritmi BVH.
Infine, L2 è ancora mantenuto a 512 KB per MC. Ciò sembra essere dovuto all’aumento della Infinity Cache, quindi sembra che d’ora in poi avrà più importanza. Quali conclusioni possiamo trarre da tutto ciò che è stato detto? Prima di tutto, queste modifiche non hanno solo lo scopo di aumentare le prestazioni nelle istruzioni vettoriali, ma hanno anche lo scopo di aumentare l’efficienza allo stesso tempo.
Ovviamente non conosciamo i cambiamenti dell’architettura, ma devono essere davvero grandi quando devi doppia L1 per dati grafici e L0 per texture e vettori. Pertanto, e secondo indiscrezioni, quel 50% in più di prestazioni per watt potrebbe finire per essere superiore, perché come accade in Raptor Lake, cache più grandi implicano un riduzione dei consumi e come regola generale, che a aumento di frequenza è ad essi legato.
AMD potrebbe essere una sorpresa, perché molti pensano che NVIDIA abbia fatto e vinto tutto e… L’AMD RX 7000 potrebbe funzionare molto più vicino di quanto pensiamo, grazie alla sua cache (e ovviamente a molti altri miglioramenti). un Architettura MCM è molto più efficiente, più economico da produrre e soprattutto raggiunge consumi/frequenze decisamente migliori.