Da questo fine settimana ci occupiamo di un argomento che sicuramente mette in testa a molti: il cosiddetto AMD si esaurisce. Questo non è altro che il fatto che le schede madri e le CPU Ryzen 7000 stanno andando a fuoco, e non si sa perché, anche se ormai ci sono risposte ufficiali e una serie di teorie che prendono forza. C’è una soluzione? La scheda madre e la CPU sono sicure? Beh no, non proprio, ma ne daremo un po’ linee guida per cercare di non succedere a te.
Ebbene, la storia è complessa ed è per questo che la riassumiamo brevemente in modo che, se non sei aggiornato, capisci il “cacao mentale” che regna su Internet in questo momento, perché nulla è chiaro, e che è una premessa che devi capire fin dall’inizio. Due settimane fa l’overclocker Der8auer ha mostrato la CPU di un utente, che si è dissaldata, morendo sul colpo. Questo è rilevante, perché inconsapevolmente è stato il primo caso di morte per tutto quello che vedremo ora.
AMD Burning Out, ecco come stanno morendo schede e CPU Ryzen 7000
Non esiste un processore o una scheda madre sicuri che non possano essere influenzati, è la triste verità in questo. Non c’è alcuna delimitazione se si tratti dell’uno o dell’altro al di là di alcune dichiarazioni di ASUS che contestualizzano un po’ quanto visto ieri in profondità.
La prima cosa da sapere su questo problema con ASUS è che, come abbiamo visto, hanno fatto sparire gli ultimi BIOS, mentre oggi ne stanno caricando di nuovi, che ora contengono meccanismi di monitoraggio termico che hanno implementato per “proteggere” le schede e il PROCESSORE. Oltre a questo, e come abbiamo fatto due settimane fa, sia ASUS che AMD stanno lavorando sulla questione dei voltaggi.
ASUS ha rimosso il controllo Vcore manuale dai BIOS Ryzen 7000X3D e l’azienda sta lavorando con AMD per definire nuove regole per EXPO e tensione SoC, e qui tutto va in peggio. Esistono più fonti di tutte le informazioni che vedremo, quindi, insieme a queste, mescoleremo ciò che abbiamo investigato noi stessi con il sistema Pinout per lanciare argomenti e conclusioni generali tra tutti.
Un problema che riguarda qualsiasi CPU Ryzen 7000
E questo è il grande pericolo. Non è una cosa del Ryzen 7000X3D in quanto tale, ma di qualsiasi attuale CPU Zen 4, con o senza cache verticale. Ci sono casi di 7700X, 7900X, 7950X3D, 7800X3D e così possiamo continuare con l’intero elenco di CPU. Inoltre, non esiste un modello di scheda madre specifico interessato, poiché tutte le marche stanno riscontrando problemi e qui possiamo leggere ASUS, GIGABYTE, ASRock, MSI o BiostarPer esempio.
Con questo scenario, dove nessuno è al sicuro… Cosa sta succedendo? La risposta breve è che non ci sono conclusioni, ma ci sono indicazioni, quindi le metteremo insieme per darti alcuni argomenti generali su dove tutto sta andando e che ASUS ha già nominato nella sua dichiarazione.
Innanzitutto, come è stato fatto dagli Igor’s Labs, ieri stavamo attraversando le zone interessate delle CPU con il appuntare delle CPU Ryzen 7000 offerte da AMD. Le conclusioni sono abbastanza semplici, ed è che nelle aree in cui il PCB è stato rigonfio o bruciato dai pin di contatto, corrisponde perfettamente a due aree da trattare: Die I/O e CCD.
Cosa li influenza? Ebbene, tutti i pin e le loro aree circostanti sono circondati da un gran numero di contatti che forniscono tensione a uno qualsiasi dei due die. È ciò che è noto come VDDCR. Arrivati qui, entra nelle teorie dei possibili fallimenti da tenere in considerazione.
Cosa sta causando la rottura della tensione di CPU e schede madri?
Teorie da tenere in considerazione e che anticipiamo che, sicuramente, non sono vere:
- Perni difettosi.
- Una cattiva configurazione.
- Problema corrispondenza presa.
- Problemi di progettazione della piattaforma.
I motivi per scartare queste teorie che già si sentono su Internet sono i seguenti. Prima, e nell’ordine, nessun pin difettoso sulle schede madri testate. I perni in alcuni casi non sono stati nemmeno segnati, tanto meno piegati, sono in una posizione perfetta con angolo e contatto perfetti, quindi assumiamo che andavano bene al momento del montaggio della CPU.
Anche il cattivo montaggio è escluso, principalmente perché la presa ha solo una posizione. Sono escluse anche le particelle, come la polvere, che potrebbero aver fatto contatto tra i pin, principalmente perché ci sono unità CPU che sono morte a causa del loro die I/O e altre a causa dei loro CCD, in alcuni casi due CCD sono stati toccati. La probabilità che si tratti di un cortocircuito di una particella solida che conduce la corrente è estremamente bassa a causa della casistica citata.
Anche il gioco Troubled Sockets viene scartato per vari motivi. Il primo perché tutti i produttori soffrono dei problemi sui loro modelli di scheda madre. E il secondo e più importante è perché date di produzione di quelle schede madri sono troppo distanti nel tempo, e questo ci porta all’ultimo punto.
Problemi con il design della piattaforma. Se così fosse, sarebbero fallite poco dopo essere state lanciate e non ora, dove i problemi si manifestano da poco più di due settimane, quindi ci sono altri fattori da tenere in considerazione, che, scartando le teorie di Internet con “tappo d’argento all’interno”, vediamo ora.
Problemi con EXPO, SoC e firmware
Non ci sono stati problemi di questo calibro o simili fino a quando non è stato fatto il passo AGESA 1.0.0.6 e in alcuni casi 1.0.0.5C, ma si può vedere anche al contrario: grazie a questi due firmware è iniziato tutto. Non è chiaro cosa stia succedendo qui, ma vediamo che TUTTI i produttori di schede madri hanno cancellato i vecchi BIOS dai loro siti Web di supporto, lasciando questi due firmware come quelli scaricabili.
Quindi c’è qualcosa qui da affrontare. Ciò che si sostiene è che esiste un problema con la tensione del SoC (quello per il controller di memoria nel die I/O) che potrebbe non riuscire ad attivare i profili RAM EXPO. Naturalmente, questo vale anche quando un utente tocca manualmente il VSoC per cercare di stabilizzare la RAM a frequenza più alta o latenza più bassa, ovvero durante l’overclocking di questo componente.
Quindi cosa succede quando viene applicata una tensione più alta per uno di questi motivi? Si sostiene che la tensione eccessiva sul SoC distrugge i sensori termici e i meccanismi di protezione termica sui chip, nello specifico, dell’I/O Die, permettendo un eccessivo surriscaldamento e causando il guasto che abbiamo visto. È un effetto noto come “palla di neve”, dove non essendoci limiti la tensione implica più temperatura, più temperatura implica più tensione per mantenere la stabilità, che provoca temperatura più alta e ripartenza.
Quindi è per questo che i Ryzen 7000 e le schede madri stanno bruciando? È questa la risposta al Burning Out di AMD? Non siamo così chiari, e ci spieghiamo.
Un problema più generale e complesso
Riteniamo che ci siano diversi problemi da affrontare. Innanzitutto il Burning Out dell’AMD Ryzen 7000 non si estende solo al VSoC, ma interessa anche il CPU_VDDCR_SOC e CPU VDD MSIC. In altre parole, come abbiamo visto, non è un problema solo del SoC, ma dei CCD, è un problema di regolazione della tensione in generale e riguarda i pin che la alimentano.
Sono state viste CPU morte con diverse aree bruciate, ma tutte hanno un die su di esse, logicamente, quindi, il problema è generale, non qualcosa di specifico in un’area specifica. In secondo luogo, è molto probabile che quelle matrici non abbiano una saldatura stabile, principalmente perché si sarebbero “mosse” dopo essere state riscaldate, ma questo è eclatante, perché stiamo parlando di più che 180 ºC sostenuti, possibilmente fino a 200 ºCche produce l’effetto visivo del rigonfiamento sul PCB.
Se teniamo conto di questo, significa che, come abbiamo accennato in precedenza, tutte le misure di sicurezza e lettura stanno fallendo nelle CPU Ryzen 7000, quindi la temperatura che possiamo vedere in qualsiasi software di monitoraggio, incluso il nostro BIOS, sicuramente viene falsificato. Ma non sapremo se questo è reale o meno, non sapremo se abbiamo il problema sul nostro PC finché non metteremo in contatto una sonda esterna con l’IHS per verificare che sia ad una temperatura più o meno uguale a quella indicata dai programmi.
In ogni caso, c’è un’altra e ultima questione da discutere, una CPU può raggiungere i 200 ºC con un sistema di raffreddamento attivo? Ci riferiamo al normale utilizzo del PC, dove il dissipatore, AIO o blocco svolge correttamente la sua funzione. Dato che le letture della scheda madre o del software sono errate, è possibile che, anche ai più bassi RPM delle ventole, Una CPU raggiunge i 200 ºC con il raffreddamento attivo?
Temperature standard elevate e architettura spinta al limite, le ragioni del burn out di AMD?
Logicamente, le CPU Ryzen 7000, come il Core 13 di Intel, sono portate all’estremo per vincere la partita sul rivale. L’overclocking è scomparso per l’utente comune perché presenta ben poco guadagno oltre a spingere la memoria al limite. Il problema è che, come sicuramente sappiamo, stiamo superando in media il 90ºC su entrambe le piattaforme senza troppi problemi.
Con Burning Out di AMD in particolare, stiamo parlando di raddoppiare almeno quella temperatura. Qui entra in gioco un altro punto che abbiamo visto ieri, i problemi con lo stato di sospensione S3. Abbiamo lanciato la teoria del complotto in onda come motivo di controllo per i produttori e AMD. È possibile che il firmware stia entrando nel file Tensione S3 al die I/O e ai CCD mentre il PC è inattivo? Nessuna delle persone interessate aveva overcloccato i propri processori e avevano EXPO abilitato.
L’algoritmo PBO non funziona a causa di una cattiva implementazione o modifica di AGESA su S3? Questa teoria si basa su qualcosa di molto semplice, ovvero che nessun sistema di raffreddamento utilizzato dagli utenti interessati è di fascia bassa o addirittura media.
quindi raggiungere 200ºC fondere la saldatura significa che la tensione scatta in un momento in cui il sistema di refrigerazione non è attivo, perché non sembra facile che anche al loro minimo rendimento si riesca a raggiungere una temperatura così elevata.
L’ultimo punto da discutere ha a che fare con tutto questo: potrebbe essere che la saldatura non era corretta e con il passare dei cicli termici si crepa, si spacca e interrompere la trasmissione di calore all’IHS rendere inutile il sistema di dissipazione? In questo caso la refrigerazione viene annullata, lo stampo non potrebbe passare il calore e si scalderebbe ancora di più, a poco a poco, fino a raggiungere la sfortuna. Nel corso dei mesi questo potrebbe indicare che i meccanismi di sicurezza hanno fallito a causa dell’esposizione a temperature così elevate per ore, giorni e settimane, degradando gradualmente il silicio e portando a quello che tutti sappiamo.
In ogni caso, per il momento e fino alla spiegazione formale da parte di tutti, i Burning Out di AMD sono solo questo, teorie, bisognerà attendere le spiegazioni formali dell’argomento da parte di AMD e dei produttori di schede madri. Nel frattempo, regolare le tensioni manualmente, rimuovere il profilo EXPO dei tuoi ricordi, e se puoi e sai come, applica Undervolt al SoC e alla CPU, perché nessuno sa se il tuo processore sta per morire. Prevenire è meglio che curare.