1. Das GDDR5 verlötet wird ist wieder eine andere geschichte. Eben weil sie auf die Grafikkarten kommen und hohe Bandbreiten brauchen macht das Sinn. Und die kosten von GDDR5 sind sicher nicht höher wie jene von DDR4 sein werden.
Das sie gelötet werden ändert auch nichts an der höheren Zugriffszeit.
2. Naja, du gehst von irgendwelchen möglichen sachen aus welche vielleicht einmal entwickelt werden könnten und dann genau mit dieser technologie super schnell sind. Solange es keinen Ansatz am Horizont gibt der in die Richtung geht ist es für mich einfach träumerrei.
Server Segment und Workstation ist aber nicht der high performance computing bereich auf den ich mich beziehe. Weiters unterstützen die amd cpus ddr3 & gddr5. Bezweifle sehr das sie versuchen am servermarkt/performance bereich gddr5 einzusetzen wenn das schlecht ist für die cpu.
Hehe, witzig das du sagst das beim HPC markt algorithmen verwendet werden bei welchen PCIe nicht limitiert. Es ist nämlich so das man üblicherweise sagt PCIe2 zu PCIe3 macht bei Spielen keinen Unterschied, nur bei HPC kann es in gewissen fällen probleme machen.
1. Der Standard wurde schon immer mit dem verlöten konzipiert und damit ist es auch leichter höhere Mhz zu fahren, welches natürlich zu höherer Bandbreite führt.
Das macht man nicht nur, weil sich die GPU-Platine dafür anbietet.
Wenn du dir die Tabelle anguckst, dann ist DDR4 ein mix aus DDR3 und GDDR5, da versucht man einen Kompromiss zwischen Speed, Kosten, Datendichte etc. hinzubekommen.
Was ein Kilo GDDR5 kostet und was ein Kilo DDR4 kosten wird, Fragezeichen.
Welche höheren Zugriffszeit eigentlich? Die angegeben Timings (Zugriffslatenzen von mir aus) sind höher, aber mit dem höherem Takt kommt man wieder auf die gleichen absoluten Latenzen wie bei DDR3.
So kommt auch DDR3 auf die gleichen absoluten Latenzen wie DDR1 Speicher.
DDR1 hat auch bessere Timings angegeben, aber auch deutlich weniger Takt und die absolute Latenz berechnet sich eben aus den Timings und dem Takt.
2. Die Möglichkeit für GPGPU besteht da natürlich. Aber der Chip der PS4 ist ja auch kein Rechenmonster. Der muss ja auch parallel noch das Rendering berechnen, dass Budget für GPGPU ist in dem Sinne oft beschränkt.
Liegt dann am Entwickler welche Möglichkeiten er anstrebt und welches grafische Niveau er dafür in Kauf nimmt.
Ich will dir hier nicht verkaufen, dass jedes PS4 Spiel vor lauter GPGPU-Power explodieren wird und du mit deiner PC-CPU und deinem System bei 2FPS herumkrebsen wirst, aber das Potential ist doch eindeutig, die Möglichkeiten sind auf jeden Fall größer und es gibt viele Vorteile, fraglich ist nur wie weit das zum Gesamtresultat beitragen kann.
Bei HPC kommt es ja häufig auf puren Rechendurchsatz an. Da hat man auch die 32 PCIe Lanes.
Hier spielt man ja nicht mit Algors herum, wo die CPU ständig auf die GPU warten muss und andersherum.
Da wird versucht einen relativ unkomplizierten Fluss zu schaffen.
Eine fette HSA-APU ist eben nicht so leicht zu realisieren.
Du hast ein Belichtungsmaximum von ungefähr 600mm², je größer der Chip, desto schlechter deine Yields, also wirst du lieber 550mm² als Maximum nehmen.
Intels Server CPUs und AMDs GPUs und Nvidias GPUs wiegen ja selber über 300mm² bis hin zu 550mm², klar das ich das nicht einfach in eine APU quetschen kann.
Es gibt dann auch ein weiteres Problem, der Interconnect.
Das ganze Zeug ist ja auch verbunden, irgendwann ist der Interconnect und die Kommunikation zwischen den ganzen Prozessoren so ineffizient das das ganze sich nicht lohnt.
Z.B. von der Perf/Watt sind kleine Einheiten deutlich besser, also wieso nicht 2.000 ARM Chips kombinieren und rechnen lassen?
Weil die Verbindung untereinander jeden Vorteil töten wird.
Auch wieder eine Effizienzrechnung, wo der Sweetpoint aus Rechenleistung und Interconnect-Effizienz liegt.
Je höher die Rechenleistung einer einzelnen Einheit, desto weniger brauche ich davon für das gleiche Ergebnis und desto geringer ist der Interconnect-Overhead.
Wenn ich 1.000 schwache SoCs verbinde, dann wird deren Effizienzvorteil irgendwann ins Negative umdrehen, bei irgendeiner Zahl.
Weiß auch nicht, wie viele Racks die da haben und was die genau verbauen und welches Wetter welchen Algorithmus braucht und wo eine HSA APU auch im Server, Workstation, HPC-Bereich gewinnbringend eingesetzt werden könnte.
Die Pläne dafür sind jedenfalls da.
Die Frage ist natürlich auch spannend, wieso man keinen GDDR5 verbaut? 1. Braucht das ja Controller-Optimierungen, einen unified Controller für DDR3 und GDDR5 gibt es meines Wissens nicht, zweitens müsste auch GDDR5 wieder in HPCs etc. verlötet werden.
Vielleicht ist es eine Kostenrechnung, vielleicht darf die Verbindung zum GDDR5 auch nicht so lang sein, ansonsten schafft man die Taktfrequenzen nicht, was Einschränkungen bei der Konstruktion und dem Kühlmittel nach sich zieht.
Von hohen Bandbreiten profitieren CPUs nicht sonderlich, da sie wahre Cache-Monster sind, dennoch wird natürlich ein fettes Quad-Channel bei Intel verbaut, womit sich das scheinbar doch irgendwo auszahlt.
Keine Ahnung, ob Modularität da ein unglaublich gewichtiger Aspekt ist.
Kann mir leide auch keine glasklare Antwort liefern, sondern nur Spekulationen.
PCIe kann ja überall bei latenzkritischen Algos von Nachteil sein und bessere Latenzen sind ja immer ein Vorteil, bloß je nach Aufgabe nicht immer merklich spürbar.
Die ganz kritischen Algos werden weder beim PC verwendet, bei Spielen, noch sonst wo.
Sie werden vornehmlich von der CPU berechnet.
Häufig ist auch der Performance-Rückstand der CPU gegenüber der GPU kleiner, als der Overhead vom PCIe groß ist.
SoCs sind aber die Zukunft und schnell angebundener Speicher auch.
Das wird nicht für die High-Elite Durchsatzklasse gelten, aber die Vorteile die dieses Konzept in sich trägt wird viele klassische Systeme beerben und ersetzen.