PC vs. Konsole

KayJay · 18 März 2013

Nicht schlecht wie DMSCBK einfach mal so namecalling betreibt. Hätte Rickee ihn nicht zitiert hätte ichs gar nicht lesen können (Ignore).
Dann auch noch gefüllt mit absoluten Blödsinn über meine Person.
Aber sowas ist doch ein Fall für einen Verwarnpunkt. @Mods.

shamanu · 18 März 2013

Zeratul schrieb:
Ich zähle hier Vorteile der Konsolen gegenüber PCs, du Held. Du weisst was Kontext ist, hoffe ich?
Und ich schrieb Unified Ram und Adressraum. Und ja, das ist was ziemlich neues.

Erklär mal wiso realtime os merkbare Vorteile für spiele performance hat auf 8 kern systemen.

Bezüglich unified ram das hat nachteile für die cpu. Es bringt nur Vorteile wenn etwas tatsächlich von der CPU bearbeitet wird was die grafikkarte benötigt oder von beiden gleichzeitig. Das wird wohl schwierig werden mit der synchronisation usw. Normal will man nämlich nicht das die 2688 kerne der (erträumten) Titan GTX däumchen drehen während die 8 kerne der cpu in irgendwelchen grafiksachen rumpfuschen oder anderstrum. Achso die Playstation hat ja nur 1152 kerne in der GPU. Na vielleicht macht es da weniger aus oder man braucht die 8 zusätzlichen kerne dringender.

TheCounter · 18 März 2013

Zeratul schrieb:
"Meine Grafikkarte hat bis zu 2,7 TerrorFlop mehr Leistung als die PS4."

Fixed

2014 werden es wohl bis zu 4TF sein. Spätestens dann ist der PC wieder sehr weit vor einer PS4.

CPU technisch sind selbst 2 Jahre alte CPUs deutlich stärker als der Low-Power Jaguar.

DarkLordShadow · 18 März 2013

Zeratul schrieb:
Ich zähle hier Vorteile der Konsolen gegenüber PCs, du Held. Du weisst was Kontext ist, hoffe ich?
Und ich schrieb Unified Ram und Adressraum. Und ja, das ist was ziemlich neues.

Ich weiß auch, dass der Adressraum vom unterliegenden System abhängig ist und nicht vom RAM. Sind nur solche kleinen Details die sowohl auf den Konsolen als auch auf den PC eine Rolle spielen und keine Vorteile des individuellen Systems sind. Unified RAM hat sogar dein Handy. Macht Sinn für geschlossene Systeme wo im Falle eines Defektes alles oder gar nichts ausgetauscht wird ist aber kein Vorteil gegenüber dem PC sondern eine Eigenheit. Außerdem habe ich dir sogar einen Gefallen getan, denn der Kontext ist genau das was noch lächerlicher ist als deine Aufzählung von Buzzwords.

Zeratul · 18 März 2013

DarkLordShadow schrieb:
Ich weiß auch, dass der Adressraum vom unterliegenden System abhängig ist und nicht vom RAM. Sind nur solche kleinen Details die sowohl auf den Konsolen als auch auf den PC eine Rolle spielen und keine Vorteile des individuellen Systems sind. Unified RAM hat sogar dein Handy. Macht Sinn für geschlossene Systeme wo im Falle eines Defektes alles oder gar nichts ausgetauscht wird ist aber kein Vorteil gegenüber dem PC sondern eine Eigenheit. Außerdem habe ich dir sogar einen Gefallen getan, denn der Kontext ist genau das was noch lächerlicher ist als deine Aufzählung von Buzzwords.

Was laberst du wieder für einen Müll?
Die Besonderheit von HSA ist der gemeinsame Zugriff von CPU sowie GPU auf den selben Speicherpool und Adressraum. Die relevanten Daten werden im selben Speicher geladen, ausgelesen und verarbeitet.
Seit wann kann bei deinem tollen Rechner die CPU auf den VRAM der GPU zugreifen?
Es gibt bei HSA keinen Copy-Overhead, der durch Trennung von CPU und GPU, die nur über die krüppelige PCI-E Schnittstelle kommunizieren müssen, ensteht und enorme Ressourcen verschwendet. Ist klar, wenn Prozess A auf die Daten von Prozess B warten muss und dabei Däumchen dreht, weil A und B ihr eigenes Süppchen kochen müssen. Zumal die Datenpakete natürlich auch nicht zu gross sein dürfen, da die lächerliche Bandbreite von PCI-E sonst überfordert wird. Modularität ist doch was feines, nicht?
Was für eine elegante Plattform... :rolleyes:

shamanu · 18 März 2013

Zeratul schrieb:
Was laberst du wieder für einen Müll?
Die Besonderheit von HSA ist der gemeinsame Zugriff von CPU sowie GPU auf den selben Speicherpool und Adressraum. Die relevanten Daten werden im selben Speicher geladen, ausgelesen und verarbeitet.
Seit wann kann bei deinem tollen Rechner die CPU auf den VRAM der GPU zugreifen?
Es gibt bei HSA keinen Copy-Overhead, der durch Trennung von CPU und GPU, die nur über die krüppelige PCI-E Schnittstelle kommunizieren müssen, ensteht und enorme Ressourcen verschwendet. Ist klar, wenn Prozess A auf die Daten von Prozess B warten muss und dabei Däumchen dreht, weil A und B ihr eigenes Süppchen kochen müssen. Zumal die Datenpakete natürlich auch nicht zu gross sein dürfen, da die lächerliche Bandbreite von PCI-E sonst überfordert wird. Modularität ist doch was feines, nicht?
Was für eine elegante Plattform...

Ändert alles nichts daran das diese Kombination nur in wenigen sachen Vorteile bringt, generell jedoch Nachteile hat für die CPU hat. Nach deiner Ansicht müste der jaguar welchen AMD mitte des jahres auf den PC markt bringen will (mit derselben gddr 5 technik) ja alles dagewesene wegfegen. Seltsamerweise geht AMD damit aber primär auf den Tablet und low power notebooks bereich los. Macht irgendwie keinen Sinn wenn das die super überlegene zukunfts Technik ist oder?

Blubbbb · 18 März 2013

und trotzdem werden sie dann von Atom weggebombt ^^

TheCounter · 18 März 2013

shamanu schrieb:
Seltsamerweise geht AMD damit aber primär auf den Tablet und low power notebooks bereich los.

Jaguar ist ja nicht umsonst eine Low-Power APU

Solch eine Architektur ist auf dem PC bzw. einem Gaming PC sehr unvorteilhaft, da nicht flexibel. Ich müsste mir jedesmal eine neue APU kaufen damit ich CPU, RAM oder Grafikkarte aufrüsten kann.

Zumal der Performance Gewinn durch ein SoC niemals so groß sein kann wie der durch ein einfaches CPU/GPU Upgrade.

Zeratul überschätzt dies ein wenig.

Zeratul · 19 März 2013

TheCounter schrieb:
Jaguar ist ja nicht umsonst eine Low-Power APU

Solch eine Architektur ist auf dem PC bzw. einem Gaming PC sehr unvorteilhaft, da nicht flexibel. Ich müsste mir jedesmal eine neue APU kaufen damit ich CPU, RAM oder Grafikkarte aufrüsten kann.

Zumal der Performance Gewinn durch ein SoC niemals so groß sein kann wie der durch ein einfaches CPU/GPU Upgrade.

Zeratul überschätzt dies ein wenig.

Ich rede auch nicht über die CPU Leistung. Das GPGPU Monster "Liverpool" übernimmt die schweren Brocken. Um ein vielfaches schneller als jede CPU dieser Welt.

shamanu · 19 März 2013

TheCounter schrieb:
Jaguar ist ja nicht umsonst eine Low-Power APU

Solch eine Architektur ist auf dem PC bzw. einem Gaming PC sehr unvorteilhaft, da nicht flexibel. Ich müsste mir jedesmal eine neue APU kaufen damit ich CPU, RAM oder Grafikkarte aufrüsten kann.

Ja und für den Low Power bereich ist es ein guter Ansatz. Wenn Hauptziele wenig stromverbrauch, geringer Platzbedarf, einfache Kühlung und trotzdem noch brauchbare Spielleistung sind ist es ideal. Mit den Kompromissen welche zu dieser Technik führen jetzt das ganze als Hochleistungssystem schönzureden ist aber schon etwas lächerlich.

Es ist nicht nur die Flexibilität, im PC kann die Grafikkarte leicht 5x die Leistung verbraten wie die CPU&GPU bei der PS4 zusammen ohne das jemand etwas bemerkt. Dementsprechen gibt es auch die Mehrleistung. Da nützt das ganze shared & "super ram" nichts wenn die gpu Rechenleistung zum flaschenhals wird weil sonst die cpu abschmoren würde.

TheCounter · 19 März 2013

Zeratul schrieb:
Das GPGPU Monster "Liverpool" übernimmt die schweren Brocken. Um ein vielfaches schneller als jede CPU dieser Welt.

Womit weniger Leistung für grafische Berechnungen bleibt... du kannst entweder das eine oder das andere besonders schön machen.

shamanu schrieb:
Ja und für den Low Power bereich ist es ein guter Ansatz. Wenn Hauptziele wenig stromverbrauch, geringer Platzbedarf, einfache Kühlung und trotzdem noch brauchbare Spielleistung sind ist es ideal.

Genau das mein ich ja. Es geht nicht um Highend-Leistung. Die Hauptziele die du aufzählst sind am PC irrelevant, weswegen er auch immer einen Vorteil gegenüber Konsolen haben wird.

Locuza · 19 März 2013

XCHEGUEVARAX schrieb:
Intel ATOM lacht sich schon jetzt über die lustige Jaguar Serie kaputt :v:

Dann lass ma ARMA 3 zocken

Intels Atom-Serie war besonders von Anfang an scheiße und Clovertrail ist gerade wenn man von Intel ausgeht keine Wucht.
Baytrail wird dann Ende 2013/14 dann wohl am Jaguar vorbei ziehen können, wenn man Perf/Watt betrachtet.
Weiß jetzt aber auch nicht viel bezüglich Baytrail und wie die CPU intern aufgebaut ist.

DarkLordShadow schrieb:
Bitte sag mir, dass du auch nur die Hälfte von dem verstanden hast von dem was du da geschrieben hast. 8GB unified RAM, ja shared Memory ist nun nicht so neu, die letzten 3 Laptops von mir konnten sich damit rühmen. Echtzeit OS? Genial, seit meinem Windows 95 System habe ich kein Echtzeitsystem mehr gesehen abgesehen natürlich von jedem Gerät, das einen timed Job durchziehen soll wie z.B. Spielekonsolen, Handys, Kaffeemaschinen mit Zeitbrühfunktion v

Interessant wird es natürlich ob der CPU sowie der Bus des Systems den GDDR5 hinterher kommt oder ob wir warten dürfen auf den Rest.

Shared memory + unified adress space = win.
Ein RTOS ist echt eine feine Sache und reduziert ein gutes Stück den Anwendungs-Overhead bei Anfragen.
Hat AMD auch bei ihren HSA Plänen genannt, dass man den Overhead reduzieren will.
Keine Ahnung, ob Windows da sich jemals verbessern wird.
Die Jaguar-CPU wird sicherlich nicht soviel vom Speicher profitieren können, aber das Xbox-Schema zeigt schon hohe Bandbreiten für die Zugriffe.
Mal sehen, wie dick Sony die Verbindungen macht.

Zeratul schrieb:
Ich rede auch nicht über die CPU Leistung. Das GPGPU Monster "Liverpool" übernimmt die schweren Brocken. Um ein vielfaches schneller als jede CPU dieser Welt.

Sie sollte nur die parallelen Brocken übernehmen, seriell sollte natürlich lieber die CPU herangezogen werden, wobei der Unterschied von CPU zu GPU beim PS4 System deutlich geringer ist als früher und vor allem im Vergleich zu PCs.

TheCounter schrieb:
Solch eine Architektur ist auf dem PC bzw. einem Gaming PC sehr unvorteilhaft, da nicht flexibel. Ich müsste mir jedesmal eine neue APU kaufen damit ich CPU, RAM oder Grafikkarte aufrüsten kann.

Zumal der Performance Gewinn durch ein SoC niemals so groß sein kann wie der durch ein einfaches CPU/GPU Upgrade.

Zeratul überschätzt dies ein wenig.

Leider wird man für zukünftige Performance-Gewinne beim PC-Markt immer mehr bei der Modularität abbauen müssen.
Das Konzept und die Vorteile eines SoCs sind natürlich genial, aber sie nehmen mir all meine Flexibilität.
Am Ende kann ich nur Mainboard und APU kaufen.
Die APU wird aber beim PC-Markt mit fortschreitendem Fertigungsgrad immer mehr das Wasser von unten abgraben.
Aber das dauert natürlich noch Jahre, bis die Fertigung so klein ist, dass man eine APU realisieren kann die ordentlich Dampf unter der Haube hat.

shamanu schrieb:
Ändert alles nichts daran das diese Kombination nur in wenigen sachen Vorteile bringt, generell jedoch Nachteile hat für die CPU hat. Nach deiner Ansicht müste der jaguar welchen AMD mitte des jahres auf den PC markt bringen will (mit derselben gddr 5 technik) ja alles dagewesene wegfegen. Seltsamerweise geht AMD damit aber primär auf den Tablet und low power notebooks bereich los. Macht irgendwie keinen Sinn wenn das die super überlegene zukunfts Technik ist oder?

?
Nachteile gibt es ja keine beim Konzept für die Einheiten.
Und Kabini ist ja auch ein fettes Stück kleiner, als die PS4, zusätzlich zweifel ich dort noch an einem gemeinsamen Adressraum.
Die PS4 wird ja auch "nur" bei latenzkritischen Algorithmen einen klassischen PC wegfegen können.
Beim Rest wird sie dank der großen Rohpower eines PCs nicht so viel zu melden haben, wobei die ersten Jahre die PS4 sicherlich ganz gut dabei sein wird.

TheCounter · 19 März 2013

Locuza schrieb:
Leider wird man für zukünftige Performance-Gewinne beim PC-Markt immer mehr bei der Modularität abbauen müssen.
Das Konzept und die Vorteile eines SoCs sind natürlich genial, aber sie nehmen mir all meine Flexibilität.
Am Ende kann ich nur Mainboard und APU kaufen.
Die APU wird aber beim PC-Markt mit fortschreitendem Fertigungsgrad immer mehr das Wasser von unten abgraben.
Aber das dauert natürlich noch Jahre, bis die Fertigung so klein ist, dass man eine APU realisieren kann die ordentlich Dampf unter der Haube hat.

Ich denke, das wir davon sogar noch Jahrzehnte weg sind. Bis APUs an die Leistung eines Modularen Systems rankommen dauert es noch sehr lange. Für Server könnte ich mir spezielle APUs vorstellen, aber für den Mid-Highend PC Markt wohl eher nicht.

Locuza · 19 März 2013

Jahrzehnte würde ich nicht sagen.
Broadwell und Skylake werden wohl auch alle schon SoCs sein.
2014/15.
Die Zukunft könnte erst einmal bedeuteten APU + starke GPU.
Ich denke reinrassige CPUs werden am PC-Markt für den durchschnittlichen Kunden bald aussterben.
Gibt es ja jetzt schon kaum.

Eine jetzige APU kommt ja so an das Low-End von früher heran, womit dieses Segment als modular Aufbau eig. gestorben ist.
Wobei ironisch erweise AMD noch Oland herausbringen will, der genau das darstellt.
Nvidia hat glaube ich auch etwas kleines im Angebot.
Jedenfalls kann man das super mit einer APU ersetzen.
Mit Kaveri könnte man auch schon die ersten Mid-Range Dinger ersetzen, ich nenne mal 77xx-Series.
Mit 20nm wird das wohl drinnen sein.
Und mit den weiteren Jahren muss man dann schauen, ob man nicht auch die Performance-Class ersetzen kann und Speicher extra verlötet wie bei der Konsole.

Die Jahrzehnte werden übrigens spannend, besteht ab 10-7nm doch ein großes Problem mit klassischen Belichtungssystemen.
Der PC-Markt wird viele Barrieren knacken müssen.

shamanu · 19 März 2013

Locuza schrieb:
?
Nachteile gibt es ja keine beim Konzept für die Einheiten.
Und Kabini ist ja auch ein fettes Stück kleiner, als die PS4, zusätzlich zweifel ich dort noch an einem gemeinsamen Adressraum.
Die PS4 wird ja auch "nur" bei latenzkritischen Algorithmen einen klassischen PC wegfegen können.
Beim Rest wird sie dank der großen Rohpower eines PCs nicht so viel zu melden haben, wobei die ersten Jahre die PS4 sicherlich ganz gut dabei sein wird.

Doch der Nachteil ist das gddr5 für die Grafikkarte optimiert ist und die CPU jetzt diesen verwenden muß obwohl er nicht dafür gedacht ist. Das G im gddr steht nicht umsonst für Graphics. Für größe Blöcke wie texturen usw. ist GDDR5 super jedoch hat er schlechtere Zugriffszeiten. Weiters erfolgt der Zugriff bei GDDR5 nur in größeren Blöcken. Was die cpu mit den großen packeten anfängt wenn sie eigentlich nur ein paar daten wollte ist fraglich.

Das Teil ist einfach DDR3 welcher für GPU's mit ihren großen texturen und streaming anforderungen optimiert wurde, es ist jedoch nicht wirklich das was eine cpu eigentlich will.

Bezüglich Kabini und Temash: AMD hat gesagt das sie genau die gleichen cpus rausbringen für pc nur ohne sony spezifische ballast und vorerst weniger kerne. Was es genau wird muß man schauen.
Wo sollen sie bei latenzkritischen algorithmen den pc wegfegen? Wegen dem realtime os? Relevant sind nur jene Berechnungen welche rechenaufwendig sind. Die anderen fallen eh nicht ins gewicht bei einem multicore. Da siegt immer die Maschine mit mehr Rechenpower.

sirtoby · 19 März 2013

Naja, der einzige Vorteil ist ja eigentlich, dass man sich den PCIe Overhead spart beim Austausch zwischen CPU und GPU. Dafür riskiert man mit den hohen Latenzen von GDDR5, dass sich GPU und CPU gegenseitig blockieren und daher den Geschwindigkeitsvorteil nicht zwingend ausspielen können. Bzw. ob Sony effektiv eine 170GB/s Anbindung an den uRAM macht ist die andere (Kosten-)Frage...

Es ist afaik kein so grosser bzw. klarer Vorteil, wie sich Zornys das vorstellen.

Locuza · 19 März 2013

shamanu schrieb:
[1] Doch der Nachteil ist das gddr5 für die Grafikkarte optimiert ist und die CPU jetzt diesen verwenden muß obwohl er nicht dafür gedacht ist. Das G im gddr steht nicht umsonst für Graphics. Für größe Blöcke wie texturen usw. ist GDDR5 super jedoch hat er schlechtere Zugriffszeiten. Weiters erfolgt der Zugriff bei GDDR5 nur in größeren Blöcken. Was die cpu mit den großen packeten anfängt wenn sie eigentlich nur ein paar daten wollte ist fraglich.
Das Teil ist einfach DDR3 welcher für GPU's mit ihren großen texturen und streaming anforderungen optimiert wurde, es ist jedoch nicht wirklich das was eine cpu eigentlich will.

[2] Wo sollen sie bei latenzkritischen algorithmen den pc wegfegen? Wegen dem realtime os? Relevant sind nur jene Berechnungen welche rechenaufwendig sind. Die anderen fallen eh nicht ins gewicht bei einem multicore. Da siegt immer die Maschine mit mehr Rechenpower.

1. Die Zugriffe sind nicht schlechter bei GDDR5. Bei einer APU hat die CPU ihren eigenen Memory-Controller und die GPU auch.
Die CPU bekommt ihre Zugriffe genau so serviert, wie für sie optimal ist, sie ist auch das primary device und wird immer zuerst beliefert. Das ist nicht abhängig vom Speicher.

2. Wegen allen Sachen, die beim PC ein Overhead darstellen:
PCIe, getrennter Adressraum, keine kohärenten Speicherbereiche, häufiges synchronisieren verbunden mit cache flushes bei der GPU, DX Overhead, OS Overhead.
Genau bei den allen Punkten ist eine Konsole technisch und auf der Software-Seite im Vorteil.
Das sind auch alles Vorteile für das 3D-Rendering, bloß wiegen sie natürlich nicht soviel.
Anders wird es bei neuen Algorithmen sein, die man bisher vermeidet, weil die Flaschenhälse am PC zu groß sind.

sirtoby schrieb:
Naja, der einzige Vorteil ist ja eigentlich, dass man sich den PCIe Overhead spart beim Austausch zwischen CPU und GPU. Dafür riskiert man mit den hohen Latenzen von GDDR5, dass sich GPU und CPU gegenseitig blockieren und daher den Geschwindigkeitsvorteil nicht zwingend ausspielen können. Bzw. ob Sony effektiv eine 170GB/s Anbindung an den uRAM macht ist die andere (Kosten-)Frage...

Es ist afaik kein so grosser bzw. klarer Vorteil, wie sich Zornys das vorstellen.

Hoch getakteter GDDR5 hat keine höheren Latenzen als DDR3.
Und der PCIe Overhead ist groß. Die Latenzeinsparungen sind einfach heftig.
Soll ich meine AMD PDF wieder herauskramen, oh ja das tu ich, ich liebe sie

http://synergy.cs.vt.edu/pubs/papers/daga-saahpc11-apu-efficacy.pdf

Man schaue sich an, dass der Overhead doppelt so hoch ist auf einem PCIe-Device und bei anderen Anwendungen auch noch deutlich höher sein kann.
Die PS4 wird aber auch einen gemeinsamen Adressraum haben, was noch einmal das ganze dramatisch verbessern wird.
Der Vorteil von der PS4 bezüglich Latenzen wird einfach teils deutlich besser sein.
3D-Rendering wird davon im Endeffekt auch nicht immens profitieren, ein netter Bonus wird es dort sein, aber niedrige Latenzen bei der Kommunikation zwischen CPU und GPU sind ein wichtiges Kriterium für lohnenswertes GPGPU.
Das mit dem Blockieren sehe ich auch überhaupt nicht kritisch.
Oder weisen AMDs jetzige APUs irgendwelche heftigen Negativerscheinen auf, wo man dies bemerken kann?
Und was meinst du mit effektiver Anbindung?
Die GPU wird wohl eine Anbindung bekommen, die wohl fast genau so hoch ist oder etwas niedriger und die CPU deutlich weniger, aber auch hoch oder entsprechend geeignet.
Es ist aber klar, dass eine CPU mit hohen Bandbreiten auch nicht wahnsinnig viel anfangen kann.

Zornys überdramatisieren vielleicht das ganze etwas zu hart global und wirken so wie PR-Männer die von gigantischen Vorteilen sprechen, diese aber nicht genau beziffern können.
Aus technischer Logik heraus kann man schon sagen, dass es teils enorme Vorteile gibt, die Frage ist nun, wie hoch genau und wie viel ändert das am Gesamtergebnis?
Die PS4 kann von mir aus Faktor 1.000 irgendwo besser sein, als ein PC, wenn das am Ende von einem Game nur 5% Performance bringt, ist das mir auch scheiß egal.
Ich meine mal Zornys überdramatisieren hier gerne und spiegeln die hohen theoretischen Vorteile auf das Endergebnis ab.
Aber die Vorteile sind ganz klar da und sind auch messbar belegbar.
Wenn Kaveri draußen ist, kann man auch am PC quantitativ nachmessen, um wie viel Kaveri besser ist mit seiner "7750" im Vergleich zu einer, die man dediziert per PCIe anschließt.
Da sollte man Auswirkungen eindeutig zu sehen bekommen.

shamanu · 19 März 2013

Locuza schrieb:
1. Die Zugriffe sind nicht schlechter bei GDDR5. Bei einer APU hat die CPU ihren eigenen Memory-Controller und die GPU auch.
Die CPU bekommt ihre Zugriffe genau so serviert, wie für sie optimal ist, sie ist auch das primary device und wird immer zuerst beliefert. Das ist nicht abhängig vom Speicher.

2. Wegen allen Sachen, die beim PC ein Overhead darstellen:
PCIe, getrennter Adressraum, keine kohärenten Speicherbereiche, häufiges synchronisieren verbunden mit cache flushes bei der GPU, DX Overhead, OS Overhead.
Genau bei den allen Punkten ist eine Konsole technisch und auf der Software-Seite im Vorteil.
Das sind auch alles Vorteile für das 3D-Rendering, bloß wiegen sie natürlich nicht soviel.
Anders wird es bei neuen Algorithmen sein, die man bisher vermeidet, weil die Flaschenhälse am PC zu groß sind.

1. Was hat das mit dem eigenen memory controller zu tun wenn die technik langsamer ist bei zufälligen zugriffen?
Naja, ich weiß nicht wie amd das löst aber die Blöcke welche nicht notwendig sind werden wohl einfach verworfen wenn sie ankommen. Ob soetwas zu einem flaschenhals werden könnte wenn es viele random zugriffe auf kleine daten gibt ist fraglich.

2. Und wo ist das ganze wirklich relevant? Man muß halt verstehen das die getrennte cpu gpu architektur ein anderes ziel verfolgt. Die cpu macht die komplexen und rechenaufwendigen aufgaben, die gpu die einfachen welche sich stark paralelisieren lassen. Wenn ich etwas zur gpu schicke das sie es bearbeitet will ich eigentlich garnicht das die cpu da mit rummischt. Der weg von gddr zur grafikkarte und wieder zurück das dann die cpu da was machen kann ist nämlich auch beim unified noch extrem weit verglichen zur gpu geschwindigkeit. Nicht ohne grund hat die gpu mehrere interne cache speicher welche unterschiedliche stärken haben und schneller sind destso näher sie an die internen Kerne kommen. Wenn man daten einmal bis in den gpu kern gebracht hat dann wird man soweit wie möglich vermeiden das ganze wieder den ganzen weg zum gddr und dann zur cpu zu schicken.

Gibt es da beispiele für solchige algorithmen welche aktuell vermieden werden? Die einzigen Ansätze welche ich mit potential kenne sind raytracing und carmack's ansatz. Für carmacks benötig man massenweise ram und raytracing läuft bereits teilweise auf grafikkarten in echtzeit.
Edit: Ach ja der unlimited details, der braucht aber auch beiweitem mehr speicher wenn das was richtiges werden soll.

Locuza · 19 März 2013

shamanu schrieb:
1. Was hat das mit dem eigenen memory controller zu tun wenn die technik langsamer ist bei zufälligen zugriffen?
Naja, ich weiß nicht wie amd das löst aber die Blöcke welche nicht notwendig sind werden wohl einfach verworfen wenn sie ankommen. Ob soetwas zu einem flaschenhals werden könnte wenn es viele random zugriffe auf kleine daten gibt ist fraglich.

2. Und wo ist das ganze wirklich relevant? Man muß halt verstehen das die getrennte cpu gpu architektur ein anderes ziel verfolgt. Die cpu macht die komplexen und rechenaufwendigen aufgaben, die gpu die einfachen welche sich stark paralelisieren lassen. Wenn ich etwas zur gpu schicke das sie es bearbeitet will ich eigentlich garnicht das die cpu da mit rummischt. Der weg von gddr zur grafikkarte und wieder zurück das dann die cpu da was machen kann ist nämlich auch beim unified noch extrem weit verglichen zur gpu geschwindigkeit. Nicht ohne grund hat die gpu mehrere interne cache speicher welche unterschiedliche stärken haben und schneller sind destso näher sie an die internen Kerne kommen. Wenn man daten einmal bis in den gpu kern gebracht hat dann wird man soweit wie möglich vermeiden das ganze wieder den ganzen weg zum gddr und dann zur cpu zu schicken.

Gibt es da beispiele für solchige algorithmen welche aktuell vermieden werden? Die einzigen Ansätze welche ich mit potential kenne sind raytracing und carmack's ansatz. Für carmacks benötig man massenweise ram und raytracing läuft bereits teilweise auf grafikkarten in echtzeit.
Edit: Ach ja der unlimited details, der braucht aber auch beiweitem mehr speicher wenn das was richtiges werden soll.

1. Die Technik ist ja nicht langsamer bei den Zugriffen.
Der Memory-Controller wird dann wohl die größeren Datenbreiten verarbeiten müssen.
Wobei ich auch keine Ahnung habe, welche Auswirkungen das haben könnte.
Prinzipiell sind bei DDR3 und GDDR5 die gleichen Speicherzellen zu finden, bloß hat GDDR5 ein anderes Interface.
Die absoluten Latenzen befinden sich auf einem vergleichbarem Niveau.

2. Da es einen gemeinsamen Adressraum geben wird, limitiert hier "nur" die Zeit beim schreiben und lesen von dem Speicher.
Ich denke wir sind uns einig, dass dies dramatisch besser ist, als von einer CPU die Daten zur GPU zu verschieben?
Hier limitiert dann nur die Anbindung zum Speicher und diese wird wohl sicher weit größer sein, als bei PCIe3 mit deutlich besseren Latenzen.
PCIe hat z.B. 16 GB/s und nicht nette Latenzen, vor allem da man jetzt auf das 128/130-Bit Coding setzt.
Beim Xbox Next Diagramm, hat z.B. jedes CPU Modul 20 GB/s mit deutlich besseren Latenzen zu der Northbridge.
Kohärente Anfragen werden durch den FCL mit 30 GB/s erledigt, dass ist ein Bus von der GPU zur Northbridge.
*
Hier fallen dann "nur" die Latenzen bei der Northbridge und den einzelnen Systemen an.
Da ist man schon von der Bandbreite, je nach Fall, doppelt bis mehr so gut aufgestellt und von der Latenz gewaltig besser.
Wegen dem gemeinsamen Adressraum gibt es ja auch im Speicher keine Datensätze die zwei mal vorkommen und kopiert werden müssen.
Bei jetzigen APUs liegt ja schon der Vorteil bei Faktor 2 beim Overhead und der FCL ist 128-Bit Breit, dass wird er bei Kaveri nicht mehr sein, sondern 256-Bit breit, bei den Konsolen aller Logik nach dann auch.
Und ja, dann kommt ja auch der Software-Overhead bei Fragen und bei den Treibern, was das ganze noch einmal auf einem höherem Level verzögert.

Leider bin ich kein Dev und kann dir die Frage nicht beantworten, welche Algorithmen jetzt praktikabel auf einer HSA-APU möglich sind und welche beim PC in N-Zeit nicht fertig werden können oder überhaupt nicht lohnenswert wären.
Spekulieren und wünschen tut sich natürlich die ganze Konsolen-Welt Gameplay-Physics.

*
Hier ist auch möglich "direkter" Daten auszutauschen.
Man könnte hier sogar über den Bus direkt zur GPU mit natürlich noch besserer Latenz, L1 und L2-Cache Daten rüberschicken, falls sie zu diesem zufälligen Zeitpunkt auch im Cache vorhanden wären.
Keine Ahnung ob Programmierer im Stande wären ihren Programmcode so zu schreiben das ein garantierter Austausch stattfinden könnte.

shamanu · 19 März 2013

Locuza schrieb:
1. Die Technik ist ja nicht langsamer bei den Zugriffen.

Aha wiso wird dann bezüglich Unterschiede immer erklärt das DDR hin zu geringen zugriffszeiten auf kosten der Bandbreite optimiert ist und es bei GDDR genau das Gegenteil ist?
Wiso der ganze tamtam mit DDR4 welches seit jahren aufwendig entwickelt wird und noch immer weniger Bandbreite wie GDDR5 haben wird. Sind das alles deppen das sie nicht einfach GDDR5 nehmen das nach deinen Aussagen ja genau gleich ist bis auf die höhere Bandbreite?

2. Ne wir sind uns einig das es ein anderer Ansatz ist. Du scheints jedoch davon auszugehen das jetzt plötzlich überall gpu und cpu zusammen arbeiten müssen und daten überall austauschen. Ich gehe davon aus das es die Ausnahme ist welche man vermeiden will wenn es geht.
Warum hat sich diese Technologie noch nicht im high performance computing bereich durchgesetzt? Amd ist nicht die erste firma welche an so eine Lösung denkt und in dem Bereich sind auch spezial lösungen willkommen wenn sie mehr performance bringen. Sind das auch alles deppen? Wiso geht amd damit nicht gleich in den professionellen high performance bereich? Die bezahlung für eine gute technologie wäre da um welten besser wie bei den billigen Konsolen.

PC vs. Konsole

L15: Wise

L15: Wise

L12: Crazy

L06: Relaxed

L12: Crazy

L15: Wise

L20: Enlightened

L12: Crazy

L12: Crazy

L15: Wise

L12: Crazy

L10: Hyperactive

L12: Crazy

L10: Hyperactive

L15: Wise

L13: Maniac

L10: Hyperactive

L15: Wise

L10: Hyperactive

L15: Wise