Und was bedeutet nun "Any SIMD data is better off-loaded to the GPU FPU's and not on the CPU"?
Der Satz ergibt gar keinen Sinn. "SIMD Data" allein als Begriff zu verwenden ist seltsam. Denn die Daten sind nicht "SIMD"-spezifisch. Die SISD kann das auch völlig problemlos durchführen - nur eben (wesentlich) langsamer. Eher wäre richtig: "Daten, die parallel abgearbeitet werden können mit der gleichen Instruktion, sollten von einem Prozessor berechnet werden, der den SIMD-Ansatz verfolgt".
Ob ich nun A * B = C von SISD berechnen lasse oder A * B = C von SIMD, ist egal. Es sind die selben Daten. Kein "SIMD data". Also nochmal die Frage: Was genau bedeutet "Any SIMD data is better off-loaded to the GPU FPU's and not on the CPU"? Eher eine Instruktion, die auf mehrere Daten parallel angewendet werden kann, sollte "better off-loaded to the GPU FPU's and not on the CPU"? Wenn ja, warum überhaupt? Wozu wären die FPU-Einheiten der CPU denn sonst gut, wenn man sie eh nicht verwenden sollte? Sicher, es gibt wesentlich weniger FPU-Einheiten auf der CPU, aber je nach Menge kann die CPU das auch bewältigen, wenn es solche FPU-Einheiten (bzw. SIMD-Einheiten) gibt - und dann eventuell sogar schneller, da noch näher an der CPU.
Also die Frage geht ja nicht an dich persönlich, wenn du ihn zitierst, ist ja nicht deine Schuld. Eher eine Frage in die allgemeine Runde.