Terascale-Prozessor

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Terascale-Prozessor von Intel ist ein Forschungsprojekt, um einen Mikroprozessor mit hunderten Kernen zu entwickeln. Eine derartige Architektur wird – analog zu den Multicore-Architekturen – als „Manycore“ bezeichnet.

Der Terascale-Prozessor wird in Kacheln – den sogenannten Tiles – organisiert, wobei die meisten Kacheln allgemeine Rechenaufgaben wahrnehmen. Der Terascale-Prozessor besitzt etwa 100 Millionen Transistoren, wobei jede Kachel etwa 1,2 Millionen Transistoren beherbergt.

Aufbau der Kacheln[Bearbeiten]

Die Kacheln besitzen je eine Processing Engine (PE) und einen Crossbar Switch. Die Processing Engine übernimmt die Rechenaufgaben mit Hilfe zweier FMAC-Einheiten und einer Gleitkommaeinheit. Zudem besitzt die Processing Engine 5 kB an lokalem Speicher. Der Crossbar Switch dient zur Kommunikation mit den Nachbar-Tiles.

Prinzipschaltbild der Processing Engine
Spezialisierte Kacheln im Terascale

Einige zusätzliche Kacheln sind auf spezielle Aufgaben wie die Verarbeitung von High Definition Video, Verschlüsselung, Digitale Signalverarbeitung, Physikbeschleunigung oder 3D-Computergrafik optimiert. Diese spezialisierten Kacheln arbeiten im jeweiligen Aufgabenbereich effizienter – also schneller und energiesparender – als nichtspezialisierte Kacheln.[1]

Speicheraufbau[Bearbeiten]

Ein Problem, das sich beim Terascale stellt, ist, dass durch die hohe Anzahl von Kernen die Anbindung an den Speicher sehr schwer wird, da einerseits die Datenanbindung geteilt und andererseits der Zugriff auf den Speicher koordiniert werden muss. Intel verwendet zu diesem Zweck einen hierarchischen Cachespeicher. Dabei bekommt jeder Kern einen eigenen 16 kB bis 64 kB große L1-Cache. Der 256 kB bis 1 MB große L2-Cache wird von einer kleinen Gruppe von Kernen geteilt. Der L3-Cache steht allen Kern-Gruppen innerhalb des Prozessors zur Verfügung.

Zusätzlich kommt im Terascale ein L4-Cache aus DRAM-Speicher zum Einsatz, welcher sich jedoch nicht auf demselben Prozessor-Die befindet, sondern auf einem eigenen Die gefertigt wird. Der L4-Cache wird anschließend in MCP-Bauweise neben oder in Stacked-Bauweise auf dem Prozessor angebracht. Zusätzlich werden die Programme mit einer QoS-Priorisierung versehen, damit der Speicher für wichtige Anwendungen reserviert werden kann. Wie viel Speicher eine Anwendung beanspruchen kann wird dynamisch von einem Resource-Monitor bestimmt, wodurch das Betriebssystem die Anwendungen in die optimalen Cache-Einheiten verschieben kann.

Geschwindigkeit[Bearbeiten]

Der Terascale-Prozessor erreicht mit mehr als einem Teraflop je Sekunde eine Geschwindigkeit, welche mit dem ASCI-Red-Supercomputer von 1996 vergleichbar ist, welcher aus 10.000 Pentium-Pro-Prozessoren mit 200 MHz Taktfrequenz und insgesamt 500 Kilowatt elektrischer Leistungsaufnahme aufgebaut ist.

Taktfrequenz
in Gigahertz
Kernspannung
in Volt
Leistungsaufnahme
in Watt
Datendurchsatz
in Terabit/s
Rechenleistung
in Teraflops
3,16 0,95 62 1,62 1,01
5,1 1,2 175 2,61 1,63
5,7 1,35 265 2,92 1,81

Siehe auch[Bearbeiten]

Referenzen[Bearbeiten]

  1. J. Held, J. Bautista, S. Koehl: From a Few Cores to Many: A Tera-scale Computing Research Overview, Intel 2006