History of Processor Performance
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z )"-ª23 YEAR
0ERFORMANCEªVS6!8 -)03ª-ª -)03ª- 3UN 6!8ª
6!8 YEAR 6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALäIDEASä"Yä äTHISäGROWTHäLEDäTOä AäDIFFERENCEäINäPERFORMANCEäOFäABOUTäAäFACTORäOFäSEVENä0ERFORMANCEäFORämäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
1 History of Processor Performance
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z CSEE 3827 !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z )"-ª23 YEAR
0ERFORMANCEªVS6!8 -)03ª-ª -)03ª- 3UN 6!8ª
6!8 YEAR 6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALäIDEASä"Yä äTHISäGROWTHäLEDäTOä AäDIFFERENCEäINäPERFORMANCEäOFäABOUTäAäFACTORäOFäSEVENä0ERFORMANCEäFORämäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
2 History of Processor Performance
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z )"-ª23 YEAR
0ERFORMANCEªVS6!8 -)03ª-ª -)03ª- 3UN 6!8ª
6!8 COMS 4824 YEAR 6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALäIDEASä"Yä äTHISäGROWTHäLEDäTOä AäDIFFERENCEäINäPERFORMANCEäOFäABOUTäAäFACTORäOFäSEVENä0ERFORMANCEäFORämäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
3 Abstract Stages of Execution
Instruction Fetch (Instructions fetched from memory into CPU)
Instruction Issue / Execution (Instructions executed on ALU or other functional unit)
Instruction Completion / Commit (Architectural state updated, i.e., regfile or memory)
4 Multiple Instruction Issue Processors
Multiple instructions fetched, executed, and committed in each cycle
F: In superscalar processors instructions E: are scheduled by the HW C:
In VLIW processors instructions are F: E: scheduled by the SW C:
In all cases, the goal is to exploit instruction-level parallelism (ILP)
5 Flynn’s Taxonomy
Single Instruction, Single Data (SISD) Single Instruction, Multiple Data (SIMD)
Multiple Instruction, Single Data (MISD) Multiple Instruction, Multiple Data (MIMD) Exploits instr-level parallelism (ILP)
Exploits data-level parallelism (DLP)
6 Out-of-order execution
In in-order execution, In out-of-order execution (OOO), instructions are fetched, instructions are fetched, and executed, and committed in committed in compiler, order; may be compiler order executed in some other order
F: F: One stalls, independent One stalls, instrs may they all stall proceed E: E:
Relatively Additional simple hardware HW required for C: C: reordering
Another way to exploit instruction-level parallelism (ILP)
7 Speculation
Speculation is executing an instruction before it is known that it should be executed Speculate If correct If incorrect
F: F: F:
Mis- E: E: speculation executes E: excess instructions, C: C: costing time and power
C:
8 The Memory Wall Performance CPU speeds increase approx 25-20% annually DRAM speeds increase approx 2-11% annually
Time A result of this gap is that cache design has increased in importance over the years. This has resulted in innovations such as victim caches and trace caches.
9 Modern Processor Performance
While single threaded performance has leveled, multithreaded performance potential scaling. )NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z )"-ª23 YEAR COMS 6824 0ERFORMANCEªVS6!8 -)03ª-ª -)03ª- + 3UN 6!8ª COMS 4130 6!8 YEAR 6!8 (Parallel Programming)
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALäIDEASä"Yä äTHISäGROWTHäLEDäTOä AäDIFFERENCEäINäPERFORMANCEäOFäABOUTäAäFACTORäOFäSEVENä0ERFORMANCEäFORämäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
10 )NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z 5 !-$ª!THLON ªª'(Z Area Performance Power MIPS/Watt (%) )NTELª0ENTIUMª))) ªª'(Z 4 !LPHAª! ªª'(Z 3 !LPHAª ªª'(Z 2 !LPHAª ªª'(Z
Increase !LPHAª ªª'(Z 1 !LPHAª ªª'(Z 0 Pipelined Superscalar OOO-Speculation!LPHAª! ªª'(ZDeep Pipelined -1 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z )"-ª23 YEAR
0ERFORMANCEªVS6!8 -)03ª-ª -)03ª- 3UN 6!8ª
6!8 YEAR 6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALäIDEASä"Yä äTHISäGROWTHäLEDäTOä AäDIFFERENCEäINäPERFORMANCEäOFäABOUTäAäFACTORäOFäSEVENä0ERFORMANCEäFORämäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” )NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z 5 !-$ª!THLON ªª'(Z Area Performance Power MIPS/Watt (%) )NTELª0ENTIUMª))) ªª'(Z 4 !LPHAª! ªª'(Z 3 !LPHAª ªª'(Z 2 !LPHAª ªª'(Z
Increase !LPHAª ªª'(Z 1 !LPHAª ªª'(Z 0 Pipelined Superscalar OOO-Speculation!LPHAª! ªª'(ZDeep Pipelined -1 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z )"-ª23 YEAR
0ERFORMANCEªVS6!8 -)03ª-ª -)03ª- 3UN 6!8ª
6!8 YEAR 6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALäIDEASä"Yä äTHISäGROWTHäLEDäTOä AäDIFFERENCEäINäPERFORMANCEäOFäABOUTäAäFACTORäOFäSEVENä0ERFORMANCEäFORämäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” The Power Wall
#LOCK 2ATE 0OWER 0OWER 7ATTS
#LOCK 2ATE -(Z 0ENTIUM #ORE 0RESCOTT 0ENTIUM +ENTSFIELD 0ENTIUM 0ENTIUM 7ILLAMETTE 0RO
1, Ê£°£xÊÊÊÊ VÊÀ>ÌiÊ>`Ê*ÜiÀÊvÀÊÌiÊÝnÈÊVÀ«ÀViÃÃÀÃÊÛiÀÊi} ÌÊ}iiÀ>ÌÃÊ >`ÊÓxÊÞi>ÀðÊ4HE 0ENTIUM MADE A DRAMATIC JUMP IN CLOCK RATE AND POWER BUT LESS SO IN PERFORMANCE 4HE 0RESCOTT THERMAL PROBLEMS LED TO THE ABANDONMENT OF THE 0ENTIUM LINE 4HE #ORE LINE REVERTS TO A SIMPLER PIPELINE WITH LOWER CLOCK RATES AND MULTIPLE PROCESSORS PER CHIP #OPYRIGHT Ú %LSEVIER )NC !LL RIGHTS RESERVED
12 Much of it goes back to the transistor
Source: Intel press foils Much of it goes back to the transistor
individual atoms!
Source: Intel press foils Much of it goes back to the transistor
individual atoms! = leakage current + defects Source: Intel press foils A model of power
P = Pswitch + Pleakage 2 Pswitch = Eswitch x F = (C x Vdd ) x F Pleakage = Vdd x I Voltage Scaling: DVFS + Near-Threshold Computing
[Source: Dreslinski et al.: Near-Threshold Computing: Recplaiming Moore’s Law Through Energy Efficient Integrated Circuits] Voltage Scaling: DVFS + Near-Threshold Computing
[Source: Dreslinski et al.: Near-Threshold Computing: Recplaiming Moore’s Law Through Energy Efficient Integrated Circuits] Chip Area and Power Consumption
1500 Active Power Leakage Power 1000 With leakage power dominating, power envelope to remain constant 500 power consumption roughly proportional to transistor count
0 Power Density (Watts/cm2) 90nm 65nm 45nm 32nm 22nm 16nm
Source: Shekhar Borkar (Intel)
1000
100 Pollack’s Law: Processor performance grows 10 with sqrt of area Integer Performance
1 1 10 100 1000 10000 100000 Processor Area Source: Shekhar Borkar (Intel) The Resulting Shift to Multicore
Perf = 1 Power = 1 The Resulting Shift to Multicore
Perf = 1 Perf = 2 Power = 1 Power = 4 The Resulting Shift to Multicore
Perf = 1 Perf = 2 Perf = 4 Power = 1 Power = 4 Power = 4 Sea Change in Architecture: Multicore
(4ª0(9 ªLINKª 3LOWª)/ &USES
BITª&05
,OAD ,ª$ATA K" -" 3TORE #ACHE , #OREª 3HARED , #ACHE , %XECUTION #TL #ACHE &ETCH (4ª0(9 ªLINKª $ECODE ,ª)NSTR "RANCH #ACHE $ $ 2 .ORTHBRIDGE 0 ( 9
#OREª #OREª (4ª0(9 ªLINKª
(4ª0(9 ªLINKª 3LOWª)/ &USES
&)'52%ää )NSIDEäTHEä!-$ä"ARCELONAäMICROPROCESSORä4HEäLEFT HANDäSIDEäISäAäMICROPHOTOGRAPHäOFäTHEä!-$ä"ARCELONAäPROCESSORä CHIP äANDäTHEäRIGHT HANDäSIDEäSHOWSäTHEäMAJORäBLOCKSäINäTHEäPROCESSORä4HISäCHIPäHASäFOURäPROCESSORSäORähCORESv ä4HEäMICROPROCESSORäINäTHEä LAPTOPäINä&IGUREääHASäTWOäCORESäPERäCHIP äCALLEDäANä)NTELä#OREää$UOä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
18 x86 64-bit Architecture Evolution
2003 2005 2007 2008 2009 2010
AMD AMD “Barcelona” “Shanghai” “Istanbul” “Magny-Cours” Opteron™ Opteron™
Mfg. 90nm SOI 90nm SOI 65nm SOI 45nm SOI 45nm SOI 45nm SOI Process K8 K8 Greyhound Greyhound+ Greyhound+ Greyhound+ CPU Core
L2/L3 1MB/0 1MB/0 512kB/2MB 512kB/6MB 512kB/6MB 512kB/12MB
Hyper Transport™ 3x 1.6GT/.s 3x 1.6GT/.s 3x 2GT/s 3x 4.0GT/s 3x 4.8GT/s 4x 6.4GT/s Technology
Memory 2x DDR1 300 2x DDR1 400 2x DDR2 667 2x DDR2 800 2x DDR2 1066 4x DDR3 1333
Max Power Budget Remains Consistent
3 | The AMD “Magny-Cours” Processor | Hot Chips | August 2009
[Source: HotChips ‘09] 19 Tick%Tock'Development'Model
Sandy Merom Penryn Nehalem Westmere Bridge
NEW NEW NEW NEW NEW Microarchitecture 1 Process Microarchitecture Process Microarchitecture 65nm 45nm 45nm 32nm 32nm
TOCK TICK TOCK TICK TOCK
Forecast
Nehalem-EX Architecture All products, dates, and figures are preliminary and are subject to change without notice. 6 Hot Chips 2009
[Source: HotChips ‘09] 20 Nehalem'Core/Uncore'Modularity
C C C O O O Core R R R E E … E
L3 Cache DRAM Uncore Power … IM QPI … QPI & C Clock QPI … Common%core%for%client%and%server%CPUs – http://www.intel.com/technology/architecture