计算机系统结构__《张晨曦、王志英》课后习题参考答案 下载本文

内容发布更新时间 : 2024/5/3 4:17:25星期一 下面是文章的全部内容请认真阅读。

命中的开销为3个时钟周期。假设:命中率为90%,预测精度为90%,分支频率为15%,没有分支的基本CPI为1。 (1) 求程序执行的CPI。

(2) 相对于采用固定的2个时钟周期延迟的分支处理,哪种方法程序执行速度更快?

解:(1)程序执行的CPI = 没有分支的基本CPI(1) + 分支带来的额外开销

分支带来的额外开销是指在分支指令中,缓冲命中但预测错误带来的开销与缓冲没有命中带来的开销之和。

分支带来的额外开销= 15% * (90%命中×10%预测错误×4 + 10%没命中×3)= 0.099

所以,程序执行的CPI = 1 + 0.099 = 1.099

(2)采用固定的2 个时钟周期延迟的分支处理CPI = 1 + 15%×2 = 1.3

由(1)(2)可知分支目标缓冲方法执行速度快。

4.5 假设分支目标缓冲的命中率为90%,程序中无条件转移指令的比例为5%,没有无条件转移指令的程序CPI值为1。假设分支目标缓冲中包含分支目标指令,允许无条件转移指令进入分支目标缓冲,则程序的CPI值为多少?

解:设每条无条件转移指令的延迟为x,则有:

1+5%×x=1.1

x=2

36

当分支目标缓冲命中时,无条件转移指令的延迟为0。 所以 程序的CPI = 1 + 2 × 5% ×(1 -90%) =1.01

4.6 下面的一段MIPS汇编程序是计算高斯消去法中的关键一步,用于完成下面公式的计算:

Y = a ? X + Y

其浮点指令延迟如表4.3所示,整数指令均为1个时钟周期完成,浮点和整数部件均采用流水。整数操作之间以及与其它所有浮点操作之间的延迟为0,转移指令的延迟为0。X中的最后一个元素存放在存储器中的地址为DONE。

FOO:

L.D

F2,0(R1) F4,F2,F0 F6,F4,F6 R1,R1,#8 R2,R2,#8

DSUBIU R3,R1,#DONE

BNEZ

R3, FOO

(1) 对于标准的MIPS单流水线,上述循环计算一个Y值需要多少时间?其中有多少空转周期?

(2) 对于标准的MIPS单流水线,将上述循环顺序展开4次,不

37

MUT.D ADD.D DADDIU DADDIU

L.D F6,0(R2) S.D F6,0[R2]

进行任何指令调度,计算一个Y值平均需要多少时间?加速比是多少?其加速是如何获得的?

(3) 对于标准的MIPS单流水线,将上述循环顺序展开4次,优化和调度指令,使循环处理时间达到最优,计算一个Y值平均需要多少时间?加速比是多少?

(1) 对于采用如图4.8前瞻执行机制的MIPS处理器(只有一个整数部件)。当循环第二次执行到

BNEZ R3,FOO

时,写出前面所有指令的状态,包括指令使用的保留站、指令起始节拍、执行节拍和写结果节拍,并写出处理器当前的状态。

(2) 对于2路超标量的MIPS流水线,设有两个指令流出部件,可以流出任意组合的指令,系统中的功能部件数量不受限制。将上述循环展开4次,优化和调度指令,使循环处理时间达到最优。计算一个Y值平均需要多少时间?加速比是多少?

(3) 对于如图4.13结构的超长指令字MIPS处理器,将上述循环展开4次,优化和调度指令,使循环处理时间达到最优。计算一个Y值平均需要多少时间?加速比是多少? 解:(1)

L.D F2, 0(R1) 1 Stall

38

MUT.D F4, F2, F0 2

L.D F6, 0(R2) 3 Stall Stall ADD.D Stall

S.D F6, 0[R2] 5

DADDIU DADDIU BNEZ

R1, R1, #8 6 R2, R2, #8 7

DSUBIU R3, R1, #DONE 8

R3, FOO 9 F6, F4, F6 4

Stall

所以,共有14 个时钟周期,其中有5 个空转周期。 (2)循环顺序展开4 次,不进行任何指令调度,则指令1~5 及其间的stall 都是必要的,只是指令6~9 只需执行一次,因此,共有 10 × 4 + 4 = 44 个时钟周期,计算出4 个Y 值,所以计算一个Y 值需要11 个时钟周期,加速比为:14/11 = 1.27 。加速主要是来自减少控制开销,即减少对R1、R2 的整数操作以及比较、分支指令而来的。

(3)循环顺序展开4 次,优化和调度指令,如下:

L.D F2, 0(R1) L.D F8, 8(R1)

39

L.D F14, 16(R1) L.D F20, 24(R1)

MUT.D F4, F2, F0 MUT.D F10, F8, F0 MUT.D F16, F14, F0 MUT.D

F22, F20, F0

L.D F6, 0(R2) L.D F12, 8(R2) L.D F18, 16(R2) L.D F24, 24(R2) ADD.D F6, F4, F6 ADD.D F12, F10, F12 ADD.D F18, F16, F18 ADD.D

F24, F22, F24

S.D F6, 0[R2] S.D F12, 8[R2] S.D F18, 16[R2] S.D F24, 24[R2] DADDIU R1, R1, #32 DADDIU R2, R2, #32 DSUBIU R3, R1, #DONE

BNEZ

R3, FOO

共用了24 个时钟周期,则计算一个Y 值平均需要 24/4 =

40