内容发布更新时间 : 2024/12/23 23:41:07星期一 下面是文章的全部内容请认真阅读。
+B)×C地最后结果放在V7中,D+E地中间结果放在V8中,(D+E)×F的最后结果放在V9中。具体实现参考下图:
V0AV1BV6V2CV7向量加向量乘V3DV4EV8V5FV9
通过时间应该为前者((A+B)×C)通过的时间:
T通过= (1+2+1)+(1+3+1) =9(拍)
(2)在做完(A+B)×C之后,作(C+D)×E就不需要通过时间了。
V6←A+B
V7←V6×C V8←D+E
T?T通过+(8-1)?8?24(拍)?1200(ns)32TP??26.67MFLOPSTV9←V8×F
第4章 指令级并行
4.1解释下列术语
指令级并行:简称ILP。是指指令之间存在的一种并行性,利用它,计算机可以并行执行两条或两条以上的指令。
指令调度:通过在编译时让编译器重新组织指令顺序或通过硬件在执行时调整指令顺序来消除冲突。
31
指令的动态调度:是指在保持数据流和异常行为的情况下,通过硬件对指令执行顺序进行重新安排,以提高流水线的利用率且减少停顿现象。是由硬件在程序实际运行时实施的。
指令的静态调度:是指依靠编译器对代码进行静态调度,以减少相关和冲突。它不是在程序执行的过程中、而是在编译期间进行代码调度和优化的。
保留站:在采用Tomasulo算法的MIPS处理器浮点部件中,在运算部件的入口设置的用来保存一条已经流出并等待到本功能部件执行的指令(相关信息)。
CDB:公共数据总线。
动态分支预测技术:是用硬件动态地进行分支处理的方法。在程序运行时,根据分支指令过去的表现来预测其将来的行为。如果分支行为发生了变化,预测结果也跟着改变。
BHT:分支历史表。用来记录相关分支指令最近一次或几次的执行情况是成功还是失败,并据此进行预测。
分支目标缓冲:是一种动态分支预测技术。将执行过的成功分
32
支指令的地址以及预测的分支目标地址记录在一张硬件表中。在每次取指令的同时,用该指令的地址与表中所有项目的相应字段进行比较,以便尽早知道分支是否成功,尽早知道分支目标地址,达到减少分支开销的目的。
前瞻执行:解决控制相关的方法,它对分支指令的结果进行猜测,然后按这个猜测结果继续取指、流出和执行后续的指令。只是指令执行的结果不是写回到寄存器或存储器,而是放到一个称为ROB的缓冲器中。等到相应的指令得到“确认”(即确实是应该执行的)后,才将结果写入寄存器或存储器。
ROB:ReOrder Buffer。前瞻执行缓冲器。
超标量:一种多指令流出技术。它在每个时钟周期流出的指令条数不固定,依代码的具体情况而定,但有个上限。
超流水:在一个时钟周期内分时流出多条指令。
超长指令字:一种多指令流出技术。VLIW处理机在每个时钟周期流出的指令条数是固定的,这些指令构成一条长指令或者一个指令包,在这个指令包中,指令之间的并行性是通过指令显式地表示出来的。
33
循环展开:是一种增加指令间并行性最简单和最常用的方法。它将循环展开若干遍后,通过重命名和指令调度来开发更多的并行性。
4.2 简述Tomasulo算法的基本思想。
答:核心思想是:① 记录和检测指令相关,操作数一旦就绪就立即执行,把发生RAW冲突的可能性减小到最少;② 通过寄存器换名来消除WAR冲突和WAW冲突。寄存器换名是通过保留站来实现,它保存等待流出和正在流出指令所需要的操作数。
基本思想:只要操作数有效,就将其取到保留站,避免指令流出时才到寄存器中取数据,这就使得即将执行的指令从相应的保留站中取得操作数,而不是从寄存器中。指令的执行结果也是直接送到等待数据的其它保留站中去。因而,对于连续的寄存器写,只有最后一个才真正更新寄存器中的内容。一条指令流出时,存放操作数的寄存器名被换成为对应于该寄存器保留站的名称(编号)。
4.3 根据需要展开下面的循环并进行指令调度,直到没有任何延迟。指令的延迟如表4.4。
LOOP:
L.D F0,0(R1) F0,F0,F2
MUL.D L.D F4,0(R2)
34
ADD.D S.D F0,0(R2) DSUBI DSUBI BNEZ
F0,F0,F4 R1,R1,#8 R2,R2,#8 R1,LOOP
解:将循环展开两次,进行指令调度,即可以消除延迟,代码如下:
LOOP: L.D F0,0(R1)
L.D F10,-8(R1) MUL.D F0,F0,F2 MUL.D F10,F10,F2 L.D F4,0(R2) L.D F14,-8(R2) ADD.D F0,F0,F4 ADD.D F10,F10,F14 DSUBI R1,R1,16 S.D 0(R2),F0 DSUBI R2,R2,16 BNEZ R1,LOOP S.D 8(R2),F10
4.4 假设有一条长流水线,仅仅对条件转移指令使用分支目标缓冲。假设分支预测错误的开销为4个时钟周期,缓冲不
35