· 108 ·

DOI: 10. 13382/j. jemi. B2306277

## 基于故障感知容错路由算法的可重构架构设计\*

欧阳一鸣1 陈荣景1 王 奇2 梁华国2

(1. 合肥工业大学计算机与信息学院 合肥 230009;2. 合肥工业大学电子科学与应用物理学院 合肥 230009)

摘 要:当路由器发生永久性故障时会影响网络的通信性能,现有的容错方法大多都是采用重路由策略,绕行路径的不确定性 不仅会带来较长的绕行延迟甚至故障节点周围形成热点导致死锁。针对二维网状网络中的各种故障情况,设计了一种新的路 由器架构——DRRA,通过添加的组件将不同的输入端口和输出端口连接起来,并定义了3种不同的具体连接方式,当数据包遇 到故障节点时,会根据具体故障位置及路由信息选择合适方式直接绕过该故障节点,保证网络的连接性。实验结果表明,本文 所提出的方案与其他容错方案性比不会产生过多的硬件开销,并且在网络存在多个故障节点的情况下保持良好的性能和可靠 性。在热点流量模式下,本文提出的方案与 ReRS 方案相比可以降低 57.4%的平均数据包传输延迟,与 MiCoF 相比可以降低 38.9%的平均数据包传输延迟。

关键词:片上网络;容错;可重构;路由算法

中图分类号: TP302 文献标识码: A 国家标准学科分类代码: 510.3040

# Reconfigurable architecture design based on fault-aware fault-tolerant routing algorithm

Ouyang Yiming<sup>1</sup> Chen Rongjing<sup>1</sup> Wang Qi<sup>2</sup> Liang Huaguo<sup>2</sup>

(1. School of Computer and Information, Hefei University of Technology, Hefei 230009, China;

2. School of Electronic Science and Applied Physics, Hefei University of Technology, Hefei 230009, China)

Abstract: Network communication performance will be affected when permanent fault occurs, most of the existing fault tolerant methods use re-routing strategies, the uncertainty of the bypass selection can bring longer delays or even form hotspots around the failed node leading to deadlocks. In this paper, a new router architecture, DRRA, is proposed to address various failure cases in 2D mesh NoC. The different input and output ports are connected by the added components and three different connect methods are defined, when packets encounter a faulty node, it will select the appropriate method to directly bypass the faulty node based on the specific fault location and routing information to ensure the connectivity of the network. The experimental results show that compared with other fault-tolerant schemes, the proposed method has good performance and reliability in the presence of multiple failed nodes in the network and does not bring excessive hardware overhead. In the hotspot traffic mode, the proposed scheme in this paper can reduce the average packet transmission delay by 57. 4% compared with the ReRS scheme and 38. 9% compared with MiCoF.

Keywords: network-on-chip (NoC); fault tolerant; reconfigurable; routing algorithm

## 0 引 言

深亚微米技术的快速发展,使得集成电路的制造工 艺得到不断进步,单个芯片上集成数十亿甚至于数百亿 个晶体管和数百个处理器内核成为可能<sup>[1]</sup>。然而,由于 缺乏一定的可扩展性,传统的基于总线的通信方案已经 无法满足芯片上的通信要求<sup>[2]</sup>。片上网络(network-onchip, NoC)作为一种全新集成电路体系结构,由于其可 扩展性强、可重用性好和并行性高等特点,已取代传统的 基于总线的片上系统,成为多处理器片上系统(multiprocessor system-on-chip, MPSoC)中很有前途的互连

<sup>\*</sup>基金项目:国家自然科学基金(61874157,61674048)项目资助

方式[3-5]。

片上网络中故障发生的可能性受各种消极因素影响 而不断增加,网络的整体性能也会因故障节点的存在而 变差,因此容错也逐渐成为 NoC 设计的一个挑战<sup>[69]</sup>。 故障基本上可以分为两种类型:"硬故障"和"软故障"。 硬故障大多是由物理损坏或工作寿命有限引起的;软故 障通常是由过热、过载或被其他应用程序使用引起 的<sup>[10]</sup>。故障可能发生在网络的不同位置中,当处理器核 心发生故障时,与其相连接的路由器具备正常路由功能, 数据包可以正常通过路由器到达目的节点;当路由器内 部组件,如缓冲区或者交叉开关发生故障时,不仅该路由 器连接的核心无法正常接收或发送数据包,并且来自相 邻路由器的数据包也无法通过该故障路由器传输至目的 节点,这严重影响了网络的整体性能。

自适应路由算法通过在网络中为数据包提供多条路 由路径,保证数据包可以选择一条最合适的路径降低提 供拥塞或故障区域的概率,保证故障存在时网络的整体 性能。Masoumeh 等<sup>[11]</sup>提出了一种完全自适应路由算 法,通过在X维度和Y维度使用一个或两个虚通道,在不 同的网络(XY网络、Double-X网络、Double-Y网络)中,当 源节点和目标节点位于同一行或同一列时,使用非最小 路径绕过故障。在其他情况下,从源节点到目标节点只 采用最短路径。通过这种方法,只要存在一条路径,所有 数据包都可以通过网络进行路由。Valinataj 等<sup>[12]</sup>提出了 一种可重构的容错路由算法,可以在沿 X 维和 Y 维使用 两个虚拟通道的情况下,可以简单有效地容忍网状网络 中的两个故障链路或路由器。该算法的主要思想是通过 故障路由器周围的无周期轮廓来路由数据包,每个路由 器被告知周围8个直接和间接相邻路由器的故障或健康 状态,并通过对每个故障路由器的4条周围链路进行建 模,将其扩展到容忍故障路由器和区域。该方法可以结 合不同的拥塞感知方法来自适应地分配拥塞流量,尤其 是由故障组件引起的拥塞。

然而,上述容错路由算法都依赖迂回策略,存在两个 主要缺点:1)数据包重新路由所选择的路径是不确定的, 可能会选择较长的路径产生更高的绕行延迟;此外还可 能形成死锁对网络性能产生消极影响2)由于对故障数 量和位置的严格限制,路由算法只能容忍特定的故障 模式。

为了保证存在故障节点的情况下网络的整体连接 性,避免故障节点形成"网络孤岛",对性能产生消极影 响,本文提出了一种适用于二维网状网络的容错方法。 在该方法中,对基础路由器架构进行修改设计了一种全 新的路由器架构—DRRA:首先在路由器内部添加了一 个故障检测单元判断网络中路由器故障情况;然后通过 连线将不同的输入端口和输出端口连接起来:最后添加 了可重构旁路控制单元,根据故障信息和路由信息来选择合适的旁路连接方式,保证数据包可以绕过故障路由器。该文的主要贡献如下:

1)设计了一种新颖的路由器架构—DRRA,通过添加的相应组件,可以保证数据包能够以最短路径到达目的节点;

2)提出了一种适用于所提出 DRRA 路由器架构的 故障感知容错路由算法(fault-aware fault-tolerant routing algorithm, FFRA),当二维网状片上网络中存在故障节点 时,该算法可以根据通信要求和具体故障位置选择合适 的旁路连接方式来容忍故障;

3)FFRA 算法只需要了解数据包未来两跳内路径上路由器故障状况,并不用完全了解整个网络的故障分布情况,因此不会产生过多的开销。

## 1 动 机

当网络存在故障节点时,自适应路由算法会为数据 包选择绕行路径绕过故障区域,但路径的随机性可能会 带来较高的绕行延迟甚至产生死锁。此外,对路由器架 构进行修改,也能提供不错的容错性<sup>[13-15]</sup>。Ebrahimi<sup>[13]</sup> 提出了一种最小路径容错方法——MiCoF,该方法将特 定方向上的链路进行连接,保证数据包可以绕过故障路 由器通过预定路径到达目的节点。如图1所示,一旦 MiCoF 路由器发生故障,那么东(西)的输入通道直接连 接到到西(东)的输出通道。同理,北边(南)的输入直接 连接到南(分别是北)的输出通道,保证数据包绕过故障 路由器。然而,该方法只能将故障节点的水平链路或者 垂直链路进行连接,无法处理特定的故障情况。例如在 图 2 中,当有数据包需要从 R0 传输到 R4 时,由于路径 上的路由器 R1 和 R3 存在故障,采用 MiCoF 方案无法完 成数据包通信要求。此外,在 MiCoF 方法中,这些旁路是 静态的,无法适应网络中流量变化。因此,为了容忍更为 复杂的故障情况并更好的适应流量变化,本文对 MiCoF 路由器架构进行重新修改,设计了 DRRA 路由器,并增加 了一个与之匹配的容错路由算法,保证数据包在网络中 的连接性。





图 2 MiCoF 路由器架构 Fig. 2 MiCoF router architecture

## 2 本文方案

本节将介绍所设计的 DRRA 路由器及 FFRA 路由算法,与其他的容错方案相比,本文方案能够为数据包提供路径上未来两跳的路由器故障状态及故障容忍方案,保证数据包能够以最短路径到达目的节点。

## 2.1 DRRA 路由器架构

本文设计的 DRRA 路由器架构如图 3 所示,其中基础路由器架构包括路由计算单元(routing computation, RC)、Buffer、虚通道分配器(virtual channel allocator, VA)、交叉开关仲裁器(switch arbitration, SA)和交叉开关(switch)。本文在基础路由器架构的基础上,通过相应

的布线将4个不同反向上的输入端口与输出端口连接起来;在路由器内部添加了故障反馈(fault test,FT)模块, 主要负责判断网络中的故障情况并将所接收到的故障信 息发送给可重构旁路控制单元;左侧是添加的可重构旁 路控制单元(reconfigurable bypass control, RBC),该单元 主要负责选择合适的旁路连接方式保证数据包绕过故障 路由器,主要包括旁路选择(bypass selection,BS)模块和 编码器模块:BS模块根据接收到的故障信号,动态地调 整旁路连接方式,确保数据包能够直接绕过故障路由器 并以最短路由路径到达目的节点;编码器则是将旁路选 择信号发送给路由器,路由器随后建立相应的旁路。其 中,根据故障节点在网络中的位置,本文设计了3种旁路 连接方式,在后文会详细介绍。



Fig. 3 DRRA router architecture

#### 2.2 故障检测

数据包发送到目的节点之前,需要了解路由路径上 的路由器是否存在故障,当路由器被检测出故障时,FT 单元会向上游路由器的 RBC 单元发送一个前瞻故障信 号。本文采用的是 Krishnendu 等<sup>[16]</sup> 所设计的故障检测 方法,首先根据邻居路由器数量将网络中的路由器集划 分成多个子集,其中相同邻居数量的路由器划为同一子 集;然后选择任意一个无故障的路由器视为源路由器,将 测试数据包从源路由器转发给邻居路由器,由于同一子 集的路由器可以共享测试数据包,这些测试数据包随后 会被发送到网络中其他的受测路由器:当所有的测试数 据包发送完毕后,如果能够通过原路径回到源路由器,便 说明受测路由器不存在故障。在图 2 中,选择路由器 R7 作为源路由器,在第1个单播步骤中,向邻居路由器 R6、 R8 发送测试数据包 P1,然后在经过两个单播步骤后,P1 会发送到路由器 R0、R2:同样的, R7 会向路由器 R4 发送 测试数据包 P2,向路由器 R3、R5 发送测试数据包 P3;最 后这些测试数据包会选择通过原路径发回路由器 R7。 经过该故障检测方法,图 2 中路由器 R1 和 R3 为故障路 由器不具备正常路由功能。

## 2.3 可重构旁路控制

当位于网络中央的路由器发生故障时,根据路由信 息本文所提出的方案有3种旁路连接方式保证数据包绕 过故障路由器。图4是本文提出的3种旁路连接方式: 图4(a)中将东西方向、南北方向的输入输出端口连接, 建立 N-S、W-E 旁路恢复数据包在相应方向上路由器间 的通信;图4(b)中将东北方向、西南方向的输入输出端 口连接,建立 N-E、S-W 旁路恢复数据包在相应方向上路 由器间的通信;图4(c)中将东南方向、西北方向的输入 输出端口连接,建立 N-W、S-E 旁路恢复数据包在相应方 向上路由器间的通信。



当网络中存在故障节点时,RBC 单元会根据数据包 通信要求动态地建立旁路,保证数据包直接绕过故障路 由器避免被错误路由。如此一来,在不同的流量模式下, 网络在不同的时间可能具有不同的拓扑结构。

#### 2.4 FFRA 算法

基于所提出的 DRRA 路由器架构,当网络中存在故

障时,本文提出了一种故障感知容错路由算法(faultaware fault-tolerant routing algorithm,FFRA)。首先根据数 据包的路由信息为其设置了预定的路由路径;若路径上 存在故障节点,则需要根据故障信息设置不同的旁路连 接方式保证数据包通过最短路径绕过故障路由器。与其 他的路由算法不同,FFRA 为每个路由器配备了两跳前 瞻故障信息,数据包路由路径上的路由器只需要了解下 两跳邻居路由器的故障信息,避免在整个网络中收集故 障信息而造成不必要的开销。算法的伪代码如算法1所 示。算法在网络存在单个故障和两个故障时的具体步骤 如下:

1)首先判断目的节点是否为本地节点,若为本地节 点,则直接弹出至本地核心,否则进入下一步;

2)如果目的节点和源节点位于同一列,若路径上不存在故障则选择 Y 方向进行路由,否则为路径上的故障 节点选择连接方式1;

3)如果目的节点和源节点位于同一行,若路径上不存在故障则选择 X 方向进行路由,否则为路径上的故障 节点选择连接方式1;

4)如果目的节点位于源节点东北侧或者西南侧,则 先选择 X 方向进行路由,若 X 方向存在故障,则为其选 择连接方式 3,若 Y 方向上存在故障,则为其选择连接方 式 1;

5)如果目的节点位于源节点东南侧或者西北侧,则 先选择 *Y*方向进行路由,若 *Y*方向存在故障,则为其选择 连接方式 2,若 *X*方向上存在故障,则为其选择连接方 式 1。

| 算法 1: FFRA routing algorithm                                                                                        |
|---------------------------------------------------------------------------------------------------------------------|
| Input:                                                                                                              |
| $X_c$ , $Y_c$ : X and Y of current node;                                                                            |
| $X_d$ , $Y_d$ : X and Y of destination node;                                                                        |
| $\Delta x : X_d - X_c;$                                                                                             |
| $\Delta y$ : $Y_d - Y_c$ ;                                                                                          |
| ngbr: Neighbor direction node status;                                                                               |
| Mode 1: build North-South&&West-East bypass;                                                                        |
| Mode 2: build West-South&&East-North bypass;                                                                        |
| Mode 3: build West-North&&East-South bypass.                                                                        |
| Output:                                                                                                             |
| Sel: Current node output direction selection;                                                                       |
| Exe: Current node bypass mode selection.                                                                            |
| xx                                                                                                                  |
| if $\{\Delta x = 0 \&\& \Delta y = 0\}$ then $\{\text{Sel} = \text{local}\}$                                        |
| else { if { $\Delta x = 0$ } then { Sel = $Y$ -dir ; }                                                              |
| if $\{ ngbr(Y-dir) \text{ is faulty } \}$ then $\{ Exe(Mode 1); \} \}$                                              |
| else { if $\{\Delta y = 0\}$ then { Sel = X-dir ; }                                                                 |
| if $\{ \operatorname{ngbr}(X-dir) \text{ is faulty } \}$ then $\{ \operatorname{Exe}(\operatorname{Mode} 1); \} \}$ |
| else { if { $(\Delta x > 0\&\&\Delta y > 0)$    $(\Delta x < 0\&\&\Delta y < 0)$ } then { Sel = X                   |
| -dir;                                                                                                               |
| if $\{ ngbr(X-dir) \text{ is faulty} \}$ then $\{ Exe(Mode 3); \}$                                                  |
| if $\{ ngbr(Y-dir) \ is \ faulty \} \ then \{ Exe(Mode 1); \} \}$                                                   |
| else   if { $(\Delta x > 0 \& \Delta y < 0) \parallel (\Delta x < 0 \& \Delta y > 0)$ } then { Sel = Y-             |
| dir ;}                                                                                                              |
| if $\{ngbr(Y-dir) \text{ is faulty}\}$ then $\{Exe(Mode 2);\}$                                                      |
| if $\{ ngbr(X-dir) is faulty \}$ then $\{ Exe(Mode 1); \} \}$                                                       |

图 5 是 FFRA 算法解决网络中单个故障的实例,可 以看到 FFRA 路由算法能够以 100% 的可靠性容忍任何 单一故障,同时保证了网络的无死锁。可靠性是通过计 算成功到达目的节点的数据包数量与从源节点发送的数 据包总数的比率得到。图 5(a)和(b)分别表示 X 方向 和 Y 方向直行数据包的 FFRA 路由策略,当路径上有故 障节点时,会根据模式 1 建立绕过故障节点的 N-S、E-W 旁路。图 5(c)和(d)则分别代表向东北方向和西南方向路由数据包路由方案,数据包首先在 *X* 方向进行路由,当在 *X* 方向上遇到故障节点,根据模式 3 建立 N-W、E-S 旁路绕过路由节点。图 5(e)和(f)则分别代表向东南方向和西北方向路由数据包路由方案,数据包首先在 *Y* 方向进行路由,当在 *Y* 方向上遇到故障节点,根据模式 2 建立 N-E、W-S 旁路绕过路由节点。





当网络中存在多个故障时,FFRA 算法依旧有很好 的表现,图6是该算法容忍双故障的示例。在图6(a)、 (b)中,源节点与目的节点位于同一行或同一列,当路径 中存在两个故障节点时,根据方式1为故障节点建立 N-S、W-E 旁路保证数据包直接跳过故障节点。输到目的节 点。在图 6(c) 中, 目的节点位于源节点的东北方向, 路 由路径上东方向和北方向都存在故障节点。在 MiCoF 中,数据包只能选择其他两个无故障方向上的正常路由 器重新路由数据包,这将产生更高的延迟。在 FFRA 路 由算法中,只需要根据模式3为东向故障节点邻居建立 W-N 和 E-S 旁路,数据包便能以最短路径到达目的地。 在图 6(d)中,目的节点位于源节点和目的节点的西北方 向,路由路径上西方向和北方向上都存在故障节点,同样 的采用模式 2 为西方向的故障节点建立 N-W 和 W-S 旁 路,保证数据包通过故障节点。在图 6(e)中,路径上东 方向和东北方向都存在故障节点,根据 FFRA 路由算法

需要分别为这两个故障节点建立 N-W、E-S 旁路和 N-S、 E-W 旁路。

## 2.5 死锁避免

在该为了避免发生死锁,本文采用了图 7 所示的 Double Y 网络,在 X 维和 Y 维分别使用 1 个和 2 个 VCs。 网络中,每个路由器包含 7 对虚通道,即东(E)、西(W)、 南 VC1(S1)、南 VC2(S2)、北 VC1(N1)、北 VC2(N2)和 本地(L),并使用以下方法来避免死锁:首先将网络划分 成两个子网络,根据位置分别记为+X 和-X,子网络+X 使用 Y 维的虚通道 VC1,子网络-X 使用 Y 维的第 2 个虚 通道 VC2;然后,向东方向的数据包通过+X 子网络进行 路由,向西方向的数据包通过-X 子网络进行路由。此 外,由于本文采用的路由算法保证在拓扑重构的过程中 路由路径不会发生变化,因此动态可重构过程<sup>[17]</sup>并不会 导致死锁发生。



图 6 FFRA 算法容忍双故障示例

Fig. 6 Example of FFRA algorithm tolerating double faults



# 于做出决策,另一个周期用于在所需模式下配置路由器。

## 表1 实验参数配置

## Table 1 Experimental parameters configuration

| 设置      | 参数              |
|---------|-----------------|
| 拓扑结构    | 8×8 Mesh        |
| 交换技术    | 虫孔路由            |
| 数据包大小   | 5~10 flits      |
| Flit 大小 | 32 bits         |
| 预热时间    | 1 000 cycles    |
| 执行时间    | 10 000 cycles   |
| 流量模式    | Uniform Hotspot |
|         |                 |

## 3.2 性能分析

图 8 是在均匀随机流量模式下 3 种方案的平均延迟 分析。仿真结果表明,在网络中只有单个故障节点时, FFRA 的平均延迟低于 ReRS,但比 MiCoF 的平均延迟要 高。这是因为通信的数据包大多为直行数据包不需要转 弯,在遇到故障节点时可以通过 N-S、W-E 旁路绕过故障 节点,因此本文路由器所设计的可重构旁路于 MiCoF 提 供的静态路由路径相比不能发挥自身优势。当故障数量 增加时本文方案开始表现出预想的优势,与其他两种方 案相比具有更低的平均传输延迟。这是因为故障位置的 随机性导致其他两种方案也无法体现容错能力,只能选 择绕行到达目的节点,便会产生更高的延迟;而本文方案 通过选择合适的连接模式可以有效地避免这种情况。这

## 3 实验与分析

## 3.1 实验配置

本文采用了周期精确的模拟器 NoXim<sup>[18]</sup>对 8×8 的 2D Mesh 网络进行了模拟,对比了其他两种不同的方案: 基于最短路径的容错方法<sup>[16]</sup>(MiCoF)、可重构路由用于 容忍故障交换机<sup>[19]</sup>(ReRS),并且在均匀流量模式以及 热点流量模式下对网络的平均延迟、可靠性做出实验分 析,为了避免实验结果的随机性,本文在不同流量模式下 分别进行了 50 次仿真并取平均值。具体实验参数如表 1 所示。假设重新配置需要两个额外的周期,一个周期用 种改进是从通信的角度来看的,而整个系统的性能将因 网络故障的增加而明显降低。



Fig. 8 Average latency comparison in uniform mode

在 8×8 的 2D Mesh 网络中,本文随机选择 4 个节点 作为热点,这些节点可以额外接收 25%的流量。图 9 是 在热点流量模式下 3 种方案的平均延迟对比情况,从图 中可以看出,在相同条件下,相比其他两种方案,FFRA 具有更好地表现,显著地降低了平均延迟。FFRA 方案 中数据包可以更好地通过故障区域,通过可重构旁路绕 过故障路由器以最短的路径到达目的节点。



Fig. 9 Average latency comparison in hotspot mode

#### 3.3 可靠性分析

为了分析 3 种方案在不同故障率下的可靠性,即成 功到达目的节点的数据包数量与从源节点发送的数据包 总数的比值,在均匀流量模式下,在 8×8 的 Mesh 网络中 将故障节点的数量从 1 个逐渐增加到 6 个并用一个随机 函数来确定故障节点在网络中的位置,得到的实验结果 实验结果如图 10 所示。从图中可以看到,当网络中只存 在单个故障节点时,3 种方案都拥有 100% 的可靠性;随 着故障节点数量的增加,FFRA 依旧可以保持 100% 的可 靠性,MiCoF 的可靠性会逐渐减低,当网络中存在 3 个或 者更多故障节点时,ReRS 的可靠性显著下降,最低跌 至 0。

### 3.4 面积和功耗分析

为了评估面积与功耗开销,本文采用 Synopsys 公司的 Design Compiler 工具,通过 Verilog HDL 语言描述路由



图 10 均匀流量模式下 8×8Mesh 中网络可靠性评估 Fig. 10 Network reliability evaluation in 8×8 Mesh in uniform traffic pattern

器硬件架构<sup>[20-21]</sup>,在 ModelSim 上进行了功能仿真。在 TSMC 65 nm 工艺下分别对 ReRS<sup>[19]</sup>、MiCoF<sup>[16]</sup>、FFRA 这 3 种方案进行功耗和面积分析,得到的结果如表 2 所示。 FFRA 的面积开销比另外两种方案都要高,这是因为其 中 ReRS 没有使用 VC,MiCoF 在 Y 维度上使用 1 个 VC, FFRA 在 Y 维度上使用 2 个 VCs,;在功耗方面,FFRA 也 有一定的增加,这主要是由所添加的 RBC 单元和 FT 单 元在运行时产生的。考虑到该文方案带来的整体性能优 势,所增加的额外面积、功耗开销和路由器间布线开销所 带来的影响是可以接受的。

表 2 路由器的硬件开销 Table 2 Router hardware overhead

| 实验方案  | 面积开销/mm <sup>2</sup> | 功耗/W |
|-------|----------------------|------|
| ReRS  | 6. 513               | 2.10 |
| MiCoF | 6.886                | 2.40 |
| FFRA  | 7.265                | 2.76 |

## 4 结 论

受到各种消极因素的影响,NoC中故障发生的可能 性也随之增加,传统的容错方案一方面可能产生更高的 传输延迟,另一方面可能只能容忍特定的故障模式。为 了解决这一问题,本文提出了一种新颖的可重构架构 DRRA,通过在路由器端口处的修改数据包能够绕过故 障节点避免被错误的路由;同时设计了与之匹配的路由 算法 FFRA,可以动态地选择旁路连接方式保证在各种故 障模式下的高可靠性。实验结果表明,该文方案在可接 受的硬件及功耗开销下,在均匀流量模式和热点流量模 式下相较于 ReRS 方案和 MiCoF 方案平均延迟得到显著 降低,并且在不同故障模式下都拥有良好的可靠性。

## 参考文献

[1] MORGAN A A, HASSAN A S, EL-KHARASHI M W, et al. NoC<sup>2</sup>: An efficient interfacing approach for heavily-

communicating NoC-based systems [J]. IEEE Access, 2020(8):185992-186011.

- THAKKAR I G, CHITTAMURU S V R, PASRICHA S. Run-time laser power management in photonic NoCs with on-chip semiconductor optical amplifiers [C]. 2016 Tenth IEEE/ACM International Symposium on Networkson-Chip (NOCS), 2016(10): 1-4.
- [3] 朱爱军,陈端勇,许川佩. 光片上网络 MRR 故障检测方法研究 [J]. 电子测量与仪器学报, 2017, 31(8):1200-1206.
  ZHU AI J, CHEN D Y, XU CH P. Research on MRR fault detection method for optical on-chip networks [J]. Journal of Electronic Measurement and Instrumentation,
- [4] CHEN H, CHEN P, ZHOU J, et al. ArSMART: An improved SMART NoC design supporting arbitrary-turn transmission[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2021, 41(5):1316-1329.

2017, 31(8):1200-1206.

[5] 欧阳一鸣, 王世杰, 王奇. NoC 中基于数据包分类的 功率门控策略[J]. 电子测量与仪器学报, 2022, 36(6):152-160.

> OUYANG Y M, WANG SH J, WANG Q. Packet classification-based power gating strategy in NoC [J]. Journal of Electronic Measurement and Instrumentation, 2022, 36(6):152-160.

- [6] SAMALA J, VEDA B P, SOUMYA J, et al. Reinforcement learning based fault-tolerant routing algorithm for mesh based NoC and its FPGA implementation [J]. IEEE Access, 2022, 10: 44724-44737.
- [7] KHODADADI E, BAREKATAIN B, YAGHOUBI E.
   FT-PDC: An enhanced hybrid congestion-aware fault-tolerant routing technique based on path diversity for 3D NoC[J]. The Journal of Supercomputing, 2021, 78(1): 523-558.
- [8] 欧阳一鸣,陈志谋,王奇,等. WiNoC 中基于 Edge-first 算法的流量平衡设计[J]. 电子测量与仪器学报,2021,35(1):62-73.
   OUYANG Y M, CHEN ZH M, WANG Q, et al. Edge-

first based traffic load balance design in WiNoC [J]. Journal of Electronic Measurement and Instrumentation, 2021, 35(1):62-73.

- [9] OUYANG Y M, WANG Q, RU M X, et al. A novel lowlatency regional fault-aware fault-tolerant routing algorithm for wireless NoC [J]. IEEE Access, 2021, 8: 22650-22663.
- [10] KAWAZOE A, KUROKAWA Y, FUKUSHI M. A fault-

tolerant adaptive routing method based on the passage of faulty nodes [C]. 2020 IEEE International Conference on Consumer Electronics-Taiwan(ICCE-Taiwan), 2020(10): 1-2.

- [11] MASOUMEH E, MASOUD D, JUHA P. High performance fault-tolerant routing algorithm for NoC-based many-core systems [C]. 2013 21st Euromicro International Conference on Parallel, Distributed, and Network-Based Processing, 2013:462-469.
- [12] VALINATAJ M, MOHAMMADI S, PLOSILA J. et al. A reconfigurable and adaptive routing method for faulttolerant mesh-based networks-on-chip [J]. International Journal of Electronics and Communications (AEÜ), 2011, 65(7):630-640.
- EBRAHIMI M, DANESHTALAB M, PLOSILA J, et al. Minimal-path fault-tolerant approach using connectionretaining structure in networks-on-chip [C]. 2013 Seventh IEEE/ACM International Symposium on Networks-on-Chip (NoCS), USA 2013:1-8.
- [14] HOU J, HAN Q, RADETZKI M. A machine learning enabled long-term performance evaluation framework for NoCs[C]. 2019 IEEE 13th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC), 2019(12): 164-171.
- [15] RITESH P, VALERIA B. uDIREC: Unified diagnosis and reconfiguration for frugal bypass of NoC faults [C].
  2013 46th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), 2013: 148-159.
- [16] KRISHNENDU C, DONG X, HIDEO F. A unified test and fault-tolerant multicast solution for network-on-chip designs [C]. 2016 IEEE International Test Conference (ITC), 2016:1-9.
- [17] RITESH P, VALERIA B. uDIREC: Unified diagnosis and reconfiguration for frugal bypass of NoC faults [C].
  2013 46th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), 2013:148-159.
- [18] CATANIA V, MINEO A, MONTELEONE S, et al. Cycleaccurate network on chip simulation with Noxim[J]. Acm Transactions on Modeling & Computer Simulation, 2016, 27(1):4.
- ZHANG Z, ALAIN G, SAMI T. A reconfigurable routing algorithm for a fault-tolerant 2D-mesh network-on-chip[C].
   2008 45th ACM/IEEE Design Automation Conference, 2008:441-446.
- [20] SUN J, FENG B, XU W B. Particle swarm optimization with particles having quantum behavior [J]. Proceedings of the 2004 Congress on Evolutionary Computation (IEEE CAT. No. 04TH8753), 2004,1(1):325-331.

[21] 许川佩,胡红波.基于量子粒子群算法的 SOC 测试调度优化研究 [J]. 仪器仪表学报,2011,32(1):113-119.

XU CH P, HU H B. Test scheduling optimization of SOC based on quantum-behaved particle swarm optimization algorithm [J]. Chinese Journal of Science Instrument, 2011, 32(1): 113-119.

## 作者简介



**欧阳一鸣**,博士,中国容错计算专业委员会委员,现为合肥工业大学教授,博士生导师,主要研究方向为片上网络(NoC)与片上系统(SoC)。

E-mail: oyymbox@163.com

**Ouyang Yiming**, Ph. D., member of China's Fault Tolerant Computing Professional Committee. He is currently a professor and Ph. D. supervisor at Hefei University of Technology. His main research interests include network on chip (NoC) and system-on-a-chip (SoC).



陈荣景(通信作者),2020年于安徽财 经大学获得学士学位,现为合肥工业大学硕 士研究生,主要研究方向为片上网络 (NoC)。

E-mail: crj\_2020@ 163. com

**Chen Rongjing** (Corresponding author) received his B. Sc. degree from Anhui University of Finance and Economics in 2020. He is currently a M. Sc. candidate at Hefei University of Technology. His main research interest includes network on chip (NoC).



王奇,2016年于吉林大学获得学士学位,2018年于美国斯蒂文斯理工学院获得硕士学位,现为合肥工业大学博士研究生, 主要研究方向为片上网络、容错系统和基于 CMP的神经网络加速器设计。

E-mail: keywenchester@ outlook. com

Wang Qi received his B. Sc. degree from Jilin University in 2016, M. Sc. degree from Stevens Institute of Technology in 2018. Now he is a Ph. D. candidate at Hefei University of Technology. His main research interests include network on chip, machine learning, fault tolerance and NoC based neural network accelerators.



梁华国,德国斯图加特大学博士,合肥 工业大学教授,博士生导师;国家自然科学 基金委会评专家,中国计量学会集成电路测 试专业委员会副主任,主要研究方向为容错 计算与硬件安全、嵌入式系统综合与测试、 智能控制系统。

E-mail: 1124053804@ qq. com

Liang Huaguo, Ph. D., University of Stuttgart, Germany, professor and Ph. D. supervisor of Hefei University of Technology. Expert of National Natural Science Foundation of China, deputy director of Integrated Circuit Testing Committee of China Metrology Society. His main research interests include fault-tolerant computing and hardware security, embedded system synthesis and testing, and intelligent control systems.