深入浅出RISC-V “V”向量扩展

分享于 2021-01-04 19:19:20

16280

指令操作向量 SIMD

内容由半导体行业观察（ID：icbank）编译自「Erik Engheim」

在1980年代，超级计算机的外观如下图所示。而Cray的半圆形则是80年代超级计算机的代名词。那就是一台超级计算机的样子。

1980年代的Cray超级计算机

在一篇写RISC-V的文章里，我们提到过去的超级计算，这两者之间有什么关系？主要是因为，我们提到的Cray计算机，也被称为矢量处理机——一种已经被抛弃的“老古董”。

然而，RISC-V却将Cray风格的矢量处理重新带回来，并认为它应该替代SIMD（单指令多数据），这是否是一个异端？

这样大胆而又不同的策略肯定需要一些解释。为什么RISC-V设计师会采用与竞争对手x86，ARM，MIPS等完全不同的方法？

像往常一样，我们需要绕道而行，以解释这些技术究竟是什么以及它们有何不同。尽管SIMD指令排在最后，但我相信从SIMD开始更容易掌握矢量处理指令。

什么是SIMD（单指令多数据）？

无论是基于x86还是基于ARM的大多数微处理器，在其中都提供了我们所谓的SIMD指令。您可能听说过MMX，SSE，AVX-2和AVX-512。而ARM有自己的高级SIMD和SVE。

这些指令允许您执行的操作是将相同的操作应用于多个元素。我们可以将它与SISD（单指令单数据）进行对比，后者仅在单个元素之间执行操作。下图是对此的简单说明：

我们可以编写一些简单的代码来说明差异，以下是SISD的示例。我们也可以称其为标量（单个值）上的操作：

3 + 4 = 7
4 * 8 = 32

SIMD是关于向量（多个值）的操作：

[3，2，1] + [1,2,2] = [4，4，3]
[3，2，1]-[1,2,2] = [2，0，-1]

让我更详细地了解一些用于SISD的伪汇编代码（pseudo assembly code）。在这种情况下，我们要添加两个数组，每个数组包含两个元素。每个元素都是32位整数。一个从地址14开始，另一个从地址24开始：

load r1，14
load r2，24
add r3，r1，r2; r3←r1 + r2
load r1，18
load r2，28
add r4，r1，r2; r4←r1 + r2

使用SIMD，我们可以加载多个值并执行多个加法：

vload.32 v1、14 vload.32
v2、24
vadd.i32 v3，v1，v2; v3←v1 + v2

通常将向量和SIMD指令加上前缀v以将它们与标量指令分开。约定各不相同，但这是受ARM启发的，.32后缀表示我们要加载多个32位值。假设我们的向量寄存器v1和v2是64位，则意味着每次load两个元素。

该vadd指令的.i32后缀表示我们要添加32位带符号整数。我们本来可以用来.u32表示无符号整数。

当然，这是一个完全不现实的示例，因为没有人会对这几个元素使用SIMD。更现实的是，我们将对16个元素进行操作。

SIMD如何工作？
我们对SIMD指令的工作方式进行了高级描述。但是实际上，它们是如何在CPU级别处理的？执行SIMD指令时，CPU内部发生了什么？
在下面，您可以看到RISC微处理器的简化图。
一个简单的RISC微处理器的示意图
您可以将彩色条视为将数据推入CPU的不同部分的管道。我们在这里的主要兴趣是蓝色的东西，它们推动了我们操作的数据以及通过系统的指令。绿色管道是存储单元的地址位置。
Ben Eater在面包板上构建的6502计算机。彩色线是数据和地址总线以及控制线。
在一个简单的微处理器中，您只有一个算术逻辑单元（ALU）。这样的处理器的一个例子是在Commodore 64中使用的6502。ALU类似于CPU的计算器。它可以加减数字，它使用两个数字作为输入，然后将它们相加或相减，然后将输出到底部。输入来自寄存器，输出返回到寄存器（具有您要操作的保持编号的内存单元）。
要将我们的CPU变成可以同时处理数十个数字的执行SIMD的怪物，我们需要进行一些更改。以下是升级的简化示例，该升级允许同时将两个数字相加。请注意，我们仅显示与寄存器和ALU相关的部分。
如何使用多个ALU允许执行SIMD
v1，v2而v3就是我们所说的向量寄存器。它们分为不同的部分，显示为v1₀和v1₁。我们可以将向量的每个部分或元素输入到单独的ALU中。这使我们可以同时执行多个添加。对于真正的CPU，我们不只是添加一个额外的ALU。我们加一打。实际上，我们变得更加疯狂，我们添加了十二个乘法器和其他功能单元，它们能够执行CPU的所有不同操作。对于非常简单的CPU，您没有乘法器，因为您可以通过重复的加法和移位（加和减数字）来模拟乘法。

我们如何获得SIMD
那么这些SIMD指令是如何产生的呢？快速的图像处理的需求是起点。图像中的每个像素由四个8位值（RGBA）组成，需要将其视为单独的数字。为数百万个像素分别添加这些值很慢。SIMD指令是提高此类任务性能的明显方法。
每个像素由四个分量组成：红色，绿色，蓝色和Alpha值。每个都是一个字节，应分别计算。如果32位寄存器是具有4个组件的向量寄存器，则可以执行此操作。
SIMD还用于GPU内部，因为它们会添加位置向量，相乘矩阵。复合像素颜色值等。

SIMD的好处
虽然很难并行执行代码，但是，当处理诸如图像，几何，机器学习和大量科学计算之类的事情时，对数据的多个元素执行相同的操作相当简单。
换而言之，SIMD为我们提供了一种轻松加快这些计算速度的方法。如果可以只执行一条指令就可以加8个数字，那么基本上可以实现8倍的加速。因此，多年来x86和ARM微处理器堆积在大量SIMD指令上就不足为奇了。
GPU基本上包含执行大量SIMD计算的核心存储区。这就是大大提高了图形性能的原因，也是为什么科学代码越来越多地使用GPU的原因。
但是，如果SIMD如此出色，为什么RISC-V放弃它并进行向量处理呢？更具体地说，他们没有添加SIMD指令集扩展，而是添加了Vector指令集扩展。

SIMD指令存在的问题
RISC-V设计师David Patterson和Andrew Waterman写了一篇文章：SIMD指令被认为有害。
这是一本有趣的文章，但是它比我在这里更深入地介绍了技术。Patterson和Waterman描述了问题：
就像阿片类药物一样，SIMD的起点足够纯净。架构师将现有的64位寄存器和ALU分为许多8位，16位或32位块，然后对其并行进行计算。操作码提供数据宽度和操作。数据传输只是单个64位寄存器的加载和存储。谁会反对呢？
但这是一种推托：
自1978年以来，IA-32指令集已从80条增加到大约1400条，主要是由SIMD推动的。
因此，x86和ARM的规范和手册非常庞大。相反，您可以在一张双面纸上获得所有最重要的RISC-V指令的概述。这对于那些用硅制造芯片的人以及那些制造汇编器和编译器的人有影响，对SIMD指令的支持通常会在以后添加。
RISC-V的设计者希望有一个实用的CPU指令集，该指令集可用于长时间教学。在RISC-V到来之前，他们使用的是在商业界不再受追捧的MIPS，因为学术界不希望其教学是基于行业的潮流和炒作。大学强调教学知识的持久性。这就是为什么他们更愿意讲授数据结构和算法，而不是说如何使用调试工具或IDE。
因此，SIMD的发展是站不住脚的。每隔几年就会有新的说明。没有什么是非常耐用的。因此，Patterson 和Waterman认为：
向量架构是一种较旧的，更优雅的利用数据级并行性的替代方法。向量计算机从主存储器中收集对象，并将其放入顺序的长向量寄存器中。

回到Cray样式的矢量处理？
因此，RISC-V设计人员使用矢量指令而不是SIMD指令创建了扩展。但是，如果这样好得多，为什么它没有更早发生，为什么矢量处理在过去就不受欢迎了？
在回答任何一个问题之前，我们需要实际了解什么是向量处理。

向量与SIMD处理

理解差异的最好方法是查看一些C / C ++代码。在SIMD中，向量是固定大小的，并被视为固定长度类型，如下所示：

struct Vec3 {
int x0;
int x1;
int x2;
};

struct Vec4 {
int x0;
int x1;
int x2;
int x4;
};

这意味着矢量加法函数处理的是固定长度：

Vec3 vadd3（Vec3 v1，Vec3 v2）{
return Vec3（v1.x0 + v2.x0，
v1.x1 + v2.x1，
v1.x2 + v2.x2）;
}

我们能想到的Vec3，Vec4并vadd3为现有的硬件。但是，开发人员需要更高级别的功能，并且可以组合以下操作以创建更多通用功能：

void vadd（int v1 []，int v2 []，int n，int v3 []）{
int i = 0;
while（i u = Vec3（v1 [i]，v1 [i + 1]，v1 [i + 3]）;
v = Vec3（v2 [i]，v2 [i + 1]，v2 [i + 3]）;

w = vadd3（u，v）; //efficient vector operation

v3 [i] = w.x0;
v3 [i + 1] = w.x1;
v3 [i + 2] = w.x2;
i+ = 3;
}
}

您可以将其视为伪代码（pseudo-code）。要了解的一点是，您可以在处理较小固定长度向量的函数上构建功能来处理任何长度的向量。

像使用老式Cray超级计算机一样进行矢量处理，这实际上是RISC-V人士提出的，就是将诸如vadd硬件之类的功能。

那这实际上是什么意思呢？