赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

Page 1

赛灵思 第 四 十 五 期

2 0 1 2 年

秋 季 刊

赛灵思推出全球首款 异构 3D FPGA Virtex-7 H580T 器件可支持 CFP2 光网络的 2x100G OTN 片上转发器

中 国 通 讯 Xilinx News I s s u e

4 5 ,

A u t u m n

2 0 1 2

部分动态重配置推动 FSK 解调器设计不断发展 启发 FPGA 数学运算 ADC 和 DAC 的输入与输出

请即浏览赛灵思中国通讯 网络版的全部精彩内容 www.xilinx.com/cn/xcell45


行業首款面向開源社區的 TM

Zynq

-7000 EPP 開發套件

特性: u Zynq-7000 EPP XC7Z020-CLG484-1 u 存儲器 u 512 MB DDR3 u 256 Mb Quad-SPI Flash u 4 GB SD 卡

ZedBoard是一款基於賽靈思ZynqTM -7000可擴展處理平臺(EPP)的低 成本開發板,也是行業首款面向廣大開源社區的ZynqTM -7000 EPP

u 板載 USB-JTAG 編程 u 10/100/1000 以太網 u USB OTG 2.0 和 USB-UART

可擴展處理平臺開發套件。開發板為基於Linux、安卓、Windows

u PS & PL I/O 擴展 (FMC, PmodTM, XADC)

或其它操作系統/實時操作系統的設計開發提供了所需的一切。另

u 支持多顯示器 (1080p HDMI, 8-bit VGA, 128 x 32 OLED)

外,該平臺提供數款擴展連接器,便於用戶訪問處理系統和可編程

u I2S 音頻編解碼器

邏輯。Zynq-7000 EPP緊密集成了ARM®處理系統和7系列可編程邏 輯,充分利用它們的優勢,並結合ZedBoard可以開發出獨樹一幟且 功能強大的設計。為推動ZedBoard套件的創新分享和交流還專門打 造了www.zedboard.org開源社區,用戶可以通過這個社區與其他同 樣從事Zynq設計的工程師開展各種各樣的協作。

目標應用: u 視頻處理 u 電機控制 u 軟件加速 u Linux/Android/實時操作系統開發 u 嵌入式 ARM 處理

套件組成部分:

u 通用 ZynqTM -7000 EPP 原型設計

u Avnet ZedBoard 7020 基礎板 u 12 V AC/DC 電源 u 4 GB SD 卡 u Micro-USB 電纜 u USB 適配器: Micro-B (公頭)對 Standard-A(母頭) u 入門指南 u ISE WebPACKTM, 配器件專用 ChipScope 許可證

Price : USD$ 395.00 Part Number : AES-Z7EV-7Z020-G 更多關於ZedBoard的信息,請訪問: http://www.zedboard.org 或聯繫以下安富利辦事處

北京:010-8206 2488 2506 北京:010-8206 武汉:027-8732 2806 2806 武漢:027-8732 成都:028-8652 8262 成都:028-8652 8262 厦门:0592-516 3621 2777 廈門:0592-516

www.em.avnetasia.com Copyright © 2012 Avnet Electronics Marketing

重庆:135-9422 重慶:135-9422 8267 8267 沈阳:024-8290 瀋陽:024-8290 2597 2597

上海:021-3367 上海:021-3367 8387 8387 南京:025-8483 南京:025-8483 8138 8137

青岛:0532-8097 青島:0532-8097 0718 0716 香港:00852-2212 香港:00852-2176 7848 5388

杭州:0571-8580 杭州:0571-8580 0667 0667 苏州:0512-6956 7753

西安:029-88326372 8891 西安:029-8833 广州:020-28088106 7301 廣州:020-2283 深圳:0755-8378 1886 深圳:0755-8378 1886



封面专题

封面 专题

赛灵思推出首款异构 3D FPGA:

Virtex-7 H580T H580T

2

赛灵思中国通讯 45 期

2012 年秋季刊


封面专题

作者:Mike Santarini 赛灵思公司 Xcell 杂志发行人 Mike.santarini@xilinx.com

Virtex-7 H580T 器件采用赛灵思 3D SSI 技术构建而成,使设计人员能够 开发出 2x100G OTN 片上转发器

28

nm

V i r t e x ®- 7

2000T( 业 界 首 款 采 用 3D 堆 叠 硅 片 互联技术实现的

28nm FPGA)以突破性容量和创记录晶 体管数量掀起的热潮尚未平息,赛灵思于 今年 5 月份紧接着又推出一款使用 SSI 技 术创下带宽新记录的 FPGA 器件 Virtex-7 H580T。该新型 Virtex-7 H580T 器件是全 球首款异构 3D FPGA,在单个硅中介层 上将一个专用 8 通道 28Gbps 收发器 slice (裸片)与两个带有丰富收发器的 FPGA 芯片紧密集成在一起。总的来说,该新产 品为有线通信公司提供了一款具有多达 48 个 13.1Gbps 收发器、8 个 8Gbps 收发器 和 580,480 个 逻 辑 单 元 的 器 件, 使 得 Virtex-7 H580T FPGA 成为唯一一款能够 满足关键性 2x100G 应用和功能要求的单 芯片解决方案(图 1)。产品详情,敬请参 阅:http://www.xilinx.com/cn/publications/ prod_mktg/Virtex7-Product-Table.pdf。 赛灵思公司先进通信部高级总监 Ephrem Wu 指出:“Virtex-7 HT 器件与赛 灵思的 100Gbps 变速机制(gearbox)、 以太网 MAC、 OTN 和 Interlaken IP 相结合,

推出的 28nm 系列中三款异构 3D 器件中 的 第 一 款。 不 久 即 将 推 出 的 Virtex-7 H870T 在单个器件中集成了两个 8 通道收 发器芯片和三个 FPGA 逻辑芯片,单个芯 片上共提供有 16 个 28Gbps 收发器、72 个 13.1 Gpbs 收发器和 876,160 个逻辑单 元。 最 后 一 款 异 构 器 件 是 Virtex-7 H290T,其在单个器件中集成一个 8 通道 收发器 slice 和一个 FPGA 逻辑 slice,在 单个芯片上共提供有 24 个 13.1Gpbs 收 发器、8 个 28Gpbs 收发器和 284,000 个 逻辑单元。 Ephrem Wu 表示:“3D SSI 技术让 赛灵思能够走在技术的前沿,提供具有 最高集成度、系统性能与生产力 和 最低 功耗、材料成本的 All Programmable 器件。 在Virtex-7 2000T上, 我们使用 3D SSI 技术, 将四块逻辑 slice 并行堆叠在硅中介层上, 开 发 出 一 种 拥 有 68 亿 个 晶 体 管 和 1,954,560 个逻辑单元的器件。其容量是 势均力敌的 28nm FPGA 器件的两倍,超 过了摩尔定律预期的晶体管数量的两倍。 现在在 Virtex-7 HT 器件上,我们已经使 用我们的 3D SSI 技术在单个芯片中的硅

度,帮助解决空间、功耗和成本难题,确

中 介 层 上 堆 叠 28Gbps 收 发 器 slice 和

低功耗光学模块平滑过渡。28Gbps 收发 器与 13.1Gpbs 收发器彼此独立。客户能 够在充分利用 28Gbps 收发器的同时不浪 2012 2012 年秋季刊 年秋季刊

Virtex-7 H580T FPGA 是赛灵思准备

可为客户提供他们所需的更高系统集成

保向采用最新 CFP2 外形封装的 100Gbps

费任何 13.1Gbps 收发器。”

28nm FPGA slice。” Wu 指出,借助 SSI 技术“赛灵思目 前 推 出 了 一 种 器 件, 既 能 让 客 户 为 其 赛灵思中国通讯 45 期       33


封面专题

单芯片器件

首款 3D FPGA:Virtex-7 2000T

首款异构 3D FPGA:Virtex H580T 基

基于堆叠硅片互联技术

于堆叠硅片互联技术

图 1 - 业界首款异构 FPGA Virtex-7 H580T 采用赛灵思 3D SSI 技术,在单个硅中介层上集成了 28nm FPGA 逻辑 slice 和专用 28Gbps 收发器 slice。

100Gbps 光学设备用户带来极具竞争力

光纤发送和接受数据(CFP 为 C Form-

开发出 CFP2 外形封装,对 100Gbps 线

的价值,又能让有线通信行业加快新一

factor Pluggable(C 外形封装可插拔)

卡所采用的光学模块尺寸进行了定义:

代 400G 设备开发步伐。”

的 首 字 母 缩 写)。 然 后 由 ASSP 从 该

宽度(节距)为 CFP 的一半,高度略低,

CFP 获取 10x11.1G OTL 4.10 或 CAUI

功耗相同。CFP2 的推出意味着设备公

无止境的带宽要求

(100Gbps 连 接 单 元 接 口 ), 运 行

司可以用单位面积上有两个 CFP2 通道

赛灵思公司 Virtex-7 FPGA 高端产品线

100Gbps 前 向 纠 错(GFEC)、OTU-4

的新线卡替换现有的 CFP 线卡,从而让

经理 Alex Goldhammer 提到,随着连接

成 帧 和 100G 以 太 网 映 射, 随 后 通 过

每个卡槽的带宽翻番,这样就有可能将

到互联网和专用网络的系统数量不断增

CAUI 发送数据到 FPGA。FPGA 一般用

数据中心的带宽提高一倍(见图 2)。

加,为在全球范围内传输不断增大的文

于将协议转换为背板要求的格式,以便

件和更高质量的视频和音频,网络连接

将数据路由到网络的下一个点和最终目

对带宽的需求也呈螺旋上升态势。为满

的地。

足这种需求,服务提供商需要单位比特 成本更低且拥有更高带宽的有线通信设 备。尤其是有线通信行业,目前正在根 据最新标准 100Gbps 通信光学收发器 标 准( 特 别 是 CFP2 光 学 模 块、OIF

不过 Goldhammer 表示,CFP2 也 带 来 了 新 的 技 术 挑 战。 他 说:“CFP2 要求使用 25-28Gps 的收发器,用 IBIS-

Goldhammer 表示,CFP 光学模块

AMI 模型进行 PCB 通道建模,使用高速

相对体积较大,价格较为昂贵,是这些

串行建模软件工具。而且每张卡必须与

第一代 100Gbps OTN 传输卡中存在的

其替换的 CFP 卡的功耗预算保持一致。

主要障碍。为解决这个问题,行业近期

虽然从 CFP 升级到 CFP2,单位功耗带

CEI-28-VSR 和 IEEE 802.3ba) 开 发 新的设备。 光传输网络(OTN)转发器和复用

CAUI

图 2 - CFP2 外形封装可将 100Gbps OTN 卡的带宽翻 番。CFP2 与 CFP 相比,宽度和功耗减半,显著降低系 统成本。

100G

CFP OPTICS

转发器以及 100G 以太网卡是 100Gbps 10x10G

基础设施架构的核心。网络公司把这些 OTN 卡布置在光网络的中心或核心位置

100G

(也就是网速最快的部分),以确保数

CAUI4 CFP2 OPTICS

4x25G

据在通过光缆传输到世界各地时的完整 性和正确路由。 Goldhammer 表示这些公司目前已 经推出采用第一代 100Gbps OTN 转发 器卡的设备,每张卡一般采用一个或两 个 ASSP 和 一 个 FPGA。 这 些 第 一 代

CFP

CFP

CFP2 CFP2 CFP2 CFP2

CFP

CFP

CFP2 CFP2 CFP2 CFP2

4 ߲ CFPs 400 Gbps 60 ྑ 8 ߲ CFP2s 800 Gbps 60 ྑ

100Gbps OTN 卡通过 CFP 光学模块经

4

赛灵思中国通讯 45 期

2012 年秋季刊


封面专题 宽提高一倍。但仅通过将每张卡上的芯

(图 3)。

Goldhammer 表示,有了新推出的

片数增加一倍来满足带宽需求是不可行

Goldhammer 表示:“该配置一般

的,尤其是考虑到功耗预算。CFP2 需

要求四个 ASSP 和一个 FPGA。最大的

要集成度更高、更尖端的芯片器件。” Goldhammer 表示,目前设备制造 商正在考虑为 CFP2 卡构建的一种架构 由 五 个 器 件 构 成: 四 个 ASSP 和 一 个 FPGA。每个卡有两个 CFP2 光学模块, 这两个 CFP2 光学模块使用 4x27G OTL 4.4 接 口 连 接 到 Gearbox ASSP。 Gearbox 随即将 4x27G OTL 4.4 信号分 离 为 10x11.1G OTL 4.10。 另 一 个 ASSP 负责 100Gpbs 前向纠错、OTU-4 成 帧 和 100G 以 太 网 映 射, 然 后 通 过 CAUI 接口将数据传输给 FPGA。接着, CFP2 的 两 个 通 道 均 都 向 架 构 中 的 FPGA 发 送 数 据。FPGA 用 作 背 板 中 CAUI 到 Interlaken 的桥接器,以便将数 据发送到网络的下一个点和最终目的地

Virtex-7 H580T FPGA 和 赛 灵 思 IP, 100Gpbs OTN 线 卡 制 造 商 使 用 一 个 Virtex-7 H580T 就可以完成五颗芯片才

问题是这种配置的功耗、复杂性和成本。

能完成的工作,从而进一步最大程度地

简单地让 ASSP 数量翻倍会超过功耗预

发挥出他们的 CFP2 OTN 卡的作用。

算。”

Goldhammer 说:“Virtex-7 FPGA 是

虽 然 CFP2 卡 的 带 宽 相 对 CFP 卡

一款突破性器件,它的推出正逢其时,

提高了一倍,但每个 CFP2 模块(采用

恰好迎合了 CFP2 100Gbps OTN 转发

两个 100Gbps CFP2 端口)功耗预算必

器卡的市场需求。”

须保持与分配给单端口 CFP 模块的一

采用 Virtex-7 H580T FPGA 和赛灵

致,这样才能做到整张卡的功耗预算保

思 IP,制造商可以把卡上的两个 CFP2

持不变。Goldhammer 表示,设备运营

通道馈入一个 Virtex-7 H580T FPGA,

支出已经成为电信运营商的心头病,因

用新的架构实现 CFP2 卡。该 FPGA 在

为电信运营商的设施中这样的系统非常

一个器件中集成了 Gearbox、100Gbps

多, 他 们 必 须 严 格 地 控 制 功 耗 上 限。

前 向 纠 错、OUT-4 成 帧、100G 以 太 网

Goldhammer 说:“他们不得不控制在

映射和 Interlaken 桥接(再次参见图 3)。

功耗预算范围内,但同时他们要求带宽

Goldhammer 表示:“这种单芯片

翻番,这样降低功耗的大部分压力就落 在半导体厂商的身上。”

解决方案不仅功耗明显低于多芯片

ASSP ঴ਦ‫ݛ‬ӄ!Ċ!࿵ႊೌ OTN 2x100G ገ݀ഗ

CFP2

ASSP Gearbox

ASSP 100G മၠৰ‫ٱ‬

OUT-4 ‫ׯ‬ኡഗ

100G ᅜ໿ྪ ᆙพഗ

CAUI

CAUI

MAC ‫ڟ‬ Interlaken ‫ൃڦ‬থഗ

ASSP 100G മၠৰ‫ٱ‬

OUT-4 ‫ׯ‬ኡഗ

100G ᅜ໿ྪ ᆙพഗ

FPGA Interlaken

ԝӱথ੨

CFP2

ASSP Gearbox

CAUI

CAUI

ෘଳາ Virtex-7 H580T —!‫ڇ‬ႊೌ OTN 2x100G ገ݀ഗ Virtex-7 H580T 100G മၠৰ‫ٱ‬

OUT-4 ‫ׯ‬ኡഗ

100G ᅜ໿ྪ ᆙพഗ

Gearbox

100G മၠৰ‫ٱ‬

OUT-4 ‫ׯ‬ኡഗ

100G ᅜ໿ྪ ᆙพഗ

Interlaken

CFP2

Gearbox

Interlaken

ԝӱথ੨

CFP2

图 3 - Virtex-7 H580T FPGA 和赛灵思 IP 可让客户迅速开发出单芯片 CFP2 100GbpsOTN 转发器卡,不必使用五颗芯片。

2012 年秋季刊

赛灵思中国通讯 45 期       5


封面专题 验法则是收发器的带宽越高,就越难保 证一致的信号完整性。 Goldhammer 表 示, 由 于 Virtex-7 H580T FPGA 是一款采用 SSI 技术的高 度集成的单芯片解决方案,因此采用该 解决方案构建的 CFP2 线卡可实现显著 的性能改善。他说:“升级到 4x25G 接 口可以显著简化 10x10G 接口的走线。 虽然有人对 25G~28G 的收发器持有疑 虑,但通过采用 SSI 技术,赛灵思有能 力大幅度降低其复杂性。28G 收发器采 用 高 灵 敏 度 模 拟 电 路, 在 物 理 上 与 数 字 逻 辑 分 离。 这 种 架 构 能 够 确 保 与 带 有 丰 富 收 发 器 的 数 字 芯片保持良好的 隔离效果。” Goldhammer 表示,28G 收发器采 用高速工艺技术制造,保证品质优异。 视频:Virtex-7 H580T 器件实现与 CFP2 光学模块接口所要求的眼图和抖动性能

“FPGA Slice 则与之相反,采用 28nm HPL 工艺,以确保最低总功耗。”他说, 这样一来,Virtex-7 H580T FPGA 器件

ASSP 或 ASIC 配 置, 而 速 度 更 快、 可

高 性 能 低 功 耗(HPL) 技 术 制 造 这 些

实现了出色的 28Gbps 收发器性能和信

靠性更高,当然生产成本也更低。它不

slice,可显著降低漏电流,实现高性能

号完整性。如需了解这些收发器的工作

必采用多个芯片,也就避免了相关的供

和低功耗的最佳组合。”

性 能, 敬 请 观 看 http://v.youku.com/v_ show/id_XNDA3NjgwMTAw.html 视频:

电 和 冷 却 电 路。 采 用 Virtex-7 H580T

http://www.youku.com/watch?v=FFZVw

FPGA,我们从集成度、材料成本下降

SSI 技术和 28GBPS 收发器

和系统性能改善的角度为客户提供更大

高速通信设备面临的最大挑战之一是确

价值,且不会超过 CFP2 OTN 传输卡的

保收发器正确发挥功能,保持良好的信

Goldhammer 表示,SSI 架构的物

功耗上限要求。”

号完整性。Goldhammer 说:“收发器

理 隔 离 特 性 让 赛 灵 思 能 够 在 Virtex-7

另外,赛灵思还能提供合适的 IP,

是模拟电路,因此会受到一系列因素的

H580T FPGA 上集成 8 个 28Gbps 收发

让通信设备制造商提升设计生产力,并加

影响,特别是噪声的影响。在大多数混

器,是竞争对手推出的最大型 FPGA 器

速单芯片 100G 光学卡上市进程。赛灵思

合信号器件中,收发器一般放置在器件

件的两倍。

通过内部开发和一系列战略性并购,现可

的边缘,与位于器件中心的数字电路屏

更 让 人 印 象 深 刻 的 是 Virtex-7

提供完整的套装:100Gbps Gearbox、

蔽开来。数字电路容易产生噪声,所以

H580T FPGA 还不是赛灵思 28nm 系列

以 太 网 MAC、OTN 和 Interlaken IP。

一般需要与模拟电路隔离开来。”

SjRC4c&feature=player_profilepage。

中拥有最多收发器的器件。赛灵思即将

Goldhammer 称:“为了集成到器件上

在过去十年里,为将带宽提高到每

推出的 Virtex-7 H870T 器件拥有 16 个

的 28nm Virtex-7 FPGA 逻辑单元 slice

秒千兆位(Gbps)的范围内,整个行业

28Gbps 收 发 器,72 个 13.1Gbps 收 发

中,我们对所有这些 IP 核进行了优化。

转而采用高速模拟收发器来快速发送和

器和 876,160 个逻辑单元。Goldhammer

赛 灵 思 采 用 台 积 电(TSMC) 的 28nm

接受高速传输的信号。传统上来说,经

表示,如果客户能够发挥 H580T 器件上

6

赛灵思中国通讯 45 期

2012 年秋季刊


封面专题 全部收发器的功能,他们可以如愿以偿

市 场)。 他 说:“400G 市 场 还 有 相 当

成地推出具有高达 2.78Tbps 的串行连接

的距离。如果有什么,那就是各家公司

功能的设计。

正开始在他们的实验室搞研究,标准组

他说:“在单芯片 FPGA 上放置如 此之多的 28Gbps 收发器,既不现实, 成本也不允许。幸运的是 SSI 技术让我 们 今 天 能 够 开 发 出 一 种 拥 有 8~16 个

适用于 2x100 Ggearbox 市场。 首款 Virtex-7 H580T FPGA 目前已 向主要客户供货,同时提供赛灵思近期

织还没有考虑这个问题。乐观的一面是

推出的 Vivado ™ 设计套件配套开发工

我们已经有器件能够具备它要求的功能。

具支持。有意使用 Virtex-7 H580T 器件

我们可以帮助他们加速 400G 开发,加 快创新的步伐。”

的客户可向他们当地的赛灵思代表进一 步了解定价和供货详情。用户还可登录

28Gbps 收 发 器 的 可 扩 展 FPGA 系

除 了 Virtex-7 H580T 和 H870T

以下网址,访问赛灵思 28Gpbs 串行收

列。”ASSP 提供商及其他 FPGA 厂商

FPGA,赛灵思还将推出 28nm 系列中

发器技术页面页,阅读最新白皮书并观

最多能放置四个 28G 收发器。这似乎说

另一个成员 Virtex-7 H290T。H290T 同

看 相 关 视 频:http://www.xilinx.com/cn/

明用 40nm 和 28nm 工艺制造的单芯片

样采用赛灵思的 3D SSI 技术,能够提供

products/technology/transceivers/index.

很难做到这一点。

24 个 13.1Gbps 收发器、8 个 28Gbps 收

htm。

Goldhammer 称,Virtex-7 H870T 器件针对的是新一代有线通信(即 400G

发 器 和 284,000 个 逻 辑 单 元。 Goldhammer 表示 Virtex-7 H290T 特别

单片 FPGA 突破 2Tbps 带宽壁垒 赛灵思首批封装收发器的 Virtex-7 X690T FPGA 开始发货 首款采用 80 个 GTH 串行收发器的 FPGA 器件,使单片 FPGA 突破了 2 Tbps 的带宽壁垒 All Programmable 技术和器件的全球领先企业赛灵思公司

(QoS) 才能满足这一需求。 为了直接向家庭提供高清视频点播

(Xilinx, Inc.(NASDAQ:XLNX))今天宣布 Virtex®-7 X690T

服务,服务于有线电视运营商的设备制造商必须开发出新一代

FPGA 开始发货,该器件将业界最可靠的高速串行收发器、最

具有低成本、可最大化功率,并能够支持全频谱开关数字视频

高系统带宽和面向市场优化的 FPGA 资源完美结合在一起。

的 EdgeQAM 设备。

Virtex-7 X690T FPGA,是 7 系列产品中首款可满足先进高性能

Virtex-7 X690T 和 Virtex-7 X1140T FPGA 具有同类产品中

有线通信应用对低功耗、单芯片解决方案需求的器件。该系列

最高单位功耗处理能力和带宽,可实现高级包处理、FEC、服

器件可支持快速、可扩展、易于实现的芯片间串行接口;稳健可

务质量、交换和流量管理算法,以及下一代 EdgeQAM 实现方案。

靠的 10GBASE-KR 背板(不仅支持下一代通信系统各种不同

工程师可采用业界最高级的动态可控 GTH 串行收发器满怀信心

的板间距,而且还能最大限度地提高带宽);以及连接到最新光

地进行设计,该 GTH 串行收发器采用了全面可编程的三抽头

学模块的高信号完整性接口(经验证可支持长达 80 公里的电缆

FIR,支持发射器去加重,能满足最全面的环境要求,而全面自

距离)。如果需要更高系统容量和带宽,客户可轻松移植到

适应的七固定抽头及四滑动抽头接收器判定反馈均衡 (DFE) 电

Virtex-7 X1140T FPGA 上。Virtex-7 X1140T FPGA 与 Virtex-7

路(业界最多的 DFE 抽头),则能确保不同拓扑的最大余量。

X690T FPGA 引脚兼容,基于 7 系列 FPGA 可扩展优化型架构,

为了加速设计和调试工作,每个 GTH 收发器还包括无损高清

采用 3D 硅片堆叠互联技术,并具有 96 个 GTH 收发器,预计

2D 眼图扫描电路,能让设计人员从 FPGA 内部观看并检测接收

将于今年 5 月推出。

器中的眼图。由于其内置的 80 GTH 收发器运行速度高达 13.1

Virtex-7 X690T FPGA 为下一代网络设备提供支持

Gbps,因此 Virtex-7 X690T FPGA 成为了首款突破 2Tbps 单 个 FPGA 带宽壁垒的器件。充分利用台积电 28HPL 工艺以及先

到 2015,预计全球 IP 网络数据流量将超过 ZB 级水平,

进的 7 系列 FPGA 架构,相比采用密度类似的同类竞争 FPGA

也就是说与 2010 年相比年均复合增长率 (CAGR) 达 32%。尤

而言,客户可将总功耗降低 25% 以上,从而实现构建下一代系

其是,随着 IP 视频服务需求不断呈指数级增长,推动下一代

统所需的集成度,并满足高性能和低功耗要求。

L2 网络交换设备迅猛发展,只有具备低时延和更高服务质量

2012 年秋季刊

赛灵思中国通讯 45 期       7


产品专题文章

产 品 专 题 文章

赛灵思 Artix-7 FPGA 为低成本市场带来 高端价值 作者:Mike Santarini 赛灵思公司《Xcell 杂志》发行人

mike.santarini@xilinx.com

8

赛灵思中国通讯 45 期

2012 年秋季刊


产品专题文章

赛灵思现已开始提供 All Programmable Artix-7 FPGA 系列的首款器件,

灵思 7 月宣布开始发货

Artix ™ -7 A100T FPGA,这是功能丰富 的 低 成 本、 低 功 耗 All Programmable 器 件 系

列三款产品中的首款产品,旨在帮助客户为 其用户实现更大的增值。较大型的 Artix-7 A200T 和 A350T FPGA 将在未来几个月内

为成本敏感型应用设定了

供货。

全新的功耗及性能标准。

思又一重要里程碑,这意味着公司现已开始

首批面向客户出货的 Artix-7 标志着赛灵

供货所推出的所有 28nm All Programmable 器件系列的 FPGA。赛灵思早先发布了全球 第一批 3D IC FPGA,全球第一款 28nm 芯 片 KintexTM-7 系列,随后又推出了在同一芯 片 上 整 合 了 ARM 处 理 器 与 FPGA 逻 辑 的 Zynq ™ -7000 All Programmable SOC。 赛 灵 思 公 司 产 品 市 场 营 销 经 理 Ehab Mohsen 预计:Artix-7 系列将成为深受客户 青睐的新品,并将为丰富的特性集、功耗以 及最终价值设定新的标准,充分满足传统上 称之为“低端”FPGA 市场的需求。FPGA 厂商将这一细分市场称作“价值主导型”、 “大批量”或“成本敏感型”市场。 Mohsen 表示:“看看 Artix-7 系列的特 性集,很难说它是‘低端’ 。它当然是这一细 分市场迄今为止最高端、最具价值的 FPGA 系列。最大型 Spartan®-6 FPGA 拥有 15 万 个逻辑单元,而 Artix-7 系列起步就有 10 万 个逻辑单元,最多可达 35 万个。”他指出, 除逻辑单元数外,这些 FPGA 还具有 8 至 16 个 6.6Gbps 收发器、高达 18,540 kb 的 block RAM 以及多达 1,040 个 DSP48E1 Slice。 赛灵思公司战略市场营销经理 Maureen Smerdon 补充道:“Artix-7 系列相

2012 年秋季刊

赛灵思中国通讯 45 期       9


产品专题文章 对于 Spartan-6 系列而言,性能翻番,

长电池使用寿命,降低能耗成本、功耗

传统 FPGA 的最好例证,此前 FPGA 一

功 耗 减 半。 这 是 一 款 非 常 高 端 的‘ 低

以及材料成本(无需更多的屏蔽及电源

直按照摩尔定律发展,即每 22 个月逻

端’FPGA。事实上,我们的竞争对手

电路),而且还可缩小最终产品尺寸。”

辑单元数翻一番。即便赛灵思最小型的

只有成本更高的‘中端’系列才具有相

Mohsen 表示,同样,Artix-7 系列

当的特性集,即便如此赛灵思 Artix-7 系 列仍有优势。”

不仅可全面发挥功耗减半的优势,同时

28nm 器件 Artix-7 系列,其加载的可编 程系统特性也远远超过了逻辑单元。

还可为其目标市场提供所需的高性能。

Mohsen 指 出,Artix-7 可 在 36 万

他说:“功耗减半可为更高的性能、逻辑

个 逻 辑 单 元 及 相 同 容 量 的 1,040 个

密度、I/O 带宽以及信号处理预留空间,

DSP48E1 Slice 中提供高达 18.5 Mb 的

为设计人员提供高度的灵活性,既可将

block RAM 与逻辑比,在具有更低功耗

降低功耗是赛灵思 28nm 系列器件的一

功耗降低 50%,也可在之前的功耗预算

与更低成本优势的同时,逻辑密度也相

个重点(参见《赛灵思中国通讯》第 41

下充分发挥更高性能及容量的优势。”

当于同类竞争产品的中端系列。DSP 资

充分发挥 HPL 及 7 系列的可扩展架构优 势

128ཚ‫ߌدڢ‬ഗ

ADC ∑△ 128ཚ‫ڢ‬

期的封面报道)。事实上,赛灵思与台积

Mohsen 指 出, 赛 灵 思 所 有 28nm

源可提供高达 1,306 GMAC 的 DSP 性

RX հຐࢇ‫ׯ‬ഗ

੦዆

ຕ਍ߛ໏ I/O

੦዆ߛ໏ I/O

547 ᆅগ (LVDS)

঴‫ز‬ഗ

Artix-7 FPGA

RX 128 ཚ‫ڢ‬հຐࢇ‫ׯ‬ഗ

46 ᆅগ

图 1 - Artix-7 FPGA 的 DSP 性能与 I/O 数可用于 128 通道的便携式超声波设备。

All Programmable 器件都采用相同的逻 电(TSMC)密切合作,协助台积电推 出 了 高 性 能 低 功 耗(HPL)28nm 芯 片 制造工艺,达到了 FPGA 生产的最佳契 合点。因而,整个赛灵思 28nm 产品系 列 的 总 功 耗 比 前 代 FPGA 产 品 锐 减 了 一半。 Mohsen 表示: “在所有产品系列中,

辑架构。Artix-7 FPGA 的 Slice 架构与

处理能力对要求较高处理功能的成像及

赛灵思 Virtex®-6 和 Spartan-6 FPGA 系

通信应用非常实用。

列极为相似,采用相同的 LUT 结构、控

此 外,Artix-7 系 列 还 支 持 多 达 16

制逻辑与输出。他说:“这种可扩展架构

个赛灵思针对低功耗进行优异的可配置

能够为用户提供便捷的移植路径,帮助

6.6Gbps 收发器,使 Artix-7 能够为低成

他们在 Spartan-6 和 Artix-7 FPGA 之间

本市场提供最高的线速率。这些收发器

进行设计移植。”

支持预加重与连续时间线性均衡

客户都希望降低功耗,这一需求在低成

能,是同类竞争产品的 3 倍。这种信号

(CTLE),可补偿整个传输通道中的信

本市场特别明显。这些器件适用于各种

逻辑单元密度超越摩尔定律

号 失 真。Mohsen 指 出:“Artix-7 支 持

需要更低功耗的应用,不但可帮助其延

Artix-7 是所有赛灵思器件如何快速超越

211 Gbps 的总吞吐量,是带宽敏感型

10

赛灵思中国通讯 45 期

2012 年秋季刊


产品专题文章

新器件系列支持多达 16 个赛灵思针对低功耗进 行优化的可配置 6.6Gbps 收发器,使 Artix-7 能够 为低成本市场提供最高的线速率。 这并不是说这些新型设备将取代那

应用可替代中端解决方案的低成本方

便携式医疗的增值

案。”

Mohsen 表示,为医疗电子领域开发设

些更大型的系统。Mohsen 补充道:“由

Mohsen 还表示,存储器读写带宽

备的企业希望在价值百万美元的大型医

于 我 们 更 大 型 的 Kintex-7 和 Virtex-7

可能会影响整体系统性能,因而 Artix-7

院设备的基础上进一步丰富产品组合。

FPGA 系列也具备丰富的特性集,因此

系列提供高达 1,066 Mbps 的 DDR3 数

他们正在努力为更小型的医生办公室、

这些大型设备也在不断新增令人难以置

据速率,是业界同类 FPGA 中最高的。

医院科室以及个人医师开发更低成本的

信的特性。”

存储器解决方案包括高灵活控制器与物

便携式电子设备产品系列。

Mohsen 指出,由于 Artix-7 系列的

AMBA®

Mohsen 表示:“便携式超声波设备

静态功耗与动态功耗分别比赛灵思

AXI4 从 接 口 连 接 至 DDR3 和 DDR2

是能够获得 Artix-7 FPGA 特性集极大优

Spartan-6 器件低 65% 和 50%,而且提

SDRAM 设备。控制器支持一系列外部

势的主要实例。有了这种便携式系统,

供多达 16 个 6.6Gbps 收发器,因此便

存储器,可实现如优化视频存取与数据

就不用将患者推到特定的房间去接受极

携式超声波设备设计人员可实现符合

存储等高灵活系统设计。

大型超声波系统的检测,这种便携式系

JESD204B 高速串行接口标准的最高画

统外形要小得多,可用小车推,甚至手持,

质。同时他们还可延长电池使用寿命,

应用的理想选择,可帮助客户实现创新,

直接到患者身边进行检查。医护人员可

满足安全标准要求,让实现 128 通道的

为其客户提供丰富的新特性集,并扩展

在救护车上使用这种系统,而上门出诊

波束形成器功耗比其它 FPGA 实现方案

市场。Mohsen 以便携式医疗设备、手

的医生也可使用。更吸引人的是,有了

低 41%。

持无线电以及小型蜂窝基站这三大市场

Artix-7 FPGA 系列产品,各公司可为新

图 1 是 Artix-7 FPGA 为便携式超

为例,展示了 Artix-7 FPGA 系列特性集

一代便携式超声波设备提供此前只有高

声波市场带来 All Programmable 优势

为其带来的巨大优势。

端系统才具备的众多高级特性。”

的实例。

理 层(PHY), 可 将 设 计 及

因此,Artix-7 A100T 是一系列不同

෉ॲ੦዆‫ت‬૙ᆅ൤

300MHz-2GHz ཀ၍

‫گ‬ሯำ ‫ٷݣ‬ഗ և‫ݴ‬

SAW ୳հഗ

RF ۙၿ

发射器 接收器开关

A/D

ຕጴ੻‫ټ‬മ‫܋‬

෉ॲ࿮၍‫ۉ‬ ‫ت‬૙ᆅ൤

ටऐথ੨

े௢‫ت‬૙ᆅ൤

ຕ਍߭๕ࣅ

I/O

Artix-7 FPGA

‫د‬ཥ RF և‫ݴ‬

图 2 - Artix-7 FPGA 中的系统集成与 DSP 处理性能对软件无线电设计至关重要。

2012 年秋季刊

赛灵思中国通讯 45 期       11


产品专题文章 为军用软件无线电精简材料、减轻重量、

达 1,306 GMAC 的 DSP 性能,是同类

步功能。与此同时,另一半单元则支持

降低成本

竞争 FPGA 性能的 3 倍,远远超越了任

信号处理的调制解调器通道。调制解调

Mohsen 指 出, 另 一 个 可 获 得 Artix-7

何独立 DSP 或 GPU。

器的关键要求在于提供适当的高性能

FPGA 丰富特性集极大优势的市场实例

Artix-7 具有 101,440 个逻辑单元,

转换器的互联,实现高数据吞吐量。

是军用软件无线电(SDR)。过去 10 年来,

采用 15mmx15mm 封装,是该容量级别

美国军方一直在积极构建称之为全球信

业界最小型的器件。更高容量与更小尺

Mohsen 指出:“Artix-7 系列非常适

息网的极高级全球通信网络,其不但可

寸的完美结合,有助于设计团队创建更

合上述功能,因为它具有逻辑密度、IP

确保美军及其盟友能够进行全球通信,

小、更轻的系统。图 2 是 Artix-7 FPGA

支持以及 DSP 资源的最佳组合。今年晚

而且还可提高情报及军事行动的精确度。

为 便 携 式 SDR 系 统 市 场 带 来 All

些 时 候 继 Artix-7 A100T 之 后 推 出 的

赛 灵 思 更 大 型 的 Virtex-7 和 Kintex-7

Programmable 优势的实例。”

Artix-7 A200T 具有 215,360 个逻辑单元,

FPGA 在 GIG 大型通信设备(包括网络

可帮助无线设备公司创建可在单芯片上

设备到飞机以及无人机)中正发挥着越来

无线回程扩展

集成所有必要数据包处理、流量管理、

越重要的作用,而军方也在寻找使所有单

无线回程是可获得 Artix-7 系列极大优势

时序与同步模块以及单个高速无线电通

位,甚至是单兵进入网络实现更高效率的

的又一应用实例。Mohsen 指出,目前蜂

道的回程解决方案。”同样,该系列的

更理想途径。

窝流量的大多数增长出现在城市和郊区。

第三款器件 Artix-7 A350T 则将允许无线

为了应对这种趋势, 运营商计划在路灯柱、

网络设备厂商在单芯片上集成两个高速

携式软件无线电系统都受制于更高的功

交通信号灯乃至相邻建筑墙壁上部署小

无线电通道。

耗与短时间的电池使用寿命等问题。此

型蜂窝基站,以提高其网络容量。他说:

外,它们不但太大太沉,成本太高,而

“运营商应将所有小型蜂窝互联成群集,

且也太复杂。这些系统需要大量的 DSP

并联接至最近聚合点,因而他们必须部署

处理功能来支持各种无线电协议或波形,

低功耗、低成本的回程单元,确保微波无

以满足全球语音、数据以及视频通信需

线电链路能够覆盖数十英里。”

Mohsen 指出:“目前部署的许多便

DSP 处理与高速收发器,以确保同数据

Mohsen 还表示,设备厂商正协同 工作,确保单元的视觉影响较小,不至 于影响城市和郊区的市容市貌。这种设 计要求通常意味着单元要非常小巧,这 可为确保每个单元高效散热的设计人员带

求。不仅支持所有这些波形很有挑战性,

传统移动回程单元通常支持几个以

来挑战。Artix-7 系列不但可帮助设备厂商

而且还要确保绝对安全,要能在无线电

太网链路,因而无线移动回程可使用内

控制功耗,同时还可进一步降低系统的整

频率难以覆盖的严酷条件下工作。因此,

部以太网交换器在以太网链路与无线电

体尺寸。

军方不断探寻能够更安全地运行更长时

通道之间转发流量。Mohsen 表示:“单

间的更理想、更轻量的系统。”

元两端都需要高速收发器,这就是 Artix-

Artix-7 系列是满足 SDR 系统这些

7 FPGA 可发挥优势的地方,它是更大、

需求的理想选择。的确,新器件非常适

更昂贵器件理想的低成本选择。Artix-7

合 SDR 调制解调器管理。Mohsen 解释

FPGA 系列可使用 Jedec JESD204B 连

说,SDR 系统中的调制解调器可进行基

接,通过其适用于以太网及 RF 链路的

带信号预处理和 RF 信号改善,这需要

16 个 6.6Gbps 收发器,为数据转换器提

大量的并行处理能力与可重配置性。他

供最大的带宽。”

线回程系统带来 All Programmable 优势的 实例。 首批 Artix-7 A100T FPGA 现已开 始供货,预计 2013 年第一季度将投入量 产。设计人员可使用赛灵思设计工具立 即启动 Artix-7 系列的设计。如需了解更 多信息,敬请访问:www.xilinx.com/cn/

说:“FPGA 非常适合这种应用要求,目

此外,Artix-7 器件还可帮助无线设

前大多数系统确实也在使用 FPGA,而

备供应商提高系统集成度,降低材料成

Artix-7 则能大幅提高性能。”Artix-7 具

本。Mohsen 指出,一半的回程单元都

有多达 1,040 个 DSP Slice,可提供高

包含数据包处理、流量管理以及时序同

12

图 3 是 Artix-7 FPGA 为小型蜂窝无

artix。

赛灵思中国通讯 45 期

2012 年秋季刊


产品专题文章

੦዆֫‫ت‬૙ഗ

DAC

ۙ዆঴ۙഗ

ཚ‫ ڢ‬1 ୁଉ࠶૙LjԈ‫ت‬૙ ཚ‫ ڢ‬2

ADC

้क़ཞօ

࿮၍‫ۉ‬

๭݀ഗ

ᅜ໿ྪ

๭݀ഗ

ᅜ໿ྪਸ࠲

Artix-7 FPGA 图 3 - 设计人员可使用 Artix-7 FPGA 为微波移动回程集成多芯片功能。

赛灵思首批 Artix-7 FPGA 正式出货,为便携式和小型产品树立 全新性能标准 以最低功耗和最低成本树立全新的 FPGA 性能标准 All Programmable 技术和器件的全 球领先企业赛灵思公司(Xilinx, Inc. (NASDAQ:XLNX) )今天宣布其旗下首批 Artix ™ -7 FPGA 系列产品正式出货。该 新型器件将 FPGA 技术的触角延伸至那些 小型、低成本可编程器件,然而性能传统 上却只有 Virtex® FPGA 才能满足的高性 能应用领域。随着 Artix-7 FPGA 的发货, 不论是便携式医疗设备、手持无线电设备、 小型蜂窝基站,还是众多分别采用其各种 技术架构的尖端专业级应用,其制造商们 现在都能利用高端 All Programmable FPGA 的功能,持续开发更多的新产品, 不断扩大其市场版图。

针对以先进功能取胜的便携式应用而 言,Artix-7 器件可以提供业界一流的高系 统性能、功耗能效,小巧的体积和低成本 等优势。随着首批 Artix-7 A100T 器件面 向客户开始供货,意味着赛灵思所有 7 系

2012 年秋季刊

列器件和 Zynq-7000 系列产品均已开始 以芯片形式供货,成就了赛灵思 28nm 系 列器件推出历史上的又一重大里程碑。 赛灵思 FPGA 平台市场营销总监 Dave Myron 指出:“赛灵思充分考虑尖端 应用的需求而推出 Artix-7 系列器件。 Artix-7 的推出,进一步丰富了由 Spartan® 系列器件所打造的赛灵思低成本产品系列 阵容。Spartan 系列已经在 3D 电视、车载 娱乐信息、工业控制和移动医疗设备等多 种应用中发挥了重要作用。” 赛灵思 28nm 系列产品选用了台积电 (TSMC) 的高性能低功耗 (HPL) 工艺,从 而使得 Artix-7 系列能够在最低功耗的前 提下,突破种种性能极限。这意味着客户 能够在诸如军用安全软件无线电系统等各 种电池供电的应用需求上实现低总功耗。 相对于同类竞争解决方案而言,Artix-7 器 件可将功耗降低 35%。而且,客户可将 最新加密 IP 和调制解调器功能集成在单 一芯片之上,从而能够在降低物料成本的 同时满足小尺寸的需求。此外,本系列中 最大型的器件还集成了丰富的 DSP 功能, 可支持 1,306 GMAC 的信号处理性能, 能处理各种各样的宽带波形,其支援的波 形种类数量比同类竞争产品高 3 倍以上。 相对于前代产品,Artix-7 系列的静

态功耗和动态功耗分别降低了 65% 和 50%,而且提供多达 16 个 6.6Gbp/s 收发 器,这就意味着便携式超声设备制造商能 够实现最高的图像分辨率,满足 JESD204B 高速串行接口标准要求。同时, 在实现 128 通道波束形成器的过程中, Artix-7 可以延长电池使用寿命,满足安全 标准要求,并比使用其它 FPGA 器件节省 40% 的功耗。 对于全球各地那些支持 4G 部署的微 波回程设备的制造商而言,Artix-7 使开发 人员不仅能够把集成调制解调器和包处理 功能集成在单个器件上,而且在提供智能 带宽方面能够达到最高单位功效。通讯市 场最终极的“神圣”目标是将一个基站集 成在单一芯片之上,即片上基站。而 Artix-7 为设备制造商提供了前所未有的高 集成度和灵活的可编程功能,让客户可以 在市场发展速度远超标准化发展速度的环 境中脱颖而出。 赛灵思中国通讯 45 期       13


专家园地

专家园地

FPGA 大 举进军云 计算领域 作者: Michaela Blott 高级研究工程师 赛灵思公司 michaela.blott@xilinx.com Tom English 研究科学家 赛灵思公司 tom.english@xilinx.com Emilio Billi 首席技术官 EB Engineering e.billi@emiliobilli.com

过去十年中,一个全新的全球性云 计算市场毅然崛起。这种将计算以 互联网服务的方式进行交付的新模

式,标志着计算机使用方式的根本性变革。云 为企业提供了一种将工作任务从本地 IT 基础设 施转移到远程优化的计算集群,随后到达提供 云服务的运营商手中的途径。对消费者而言, 云能够跨越世界上任何地方的各种计算设备, 连贯一致地提供存储、视频、消息发送、社交 网络、游戏、网络搜索及许多其他服务。

14

赛灵思中国通讯 45 期

2012 年秋季刊


专家园地

FPGA 的优势

在服务器内部,FPGA 在网络接口

在数据中心竭力向更快速、更大规模、

数据中心的 稳步增长

更低成本、更环保方面发展的进

博通及其他公司已经提供大量的控制器

程中,FPGA 技术可为计算、

用于为以太网和光纤通道开发标准适配

存储及网络带来诸多优

器,但如果需要在网络和 CPU 之间的数

势。在网络基础设施内

据路径上增加更多处理功能时,FPGA

部,FPGA 能够在保

就更为理想。增加的处理功能包括加密、

持高能效的同时,

高频率交易和 TCP 卸载引擎(TOE)。

满足日益增长的

FPGA 还适用于网络接口或处理功

吞吐量及处理能

能需要以某种方式定制化的情况。在这

力需求。此外,

些情况下,FPGA 能够提供高速串行收

鉴于新通信协议

发器、存储器接口、PCIe® 端点及足够

的 不 断 问 世,

规模的架构,配合基础 IP 模块可提供高

FPGA 与 生 俱 来

吞吐量数据流处理能力。采用更加先进

的灵活性也能在

的 IP 和解决方案组合,FPGA 能够满足

这种环境下成为重

市场的具体需求,让 FPGA 在这个最终

为现有先进的 FPGA 器件 开辟了新的机遇

大优势。

将为全球客户群服务所需的计算能力、

具竞争力。例如,更先进的 TOE IP 模

FPGA 能提供合适的物理

块(配合完整的 Linux 驱动程序和 TCP/

接口以及高速存储接口所需

IP 协议栈),能够处理数以千计的同步

的支持与带宽。FPGA 器

会话,为 FPGA 在数据中心的应用开辟

Synergy 研究集团透露,数据中心网络 基础设施的销售仅在 2010 年就增长了 22 个 百 分 点。 像 领 跑 云 计 算 革 命 的 Google 和 Facebook 等企业准确预计到 为全球庞大的用户群服务需要大量的数 据中心基础设施。

2012 年秋季刊

出一系列新机遇。

以 实 现 超 过 100G

这种网络适配器的一个特例就是快速

的数据包处理流

通 道 互 联(QPI) 网 络 适 配 器。QPI 是

水 线。FPGA 的

英特尔的专有高带宽、低时延 CPU 互联。

灵活性便于实现完

赛灵思已开发出能够让 FPGA 通过 QPI

美优化、能够以最高

直接连接到 CPU 的 IP,不仅能大幅降

效率工作的定制线路。

存储及互联融为一体。目前,数据中心 发 展 迅 猛, 直 接 导 致 大 量 的 投 资。 据

用户习惯于部署全集成平台的环境中更

在 基 础 层 面,

件非常尖端、复杂,足

数据中心是云计算变革的核心,它

卡(NIC)设计中备受欢迎。虽然英特尔、

低主机接口的时延,而且还可为 CPU 与

正如 AutoESL 等高层次综合的重大

网络接口之间提供更高的带宽。这类网

改进,正在帮助 FPGA 克服在该领域的

络适配器在数据中心中极具吸引力,因

最大劣势,即 FPGA 编程流程抽象层次

为时延在已经高度并行化的应用中会迅

低。最终将出现覆盖基础网络功能的基

速成为主要的性能瓶颈。QPI NIC 为主

础 FPGA IP 系列。但针对数据中心桥接

机提供的双向峰值带宽是典型的第二代

(DCB)、VXLAN、虚拟交换及其他专

PCIe 服务器 NIC 的四倍。QPI 传输率较

业技术的特定数据中心解决方案还有待

高,报头较短并支持 FPGA 到 CPU 的

开发。

直接传输,所有这些优势使其能够以比 赛灵思中国通讯 45 期       15


专家园地 PCIe 低得多的时延传输短小信息。随着

术模块,将来的 Zynq 器件便能够令人

时延成为已经高度并行化的应用的主要

信服地用于数据中心服务器。

性能瓶颈,超低时延高带宽 QPI NIC 成 为极富吸引力的方案。

主板上的应用

而且,FPGA 还有助于加速查询处 理、滤波处理、解压处理以及某些关系

最后,尤其是来自高性能计算领域

运算符的执行。这对用于解决吞吐量瓶

的日益增长的处理需求,能够从 FPGA

颈问题的未来更智能的存储设备来说至

与 CPU 综合运用的混合计算解决方案中

关重要。最后,在所谓的“超存储”应

获益匪浅。目前 Convey 与 Maxeler 提

用中,FPGA 也能发挥重要作用,可加 速文件系统操作,避免其占用大量 CPU

我们还看到 FPGA 本身在主板上具有更

供的解决方案已经体现出这种混合方法

广阔的应用机遇。数据中心中的部分常

显著的性能与省电优势。例如,Maxeler

见应用,如目前在 x86 服务器实现存储

为某个金融客户设计的信用衍生品定价

器内部高速缓存,尽管事实上 x86 并非

系 统, 其 运 行 速 度 是 运 行 在 英 特 尔

这类应用的理想选择。FPGA 能够显著

E5430 服务器上的软件的 37 倍,且能

器与存储服务器的比例,从而增加可用

改善性能、功耗及时延。目前的趋势是

耗降低 97% 以上。而且 QPI 技术能够

的存储,提高性能。

把计算从多个分散的内核处理转变为更

进一步加强这些优势,因为通过这种低

现有的 FPGA 技术能够满足这些要

流 水 线 化 的 数 据 处 理。 这 种 方 式 对

时延、高带宽、缓存一致的接口,硬件

求。尤其是,目前 Zynq 架构中的嵌入

FPGA 架构非常有益。芯片的数量也能

加速器能够与 CPU 更加紧密地耦合。

式 ARM 处理器已经能够处理操作系统

够满足 FPGA 面临的机遇需要。但必须 解决 FPGA 编程工具抽象层次低这一问 题,方能与基于 X86 服务器上的 C 编译 器相竞争,从而满足 Facebook 等最终

周期。这些 FPGA 目前运行在存储区域 网络中与存储服务器共址的单独服务器 上。使用 FPGA 加速,可降低控制服务

功能。而且,更先进的 IP 和解决方案组 数据存储、数据仓库及数据分析

合定能进一步发挥 FPGA 的潜能,有助

与 服 务 器 及 网 络 情 况 相 似, 现 有 的

于加速新设计开发进程。

FPGA 能够用三种不同的方式在存储、

用户需要。

ंࢇऺ໙!

዇ీ‫ݴ‬ဆ

ጞ௬Ⴕెࣅ!!

዇ీྪஏ!

QPI I/O ᇑ٪‫ئ‬ഗકቛ

‫ࡼీگ‬ব‫!ۅ‬ ࠼ࢻ૴

࠼‫ݴ‬ፇ঍࣑ᇑ‫د‬๼DŽOPSTDž!

዇ీྪஏথ੨ਸ਼DŽNICDž

ጆᆩ‫ޜ‬ခഗ!

࠼࣮‫!ײ‬

‫ג‬प٪‫ئ‬෻٪੦዆ഗ

ሊ RAN

ۨ዆ྪஏথ੨ਸ਼DŽNICDž

QPI ྪஏথ੨ਸ਼!

‫ڼ‬ᅃૌ

‫ܾڼ‬ૌ

‫ڼ‬ෙૌ

从更具预见性的角度出发,数据中

数据仓库及数据分析中提供富有竞争力

三大机遇

心有一类随意被称为“低能耗节点”的

的实现方案。首先,目前趋势是将闪存

如图 1 所示,我们将这些不同的机遇分

服务器。赛灵思已经开发出了多种针对

存 储 系 统 与 主 机 更 紧 密 集 成。 新 一 类

这种新服务器的关键技术以及针对这个

PCIe SSD 控制器可让闪存直联到 PCIe

领域的新兴 SoC 架构,如 ARM 处理器

上。FPGA 已角逐这个领域,提供了关

核、PCIe 接口模块、存储器接口及可编

键功能及基础 IP 构建块。另一项关键优

程逻辑。目前的 ZynqTM-7000 可扩展处

势是 FPGA 的高灵活性。虽然新标准化

理平台尚未准备好在这个市场上与基于

工作如开放式 NAND 闪存接口(ONFi)

ARM 的服务器 SoC(如 Applied Micro

正在如火如荼地进行,但目前闪存接口

的 X-Gene)相竞争。但使用现有的技

行业标准尚未确立。

16

为三大类。第一类是不需要投入更多开 发工作的应用。芯片功能、IP 组合、相 关软件及可编程功能足以满足这些市场 需求,其中部分市场已经采用 FPGA。 例 如,Intune Networks 利 用 FPGA 实 现光分组交换和传输(OPST)解决方案, 声称通过降低功耗可降低多达三倍的成 本。Maxeler 和 Convey Computers 在

赛灵思中国通讯 45 期

2012 年秋季刊


专家园地 FPGA 的基础上推出混合计算解决方案。

高度变动的市场

IBM/Netezza 的产品采用 FPGA 实现了

数据中心是一个极具活力的市场,其中

智能分析功能。BlueArc 的超级存储产

接口标准及协议快速发展。这在网络设

品 通 过 使 用 FPGA 大 幅 改 善 性 能。

备上体现得尤为明显,计算功能也不例

FushionIO 在 其 闪 存 控 制 器 中 采 用 了

外。这样的环境为采用基于 FPGA 的高

FPGA。Naptech 与 Nalltech 等 众 多 厂

速处理系统提供了重大的机遇。这些类

商 提 供 了 基 于 FPGA 的 智 能 或 定 制

型的应用特别适用于目前的赛灵思技

NIC。

术, 并 结 合 高 速 串 行 I/O 及 对 应 IP 的

第二类属于需要高级开发工作的应 用。这个类别中最引人瞩目的是与 QPI 相关的机遇:QPI NIC 以及存储和 I/O 扩展。

FPGA 设计,如 Kintex ™ and Virtex® 系列器件。 高度关注数据中心市场就会发现更 多商机。尤其是大多数数据中心的应用

FPGA 在这种环境下的机遇,尤其是在 服务器领域中的机遇,将取决于 FPGA 的可编程功能的改进与完善。 第三类是需要对芯片功能或可编程

均围绕着必须搜索和分类的海量数据,

环境投入大量研发工作的长期机遇。例

以芯片或 IP 的形式为存储器访问功能

如为解决低能耗节点问题,需要采用新

(访问带宽和密度)、散列及搜索功能

一代 Zynq FPGA 器件,要求该器件带

提供支持,这对数据中心而言具有极其

有集成度更高的 64 位 ARM 处理器以及

重要的意义。采用以赛灵思堆叠硅片互

带宽更高、速度更快的存储器接口。

联技术(SSI)为基础的未来 PFGA 器

专用服务器与 CRAN 或云 RAN 均 处于第二类与第三类的边界上。两者都

最后,我们相信这些机遇,尤其是

需要进行高级开发,以提供必要的基础

在 服 务 器 领 域 中 的 机 遇, 将 取 决 于

设施和平台,从而可从具有更高抽象层

FPGA 的 可 编 程 功 能 的 改 进 与 完 善。

次的新型可编程工具中获益。但是,事

FPGA 编程必须抽象到数据中心编程人

实上基于 RTL 的传统设计流程对某些用

员能够接受的水平。

户而言可能已经足够,所以将这些机遇 划入第二类。

件将在此发挥重要作用。

2012 年秋季刊

赛灵思在Intel开发者论 坛上展示业界首款针对 FPGA的QPI 1.1接口 QuickPath Interconnect 助力 7 系列 All Programmable FPGA, 扩展 Intel 处理器系统的功能 All Programmable技术和器件的 全球领先企业赛灵思公司 (Xilinx, Inc. (NASDAQ:XLNX)) 在 Intel 开发者论坛 (IDF) 上首次展示如何通过 QuickPath Interconnect (QPI) 协议将现场可编程 门阵列 (FPGA) 与 Intel Sandy Bridge Xeon 处理器相连。赛灵思的 QPI 解 决方案使开发人员能够在赛灵思 All Programmable FPGA 与 Intel Xeon 处 理器之间建立一个低时延、高性能链 路。该解决方案充分利用赛灵思 FPGA 的高性能处理能力和灵活的 I/O 功能, 实现最佳的整体系统性能和功耗。欢迎 IDF 的出席人员到赛灵思展台 (426号) 观看现场演示。 赛灵思公司有线通信高级总监 Nick Possley 指出:“通过今天的演示,赛 灵思首次为基于 Intel Xeon 处理器的系 统推出了基于 FPGA 的低时延、高带宽 互联 IP 核。赛灵思解决方案可以卸载 高强度的 I/O 操作或者直接实现应用加 速,从而能够提高给定服务器的计算性 能,这也意味着该解决方案将在降低数 据中心资本支出和运营支出方面发挥重 要作用。” 赛灵思 QPI 开发平台包括 IP 核以 及能直接插入现有 Intel Sandy Bridge CPU 插槽的开发模块,硬件设计人员 可利用该平台立即启动 QPI 解决方案的 开发工作。 赛灵思 Virtex ® -7 FPGA和Intel Sandy Bridge CPU 之间的 QPI 1.1 全 宽链路包含 20 条通道,每通道速度高 达 6.4Gb/s。赛灵思提供的定制开发板 能将 Virtex-7 FPGA 直接安装在 Intel Sandy Bridge Xeon CPU 插槽上。在 演示中,我们采用 Native Loopback (NLB) 示例软硬件来确认 FPGA 和 CPU 之间的数据交换。QPI 接口使 Intel Xeon CPU能够充分利用赛灵思 FPGA 的并行处理功能并加速高计算强 度的应用,实现协同处理和/或应用加速 功能。开发人员还能利用赛灵思解决方 案实现高性能、低时迟的网络接口控制 器和 I/O 连接扩展,充分发挥 QPI 协议 的缓存一致性优势,更高效地完成数据 包处理任务。 赛灵思中国通讯 45 期       17


绿色科技领域的出色表现

绿 色 科 技 领域的 出色 表现

采用 Spartan 技术支持 绿色能源开发 赛灵思 Spartan-3A FPGA 可强化 面向多端 DRI 电源逆变器的 控制算法实现方案 作者:Phillip Southard 高级设计工程师 PDS Consulting, LLC 公司 phillip.southard@pds-consulting.com

18

赛灵思中国通讯 45 期

2012 年秋季刊


绿色科技领域的出色表现

成本等众多优势。该 DRI 配备多个 AC

油 AC 发电机相兼容,也可使用光伏(PV)

和 DC 端子,能够将电源路由到电网、

或者风电输入。使用 DRI 的小型社区可

微型电网、DC 能源存储系统或动态负

以减少对电网的依赖,减少碳足迹并降

载上。可编程电源曲线和充电曲线可提

低公用设施成本。此外,DRI 还能为电

高对发电机、负载和电池的控制,从而

网服务和光伏提供面向电动车的存储和

确保更高的效率。此外,使用大容量、

充电服务。

较长使用寿命的高级开关可最大限度地 提高可靠性。 普林斯顿电力系统展示了 DRI 的众 多特性:提高电网的互联性和效率,增 强可再生能源系统的性能,以及帮助电

向工业应用的产品开发需要在时限和产

动车和分布式发电系统实现更高的集成

品规范不断变化的环境中进行广泛的研

度。DRI 是该公司“日光岛”微电网演

究和准备。虽然这个领域的产品上市时

示(图 2)的组成部分。这个演示详细

间不像消费类电子产品那样快,但是产

地介绍了清洁技术和制造方面的重大进

赛灵思 SPARTAN 技术 为了充分满足工业产品设计的需求,像 普林斯顿电力系统这样的企业充分利用 赛灵思目标设计平台(TDP)等灵活开 发工具的优势,并得到其丰富的生态系 统设计服务支持。在这种情况下,工程 设计团队面临的第一个挑战是决定如何 扩展 DRI 系统中数字信号处理器的输入

品必须迅速生产交付,并具备尽可能多 的用于发展新一代产品的关键性功能、 特性和潜能。企业力争成为各自所在竞 争领域的行业领导者,特别是在绿色能 源等全新市场,因其尚处于起步阶段, 没有预定的行业领导者,从而需要先驱 者设计、开发和推出全新的产品。成功 不仅取决于倍受鼓舞、专心投入的工程 师团队,高级计算技术和全新材料,同 时还取决于有没有风险投资者或者政府 机构为这些能够改善能源发电、分配、 监控、计量和消费等领域充满前景的方 法提供资助。 2011 年秋天,来自新泽西的高级电 源转换产品和替代能源系统制造商—— 普林斯顿电力系统(PPS)的工程师展

图 1 - 普林斯顿电力系统使用 FPGA 设计的需求响应逆变器具有高度的灵活性。

示了他们最新的绿色电源产品。这种需 求响应逆变器(DRI)是 PPS、美国能

源部和桑迪亚国家实验室太阳能电网整

步,其中包括 200 千瓦太阳能电池阵列

合系统(SEGIS)为期三年的合作成果。

和锂离子电池系统等。

和通信接口。PDS Consulting 可为各种 市场的可编程数字系统提供设计服务,

开发出的多端 DRI(图 1)具有独

微型电网可以独立于主要的公用电

特的灵活性,相比目前可用的逆变器拥

网运行,提供可靠、低碳排放的能源。

有更高的可靠性、更高的效率和更低的

普林斯顿电力系统的 DRI 与柴油或者汽

2012 年秋季刊

和输出,以及如何实现并行工作的控制

其中包括航空航天与军用、广播、工业、 科研和医疗等。该公司以赛灵思联盟计 划成员的身份为这个项目提供工作支持。 赛灵思中国通讯 45 期       19


绿色科技领域的出色表现

࠼‫૶ޚ‬থ

AC ‫૶ྪۉ‬থ

DC ీᇸ٪‫ئ‬

‫ۉ‬ऐ0݀‫ۉ‬ऐ

图 2 - 普林斯顿电力系统高灵活性的多端 DRI 正在面向电气微型电网进行配置。

PDS 咨询团队可提供现场实际操作

辑块(CLB)查找表作为双端口 RAM 使

接到 DSP 的 ADC 的读取值来完成系统

系统调试和 PCB 启动,以及非现场 RTL

用,可高效地在本地存储 ADC 提供的全

错误检查;实现时钟驱动工作,比如在

和 IP 设计等服务。此外,我们还向普林

新能源波形采样,同时可让 DSP 读取此

必要时精准地读取 ADC;完成 ADC 值

斯顿电力系统的开发人员提出建议如何

前的采样波形,以及 PicoBlaze ™嵌入

的平均计算。

实现面向他们绿色电源控制算法的系统

式处理器分析来自第二个端口的新值。

控制接口。最终,工程师选择将赛灵思

如果没有 FPGA,这其中的一些功 能要求就无法实现。其它功能将需要在

Spartan® XC3SD3400A FPGA 与 DSP

赛灵思 FPGA 的优势

相结合,当作主系统控制组件(图 3)。

DRI 的控制板上安装更多的组件,或者

普林斯顿电力系统的算法需要进行大量

需要更加复杂的软件架构。普林斯顿电

Spartan-3A FPGA 具 有 丰 富 的

的计算,这只能由浮点 DSP 才能完成,

力系统的团队知道应尽量避免出现后一

SelectIOTM 功能,能够为实现方案带来

但 FPGA 具有很多 DSP 不具备的特性。

种情况,因为控制板是 DRI 系统的核心。

高度的灵活性,对于触发信号和 ADC 输

赛灵思 FPGA 的一些特性非常适用于这

入通道而言尤为如此。赛灵思 Spartan-

个普林斯顿电力系统项目,其中包括多

3A 系列因其 FPGA 允许进行现场设计

电压、多标准 SelectIO I/O 引脚;可配

升级,可避免高昂的初始成本和冗长的

置逻辑块;block RAM;以及可实现大

开发周期,对比传统 ASIC 固有的低灵

量可编程触发信号的存储器接口等。这

活性,因而可完美替代 ASIC。Spartan-

些信号生成和执行脉冲序列,用于触发

3A 支持的集成技术可让普林斯顿电力系

IGBT 等功率电子开关,并控制负责在每

统面向绿色能源转换的专利控制算法成

个脉冲或定制高速串行接口上读取重要

为现实。

系统测量值的大量高速 ADC 通道。

普林斯顿电力系统的研发经理 Frank Hoffman 指出:“虽然现在越来越 多的 DSP 能够提供之前没有的外设,但 FPGA 的使用仍具有重要意义。随着每 一 代 产 品 的 面 世, 从 Spartan-3 到 Spartan-6,FPGA 内部的计算资源数量 不断增加,现在已经可以把更多的计算 工作分配给 FPGA。这就意味着可以用 更快的速度运行我们复杂的控制算法,

实现 DRI 系统的接口需要 300 多组

FPGA 不仅帮助普林斯顿电力系统

I/O,该接口能够以超过 900kbps 的速率

设计和实现了完美符合其特定要求的定

访 问 8MB 闪 存、256Mb SDRAM 以 及

制外设,同时还为输入值的处理提供了

USB/RS-232。此外,团队还充分利用

更充裕的计算资源,否则这些处理工作

结果

了 Spartan 架构中固有的大量高速分布

将 需 要 由 DSP 完 成。 基 于 Sparant-3

一方面使用 FPGA 的技术优势非常明显

式 32 位双端口 RAM 的优势。可配置逻

FPGA 的设计能完成多个流程:使用连

(快速原型设计、灵活架构、用于快速

20

从而改善生成的输出质量,比如 DRI 的 输出。”

赛灵思中国通讯 45 期

2012 年秋季刊


绿色科技领域的出色表现 系统内调试的赛灵思 ChipScopeTM 集

计。”该产品现已提供供货,而且普林

w w w. p r i n c e t o n p o w e r. c o m / p r o d _

成逻辑分析器等高级支持工具),另一

斯顿电力系统还赢得了两个新的客户:

demand.shtml。

方面这项决定也对普林斯顿电力系统的

宝马和 SuperPlug 已经把 DRI 集成到新

结果(bottom line)造成了影响。

的电源系统设计中。

consulting.com ,与 P D S Consulting

执行副总裁 Darren Hammell 指出:

在绿色电源技术等领域,工程师面

“使用 FPGA 不仅可加快开发进程,降

临着全新的挑战,包括决定如何在保持

低研发费用,还可加速全新创新型替代

必要的功能的同时优化算法实现方案。

能源系统的上市进程。该编程环境简便

有了合适的工具、技术和团队,在这个

易用,让我们能够快速开发和测试我们

领域中取得新的进展指日可待。

的创新软件。与采取其它方法相比,我 们能够更快地完成用于演示的原型设

您可发送电子邮件至 sales@p d s -

取得联系。

如需了解有关普林斯顿电力系统多 端 DRI 的更多信息,敬请访问:http://

࠼‫ޚ‬ ࠀ୲‫ۉ‬ጱ ‫ྪۉ‬

=

=

=

~

DC/DC ইუ0ืუൃথഗ

AC-to-DC ൃথഗ

=

=

‫݀ة‬ഗ

=

‫׾ۉ‬

~

޶ሜ‫܋‬੨

‫ߌد‬ഗ

1010000

FPGA DSP

ᅺ༬ྪ

ᇺ‫کײ‬୤ ᇑ॔੦

FPGA

ሏᆐฆ0ᆩࢽ 图 3 – 工程师选择具有丰富 SelectIO 功能的 Spartan-3A FPGA 作为主系统外设。

2012 年秋季刊

赛灵思中国通讯 45 期       21


固态磁盘领域的出色表现

固 态 磁 盘 领域的 出色 表现

利用 Kintex-7 FPGA 设计 19nm 闪存 PCIe SSD 作者:Yilei Wang Memblaze(中国)公司高级硬件工程师 yilei.wang@memblaze.com Xiangfeng Lu Memblaze(中国)公司首席技术官 xiangfeng.lu@memblaze.com

借助赛灵思 7 系列器件, 这款基于 PCI Express 的 固态磁盘设计同时获得速度 和性能提升。

22

赛灵思中国通讯 45 期

2012 年秋季刊


固态磁盘领域的出色表现 NAND 闪存存储器为基础的

(Gen1 为 2.5Gbps,Gen2 为 5Gbps,

代产品相比,性价比提高了两倍,而功

固 态 磁 盘(SSD) 技 术 与 传

Gen3 为 8Gbps)。SSD 的 PCIe 接口可

耗降低了 50%。Kintex-7 FPGA 采用高

统的机械驱动器存储系统相

支持数 GB 的吞吐量,并随着 NAND 闪

密 度 逻 辑、 高 性 能 收 发 器、 存 储 器、

比, 吞 吐 量 更 高, 功 耗 更 低。 为 此,

存技术的发展为可预见的将来预留更多

DSP,以及灵活混合信号技术,所有这

SSD 使用量在过去十年迅速增加,从手

裕量。

一切能让系统级性能和集成度迈上新高。

持设备到笔记本、台式机,现在又进军

但用 19nm 闪存开发基于 PCIe 的

企业级存储设备市场。企业级存储产业

SSD 系 统 一 直 面 临 一 系 列 挑 战。 与

对基于串行高级技术附件(SATA)标准

SATA 相比,PCIe 接口要求更多高速串

的 SSD 的采用进一步加速了这一快速扩

这些功能能让设计以批量价格不断实现 创新和差异化。由此,赛灵思 Kintex-7 系列 FPGA 是 19nm 闪存 PCIe SSD 控 制器的理想选择。

行链路和更复杂的互联。对吞吐量需求

展势头。

则要求 PCIe 直接存储器存取(DMA)

图 1 所 示 的 是 Memblaze SSD 控

但是,在 SSD 制造商期望通过使

以千兆字节带宽运行。另外,采用 19nm

制器架构,由三个以高速 AXI4 总线相连

用 19nm 闪存存储器将新一代系统的性

工艺,闪存的可靠性或者更具体地说“平

的子系统组成。PCIe SG-DMA 子系统

能和密度推上新的高度的时候,SATA

均读写”(NAND 在遇到错误之前能读

包含 Kintex FPGA 硬核,负责在主机和

并没有跟上。即便是最新的版本(SATA

取或者写入的次数)也是一个日益严峻

SSD 数据缓存之间分散和采集数据(SG

3.0),6Gbps 物 理 接 口 也 难 以 满 足

的问题。采用 19nm 工艺,制造商必须

代表分散(Scatter)和采集(Gather))。

SSD NAND 闪存阵列的最高吞吐量,因

以比以往更快的速度完成平均读写和纠

CPU 子系统负责管理外设和执行 SSD

此存在性能利用不足的问题。

错。

存取命令,而存储子系统则负责运用多

为 突 破 接 口 瓶 颈, 基 于 PCI

赛灵思 KintexTM-7 FPGA 以不到

Express® 的 SSD 正在给市场带来重大

前一代 FPGA 一半的成本为 FPGA 设立

影响。PCIe® 是业界标准本地总线,性

了新的高性能基准。Kintex-7 系列是赛

能和扩展能力均优于 SATA。它采用多

灵思采用台积电(TSMC)高性能低功

信道高速串行链路,可支持 1 至 16 个信

耗(HPL)28nm 工 艺 技 术 生 产 的 四 大

道, 每 个 信 道 的 运 行 速 率 高 达 8Gbps

产品线之一,旨在实现最大能效,与前

AXI 4 ጺ၍

7 ဣଚ PCIe ࢃ

DMA থ๭ᆅ൤

DMA स٪ഗ

TAG ఇ੷

这 三 个 子 系 统 共 享 带 ECC 功 能 2GB DDR3 SDRAM。采用赛灵思存储器接口 生 成 器(MIG) 工 具 很 容 易 生 成 ECC DDR3 SDRAM 控制器。

32-MB XOR ෻٪

MIG DDR3 ੦዆ഗ

QSPI ෻٪ ੦዆ഗ

IIc ੦዆ഗ

ዐ܏ ੦዆ഗ

ဣཥ ੦዆ഗ

ዐ܏

DMA থ๭ᆅ൤

1

ೌฉस٪ഗ࿔ॲ

ຕ਍‫ں‬኷ገ࣑

UART

RS-232

CPU ጱဣཥ

ߛ໏዇ీ ECC Պஓ ٪‫ئ‬ ጱဣཥ

PCIe SG-DMA ጱဣཥ

Kintex-7 325 T

๎՚ႊೌ

0

BRAMs MicroBlaze

࿒‫ߌد܈‬ഗ

AXI 4 Lite ጺ၍ TLP থ๭ ᆅ൤

PCIe Gen 2 x 8

块和平均读写模块处理 SSD 扇区数据。

9 x 2 Gbit DDR3

MicroBlaze TLP থ๭ ᆅ൤

通道 NAND 控制器、纠错码(ECC)模

ߛ໏ೝ਩‫܁‬ႀ0 ෻٪ఇ੷࠶૙

19 nm ෻٪੦዆ഗ

ຕ਍‫ں‬኷ገ࣑

ߛ໏዇ీ ECC Պஓ

19 nm ෻٪ ንଚ

图 1- 针对 19nm NAND 闪存 PCIe SSD 的 Kintex-7 SoC 解决方案由三个子系统组成:CPU、存储和 PCIe SG-DMA

2012 年秋季刊

赛灵思中国通讯 45 期       23


固态磁盘领域的出色表现 在我们的设计中,使用 7 系列 PCIe

理。幸运的是在赛灵思 7 系列 FPGA 中

控访问,在主机和本地存储器之间传输

硬核实现物理转 TLP 层,让设计能够以

设计 PCIe SG-DMA 控制器速度既快又

数据。主机向 DMA 控制器发送命令,

最低的时延发挥高性能 PCIe 端点的功

方便。赛灵思已经把 PCIe 硬核实现在

控制 DMA 访问。该命令代码嵌入在特

AXI4 互联的新型嵌入式

器件的架构中,用于处理全部的 PCIe

定的主机 TLP 寄存器写操作的数据中。

MicroBlaze® 核可彻底消除片上总线的

操作。这样设计小组就可以集中精力设

SG-DMA 控 制 器 初 始 化 SG-DMA 写 入

瓶 颈。DDR 硬 核 为 磁 盘 高 速 缓 存 提 供

计 SG-DMA 操作本身的功能。PCIe 解

请求,响应主机的读取命令,将数据从

51.2Gbps ECC 解决方案。同时,使用

决方案的集成模块可支持单通道、双通

本地存储器迁移到主机存储器。同样,

低功耗逻辑资源能够方便地运行高性能

道、四通道和八通道端点配置,最高速

对于主机的写入命令,SG-DMA 控制器

平均读写和智能 ECC 算法。另外,丰富

度达 5Gbps(Gen2),符合 PCIe 基本

初始化 DMA 读取请求,将数据从主机

能。支持

ARM®

LogiCORE IP 7 ဣଚ FPGA ௬ၠ PCIe ‫ڦ‬ण‫ׯ‬ఇ੷ ݀ໃഗ Block RAM

ᆩࢽஇड

থ๭ഗ Block RAM

AX14-Stream থ੨

PCI Express (PCI_EXP)

PCI Express ॐࠓ

ᆩࢽஇड

࿿૙֫ ੦዆ࢅጒༀ

࿿૙ (PL)

ዷऐথ੨

ದዃ (CFG)

੗჋ۙ๬

ᆩࢽஇड

੗჋ۙ๬ (DRP)

ဣཥ (SYS)

௬ၠ PCI Express ‫ ڦ‬7 ဣଚ FPGA ण‫ׯ‬ఇ੷ (PCIE_2_1)

๭݀ഗ

้ዓࢅް࿋

图 2 - PCI Express 硬核顶层的功能模块与接口

的高性能 I/O 资源为 19nm NAND 闪存

规范 2.1 修订版。表 1 是 7 系列 FPGA

存储器迁移到本地存储器中。图 3 即是

阵列的互联提供了方便。

的 PCI 集成模块的配置。该核可配置为

流程的图解。

Gen1/Gen2,最多可支持 8 个信道,从 PCI EXPRESS SG-DMA

AXI4 互联

我们设计的 PCIe 接口要求用一个快速

我们使用 CORE GeneratorTM 工具

AXI4 互联 IP 将一个或多个 AXI 存储器

DMA 控制器实现主机和本地 AXI4 总线

来配置和生成 PCIe 端点 IP。该工具包

映射的速度更快的设备连接一个或多个

间的高速通信。SSD 闪存阵列的吞吐量

括用户指南、源代码、仿真代码和设计

存 储 器 映 射 的 从 设 备。AXI 接 口 符 合

可 高 达 2.5Gbps。 为 简 化 PCIe 接 口 的

范例,可帮助我们迅速发挥该核的作用,

ARM 制定的 AMBA® AXI 第 4 版规范,

设计,为闪存芯片的发展提供更大的裕

实现要求的速度。图 2 显示了 PCIe 硬

包括 AXI4-Lite 控制寄存器接口子集。互

量,我们选择使用 8 信道 PCIe Gen2/

核的顶层功能模块和接口。

联 IP 仅用于存储器映射传输,不适用

Gen3 架构。

而可提供高达 40Gbps 的带宽。

SG-DMA 核的主要功能是处理来自

PCIe 端点在物理层、数据链路层和

主 机 的 TLP 数 据 包 并 做 出 响 应。

事务处理层中有大量复杂的协议需要处

SG-DMA 用作对主机存储器的 PCIe 主

24

AXI4-Stream 传输。AXI 互联 IP 可用作 赛灵思嵌入式开发工具套件(EDK)中 提 供 的 pCORE, 或 者 用 作 赛 灵 思

赛灵思中国通讯 45 期

2012 年秋季刊


固态磁盘领域的出色表现

Artix-7

Kintex-7

Virtex-7 T

Virtex-7 XT

Virtex-7 HT

Gen2

Gen2

Gen2

Gen3

Gen3

੻‫܈‬

x4

x8

x8

x8

x8

ఇ੷ຕ

1

1

3-4

2-4

1-3

‫ز‬ႜຕ਍໏୲ (Gbps)

5

5

8

8

8

‫پ‬DŽण‫ׯ‬ఇ੷Dž*

PCIe

*एᇀ‫୳׬ܔ‬հഗํ၄‫ݛ‬ӄ

表 1 - 7 系列 FPGA 的 PCI Express 集成模块

CORE Generator IP 目录的独立内核。

的强化。

信号宽度。

设计人员可从赛灵思 AXI4 IP 支持

AXI4 互 联 在 PCIe SG-DMA 和

的两种操作模式中选择。性能优化的纵

DDR3 存储器之间提供高性能互联。我

储器存储系统如果向闪存写入数据,

横交换机(crossbar)模式采用共享地

们发现 AXI4-Lite 共享总线是低速片上互

寿命会比较短。如不采用平均读写

址多数据流(SAMD)纵横交换机架构,

联的理想解决方案,需要的逻辑资源极

技术,闪存控制器必须永久性地将

为读 / 写数据通道提供并行路径。而面

少。

操作系统(OS)的逻辑地址分配给

不采用平均读写机制的闪存存

积优化的共享访问模式则提供共享写数

闪存存储器的物理地址。也就是说

据地址路径、共享读数据地址路径和单

平均读写技术

每次向之前已经写入的模块的写入

条共享地址路径。这两种模式均为增量

平均读写是存储介质厂商用于延长各类

数据都必须先读取、擦除、修改此

(INCR)突发提供长达 256 位的突发长

可擦除计算机存储设备使用寿命的设计

前的数据,然后在相同一位置重新

度以及 32 位至 1024 位的不同数据宽度。

技术, 比如固态硬盘中使用的闪存存储器。

写入。这非常耗时,而且经常写入

如有的话,每个通道还可支持 USER 信

在闪存存储器系统内使用的平均读写机

的位置会迅速磨损,而闪存上有的

号传播,可选择每个通道独立的 USER

制有几种,每种都对使用寿命有不同程度

位置则完全没有使用。一旦部分模

๭‫ ڟ‬TLP स٪ഗ‫ݡ‬࿚

๟‫ޏ‬৊ႜ TLP ႀ෇Ǜ

݀ໃ TLP स٪ഗ ྜኝ‫ڦ‬स٪ഗኵ

๟‫݀ޏ‬ໃ DMA ంସǛ

ᆩ TLP ኵยዃस٪ഗ

๟‫ ޏ‬DMA ႀ෇Ǜ

݀ໃ TLP ‫܁‬ൽ൩൱

݀ໃ TLP ႀ෇൩൱Lj ႀ෇ຕ਍‫ڟ‬ዷऐ

‫ ځڪ‬TLPDMA ྜ‫ׯ‬Lj ٗዷऐ‫܁‬ൽຕ਍

图 3 - SG-DMA 控制器工作流程

2012 年秋季刊

赛灵思中国通讯 45 期       25


固态磁盘领域的出色表现 块寿终正寝,驱动器就不能再用。 第一种平均读写方法称之为“动态 平均读写”。它使用一个映射将操作系 统的逻辑模块地址(LBA)链接到物理

利用率低的单元外,静态平均读写与动 态平均读写工作原理相同。这种循环效 应让 SSD 能够一直用到大多数模块接近 寿命终点。

小型的闪存进一步精细化。 我们在 19nm NAND 闪存存储器上 采用了一种称为“反随机数据错误记录” 的 ECC 算法。该算法用于解决温度变化、

闪存存储器地址。每次操作系统写入替

图 4 是在长期写入 / 擦除操作后采

噪声和存储单元可靠性造成的误码。另

换数据时,映射就会更新,标记原始的

用和未采用平均读写技术的闪存页的情

外,NAND 闪存的存储单元的擦除 / 编

物理模块为无效数据,然后将一个新模

况。未采用平均读写技术的闪存页(黑

程寿命一般有限。误码率(BER)随擦

块链接到这一映射条目。每次有数据模

色页面)已经被破坏,不能再记录任何

除 / 编程操作的累积而增大,直到有限

块重新写入到闪存存储器,就会写入到

数据,而有采用平均读写技术的闪存页

的寿命终止。SSD 的 ECC 功能还需要

新地址。闪存存储器上没有数据更新的

所有页都还能够继续用于记录数据。

这种算法检测每个单元的误码率,了解 它们的使用寿命情况。设计人员可以设

模块就一直不会产生更多的磨损。驱动 器的使用寿命就可能会比不采用平均读

智能 ECC 算法

定特定的误码率阈值,提示寿命已到和

写机制的驱动器长,但某些块虽然也处

SSD 系统设计的另一项关键组成部分就

确认替换模块。不过该阈值的优化也很

于活动状态,却没有得到利用。

是纠错。有多种异常情况可能导致误码,

另一种平均读写方法称为“静态平

进而影响数据完整性乃至系统本身的正

均读写”,也使用映射将 LBA 链接到物

确运行。为解决这些错误,我们的设计

理存储器地址。除了未发生变化的静态

小组采用复杂的 ECC 算法,而且这些算

模块会定期移动,让其他数据访问这些

法针对我们在这些系统中使用的新型更

关键。误码率阈值过低,会导致系统过 早放弃可靠的单元,最终缩短 SSD 的使 用寿命。误码率阈值过高,则会造成数 据丢失的风险,因为系统会试图向不可 靠的单元写入数据。因此 ECC 算法必须 实现可靠性和寿命的最佳平衡。 19nm NAND 闪存存储密度较高, 但可靠性较差。这就是为什么我们的设 计采用高速高级纠错的原因。ECC 部分 占 35% 以上的设计资源,实现的并行计 算 能 力 能 够 以 4GB 读 取 速 度 在 一 个 1,024 位的扇区内纠正多达 49 位误码。 与 上 一 代 FPGA 相 比, 新 型 28nm Kintex-7 技 术 可 将 系 统 级 性 能 提 升 达 50%,容量提高两倍,总功耗减半。与 Virtex-5 器件中相同的 ECC 模块相比, Kintex-7 实现方案在保持成本不变的同 时,将面积缩小 5%,性能提升 40% 以上。 赛 灵 思 Kintex-7 系 列 FPGA 是 19nm 闪存 PCIe SSD 设计的理想选择。 其 PCIe 硬核、性能、容量、低功耗特 性使其成为市场上最优秀的芯片产品。 采用该器件,我们 SSD 的读 / 写吞吐量 可轻松达到 2GBps 的水平。借助该器件, 我们不仅能够为客户创造巨大的价值,

࿄֑ᆩೝ਩‫܁‬ႀरຍ

֑ᆩೝ਩‫܁‬ႀरຍ

而且我们的 19nmNAND 闪存系统将得 到巨大的发展潜力。

图 4 - 采用和未采用平均读写的闪存页

26

赛灵思中国通讯 45 期

2012 年秋季刊


业界首款且唯一的 All Programmable SoC

ARM® 双核 Cortex ™ -A9 处理器与可编程逻辑的完美集成。ASIC 级别的性能与功耗,同时兼具 FPGA 的灵活性以及简化的微处理 器编程优势。


专家园地

专家园地

如何使用部分动态 可重配置协助开发 FSK 解调器

28

赛灵思中国通讯 45 期

2012 年秋季刊


专家园地

分动态可重配置(PDR)是一

种全新的 FPGA 配置和重编程 方法。与标准的 FPGA 重配置

欧洲研究小组利用赛灵思实 时部分可重配置 FPGA 的功 能开发出更可靠的系统。

流程不同,部分动态重配置可在 FPGA 其它部分运行过程中,根据用户设计需 要,对器件的一小部分进行修改。不像 标准的重配置方法一样,在外部控制器 或内部胶合逻辑芯片重新加载设计到 FPGA 上时,需将器件保持在复位状态。 使用部分动态重配置技术,当 FPGA 的 内部或外部控制器将部分设计加载到可 重配置模块中时,设计的其它关键部分 仍在继续运行。这种技术不仅可优化硬 件资源,而且还能降低功耗。

作者:Fabio Giovagnini 软件经理 Aurion S.r.l., SESM S.C.A.R.L. fabio.giovagnini@gmail.com Antonio Di Marzo 嵌入式系统部经理 SESM S.C.A.R.L. adimarzo@sesm.it

在欧盟研究项目 pSHIELD 中,部 分动态重配置已经成为研究的课题。这 个项目的目的是实现嵌入式系统内在的 安全性、隐私性和可靠性(SPD),而 不是将嵌入式系统当作“附加”功能进 行追踪。pSHIELD 的构想为确保未来嵌 入式系统通过 SPD 认证向前迈出了第一 步。这种先进的构思旨在展现 SPD 技术 的可组合性。 在这种情况下,我们发现部分动态 重配置是实现安全、可靠、可重配置嵌 入式系统的关键技术。该新技术的研究 涉及到了如何在赛灵思部分动态可重配 置设计流程中实现一个项目演示器(一 种 可 重 配 置 频 移 键 控 (FSK) 解 调 器 系 统)。 FSK 自适应解调器 FSK 自适应解调器是我们开发用于演示 pSHIELD SPD 模式的概念验证。事实 上它就是使用简单的系统管理数据流。 图 1 是该 FSK 自适应解调器 SPD 节点 的硬件实现方框图。 作为高频无线电频谱中最常见的数 字调制方式,FSK 在电话线路中有重大 用途。这种技术通过二进制方式移动连 续载波的频率,实现数据传输。其中一 个频率被命名为“马克”频率,即频率 f0;另一个频率被命名“空间”频率, 即频率 f1。马克频率与符号 1 关联,为 较高频率;而空间频率与符号 0 关联, 为较低频率。在如表 1 所示的 FSK 信号

2012 年秋季刊

赛灵思中国通讯 45 期       29


专家园地

FM ঴ۙഗ SPD ব‫ۅ‬ᆘॲ ෘଳາਸ݀ӱ Virtex5: FPGA ੗ዘದዃև‫ݴ‬ ࠤቱጀ෇‫݀ة‬ഗ

ࠤቱጀ෇ഗ ঴ۙഗ

DAQ ๢ದഗ

GPIO ‫܋‬੨੦዆ഗ!

pSHIELD ྪஏᅜ໿ྪ :

CPU ాࢃ

FM ႑ࡽǖ ఇె

෻٪٪‫ئ‬ഗ

े௢0঴௢

图 1 - FSK 自适应解调器 SPD 节点的硬件实现

中,马克频率是 1,031 Hz,空间频率是

其中包括传输错误、噪声过大或者存在

波控制器可作为单项任务运行在

968 Hz。

入侵当前载波的风险。

PowerPC® 440 上,执行数据完整性检

在 FSK 完成解调后,信号和载波相

FSK 自适应解调器还有一个名为载

乘(或数控振荡器和复用器,即图 2 中

波控制器的内置模块。该模块通过分析

的 I2 和 I1 模块),然后进行低通滤波。

接收到的数据的一致性,能够持续地检

低通滤波器或环路滤波器(图 2 中的 I3

查发送信号的完整性。载波控制器根据

模块)的作用是将马克符号和空间符号

分析结果,驱动重配置状态。

区分开。空间符号的幅度会大于马克符 号的幅度。

FSK 自适应解调器可将自身重配置 为两种不同的模式,每种模式都能在给

环路滤波器的输出进入 16 抽头有

定的 Fc0 和 Fc1 载频上对调制的信号进

限脉冲响应(FIR;图 2 中的 I4 模块)

行解码。配置的过程根据部分动态可重

滤波器,执行数字低通滤波。FIR 滤波

配置方法进行。图 3 是 FSK 自适应解调

器实际上就是一个平均滤波器,因其输

器的总体布局。我们使用软件实现的载

查。一旦出现通信错误,载波控制器将 使用内部配置访问端口(ICAP)软件原 语强制发生一个重配置事件。 我们使用赛灵思开发板 ML507 设 计我们的 FSK 自适应解调器。该嵌入式 系 统 FPGA 开 发 板 配 备 RocketIOTM GTX 收发器,可提供一款功能丰富的通 用评估与开发平台。其内置有板载存储 器和业界标准连接功能接口,能够为嵌 入式应用提供多功能开发平台。

出等于前面 n 个抽头样本输入的平均值, 其中 n 代表所使用的抽头数。这种配置 需要 16 个系数,但可以通过假定所有系 数相同(均为 1/16)来加以简化配置过程。

介于 100Hz 和 50Hz 之间

自适应频率

实际上,可以只进行 4 位右移位运算,

FSK 自适应调制信号

然后乘以 1/16。

“空间”频率

968 或 1,937 Hz

“马克”频率

1,031 或 2,062 Hz

信方案中有两个模块:调制器和解调器。

幅度

1 Vpp

自适应解调器能够自动在两个不同载波

模数采样频率

16 kHz 或 32 kHz

FSK 自适应解调器能够动态地适应 载波 Fc0 和 Fc1 的不同频率。一般的通

间切换,以便与调制器完成的载波切换 匹配。调制器切换载波的原因有多种,

待传输数字信号

30

表 1:FSK 信号实例中的马克和空间频率

赛灵思中国通讯 45 期

2012 年秋季刊


专家园地

部分可重配置(PR)设计流程的第一步是在我们顶层 设计中找出部分可重配置模块(PRM)。我们必须为 每个模块定义输入输出信号接口。在我们的这个案例 中,我们确定了一个部分可重配置模块,名为解调器。 部分动态可重配置设计流程 典型的静态赛灵思 ISE® 设计套件流程由 下面四大步骤组成:

reset

: IN

std_logic;

fmin

: IN

std_logic_

--High active reset

vrctor ( 7 DOWNTO 0);

 设计 / 编辑

dmout

 实现

: OUT

std_logic_

vrctor (11 DOWNTO 0);

 器件配置

demodulated signal

部分可重配置设计流程比这个流程 更复杂。图 4 是简化的部分动态重配置 设计流程。 第一步是在我们的顶层设计中找出 部分可重配置模块(PRM)。我们必须 为每个模块定义输入输出信号接口。在

--Pre-

clko

: OUT

std_logic;

编码用于描述解调器接口:

ENTITY Demodulator IS PORT ( clk

: IN

--Main Entity clock

std_logic;

NGC 文件:一个为 1k 解调器和另一个

dbg

: OUT

std_logic;

一个模块有设置约为 1KHz 的数控振荡 器(NCO),另一个设置约为 2KHz。 既然我们在我们的系统中使用两个 NGC 文件,我们必须创建一个设计来托

--Synch. FIFO signal

管 PRM。使用 XPS,我们可以构建一

--debug line

块和控制器通过 XPS 菜单实例化。另外,

);

END Demodulator;

我们的这个案例中,我们确定了一个部 分可重配置模块,名为解调器。下面的

对 我 们 的 项 目 而 言, 我 们 有 两 个 为 2k 解调器。这两个模块的差异是其中

--Modulated fsk signal

 综合

禁用 IOBUF 功能。

鉴于当前设计中我们需要一定数量

个片上系统(SoC),将所有所需的模 我们必须创建一个黑盒 IP 用于托管我们 之前用 XST 工具创建的 PRM 模块。为 此,我们可以选择 XPS 中提供的“创建 和导入外设向导”选项。

的 PRM,下一步是使用 XST 工具生成

在我们这个案例中,我们使用适当

n 个 PRM 网 表 文 件。XST 的 输 出 由

的选项创建一个名为 FSKDemodulator

NGC 文件组成。NGC 是一个内含逻辑

的 黑 盒 模 块。 该 向 导 流 程 生 成 两 个

数据和约束的网表。最终我们生成 n 个

VHDL 文件,分别为 FSKDemodulator.

NGC 文件。在我们准备把这些 NGC 文

vhd 和 User_logic.vhd。

件用在部分可重配置项目中时,应确保

FSKDemodulator.vhd 是 在 可 编 程 系 统

图 2 - FSK 解调器电路方框图

2012 年秋季刊

赛灵思中国通讯 45 期       31


专家园地 层面与我们的 PRM 模块(解调器)关 联 的 顶 层。 这 个 文 件 用 外 设 本 地 总 线

FSK ጲ๢ᆌ঴ۙഗ

(PLB)v4.6 等 可 编 程 系 统 组 件 定 义 PRM 模块的接口。User_logic.vhd 为用

FSK ঴ۙഗ Fc0 (‫ۯ‬ༀ)

ሜհ੦዆ഗ DŽৢༀDž

户逻辑功能,其包含 PRM 模块的实例。 一旦完成可编程系统设计,我们就能为 该配置生成 NGC 文件。 使用 XPS,我们定义了可编程系统

FSK ঴ۙഗ Fc1 (‫ۯ‬ༀ)

架构和通用系统架构。值得注意的是, 我们在 XPS 中把全部 PRM 定义为黑盒。 使 用 PlanAhead ™, 可 以 将 XST

图 3 - FSK 自适应解调器设计的总览

和 XPS 两个进程的输出和 NGC 文件汇 总,从而得到一些 PRM 比特流和一个 默 省 比 特 流。 然 后 使 用 XPS 生 成 的 NGC 文件和 XST 生成的 NGC 文件之一 定义和构建顶层实现。设计人员随后需 要向设计加入部分可重配置区域,且必 须指定与之关联的 NGC 文件。最后一

的欧盟 pSHIELD 研究项目而言,我们发

可转换器件 与静态可重配置相比,部分动态可

现部分动态重配置技术极其有用。即时

重配置技术从完成重配置所花的时间来

修改加密算法或通信协议,同时保持其

说非常高效。虽然所花的时间与 PRM

他功能正常运行的能力可带来巨大优势。

的物理尺寸有关,如果这些模块与完整

采用这种方法,我们认为 FPGA 会为电

的比特流相比能小上一个增益因数,重

子设计开启新的时代。我们预计系统将

配置的时间就会是从数百毫秒降低到数

具备修改自身功能,让自己适应特定场

该进程的输出即为默省比特流。为

十 毫 秒。 部 分 动 态 重 配 置 的 使 用 让

景或应付特定威胁的能力。简言之,我

构建 PRM 的比特流文件,我们必须重

FPGA 系统设计步上新的台阶,让设计

们将迎接一个由可转换器件组成的世界

新打开 PlanAhead,从头开始勾选“PR

人员有机会大幅降低整个系统的功耗和

的到来。

项 目 ”, 以 导 入 全 部 NGC 文 件。

成本。

步是提升该配置,使该实现设计成为在 启动时加载到系统中的默省系统实现。

PlanAhead 将为每个 PRM 生成一个单 独的比特流。在本例中它生成两个 PRM

对安全、隐私和可靠性是主要因素

比特流,一个用于 demodulator1k,另 一个用于 demodulator2k。

顶层和 PRM Բ༬ୁ DŽ੗჋ৢༀԲ༬ୁDž

ucf

对 调 试 流 程, 我 们 建 议 创 建 n 个

PlanAhead

(PRM 的数量)不同的静态实现,用于 每一个 PRM。在这种情况下,设计人员 将完成 n 个完整的静态实现,每一个都

XPS

ngc

ጹࢇ

执 行 静 态 连 接 到 FPGA 的 第 n 个 PRM

‫֫ڹ‬

้Ⴞ

ํ၄

ํ၄

的功能。我们认为这是调试需求和开发

XST

复杂程度之间良好的折衷。

ጹࢇ

ํ၄

ngc

最后一步是把生成的比特流下载到

1..n

目标器件上。如果需要在 CompactFlash 中的存储比特流和 System ACETM 文 件,用户可以使用 IMPACT 工具、命令

Բ༬

行 data2men 和赛灵思微处理器调试器

1..n

(XMD)工具对器件编程。在本案例中, 我们选用命令行方法对器件编程,因为赛 灵 思 开 发 板 ML507 上 含 有 CompactFlash,

统 ACE 把

CompactFlash 视为引导器件来管理。

32

IMPACT

data2mem ࢅ xmd

Բ༬ ఐูԲ༬ୁ

Բ༬ 1..n

Պ‫ײ‬

图 4 - 使用 PlanAhead、XST 和 XPS 的 PDR 设计流程简图

赛灵思中国通讯 45 期

2012 年秋季刊


手 把 手 课 堂:F P G A 1 0 1

手把手课堂:FPGA 101

FPGA 数学 运算的基础知识

2012 年秋季刊

作者:Adam Taylor 首席工程师 阿斯特里姆公司 (EADS Astrium) aptaylor@theiet.org

赛灵思中国通讯 45 期       33


手把手课堂:FPGA 101

FPGA 的主要优势之一在于它能够根据需要来 进行数学函数运算。本文主要介绍 FPGA 数学运算 的一些基本规则与方法。

于 FPGA 的解决方案具有众多优势,其中

相比之下,有符号数的表示范围则取决于所采用的编码

之一就是能够针对眼前的问题采用最佳的方

方案,即符号数值表示法(即原码)、1 的补码(即反码)

式来进行数学算法。例如,如果响应时间至

或 2 的补码(即补码)。

关重要,我们就简化数学运算步骤。如果注

重运算结果的精度,我们就使用更多的位来确保达到预 期的精度。当然,很多新型 FPGA 还具有嵌入式乘法器 和 DSP slice 的优势,可用于在目标器件中获得最佳的实 现性能。 让我们了解一下在 FPGA 或其它可编程器件内开发 数学函数所使用的规则与方法。

原码中最左边的位表示数的符号(0 为正,1 为负)。 其余的位表示数值的大小。在这种表示方法中,正数和 负数的绝对值相同,但是符号位不同。因此,原码方案 中存在正零和负零。 正数的反码与其原码的无符号数相同。负数的反码为 正数按位取反。 补码是使用最广泛的有符号数编码方案。这里与其它

数字的表示方式

两种编码方案一样,正数与无符号数的表示形式相同,

在一种设计方案中可以使用两种数字表示方式,即定点

而负数的二进制表达式与绝对值相同的正数相加后等于

数与浮点数。定点表示法中小数点位置固定不变,可以

0。计算负数补码时,首先将正数按位取反,然后再加 1。

直接进行算数运算。定点数的主要缺点是如果要表示一

补码允许您将两个数的减法按照加法来处理。补码可以

个较大的数或者得到一个更精确的小数值,就需要使用

表示的范围是:

若干个位。定点数由两部分构成:整数和小数。

– (2n-1) to + (2n-1 – 1)

浮点表示法中小数点位置随数值的大小在不同位置

将一个数转换为补码格式的方法是按从右至左的顺

浮动。浮点数同样也可分为两部分:指数和尾数。这种

序按位遍历,从遇到的第一个“1”开始将二进制位按位

表示方法类似于科学计数法,科学技术法是将一个数表

取反,而之前的二进制位保持不变。

示为 A 乘以 10 的 B 次幂,其中 A 为尾数、B 为指数。 但在浮点数中,指数部分的基数是 2,即 A 乘以 2 的 B 次幂。IEEE/ANSI 754-1985 标准对浮点数表示法进行了 标准化。基本 IEEE 浮点数使用 8 位指数和 24 位尾数。 27 26 25 24 23 2 2 21 20

2-1 2-2 2-3 2-4 2-5 2-6 2-7 2-8

由于浮点数的表示法存在一定的复杂性,我们作为设 计人员应尽可能多地采用定点表示法。上述浮点数采用 补 码 表 示 法, 其 无 符 号 数 表 示 范 围 介 于 0.0 ~ 255.9906375 之间,有符号数表示范围介于 -128.9906375 ~ 127.9906375 之间。您在一种设计方案中既可以使用

定点运算 在定点数中,通常用 x 和 y 来区分整数位和小数位,其 中 x 表示整数位的数量,y 表示小数位的数量。例如,8, 8 表示 8 个整数位和 8 个小数位;16,0 表示 16 个整数 位和 0 个小数位。在很多情况下,您通常需要在设计阶 段根据浮点算法转换来确定所需的整数和小数位数量。 得益于 FPGA 的灵活性,我们可以表达任意二进制长度 的定点数;整数位的数量取决于需要存储的最大整数值, 而小数位的数量取决于最终结果的精度。我们利用以下 公式来确定整数位的数量:

(

10

)

LOG Integer_Maximum Integer整数位的数量 Bits Required== Ceil 10 算法。无符号数的表示范围为 0 ~ 2n-1,始终表示正数。 LOG 2

无符号数也可以使用有符号数,这通常取决于您所用的

34

赛灵思中国通讯 45 期

2012 年秋季刊


手把手课堂:FPGA 101

例如,要表示 0.0 ~ 423.0 范围内的数值,所需整数 位的数量为:

为了对齐不同格式的数字,您有两个选择:将带有更多 整数位的数与 2X 相乘,或者将具有最小整数位的数除以

9 = Ceil

(

10

LOG 423 10 LOG 2

)

这表示您需要 9 个整数位,可以代表 0 ~ 511 范围内的数。 利用 16 个位来表示这个数时,可以有 7 个位用于表示小 数。利用下面的等式计算这种表达方式所能提供的精度: ৛‫= ܈‬

格式的 x 和 y 进行算术运算时,您首先应保证小数点对齐。

(

)

ํाኵ – FPGA ዐ‫ڦ‬ኵ = 100 ၭຕԲ༬ 2

您可以增加小数位的数量,进而提高定点数的精度。在 设计过程中,我们有时希望只存储小数(0,16), 这主 要取决于您希望将精度提高到多少。利用 216 进行扩展 可能依然无法达到足够高的精度。这种情况下,您可以 用 2 的幂次方来放大这个数,使这个数可以用 16 个位来 表示。然后,您可以在下一阶段删除这个比例因子。例如, 为了用 16 个位来表示 1.45309806319x10-4,第一步需

2X。但是,除法会降低结果的精度,还可能导致结果超 出容许公差。由于所有的数都可以利用两种形式来存储, 这样您在 FPGA 中通过移位操作可以很方便地对数进行 放大或缩小,其中左移或右移 1 位分别放大或缩小了 1 倍, 实现十进制小数点的对齐。为了对两个格式分别为 8,8 和 9,7 的两个数相加,如果可以接受最低有效位的丢失, 则您可以利用比例因子 21 来放大格式为 9,7 的数,也 可以将格式为 8,8 的数缩小至格式为 9,7。 例如,您打算将 234.58 和 312.732 这两个数相加 , 而它们分别以 8,8 和 9,7 的格式来存储。第一步,确 定实际相加的 16 位数。 234.58 • 28 = 60052.48 312.732 • 27 = 40029.69 从上可以看出,两个加数分别为 60052 和 40029。 但是,在相加之前,您必须对齐小数点。通过放大带有

要将这个数与 216 相乘。 65536 • 1.45309806319x10-4 = 9.523023

更多整数位的数来对齐十进制小数点,您必须利用因子 21 来放大 9,7 格式的数。

只存储结果的整数部分(9)将导致这个数的实际存 储值为

1.37329101563x10-4(9

/ 65536)。需要存储的

数值与实际存储的数值之间差值较大,可能导致出现无 法接受的错误计算结果。您可以按照比例因子 2 来放大

40029 • 21 = 80058 然后,您通过执行加法来计算结果: 80058 + 60052 = 140110

这个数,以获取更精确的结果。结果介于 32768-65535

以 10,8 格式(140110 / 28)表示,则为 547.3046875。

之间,因此仍然可以用一个 16 位的数字来存储。利用此

当两个数相乘时,您无需对齐小数点,因为乘法提供

前存储 1.45309806319x10-4 的实例,将这个数与比例因

了范围是 X1 + X2,Y1 + Y2 的结果。将格式分别为

子 228 相乘将产生一个可以用 16 个位来存储的数,并使 预期的数值具有更高的精度。

14,2 和 10,6 的两个数相乘将得出一个整数位为 24, 小数位为 8 的结果。

268435456 • 1.45309806319x10-4 = 39006.3041205

通过与除数的倒数相乘这种方法,在一个式子中您可

假定在接下来的计算过程中您可以解决用比例因子 228

以采用与小数相乘来代替除法。这种途径可以显著降低

进 行 放 大 的 问 题, 那 么 结 果 的 整 数 部 分 将 给 予 您

设计的复杂性。例如,将 212.732(以 9,7(40029)

1.45308673382x10-4

格式来表示)除以 15,第一步是计算除数的倒数。

的存储结果,并使得计算结果具有

更高精度。例如,将已扩展的数与一个 16 个位格式为 4, 12 的数相乘,产生了 4,40(28 + 12)形式的结果。但是, 这个结果将以 32 位来存储。 定点规则 在执行加法、减法或除法时,2 个数的小数点必须对齐。 这就是说您只可以将一个表示格式为 x,8 的数与另一个 表示格式也为 x,8 的数相加、相减或相除。对具有不同

2012 年秋季刊

1/15= 0.0666' 这个倒数必须被放大,以 16 位数的形式来表示。 65536 • 0.06666 = 4369 将这两个数相乘,得出格式为 9,23 的结果。 4369 • 40029 = 174886701 相除结果为: 赛灵思中国通讯 45 期       35


手把手课堂:FPGA 101

输入值的范围是 0 ~ 10 毫巴,分辨率是 0.1 毫巴。

174886701 = 20.8481193781 8388608

模块输出要求精确到 +/-0.01 米。因为模块规范没有确定

当预期的结果是 20.8488,如果结果的精度不够高,

输入刻度,您可以通过下列等式来计算。

则您可以利用一个更大的比例因子来放大这个倒数,以

4 = Ceil

得到更精确的结果。因此,当可以与一个数的倒数相乘时, 永远不要除以这个数。

(

10

LOG 10 10 LOG 2

)

因此,为了实现最高的精度,您应将输入数据的格式 设置为 4 个整数位,12 个小数位。开发这个模块的下一

溢出问题 在实现算法时,结果必须不大于结果寄存器可以存储的 最大值。否则,就会发生溢出。当溢出发生时,存储结 果就会有误,最高几位会丢失。溢出的最简单实例是将 2 个 16 位的数相加,每个数的值都是 65535,然后将结果 存储在 16 位寄存器中。

步任务就是利用未扩展值并通过电子数据表计算出整个 输入范围内转换函数的预期结果。如果输入范围过大而 无法获得合理的结果,则计算可接受的点数量。例如 , 您 使用 100 个条目来确定整个输入范围的预期结果。 在您计算出最初的非扩展预期值之后,下一步是确定正 确的常数比例因子,利用扩展值来计算预期的输出结果。

65535 + 65535 = 131070

为了实现最高的精度,您应利用不同的因子来放大该式

上 述 计 算 将 使 得 这 个 16 位 结 果 寄 存 器 中 的 值 为

中每个常数。

65534,但这个结果不正确。防止溢出的最简单方式是确 定数学运算允许的最大值,利用这个方程来确定所需结

输入(毫巴)

输出(米)

0

131.2900

0.1

131.4666

0.2

131.6431

0.3

131.8194

0.4

131.9955

0.5

132.1715

0.6

132.3472

果寄存器的大小。 所需整数位的数量 Integer Bits Required = Ceil

(

10

LOG ፌ‫ٷ‬ኝຕ LOG102

)

如果您正在开发一个平均器,计算 50 个 16 位输入 值的平均值,则可以计算所需结果寄存器的大小。 50 • 65535 = 3276750 仍然利用同一个方程,需要一个 22 位结果寄存器来 防止溢出的发生。您也必须注意,在处理有符号数时, 如果遇到了负数,应该避免发生溢出。仍然利用此前的

多项式中第一个常数(A)的比例因子为:

平均器实例,计算 10 个有符号长度为 16 位的数的平均值,

8 = Ceil

返回一个 16 位的结果。 10 • -32768 = -327680 这个数与 1/10 • 65536 = 6554 相乘来确定平均值。

这个数除以 216 等于 -32770, 但 16 位的输出结果无 法正确地表示这个数。因此,模块的设计过程必须考虑 溢出,必须检测溢出,以确保不会输出不正确的结果。

)

多项式中第二个常数(B)的比例因子为:

因为很方便地将结果与除数倒数的扩展值相乘,您将

-32768 • 6554 = -2147614720

(

10

LOG 133.29 LOG102

1 = Ceil

(

10

LOG 1.7673 10 LOG 2

)

因为最后的多项式常数(C)是一个纯小数,所以利 用比例因子 216 来放大它。 多项式常数

未扩展

扩展

现实世界的实现方式

A

133.29

33610

假设您正在设计一个模块,用于实现一个转换气压的转

B

1.77

57910

移函数,其中气压的单位是毫巴,海拔的单位是米。

C

-0.01

-577

-0.0088x2 + 1.7673x + 131.29

36

赛灵思中国通讯 45 期

2012 年秋季刊


手把手课堂:FPGA 101

通过这些比例因子用户可以计算出扩展的电子数据

当基于电子数据表的计算结果确认了您已经实现了

表,如表 1 所示。每一阶段的计算结果将得出超过 16 位

所要求的精度,则可以编写并仿真 RTL 代码。如果需要,

的结果。

您可以设计一个测试平台,例如输入值与电子数据表中

Cx2 的计算得出 32 位、格式为 4,12 + 4,12 = 8, 24 的结果。然后与常数 C 相乘,得出了 48 位、格式为 8, 24 + 0,16 = 8,40 的结果。对于这个实例所要求的精 度来说,利用 40 位来表示小数有点多。因此,将这个计 算结果除以 232,以得出 16 位、格式为 8,8 的结果。 在计算 Bx 过程中,也将结果减小至 16 位,以得出格式 为 5,11 的结果。

的数据相同。这允许您将仿真输出结果与基于电子数据 表的计算结果进行比较,以确保采用了正确的 RTL 实现 方案。 RTL 实现方案 RTL 实例利用有符号并行数学运算在 4 个时钟周期之内 即可计算出结果。因为采用了有符号的并行乘法,所以 应该注意到必须正确地处理由乘法产生的额外符号位。

计算结果是 Cx2,Bx 与 A 列中对应数之和。但是, 为了获得正确的结果,您首先必须扩大 A 和 Cx2 ,并按 x, 11 格式对齐小数点,或者缩小 Bx 的计算结果并按 8,8 格式对齐小数点,最终将小数点与 A 和 Cx2 的计算值的 小数点对齐。 在这个例子中,我们将计算结果缩小 23 倍,按 8,8 格式来对齐小数点。这种方法简化了需要移位的数量, 因此减小了实现这个实例所需逻辑单元的数量。注意如 果您通过缩小来对齐小数点的方式而没有实现要求的精 度时,则必须扩大 A 和 Cx2 的计算结果来对齐小数点。 在这个实例中,计算结果扩大了 28。然后,您可以缩小 这个结果,将其与从未扩展值中获取的结果比较。实际 计算结果和预期结果之间的差值表示精度,利用电子数 据表中 MAX() 和 MIN() 命令来获得计算结果的最大误差

ENTITY transfer_function IS PORT( sys_clk : IN std_logic; reset : IN std_logic; data : IN std_logic_vector(15 DOWNTO 0); new_data : IN std_logic; result : OUT std_logic_vector(15 DOWNTO 0); new_res : OUT std_logic); END ENTITY transfer_function; ARCHITECTURE rtl OF transfer_function IS -- this module performs the following transfer function -0.0088x2 + 1.7673x + 131.29

和最小误差,而您在电子数据表条目的整个范围内都可 以获取计算结果的这两个误差。

扩展输入

C

B

A

结果

扩展结果

预期结果

差值

0

0

0

33610

33610

131.289

131.2900

0.0009

409

-6

361

33610

33655

131.465

131.4666

0.0018

819

-24

723

33610

33700

131.641

131.6431

0.0025

1228

-52

1085

33610

33745

131.816

131.8194

0.0030

1638

-93

1447

33610

33790

131.992

131.9955

0.0033

2048

-145

1809

33610

33835

132.168

132.1715

0.0035

2457

-208

2171

33610

33880

132.344

132.3472

0.0035

2867

-283

2533

33610

33925

132.520

132.5228

0.0033

表 1 - 基于定点方式获得的实际结果

2012 年秋季刊

赛灵思中国通讯 45 期       37


手把手课堂:FPGA 101

-- input data is scaled 8,8, while the output data will be scaled 8,8. -- this module utilizes signed parallel mathematics TYPE control_state IS (idle, multiply, add, result_op); CONSTANT c : signed(16 DOWNTO 0) := to_ signed(-577,17); CONSTANT b : signed(16 DOWNTO 0) := to_ signed(57910,17); CONSTANT a : signed(16 DOWNTO 0) := to_ signed(33610,17); SIGNAL current_state : control_state; SIGNAL buf_data : std_logic; --used to detect rising edge upon the new_data SIGNAL squared : signed(33 DOWNTO 0); -register holds input squared. SIGNAL cx2 : signed(50 DOWNTO 0); --register used to hold Cx2 SIGNAL bx : signed(33 DOWNTO 0); -register used to hold bx SIGNAL res_int : signed(16 DOWNTO 0); --register holding the temporary result BEGIN fsm : PROCESS(reset, sys_clk) BEGIN IF reset = '1' THEN buf_data <= '0'; squared <= (OTHERS => '0'); cx2 <= (OTHERS => '0'); bx <= (OTHERS => '0'); result <= (OTHERS => '0'); res_int <= (OTHERS => '0'); new_res <= '0'; current_state <= idle; ELSIF rising_edge(sys_clk) THEN buf_data <= new_data; CASE current_state IS

38

WHEN idle => new_res <= '0'; IF (new_data = '1') AND (buf_data = '0') THEN --detect rising edge new data squared <= signed( '0'& data) * signed('0'& data); current_state <= multiply; ELSE squared <= (OTHERS =>'0'); current_state <= idle; END IF; WHEN multiply => new_res <= '0'; cx2 <= (squared * c); bx <= (signed('0'& data)* b); current_state <= add; WHEN add => new_res <= '0'; res_int <= a + cx2(48 DOWNTO 32) + ("000"& bx(32 DOWNTO 19)); current_state <= result_op; WHEN result_op => result <= std_logic_vector(res_ int (res_int'high -1 DOWNTO 0)); new_res <= '0'; current_state <= idle; END CASE; END IF; END PROCESS; END ARCHITECTURE rtl; FPGA 架构成为了实现数学函数的理想工 具,尽管实现算法需要具有更多的最初想法以及 利用 MATLAB® 或 Excel 等系统级仿真工具来建 模。一旦掌握了 FPGA 数学运算的一些基本知识, 用户就可以快速地实现数学算法。

赛灵思中国通讯 45 期

2012 年秋季刊


手 把 手 课 堂:F PG A 1 0 1

手把手课堂:FPGA 101

FPGA 工程师 ADC 和 DAC 应用指南 作者:Adam Taylor 首席工程师 EADS Astrium 公司 aptaylor@theiet.org

2012 2012年秋季刊 年秋季刊

赛灵思中国通讯 赛灵思中国通讯 45 45 期 期            39 39


手把手课堂:FPGA 101

将具有信号处理功能的 FPGA 与现实世界 相连接,需要使用模数转换器 (ADC) 或数模转换器 (DAC) 旦执行特定任务,FPGA 系

ADC 利用这些比较器的输出来确

统必须与现实世界相连接,

定数字代码。

而所有工程师都知道现实世

• 斜坡转换器可利用连接至 DAC 且

界是以模拟信号而非数字信号运转的。 这意味着需要在模拟信号域与数字信号 域之间进行转换。针对手头工作选择恰

出 / 输入电压进行比较。当二者相

域, 但 它 们 也 可 作 为 Σ-Δ 转 换

• 逐次逼近转换器 (SAR) 是斜坡转 换 器 的 另 一 种 形 式, 其 可 利 用

选择时首先要确定转换信号所需的 采样频率。这个参数不仅将影响转换器

定领域的最佳性能。每种器件在转换速

确定数字代码。

率至少为信号采样频率的 2 倍。因此,

已转换的信号将引起自身混叠,导致信 号无法正确表示。但混叠并不总是一件

度、精度以及分辨率方面都各具优劣势。 在选择 FPGA 时,您需要考虑 I/O 数量、 所支持的 I/O 标准、时钟管理、逻辑资 源和存储器,以及其它与器件类型相关 的 具 体 参 数: 最 高 采 样 频 率、 信 噪 比

此外,数模转换器 (DAC) 也可以采

如果信号的采样频率为 50MHz,则转换 器采样频率至少应为 100MHz。否则,

的制造商已成功开发其自有的内部转换

号。但 SAR 转换器并非执行累计

并采用试错法 (trial-and-error) 来

速度及逻辑封装要求。转换器的采样频

众多专家级器件 (specialist device)

架构,可根据用途尽可能提供适用于特

表示是否高于或低于输入信号,

这样才能确保器件能够满足所需的处理

器的基础。

DAC 和比较器来处理模拟输入信

计数,而是通过判断计数的模拟

的选择,同时也会影响对 FPGA 的选择,

通模拟滤波器传递脉宽调制波形。 这些器件通常应用于电机控制领

等时,保持计数不变。

DAC 时也是如此,玲琅满目。

DAC 结构类型,可通过简单的低

可自由运行的计数器,对 DAC 输

当的 FPGA 时,用户面临着林林总总的 选 择, 在 为 系 统 选 择 正 确 的 ADC 或

• 脉 宽 调 制 (PWM) 是 最 简 单 的

用若干种方法来实现,最常见的方法包

(SNR)、无杂散动态范围 (SFDR) 以及 有效位数 (ENOB) 等。

括二进制加权、R-2R 梯形网络、脉宽调 采样频率非常简单,是 ADC 能够

制。

数字化输入信号的最高速率。SNR 表示

坏事情;事实上,如果转换器的带宽足

• 二进制加权是速度最快的 DAC 架

够高,那么用户可以利用混叠将信号混

构之一。这些器件可将各逻辑比

叠至可用的带宽。

特的不同转换结果进行汇总。例

信号与噪声电平的比值,与输入信号无 关。用户可以利用以下公式来确定 SNR 的理论值:

如,电阻 DAC 将根据电流代码来 ADC 与 DAC 的关键参数 我们可采用多种不同方法来构建模数转 换器 (ADC)。最常见的方法包括闪存、斜 坡 (Ramp) 以及逐次逼近等。 • 闪存转换器以速度快著称,其使 用一系列可扩展的模拟比较器对 输入电压和参考电压进行比较;

导通或切断这些电阻。 • R-2R 梯 形 转 换 器 采 用 阻 值 为 R-2R 的级联电阻结构。由于可以 轻松生成并匹配高精度电阻,因 而这类 DAC 的精度比二进制加权 转换器更高。

SNR = 6.02N + 1.76 dB 其中 N 表示分辨率。该方程适用于满量 程正弦波。 在系统测试过程中,用户可首先对 输出执行快速傅里叶变换 (FFT),然后 测量输入信号与本底噪声的比值,这样

2012 赛灵思中国通讯 452012 期       40 40 年秋季刊 赛灵思中国通讯 45 期 年秋季刊


手把手课堂:FPGA 101 此外,因为这个原因,ADC 需要利 奈奎斯特区域

下限

上限

混叠

第一区

DC

0.5 FS

第二区

0.5 FS

FS

重叠

第三区

FS

1.5 FS

直接

第四区

1.5 FS

2 FS

重叠

用抗混叠滤波器来阻止信号或噪声混叠 至量化的信号中。但是,频谱混叠对于 工程师来说非常有用,在 ADC 具有宽泛 输入带宽的情况下尤为如此。经过周密 安排考虑之后,混叠使用户无需借助下 变频器即可直接转换信号。出于这种考 虑,我们将频谱划分为几个区域。

表 1 – 奈奎斯特区域与混叠

即可确定实际的 SNR 值。 与此同时,SFDR 表示输入信号与 下一个最高峰值(通常为基谐波)的比值。 通常 SFDR 用 dBc 来表示,会随着输入 信号功率的降低而相应减小。

利用表 1 中给出的信息,如果转换

解奈奎斯特准则,以确保正确地转换或 量化信号。这意味着用户对所关注信号

个奈奎斯特频带混叠至另一个频带。

执行采样时,采样频率至少为该信号最 高频率的 2 倍,才能确保正确进行转换。 如果未按此标准执行采样,则将发生混 叠;而如果没有正确理解混叠,则可能

从转换器的测量结果可以看出,用

器拥有足够高的带宽,则可将信号从一

通信选择 正如所有的外部器件一样,ADC 与 DAC 也配套提供了数个并行或串行接口选项。

导致性能欠佳。 通常情况下,较高速器件用并行接口,

户可利用下列式子来计算有效位数:

较低速器件用串行接口。但是,可以根 ENOB = (SNR Ð 1.77 / 6.02)

抽头

系数

例如,采用串行接口比采用并行接口可

当进行这项测试时,应注意选择合 1

-6.22102953898351E-003

2

9.56204928971727E-003

3

-1.64864415228791E-002

FFT 本底噪声

4

3.45071042895427E-002

= 6.02N + 1.76 dB + 10

5

-0.107027889432584

6

1.166276

的正弦波)执行这些步骤,可降低输出

7

-0.107027889432584

频谱的复杂性。为了确保获取最佳结果,

8

3.45071042895427E-002

9

-1.64864415228791E-002

10

9.56204928971727E-003

11

-6.22102953898351E-003

适的 FFT 点数,从而确保不会由于一时 疏忽而错误计算本底噪声。FFT 点数不 恰当将导致错误的计算结果。FFT 本底 噪声可通过下列式子计算得出:

LOG10(FFT 点数 /2) 用户应通过单音测试(通常为简单

相干采样。公式如下: FS / Fin = Ncycles / FFT

2012 年秋季刊

bit)。实际上,高速接口可提供多条输出 总线(I 和 Q)或采用双数据速率(DDR) 输出模式;有些器件甚至可能同时提供 这两个选项。提供多条总线或采用 DDR 输出模式使用户能够保持数据速率,同 时降低接口所需的运行频率。例如,如 果接口的采样频率为 600 MHz,则其输 出频率为 300MHz(为采样频率的一半)。

频率 ) 并且有两条可通过 DDR 对器件进 行采样的数据总线,则可非常轻松地执 行恢复操作。这类 ADC 对输入时序要求 较为宽松。众多高速转换器均可利用其 I/O 中的 LVDS 信号,因为较低的电压 摆幅和低电流可降低由其它信号标准所

频谱 另一方面,用户在实现系统时还必须了

以更轻松地检测出固定比特 (stuck-at

如果时钟频率为 75MHz (1/4 采样

需要确保对输出信号执行相干采样。如 果在数据窗口中包括几个周期,则执行

据您的应用选择采用特殊的接口方式。

表 2 – 适用于 DAC 补偿 FIR 滤波器的 前 11 个系数

引发的耦合性,如 LVCMOS 等。这种

赛灵思中国通讯 45 期       41


手把手课堂:FPGA 101 耦合问题会影响转换器的混合信号性能。

好的效果。用户将注意到这两个图像均

滤波器来解决。

存在于整个输出频谱中,由于在 0.5FS DAC 滤波

时正弦效应将接近 4dB (3.92dB),所有

大多数 DAC 一直将模拟输出保持到下一

奈奎斯特区域中的输出信号都出现衰减

个采样周期,这将对输出频率域产生良

(如图 1 所示)。这两大问题均可利用

用户可以像实现 FIR 滤波器一样轻 松实现正弦校正滤波器。开发该滤波器 最简单的方法就是利用下列方程式来绘 制正弦衰减特性。

0 -5 -10

首先创建校正因子,该因子是所计

ሺᅮ in dB

-15

算出衰减系数的倒数,然后再执行逆傅

-20

里叶变换,以获取所需要设计滤波器的

-25

系数。通常情况下,用户需要采用几个 -30

抽头才能实现该滤波器。表 2 给出了滤

-35

波器的前 11 个系数,同时图 2 还给出了

-40

针对衰减的补偿。

-45

0

0.2

0.4

0.6 ֑ᄣೕ୲DŽFSDž

0.8

1

1.2

在系统测试

DAC ປ३

众多这类系统都将利用转换器实现终端 应 用 的 具 体 性 能 特 征, 如 CDMA 或

图 1 - 0-1 采样频率间的 DAC 衰减

GSM 等。为实现该项性能而进行的测试 1.8

需要在测试系统(任意波形生成器、逻

1.6

辑分析仪、模式生成器、频谱分析仪等) 方面进行大量的投入。但是,FPGA 高

1.4

度的可重编程灵活性使用户能将特定的

ሺᅮ

1.2

测试程序插入至器件中,这样既可以捕

0

获并分析 ADC 的输出也可以提供 DAC

0.8

激励,从而减少对更多额外测试设备的 需要。

0.6 0.4

转换 101

0.2 0

由于 FPGA 通常需要与 ADC 和 DAC 接 0

0.1

0.2

0.3 ֑ᄣೕ୲ (FS)

DAC ց‫୳׋‬հഗ

0.4

0.5

0.6

口相连, 因而对于任何 FPGA 工程师来说, 基本了解这些器件参数的重要性非常关

DAC ປ३

图 2 - 针对 FS/2 的 DAC 衰减和补偿滤波器

键。如果用户计划在设计验证与调试过 程中利用 FPGA 的可重编程灵活性来测 试转换器的性能,这一点尤其有用。

42

赛灵思中国通讯 45 期

2012 年秋季刊


卓越企业简介

卓 越 企 业 简介

SSD 企业级存储领域 的初创公司 Skyera 潜力无限 连续创业者兼知名芯片架构 师 Radoslav Danilak 的最 近创新充分利用了 Spartan-6 FPGA 的优势。

作者:Mike Santarini 赛灵思公司 《Xcell 杂志》发行人 mike.santarini@xilinx.com

2012 年秋季刊

赛灵思中国通讯 45 期       43


卓越企业简介

W

Radoslav Danilak 及其团 队在创建面向微处理器、 图形处理器和 ASIC 的前

沿设计方面拥有极其丰富的经验,他们 带领的初创公司 Skyera 目前正着力推出 有望激发企业级存储市场领域固态存储

“ 我们不仅要让性能和可靠性比同类竞争 设计方案高 10 倍,还要想办法让 FPGA 设计的尺寸比 ASIC 小 10 倍。实现容量、 性能和成本的适当平衡至关重要。”

系统细分市场活力的产品。对于 Danilak 来说,创建创新型架构不是什么新鲜事, 只不过在这款设计中,Skyera 固态硬盘

SSD 系统的价格通常远远高于传统

操作就会出现不可纠正的错误。

(SSD) 存 储 系 统 的 处 理 内 核 不 是 在

的机械式硬盘驱动器。不过,过去 5 年里,

SoC 或 独 立 处 理 器 中, 而 是 在 赛 灵 思

随着 NAND 闪存的容量激增,NAND 每

损”。为了解决工艺尺寸缩小过程中出

Spartan®-6

字节的成本显著降低,这就使得 SSD 将

现的这种磨损加剧问题,SSD 系统厂商

FPGA 中实现的。

Radoslav Danilak 及其团队在创建 面向微处理器、图形处理器和 ASIC 的

不可避免地加快取代机械式硬盘驱动器, 即使在企业级存储市场中尤为如此。

这 种 现 象 通 常 被 称 作 NAND“ 磨

必须开发出比以往更加复杂的 NAND 控 制器,配合多项专有技术来实现耗损均

前沿设计方面拥有极其丰富的经验,他

Danilak 的团队成立的上一家公司

衡, 从 而 最 大 限 度 地 发 挥 系 统 潜 力。

们带领的初创公司 Skyera 目前正着力推

是 SandForce,该团队为 SandForce 推

Danilak 指出,各大厂商此前在 ASIC 中

出有望激发企业级存储市场领域固态存

出了一款定制存储控制器 SoC,是当今

开发控制器,要确保更高的耐用性、可

储 系 统 细 分 市 场 活 力 的 产 品。 对 于

众多第一代企业级 SSD 系统的核心。而

靠性和性能水平,每一代产品都会比上

Danilak 来说,创建创新型架构不是什么

就其新公司 Skyera 而言,他现在即将推

一代产品更为复杂。

新鲜事,只不过在这款设计中,Skyera

出一款企业级系统,号称能将性能和容

固态硬盘(SSD)存储系统的处理内核

量均提升 10 倍,而其价格则与速度更慢、

不是在 SoC 或独立处理器中,而是在赛 灵思

Spartan®-6

FPGA 中实现的。

过去 15 年间,随着基于闪存存储 器的固态存储系统的问世,数据存储领 域经历了令人惊艳的复兴发展。十多年 来,大多数计算密集型系统中最慢的环

容 量 更 低 的 企 业 级 存 储 系 统 相 当。 Skyera 将在未来几个月内推出该产品的 首 个 商 用 版 本, 所 以 在 接 受 采 访 时, Danilak 还无法透露全部特性集。不过,

Skyera 的新产品特别值得关注之处 就在于,为了加速这款革命性创新系统 的 上 市 进 程,Skyera 决 定 在 赛 灵 思 Spartan-6 上实现其独特的控制器功能。 Danilak 指出:“挑战在于,我们不仅要 让性能和可靠性比同类竞争设计方案高

他指出该产品除了容量大、性价比高之

10 倍,还要想办法让 FPGA 设计的尺寸

外还有一个关键特性,那就是能够延长

比 ASIC 小 10 倍。实现容量、性能和成

系统中闪存存储器的使用寿命。

本的适当平衡对于占据当今 SSD 企业级

节通常是硬盘驱动器的读取和写入速度。 NAND 闪存的最大弱点就在于,随

市场份额而言至关重要。我们可以使用

度更快、功耗更低的 NAND 闪存存储器

着工艺尺寸不断缩小,NAND 存储器单

ASIC 设计来实现系统控制器 SoC,但

来替代机械磁盘,NAND 产品率先在移

元的物理尺寸也将变得更小,而单元里

这将要花上我们 18 个月的时间以及数

动电话和 Apple 的 iPod 等手持设备中得

保持的电荷也在减少。反复编程和擦除

百万美元的开发成本。如果设计或制造

到广泛应用。很快,更大容量的配置产

将 影 响 每 个 单 元 保 持 电 荷 的 可 靠 性。

出 了 任 何 问 题, 我 们 还 要 再 花 上 好几

品出现在笔记本电脑中,这主要是为了

Danilak 指出,43nm 单层单元(SLC)

百万美元来找出问题并加以解决。”

降低功耗,同时也开始出现在台式电脑

NAND 执行 10 万次写入操作后就会出

中,而这主要是为了提高性能。

现不可纠正的错误,而 15nm 多层单元

在本世纪初期,存储器厂商开始使用速

(MLC)NAND 仅 仅 执 行 1000 次 写 入

44

赛灵思中国通讯 45 期

2012 年秋季刊


出色的工具

出色的工具

赛灵思 FPGA 可显著提升波束 成形系统设计 带有本地定制 IP 的 Virtex-6 FPGA 开发板 为八通道演示系统奠定 了坚实的基础。 作者:Rodger H. Hosking 副总裁及联合创始人 Pentek 公司 rodger@pentek.com

2012 年秋季刊

赛灵思中国通讯 45 期       45


出色的工具

波束形成是一种利用

波束形成原理

八通道系统

一系列传感器实现方

我们通常使用一系列传感器或天线实现

在这个系统中,我们按线性阵列布置了

向 性、 提 高 发 送 信 号

的波束形成技术来提升特定方向上的接

8 根天线,如图 2 中的整体方框图所示。

强 度 以 及 提升接 收 信

收性能(如图 1 所示的手机某方向的接

这里的天线频率为 2.5GHz,所以每个天

号质量的信号处理技术。通信、雷达、

收性能)。来自信号源的信号根据信号

线信号都需要先进行放大、滤波,然后

对抗措施、武器系统、石油与矿产勘探、

源与天线之间的距离依次到达每根天线,

通过降频转换为中频(IF),这样模数

医疗成像及测向等领域均广泛使用了

这样天线信号之间就会有相对的相位及

转换器才能以合适的采样频率完成信号

波束形成技术。

振幅偏移。

的数字化。为保持波束形成的固定相位

关系,所有 8 个通道均必须采用同步采

在测向应用中,我们通过控制波束

在波束形成过程中调节每个天线信

形成天线来定位信号源的到达角。我们

号的增益和相位,可补偿信号路径上的

可以使用两组或两组以上的天线阵列来

不同延迟。调节方式就是将来自每根天

随后我们在数字下变频器(DDC)

三角定位信号源的确切位置,这对于大

线的信号与来自某个特定方向的信号同

中将从每个模数转换器的信号采样降频

量信号情报及反恐怖行动而言是必不可

步。当信号相加时,来自其它方向的非

转换为基带的复杂 I+Q 信号,其中也涉

少的。这项技术的准确度取决于各波束

定向信号就会相互抵消,而来自波束形

及了针对波束形成“权重”的特定通道

形成通道之间增益和相位的精确设置。

成方向的信号则会进行有益的累加,从

相位及增益调节。最后我们在总和模块

我们通过采用带有本地定制 IP 的赛灵思

而显著提升信噪比。在这种调节方法中,

中将所有八个基带信号相加,可生成波

Virtex-6 FPGA 构建的 Pentek 产品来实

通过采用电子方式调节每条路径上的增

束形成总和信号。CPU 分析该总和信号,

现精细调节,从而达到提升系统性能和

益和相位,我们有效地将天线转向信号

并对相位及增益系数进行调节,从而跟

准确度的目的。

源的方向。

踪或适应新的目标。

ሺᅮۙব G1

၎࿋ۙব P1

ሺᅮۙব G2

၎࿋ۙব P2

样。

∑ ሺᅮۙব G3

၎࿋ۙব P3

ሺᅮۙব G4

၎࿋ۙব P4

图 1 - 典型的手机波束形成系统

46

赛灵思中国通讯 45 期

2012 年秋季刊


出色的工具

FPGA 能够访问开发板上所有数据及控制路径, 支持诸如数据多路复用、通道选择、数据打包、 门控、触发及存储器控制等工厂预装功能。 其中的每种功能均以 IP 模块形式存在。 我们可以使用 LX240T、LX365T、

PENTEK 模型 53661 波束形成板 Pentek 模型 53661 软件无线电板是一种

SX315T 及 SX475T 等 各 种 不 同 的

3U OpenVPX Cobalt 开发板,如图 3 的

FPGA 来 实 现 处 理 任 务 的 特 定 要 求。

简 化 方 框 图 所 示。 它 采 用 了 4 个

SXT 器 件 拥 有 多 达 2,016 个 DSP48E

200MHz 的 16 位模数转换器,一个时序、

slice,理想适用于发送与接收之间信号

时 钟 同 步 单 元 以 及 赛 灵 思 Virtex-6

的调制 / 解调制、编码 / 解码、加密 / 解

FPGA。

密及通道化。 FPGA 在工厂预装有 4 个 DDC IP

及控制路径,支持诸如数据多路复用、

核,每个核均能够从 4 个模数转换器的

通道选择、数据打包、门控、触发及存

任 何 一 个 中 接 收 模 数 转 换 采 样。 每 个

储器控制等工厂预装功能。Cobalt 架构

DDC 的抽取范围是 2K-64K,能够提供

将 FPGA 构建成某种适用于数据处理应

2.5KHz-80MHz 的下变频基带带宽。每

用的容器,其中的每种功能均以 IP 模块

个 DDC 均具有可编程增益和相移控制功

形式存在。

能,能够跨整个 VPX 背板访问处理器。

พೕۙၿഗ

IF

พೕۙၿഗ

IF

数转换器。 每个 DDC 输出处均有一个用于计算 下变频信号功率的功率计。每款功率计都 配备一个阈值检测器,以便在输出功率超 过上限阈值或低于下限阈值的时候生成系 统中断。这些功能可显著简化增益校准及

FPGA 能够访问开发板上所有数据

พೕۙၿഗ

在本系统中我们将为每个 DDC 分配一个模

พೕۙၿഗ

IF

IF

信号监测工作,从而解决了系统处理器只 能在软件中才能完成的难题。 此外,53661 FPGA 还包含一个本地 Aurora 总和模块,可将四个 DDC 输出加 在一起,实现波束形成所需的通道组合。 Aurora 是一种面向赛灵思 FPGA 的轻量级 链路层的千兆位串行协议。在这个开发板

พೕۙၿഗ IF

ࠌ 8 ߵཀ၍

A/D

A/D

A/D

A/D

A/D

DDC

DDC

DDC

DDC

DDC

ሺᅮ

ሺᅮ

ሺᅮ

ሺᅮ

ሺᅮ

၎࿋

၎࿋

၎࿋

၎࿋

၎࿋

ೕ୲ሺᅮᇑ ၎࿋੦዆

CPU

图 2 - 八通道波束形成系统方框图

2012 年秋季刊

赛灵思中国通讯 45 期       47


出色的工具

PENTEK ఇ႙ 53661

ෘଳາ VIRTEX-6 FPGA AURORA հຐႚ‫ׯ‬൱ࢅ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

Aurora 4X ൱ࢅ๼෇ Aurora 4X ൱ࢅ๼‫؜‬

x4 PCIe DDC 2 ሺᅮ + ၎࿋

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 3 ሺᅮ + ၎࿋

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 4 ሺᅮ + ၎࿋

કቛೝ௬ FP ൱ࢅ๼෇ - Aurora

FP B EP02

કቛೝ௬ FP ൱ࢅ๼‫ ؜‬- Aurora

FP C

DDC 1 ሺᅮ + ၎࿋

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

FP A EP01

঍֮ਸ࠲

FP D DP01

ຕ਍ೝ௬ FP x4 PCIe

PCIe x4 I/F

图 3 - 采用赛灵思 Virtex-6 FPGA 的 Pentek Cobalt 53661 OpenVPX 波束形成软件无线电板

上,Aurora 接口通过 4 个串行链路(4X)

八通道 3U OPENVPX 波束形成系统

4X Aurora 求和输出链路跨越背板传输

在一个输入端口上接收传输来的总和,

如图 4 所示为完整的八通道 OpenVPX

到 插 槽 2 中 的 第 二 个 53661 开 发 板 的

并在 4X 输出端口上交付包含 4 个板载

波束形成系统。两块模型 53661 开发板

4X Aurora 求和输入端口。然后将第二

通道内容的新的传输总和。每个 4X 链

安装在 OpenVPX 背板的插槽 1 和插槽

个 53661 开发板的四通道本地总和与第

路运行在 3.125Gbps 的时钟比特率上,

2,CPU 开发板则安装在插槽 3。8 个适

一块开发板传输来的总和再相加,就可

数据传输率可达 1.25GBps。

用于接收 2.5GHz 信号的偶极天线为包

得到完整的八通道总和。这个总和经由

一个串行时钟速率为 2.5Gbps 运行

含低噪声放大器、本地振荡器和混频器

x4 PCIe 链路发送到插槽 3 的 CPU 卡。

的本地 PCIe x4 接口 IP 为面向 DDC 及

等在内的射频调谐器反馈信号。射频调

模 型 53661 开 发 板 上 的 3 个

波束形成参数编程的控制处理器提供了 一 个 1GBps 速 率 的 链 路。 此 外, 该 PCIe 链路还为交付 4 个 DDC 输出和波 束形成总和输出提供支持。 可编程千兆位串行交叉开关将两个 4X Aurora 总和链路与 x4 PCIe 链路连 接到 VPX P1 背板连接器上。这种交叉 开关具有高度的灵活性,能够让 53661

50MHz 的 IF。

OpenVPX 4x 链 路(OpenVPX 粗 管) 的分配通过使用前一方框图中的交叉开

200MHz 16 位模数转换器负责数字

关进行简化。这样 53661 就可以搭配各

化 IF 信号,执行进一步降频转换为基带

种不同的背板运行。由于 OpenVPX 不

的工作,使用的 DDCS 抽取为 128。这

约束跨背板链路的串行协议的使用,系

样可提供 I+Q 复杂输出样片,带宽大约

统支持的混合协议架构如图所示。

是 1.25MHz。每个通道的相位和增益系 数用于控制阵列的方向性。

波束形成演示系统

运行在各种 OpenVPX 背板拓扑结构及

VPX 插槽 3 中的 CPU 开发板通过

Pentek 的工程师已经建立起一个八通道

插 槽 配 置 下。 在 本 系 统 中, 我 们 将

两个 x4 PCIe 链路,又称 OpenVPX“粗

波 束 形 成 演 示 系 统, 配 备 了 一 款 在

Aurora 链路映射到 OpenVPX 扩展平面

管”跨越背板发送命令和系数。

Windows 下 CPU 开发板上运行的控制

上。同样我们还可将 PCIe 接口映射到 发挥控制平面作用的 OpenVPX 数据平 面上。

谐器将 2.5GHz 天线频率信号转变降为

48

我 们 在 VPX 插 槽 1 中 的 53661 开 发板的左上部分处理前 4 个信号通道, 然后这 4 个通道的波束形成求和值通过

面板。自动信号扫描仪可检测来自测试 发射器的最强信号频率。该频率的中心 是射频下变频器的 50MHz IF 频率。一

赛灵思中国通讯 45 期

2012 年秋季刊


出色的工具 旦发现该频率,8 个 DDC 就会进行相应

将理想八元件阵列在信号到达角为

线细微差别的影响。不管怎样,定向信

的设置,将该信号降为 0Hz,以便于求和。

0°(直接来自阵列正前方)时的理论七

息的计算比较理想。随着信号源在阵列

此外,控制面板软件还可实现 8 个通道

波瓣图与实际坐标图进行比较。波瓣图

前的左右移动,峰值波瓣也随之移动,

所有参数的特定硬件设置,包括增益、

下方是极坐标图,显示的是指向计算到

从而改变计算出的到达角。

相位和同步延迟等。

达角的单个矢量。这个矢量是通过确定

另外一部显示器显示阵列的波束形

具有最大响应的波瓣而得到的。

成模式。通过调整 8 个通道的相移,最

此外还显示了布置在显示器正前

大限度地提高与阵列平面垂直

方,作为信号源的现实发送器的实际坐

的 -90°~ +90°整个到达角范围内的灵

标图。在这种情况下,理想的波瓣图受

敏度,从而形成显示内容。

到物理对象、反射、线缆长度变化和天

ෘଳາ VIRTEX-6 FPGA

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 1 ሺᅮ + ၎࿋

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 2 ሺᅮ + ၎࿋

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 3 ሺᅮ + ၎࿋

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 4 ሺᅮ + ၎࿋

ෘଳາ VIRTEX-6 FPGA

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 1 ሺᅮ + ၎࿋

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 2 ሺᅮ + ၎࿋

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 3 ሺᅮ + ၎࿋

พೕۙၿഗ

200-MHz 16 ࿋ఇຕ ገ࣑ഗ

DDC 4 ሺᅮ + ၎࿋

4X ൱ࢅ๼෇

AURORA հຐႚ‫ׯ‬൱ࢅ

4X ൱ࢅ๼‫؜‬

该演示系统现已通过 Pentek 在线 提供。如果读者希望观看现场演示,敬 请 访 问 http://pentek.com/go/xcellbf。

EP01

EP02

VPX ԝӱ 4X Aurora

FP C x4 PCIe

x4 PCIe DP01

PCIe x4 I/F

4X ൱ࢅ๼෇

AURORA հຐႚ‫ׯ‬൱ࢅ

4X ൱ࢅ๼‫؜‬

x4 PCIe

EP01

FP A

EP02

FP B

FP C

DP02

OpenVPX CPU ఇ੷

x4 PCIe DP01

DP01

PCIe x4 I/F

图 4 - 利用两个 Pentek Cobalt 53661 波束形成板的八通道 OpenVPX 演示波束形成系统

2012 年秋季刊

赛灵思中国通讯 45 期       49


号外,号外

赛灵思工具和 IP 更新 Vivado ™设计套件 2012.2 现已向目前所有质保期内的赛灵 思 ISE® 设计套件用户免费提供。Vivado 设计套件提供了高

VIVADO 设计套件是什么? VIVADO 设计套件旨在提高设计人员 生产力。该全新工具套件配合赛灵思 28nm

度集成的设计环境和全新一代系统到 IC 工具,其中包括高

系列 All Programmable 器件,可提高设计、

层次综合、分析布局布线以及高级时序引擎等。这些工具能

集成和实现的整体生产力。赛灵思器件采

够帮助开发人员提高设计集成度以及实现速度。

用了 28nm 制造工艺以及包括堆叠硅片互 联(SSI)、传输速度高达 28 Gbps 的高速 I/O 接口、固化的微处理器与外设和灵活混 合信号(AMS)等在内的等多种新技术, 实现了更大的产品规模。由于器件规模更 大更复杂,开发人员面临着多重设计挑战, 可能会阻碍产品上市进程和生产力的提高。 Vivado 设计套件能完全取代现有赛灵 思 ISE 设计套件工具,比如可取代 Project Navigator、XST、

现、CORE

Generator ™、 时 序 约 束 编 辑 器(Timing Constraints Editor) 、ISim、ChipScope ™、 赛灵思功耗分析器(XPA) 、FPGA Editor、 PlanAhead ™和 SmartXplorer 等在内所有 ISE 设计套件工具。所有这些工具现在都直接 集成在 Vivado 集成设计环境(IDE)中,充 分发挥了共享可扩展数据模型的作用。 借助 Vivado 设计套件,开发人员通 过布局布线技术分析和优化时序、拥堵、 总线长、利用率和功耗等多种同步设计参 数,从而加速设计创建以及高层次综合和 实现。整个设计流程基于 Vivado 共享的可 扩展数据模型,在存储器中执行时无需写 入或转换任何中间文件格式,从而加快了

50

赛灵思中国通讯 45 期

2012 年第三季度


运行时间、调试和实现速度,并降低了

赛 灵 思 建 议 那 些 准 备 采 用 Kintex

对存储器的要求。Vivado 为用户提供了

K410 或更大型器件开始“新”设计的

Vivado 是全新的套件,充分发挥

直接的参数,使其在设计早期阶段就能

客户先联系一下本地的现场应用工程

功能强大的互动型 Tcl 脚本、Synopsys

够对设计和工具设置进行修改,这样就

师,看看 Vivado 是否适合自己的设计

设计约束、SystemVerilog 等业界标准

会减少对整体工作进度的影响。该功能

需求。赛灵思不建议正在进行中的 ISE

的优势。为了简化您的学习,赛灵思推

可减少设计迭代并提高生产力。

设计套件项目转用 Vivado,因为二者环

出了 10 款有教师指导的全新培训课程,

境的设计约束和脚本并不兼容。

包括如何使用 Vivado 工具等。同时欢

用户既可采用 Vivado IDE 的 Flow Navigator 功能,通过按钮来控制整个 设计进程,也可用 Tcl 脚本进行手动控

如需了解更多信息,敬请查阅 ISE

是否提供 VIVADO 设计套件培训?

迎 观 看 Vivado 速 成 视 频:www.xilinx.

14.2 和 Vivado 2012.2 版本说明。

com/cn/design-tools。

VIVADO 的许可证条款有什么规定?

VIVADO 设计套件是否有不同的版本?

制。

2012 年内免费提供 Vivado 设计套

Vivado 设计套件提供设计版本或

件。您可从赛灵思下载中心一次性下载

系统版本(见表 1)。目前所有质保期

ISE 设计套件是一款业经验证的解

ISE 设计套件 14.2 和 Vivado 2012.2。

内的 ISE 设计套件逻辑版本和嵌入式版

决 方 案, 能 满 足 所 有 各 代 赛 灵 思 All

自 Vivado 2012.2 推出以后,目前所有

本用户均可获得全新的 Vivado 设计版

Programmable 器 件 的 需 求。 赛 灵 思

质保期内的 ISE 设计套件用户均可免费

本,而 ISE 设计套件 DSP 版本和系统

ISE 设计套件继续为广大开发人员提供

获得 Vivado 设计套件的副本。

版本用户则可获得全新的 Vivado 系统

我该继续使用 ISE 设计套件还是转而采 用 VIVADO 设计套件?

创新,并将熟悉的设计流程扩展用于 7 系列和赛灵思 Zynq ™ -7000 可扩展处理 平台(EPP)项目。

对 2012 年 2 月 2 日后已获得 ISE 设计套件 13 或 14 版本许可证的客户而 言,您当前的许可证也适用于 Vivado。

版 本。Vivado 尚 未 面 向 WebPACK ™ 用户提供。Vivado WebPACK 计划将于 今年晚些时候推出。

Vivado 设计套件 2012.2 是赛灵思

2 月 2 日之前已获得许可证但仍在质保

如 需 了 解 面 向 新 一 代 All

的 新 一 代 设 计 环 境, 可 支 持 包 括

期内的用户需要更新许可证方能使用

Programmable 器件的赛灵思设计工具

Virtex®-7、Kintex ™ -7 和 Artix ™ -7

Vivado。如需了解许可证生成,敬请访

的 更 多 信 息, 敬 请 访 问:www.xilinx.

FPGA 在内的 7 系列器件。该套件还提

问:www.xilinx.com/cn/getlicense。

com/cn/design-tools。

供了增强型工具性能,尤其适合大型或 拥堵设计的需求。

VIVADO DESIGN SUITE ‫ڦ‬փཞӲԨ ิׂ૰‫ݛ߲߳ڦ‬௬ IP ण‫ํࢅׯ‬၄

ࠀీ

ยऺӲԨ

ဣཥӲԨ

ण‫ׯ‬ยऺ࣍ৣ ෉ॲਸ݀༫ॲDŽSDKDž Vivado ‫ݠ‬ኈഗ

ᄓኤࢅۙ๬

WebPack DŽ၌ᇀഗॲDž

๴၌

Vivado இड‫ݴ‬ဆഗ Vivado ‫ز‬ႜI/O‫ݴ‬ဆഗ Vivado ߛْ֫ጹࢇ

ยऺ༑໭ࢅIPิ‫ׯ‬

System Generator for DSP

表 1 - Vivado 设计套件的各版本,预计今年晚些时候将推出 Vivado WebPACK。

2012 年第三季度

赛灵思中国通讯 45 期       51



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.