赛灵思中国通讯53期:为何使用Zynq SoC可以让企业产品利润激增

Page 1

赛灵思 第

2 0 1 4

为何使用 Zynq SoC 可以让企业产品利润激增

中 国 通 讯 Xilinx News I s s u e 5 3

S u m m e r

2 0 1 4

Virtex UltraScale FPGA 推动 Tb 级网络不断发展 再见,DDR 你好,串行存储器 Vivado HLS 推动协议处理系统 蓬勃发展 Vivado 2014.2 版本的最新消息

FPGA 助引力波 与暗能量搜 索一臂之力

18

请即浏览 网络版的全部精彩内容 china.xilinx.com/xcell




All Programmable平台:为盈利奠定坚实的基础

出版商

作为行业记者第一次开始报道IC设计行业时,商用ASIC市场已经达到它的 全盛时期,定制数字IC业务正快速转向ASSP SoC以提高利润率。当终端产 品的性能和特性集的差异化主要依赖于硬件时——性能、功耗和独特功能

编辑

均硬连接于器件门,商用ASIC一直占据统治地位。但是商用ASIC业务的鼎盛时期持续很

艺术总监

短,这是为什么呢? 设计/制作

Quicklogic的主席兼前任CEO Tom Hart在我们几年前见面时给出了很好的总结:“半导 体业务挣钱的关键在于向许多不同客户大量销售某一类型的芯片。这样ASIC业务就会存在

广告销售

问题,等于是把自己的赌注压在另一场赌博上。你要押宝购买自己ASIC产品的客户已经为 正确的市场推出了正确的产品。”

国际

到本世纪初,芯片工艺技术和门数量已经发展到企业能够在定制数字设计中嵌入微 处理器及其它IP的水平,快速打造出我们现在熟知的片上系统(SoC)。这种SoC能让半导 体企业构建出统一产品,并销售给更广泛的大量客户。我们今天把这种业务称为商用ASSP。ASSP这种片上硬件通常能够满足最低硬件要求,任何客户差异化均源自软件。虽然 ASSP仍比较受欢迎,但这种业务模式也存在瑕疵,特别是客户会遇到问题。 最大问题就是半导体厂商通常只有在所有标准都确定、市场已经成型的情况下才会推

订购往期期刊

出现成的ASSP产品。如果您作为客户想率先向市场投放产品,以最高售价出售产品,实 现最大利润,那就仍然必须创建定制软硬件来满足差异化芯片要求。此外,为了尽可能延 长统治市场的时间,保持率先进入市场的高价位,就必须对终端产品实现差异化。这反映 出现成的ASSP模式存在的另一弊端:那就是您能从厂商购买ASSP,别人一样也能。一旦 ASSP器件准备好了,对软件功能进行差异化是相对容易和快速的。不过竞争对手则能比较 容易地打造仿制品,甚至能用相同的硬件推出更好的产品。因此,实践证明ASSP其实更适 合仿造型企业的需求,能在商机消失前跟进攫取现有市场的剩余份额。 面对芯片的高昂成本,许多企业都转而采用平台业务模式来尽可能提高利润率。也就 是先在给定芯片工艺节点上创建首款定制芯片,然后再推出成本较低的衍生品,充分利用 IP,实现设计重用。企业能用ASIC、自己的ASSP或商用ASSP来打造平台,不过这种方式仍 会受到上述问题的制约。所以,越来越多的客户开始迈向半导体产业演进的下一阶段,用 赛灵思屡获殊荣的Zynq®-7000 All Programmable SoC来构建平台。正如本期封面专题报道所 指出的那样,Zynq SoC是目前打造差异化产品平台并最大化利润率的最睿智的商业和技术 选择。 © 2014 Xilinx, Inc。保留所有权利。本 文包含的赛灵思、赛灵思徽标和所有其 他指定品牌均为赛灵思的商标。所有其 他商标是其各自所有者的财产。 本期文章、信息和其他材料仅出于为读 者提供方便目的而提供。赛灵思对上述 任何文章、信息和其他材料及其使用不 做任何明示、暗示或规定性担保,因此 用户对其使用带来的风险承担全部责 任。任何使用上述信息的人或实体均不 得因使用上述信息造成伤害、损失、成 本而向赛灵思提出索赔。

4

赛灵思中国通讯

Mike Santarini 发行人

2014年第三季度



目 录

XCELLENCE BY DESIGN APPLICATION FEATURES

视点 发行人致信 All Programmable平台: 为盈利奠定坚实的基础... 4

天体物理学领域的出色表现

24

FPGA助引力波与暗能量搜索 一臂之力…18 UltraScale的出色表现 Virtex UltraScale FPGA助力 实现Tb级系统…24 存储器领域的出色表现

18

再见,DDR 你好,串行存储器…30

30

封面专题

8

6

为何使用 Zynq SoC 可以 让企业产品利润激增

赛灵思中国通讯

2014年第三季度


2014

年第二季度

第五十三期

THE XILINX XPERIENCE FEATURES 手把手课堂:FPGA 101 设计可靠性: MTBF—这只是开始!…38 专家园地 Vivado HLS推动协议 处理系统蓬勃发展…44

38

专家园地 FPGA设计中,时序就是一切…52 出色的工具 NI系统级模块加速 创新产品上市…58

52 44

XTRA READING 号外,号外 Vivado 2014.2版本的最新消息… 62 实例 应用指南… 66

Excellence in Magazine & Journal Writing 2010, 2011

2014年第三季度

Excellence in Magazine & Journal Design 2010, 2011, 2012

赛灵思中国通讯

7


封面专题

为何使用 Zynq SoC 可以 让企业产品利润激增 作者:Mike Santarini 赛灵思公司《赛灵思中国通讯》发行人 mike.santarini@xilinx.com

8

赛灵思中国通讯

2014年第三季度


封面专题

客户认识到基于赛灵 思的 Zynq Soc 开发产 品系列能够最大化其 产品利润。

自 2011 年年末赛灵思推出 Zynq ® -7000 All Programmable SoC 之后已经催生出众多产品。 Zynq SoC 现在已经成为全球众多最具创新性的 最新产品的核心,如 :汽车、医疗与安全监控产 品、以及使工厂变得更安全、更环保和更高效的 先进电机控制系统。另外,Zynq SoC 也在新一代 有线和无线通信基础设施设备以及众多新兴物联 网应用中赢得一席之地。 Zynq SoC 在单芯片上完美集成了双核 ARM® Cortex ™ -A9 MPCore 处理器、可编程逻辑和关 键外设,这不仅让客户亲自体验到了所带来的无 与伦比的多功能性,而且越来越的客户将该器件 的用途从作为单个插口的首选处理器扩展到成为 整个产品系列的首选平台。通过实施充分发挥 Zynq SoC 和软硬重用优势的平台战略,客户能够 快速打造其产品的众多衍生品或变体。因此最终 能够提高设计生产力和盈利性。 现在让我们看一下平台电子产品巨头公司采 取哪些措施来提高其盈利能力 ;Zynq SoC 为何远 优于 ASIC、单独的 ASSP 甚至是 ASSP+FPGA 双 芯片平台实现方案 ;以及您如何顺利利用 Zynq SoC 迅速提高自己公司的盈利能力。 在许多人眼中“平台”已成为营销方面的陈 词滥调。但是,电子行业诸如苹果、英特尔和思 科等众多公司已经通过有效实施平台业务战略一 举成为高盈利电子产品领导者。在实施平台战略

2014年第三季度

赛灵思中国通讯

9


封面专题

过程中,公司需要大量前期投入用于

而能够更快、更轻松地以更低设计成

功要素》中总结到 :采用从 28nm 到

创建和编制专为其电子产品平台初始

本和更少资源推出衍生产品。

20nm、16nm 和 10nm 不断提高的工 艺节点技术生产 ASIC 或 ASSP 器

版本设计的模块。他们然后把这些设 获得盈利能力所面临的挑战

计模块转变成 IP 模块,经过重新利

件,成本会不断增加,那些生产其自

研 究 公 司 国 际 商 业 战 略 ( I R S ) 有芯片的公司需要更加努力才能实现

用快速、轻松将这些模块扩展为衍生

在其 2013 年报告《系统 IC 业务成

产品系列、模型以及新一代产品,从

传统的最终产品收入目标 :即收入超

不断上升的 IC 设计成本 28nm 工艺的初始设计成本平均达 1.3 亿美元

28nm 衍生设计成本平均达 3560 万美元

500

500

450

450

400

400

350 300

300

Prototype

Cost ($M)

Cost ($M)

350

Validation

250 Physical Software

200 150

250 200 Physical

150

Architecture

Prototype

Verification

100

100

Validation

Architecture

Verification

IP qualification

50

50 IP qualification

0 65nm (354M)

45/40nm (615M)

28nm (1.044M) Feature Dimension (Transistor Count)

20nm (1.317M)

0 65nm (90M)

16/14nm (1.636M)

45/40nm (130M)

28nm (180M) Feature Dimension (Transistor Count)

20nm (240M)

16/14nm (310M)

为弥补不断增加的 IC 设计成本,要求必须增加收入 达到初始设计成本 10 倍的收入目标是 13 亿美元

达到衍生设计成本 10 倍的收入目标是 3.56 亿美元 5,000

4,000

10X

3,000

7.5X

2,000

5X

3,000

2,000

10X 7.5X 5X

1,000

1,000

0

4,000 Revenue Requirement ($M)

Revenue Requirement ($M)

5,000

0 65nm

45/40nm

28nm

20nm

16/14nm

65nm

45/40nm

28nm

20nm

16/14nm

资料来源:国际商业战略公司(IBS)(2013/2014年)

图1 – IC的初始开发成本随引入各种新的芯片工艺技术而提高。相比之下, 在相同节点开发后续衍生产品的成本要低得多,因此实现10倍于设计成本的最终产品收入目标要容易得多。 平台设计让公司能够快速开发衍生设计并提高盈利性。 10

赛灵思中国通讯

2014年第三季度


封面专题

能够降低新产品实现成本的 新设计概念有望给半导体 行业结构带来巨大变化 过其最初研发投入的 10 倍。许多公

多种 [ 衍生 ] 设计,”该报告指出。

半导体行业不断变化的财务指标调整

司竭尽全力通过在各个节点打造多种 “在一个技术节点仅实现一两个设计

其商业模式。”[ 资料来源 :国际商

衍生产品来实现 10 倍目标。

业战略公司(IBS)(2013/2014 年) ]

“衍生设计成本会达到初始设计

会造成极高的前期成本而且要获得良 好财务回报还会带来高风险。”

IBS 在研究中指出 28nm ASIC 或

成本的 20%,也就是说,如果某项新

“能够降低新产品实现成本的新

ASSP 的设计成本(首批或初始产品)

产品系列的决策需要非常高的开发成

设计概念有望给半导体行业结构带来

高达 1.3 亿美元(图 1)。而衍生设计

本,则可以用低得多的成本实现衍生

巨大变化,”该报告随后指出。“但

成本要低得多 :仅有 3,560 万美元。

设计。为了最大化收入和利润,公司

是,在新的设计方法出现之前,由于

因此,为了同时实现两类器件的 10

所具有的优势是在一个技术节点实现

特征尺寸降低,半导体公司需要根据

倍收入目标,复杂器件需要 13 亿美

$140

30

$120

25

$100

20

$80 15 $60 10 $40 5

$20

0

$0 First Generation

Derivative #1

图2 – 衍生设计可以减少上市时间、开发时间和成本,同时使更易于达到盈利能力目标。 2014年第三季度

赛灵思中国通讯

11


封面专题

在同一节点上采用平台战略 开发多个衍生品可让公司 提高收入和盈利能力 元投资,而衍生产品只需 3.56 亿美元

入规模 80%(10.4 亿美元)的衍生设

步降低产品开发时间、加速上市进程

[ 资料来源 :国际商业战略公司(IBS)

计只需 85 名工程师在两年内就能够

并节省工程时间成本,同时能够提高

开发出净现值(NPV)远远超过初始

各种衍生产品或新一代产品的盈利性。

IBS 研究表明,公司需要 650 个

ASIC 设计 NPV 的产品。(NPV 定义

正如 IBS 研究所显示,企业通过

工程年度才能设计出复杂的 28nm

是现金流入与流出现值差额。此概念

开发衍生设计“优化收入和利润”。

ASIC。相比而言,28nm 衍生 ASIC

在资本预算中用于分析某项投资或某

而采用平台方法在相同节点开发多种

设计的开发时间只需 169 个工程年

个项目的盈利能力。)

衍生产品(也就是说,衍生产品的衍

(2013/2014) ]。

度,前者是后者的 3.8 倍。

此外,衍生设计比初始 ASIC 具

假设 ASIC 团队的新设计开发符

生产品)使企业能够进一步优化收入

有更高得多的“盈利能力指数”(PI) 与利润,因为各个后续设计都能受益

合摩尔定律并且开发周期为 2 年,则 (NPV 除以研发支出)。即使衍生产

于在之前设计中学到的经验教训、

需要用 325 名工程师花费两年时间完

重新利用以及对客户需求更准确的

品仅达到初始设计市场规模的一半

成复杂的 28nm ASIC。但是,只需 ( 6 . 5 亿 美 元 ), 其 也 具 有 优 于 初 始 要 85 名工程师就能够在两年内完成

了解。

ASIC 的 NPV,而 PI 基本相同。 处理选择是平台成功的关键

28nm ASIC 的衍生品开发。 而如果公司也用全部 325 名工程 师开发衍生设计,则他们只需 6 个月

平台:实现盈利衍生品的最佳战略

企业在实施平台战略时做出的两

面对不断增加的研发成本、日渐

项最重要的业务决策实际上是关键技

激烈的竞争以及消费者对更好产品日

术决策 :众多处理系统中哪一个会成

另外,如表 1 所示,如果假定初

益苛刻的需求,越来越多的半导体公

为产品平台的核心?该处理系统的哪

始的复杂设计采用 325 名工程师达到

司和电子产品系统公司开始转向寻求

种芯片实施方案最适合提高盈利性?

13 亿美元的 10 倍收入回报目标,则

平台战略来快速创建衍生产品并最大

在平台战略中,处理系统必须满

目标市场只需达到初始 ASIC 市场收

限度提高盈利性。平台战略能够进一

足或者超过应用软件和系统需求。它

就能完成任务(图 2)。

෍஛ትಓ ฆൠ* (Ѿ༽ୟᆇ)

႓ۙቀֵ (Ѿ༽ୟᆇ)

෍஛ትಓ ঄઀൨** (Ѿ༽ୟᆇ)

঄࿝቎*** (Ѿ༽ୟᆇ)

ᄮ઀௙ઉቑฮ

ִ෭݉ᆰBTJD

$1300

$130

$260

$12.85

0.1

2ࠖ႟෍౰!)91&กՠߙ஠*

$1040

$35

$208

$74.78

2.14

3ࠖ႟෍౰DŽ91&กՠߙ஠Dž

$650

$35

$130

$34.47

0.98

* ࣦර8௧ ** ࣦර઀൨ଋན31& *** ࣦර໦࿝ଋན26&

表1 – 开发衍生设计具有可观的净现值(NPV)和更加出色的盈利性指数。 12

赛灵思中国通讯

2014年第三季度


封面专题

必须具备可扩展性并且易于扩展 ;必

望进军由于缺乏功能差异化而主要展

ASIC、ASSP 以及 ASSP+FPGA 组合

须具有不断增长的大型成熟生态系统;

开价格竞争的中小规模成熟市场的公

的众多优势。与 ARM 处理系统的其

而且必须允许设计人员和工程师利用

司而开发。

他硬件实施方案相比,Zynq SoC 不仅

之前的设计成果。最后,它必须来自

为了增强产品差异化,许多企业

在 NRE、灵活性、差异化、生产力 /

具有发展规划且成熟稳定的供应商,

基于 ARM 处理系统创建了将 FPGA

上市进程等方面具有最佳特性组合,

而且该供应商并未持有偏离其发展规

与现成 ASSP 融为一体的产品平台。

而且还具有最低衍生品成本和最低整

划或者不断推出无尽勘误的不良记

他们可以在这种配置中实现硬件与软

体风险(表 3)。

录。虽然有一些候选产品符合上述某

件细分,从而创造更广泛的特性组合

另外,Zynq-SoC 与其他平台实

些要求,但是能够满足或超过全部上

或者灵活、可升级、性能更高的终端

施方案相比具有巨大的成本优势。让

述要求的系统是 ARM 微处理器架构。

产品 —— 其可帮助他们战胜那些提供

我们来看一下具体数据。

ARM 已经成为 PC 之外一切设

仿效式仅可软件编程的 ASSP 实施方

赛灵思 All Programmable SoC

备的事实标准嵌入式架构。如今采用

案的竞争对手。在这些 ASSP 中添加

产品营销与管理总监 Barrie Mullins

高级嵌入式处理技术的绝大部分电

赛灵思 FPGA 已经帮助众多企业的产

表示,设计 28nmASIC 的平均成本

子系统 —— 从手机、汽车到医疗设

品在市场中脱颖而出。

是 1.3 亿美元,而 ASIC 设计项目

备 —— 都采用 ARM 处理器内核。 尤其是 ARM 的 Cortex-A9 处理器架

的 10 倍收入目标则为 13 亿美元。 理想平台解决方案:ZYNQ SoC

他指出,但是,基于 Zynq SoC 的典

构成为许多种片上系统(SoC)的核

借助 Zynq-7000 All Programmable

型设计项目本质上其整体设计成本

心。其不仅已用于专门针对前言智能

SoC,赛灵思正在实施适合绝大部分

比 ASIC 实施方案低得多而且上市进

手机、平板电脑等高量产增值产品开

嵌入式应用的高稳健性 ARM Cortex-

程也比其快。其原因是 Zynq SoC 能

发的 ASIC 设计中,而且还用于众多

A9 平台解决方案。如表 2 所示,作

够提供预设计、特征化、业经测试与

ASSP 设计,该设计主要针对那些希

为一种芯片平台,Zynq SoC 具备超过

验证的成品 SoC,其可以带来软件、

ྼ໾ዓֈӁ

ૌ္࢝

Տᄍ࡞

ජกॣ֋

႟෍౰ֈӁ

‫ܞ‬࿜

Zynq SoC

‫و‬,ዥ‫ࣨݴ‬቎

ዥૌ࢝ǖ ᄱऋᅪൢऋৰӣ֋္! ,!ৰӣ֋J0P

ৰӣ֋္ዥ‫ݴ‬Lj ᄱऋ0ൢऋဒ໷ර࣓

ࢼֈᄱऋᅪൢऋ Տᄍ࡞๨‫ڡ‬ዥਓ

ᄱऋᅪൢऋৰӣ֋္ ؕਹዥ‫و‬ֈӁ

ৰᆁՃ‫ܞوؿ‬࿜

ASSP + FPGA

‫ݴ‬ᅙ[zor!TpD! DŽᅪྼ໾࿧ߋDž

‫۾‬բૌ࢝Lj ‫ئ‬෸ᅪ[zor!TpD࿧Ӌ BTTQ!J0Pᅏট࿥္

ᄱऋᅪൢऋৰӣ֋္ ഖিᅙBTTQ

൜߮BTTQ၍჋ ᄱऋ྿‫܍‬Lj ᇏ๨‫ڡ‬ዥਓ

ቩ‫و‬ֈӁLj ഖিᅙGQHBզඟ

ቩ‫ܞو‬࿜Lj ഖিᅙGQHBզඟ

ASSP

൜߮ቔ၍‫ל‬ൢऋ ৰӣ֋္Ljᇏዥ‫و‬

ટࠔૌ္࢝Lj ‫ئ‬෸ॡনһൢऋ ৰӣ֋္

ॡনһൢऋৰӣ֋္ !–!Ӧᅙ৲ૢ

൜߮ॡ၍ ‫ל‬ൢऋ྿‫܍‬Lj ᇏ๨‫ڡ‬ዥਓ

൜߮၍჋‫ל‬ൢऋ ႟෍౰LjᇏֈӁዥ‫و‬

൜߮ॡ၍‫ל‬ൢऋ ৰӣ֋္Ljᇏᅏ ৰ௙‫ܞ‬࿜ዥ‫و‬

ASIC

ࢸ‫ݴ‬Lj ჵቛ྇۟֏‫؞‬ă

቟ֈࡄॡনһ ᅏ࿥ൢऋૌ္࢝

ዥࣞᄱऋ྿‫܍‬Lj ‫ئ‬෸ൢऋ྿‫܍‬ ᅏট࿥္

๨‫ڡ‬ዥ‫و‬ ೩‫ܞ‬࿜ዥ‫ݴ‬

ዥ‫ݴ‬

ࢸ‫ݴ‬ DŽቱဧර࣓Dž

ዥࣞ౶ຕ໅္ ટࠔ౶ຕ໅္ ნ҈౶ຕ໅္ ዥՏ౶ຕ໅္ 表2 – Zynq-7000 All Programmable SoC可为寻求实施平台战略的客户提供理想的特性组合。 2014年第三季度

赛灵思中国通讯

13


封面专题

ዥ‫و‬OSFᅪዥࣞ‫ܞ‬࿜ठ‫و‬

ዥ‫ݴ‬ૌ္࢝ᅪՏᄍ࡞

✔ ֈ౰ဣ౥

✔ Bmm!Qsphsbnnbcmf! ᄱऋĂൢऋᅪJ0P

✔ ৑ۙᅪර࣓‫ޗ‬ন ֈӁཋԜዚ‫ػ‬ ✔ ൱ૌ๋JQਉ!,! ٕ൲۴JQ ✔ ߖ۱‫ؿ‬৑ۙҊ

✔ নһ๵෢࿝ՠ ৰӣ֋္ ✔ Ԡ‫܍‬ቱဧిቜ ✔ їഠ‫ྼؿ‬໾ DŽ࣠୻Dž

ዥ‫و‬႟෍౰ֈӁ ᅪዥ‫ݴ‬ᄮ઀္

‫ݴޑ‬෍՛ઉᅪ‫ޑ‬ਓජกॣ֋

✔ ࣁ෢ᄱऋ0ൢऋဒ໷৑ۙ

✔ ࢨᅙBSN!BNCB! BYJ5෦࿝JQӭኳ࡞

✔ Bmm!Qsphsbnnbcmf!֨࿺ DŽDĂD,,ĂPqfoDWĂPqfoDMĂIEMĂ ࢨᅙ஠ဲ‫ؿ‬ตൠDž

✔ ቱဧ઀ᅂᆁႬሽ‫ؗ‬ବ DŽJTPĂGDD‫ك‬Dž

✔ Wjwbep!Eftjho!TvjufĂWjwbep!IMTĂ JQ!Joufhsbups!ᅪ!VmusbGbtu۴۟

✔ ቱဧ઀ᅂࠞᅄ࡞‫ؗ‬ବ ᅪՃฅ཭ऋ

✔ ߖ۱Ă৑‫ؿۼ‬PTᅪJEFቀ֕ DŽ৑ᆑMjovyࢽBoespjeĂGsffSUPTĂ Xjoepxt!FncfeefeĂXjoe!SjwfsĂ Hsffo!Ijmmt‫ك‬Dž

✔ ઢ՛ဣ౥Ă٢ᆑ٢૸Ă QDCᅪJQၒৰซഝă

表3 – 低NRE费用、灵活性等要素使Zynq SoC成为平台战略的理想选择。

硬件、I/O 性能以及差异化灵活性。

UltraFast ™方法时赛灵思的设计流程

现设计项目的标准 10 倍收入目标需

此外,Zynq SoC 还受益于低成本且

会尤为优化。Mullins 补充到,由于

要生命周期收入达到 2.3 亿美元 ——

高度集成的赛灵思硬件与软件设计工

赛灵思生态系统 IP 已经完成设计和

此 10 倍目标比实现 ASIC 实施方案所

具,而 ASIC 工具流程不但复杂,而

预验证并且赛灵思工具可以生成中间

需达到的 13 亿美元 10 倍目标更易于

且具有严重的互操作性及兼容性问

件,因此 IP 认证成本较低。

实现,而且也更可行(表 4)。

题,同时还需要支付高达数百万的许

Mullins 指出,因此典型 Zynq

采用的上述方法分析 IBS 数据

可费用。设计人员采用赛灵思推荐的

SoC 项目需要 2300 万美元。由此实

时,如果我们假设在 Zynq SoC 中实

39onBTJDDŽJCTฮদDž %

[zoh!TpD!)൱ૌ๋޳๲*

ؐ‫֋ޗݚ‬ᆟฮ

ዓֈӁ DŽѾ༽ୟᆇDž

%

ؐ‫֋ޗݚ‬ᆟฮ

ዓֈӁ DŽѾ༽ୟᆇDž

ᄱऋ JQൄሽ

26

704

11.8

20

240

4.0

ࣩެ

8

209

4.2

45

100

2.1

Ⴌሽ

53

1431

28.9

35

160

3.0

྘ੲර࣓

13

350

6.9

0

0

0

100

2694

51.8

100

500

9.1

4296

59.8

720

10.0

815

16.6

140

2.8

7805

130.3

1360

22.9

ᄱऋဆ࣓ DŽර࣓‫֋ޗ‬዁ᆑDž ൢऋ ᆊဲֈӁDŽѾ༽ୟᆇDž ᆊဲႬሽ ዓ࣓

2.1

1.0

表4 – Zynq SoC项目成本远低于同等ASIC项目。 14

赛灵思中国通讯

2014年第三季度


封面专题

઀൨ଋན26&‫[ؿ‬zor!TpD౶ຕ

෍஛ትಓ ฆൠ* (Ѿ༽ୟᆇ)

႓ۙቀֵ (Ѿ༽ୟᆇ)

෍஛ትಓ ঄઀൨** (Ѿ༽ୟᆇ)

঄࿝቎*** (Ѿ༽ୟᆇ)

ᄮ઀௙ઉቑฮ

ִ෭݉ᆰ[zor!TpDර࣓

$1300

$23

$195.00

$73.67

2.54

2ࠖ႟෍౰DŽ91&กՠߙ஠Dž

$1040

$9.2

$156.00

$69.78

6.02

3ࠖ႟෍౰DŽ61&กՠߙ஠Dž

$650

$9.2

$97.50

$39.55

3.41

෍஛ትಓ ঄઀൨** (Ѿ༽ୟᆇ)

OQW*** (Ѿ༽ୟᆇ)

* ࣦර8௧ ** ࣦර઀൨ଋན26& *** ࣦර໦࿝ଋན26&

઀൨ଋན31&‫[ؿ‬zor!TpD౶ຕ

෍஛ትಓ ฆൠ* (Ѿ༽ୟᆇ)

႓ۙቀֵ (Ѿ༽ୟᆇ)

ᄮ઀௙ઉቑฮ

ִ෭݉ᆰ[zor!TpDර࣓

$1300

$23

$260.00

$107.27

3.70

2ࠖ႟෍౰DŽ91&กՠߙ஠Dž

$1040

$9.2

$208.00

$96.66

8.33

3ࠖ႟෍౰DŽ61&กՠߙ஠Dž

$650

$9.2

$130.00

$56.34

4.86

* ࣦර8௧ ** ࣦර઀൨ଋན31& *** ࣦර໦࿝ଋན26&

表5 – NPV与盈利能力指数表明Zynq SoC远远优于ASIC平台。

现的初始复杂设计能够完全占领同样

美元,PI 为 8.33 ;而 ASIC 衍生品的

Zynq SoC 平台设计,其需要 23 名工

的 13 亿美元目标市场,则利用 57 名

NPV 为 7,478 万美元,PI 仅为 2.14。

程师用两年时间开发出基于 Zynq SoC

工程师只需要 2300 万美元就能够在

同样,能够获得初始 Zynq SoC 设计

的衍生产品。最后产品的 NPV 能够

两年内完成产品。

目标市场 50% 的衍生品的 NPV 可达

达到 6978 万美元,PI 达到 6.02。其

到 5,634 万美元,PI 为 4.86,远优于

稍低于 ASIC 衍生品 7478 万美元的

ASIC 平台衍生品。

NPV。但是,利润率为 15% 的 Zynq

如果假设初始 Zynq SoC 设计具 有与初始 ASIC 设计相同的 20% 利润 率,则初始 Zynq SoC 设计的 NPV 为

即使让 ASIC 平台利润率保持

SoC 衍生品的 PI 远优于 ASIC 衍生品

1.0727 亿美元,而 PI 为 3.7,其明显

20% 不变,而把其结果与利润率较

仅有 2.14 的 PI,尽管 ASIC 的利润率

优于初始 ASIC 的 1285 万美元 NPV

低的 – 比如说 15% - Zynq SoC 对比

更高(20%)。

和仅有 0.1 的 PI。利润率同样为 20% ( Z y n q S o C 单 位 成 本 可 能 更 高 ), 的 Zynq SoC 的 NPV 与 PI 更加可观

此外,目标市场是初始 Zynq SoC

Zynq SoC 仍然是优异得多的盈利能

设计目标市场的 50% 的 Zynq SoC 衍

力最大化方案。利润率为 15% 的初始

生设计可以实现 3955 万美元的 NPV

赛灵思客户表示 Zynq SoC 平台

Zynq SoC 设计的 NPV 达到 7367 万

并且 IP 可达到 3.41。其不但优于

中的衍生品成本一般比初始产品低

美元,PI 为 2.45。这比初始 ASIC 的

ASIC 衍生品仅为 0.98 的 PI,而且也

60%(参见侧栏)。

1,285 万美元 NPV 和低至 0.1 的 PI 相

优于初始 Zynq SoC 的 PI。

(表 5)。

对比利润率同样为 20% 的 Zynq SoC 平台衍生品和能够获得初始设计

比也是巨大改进,尽管 ASIC 利润率 设定为 20%。

值得注意的是,尽管利润率随给 定市场的需求量变化,但是数据表明

市场 80% 的 ASIC 平台衍生品发现 :

对于目标市场是初始 Zynq SoC

Zynq SoC 即使对于大规模应用也是

Zynq SoC 平台的 NPV 达到 9,666 万

目标市场的 80%(10.4 亿美元)的

理想的平台选择。即使把利润率更高

2014年第三季度

赛灵思中国通讯

15


封面专题

案例研究:

美国国家仪器公司利用 Zynq SoC提升效率 作者:Mike Santarini

国国家仪器公司是 Zynq SoC 的

的联络点,他们能够协作设计和验证。最

早期采用者,已经证明将该器

由于处理器与逻辑电路位于同一芯片

开始从事初始 Zynq SoC 平台开发的团队

件作为一个平台使其充分发挥

上,Rake 指出,“我们不但提高了处理器

现已发展成为一个专家队伍,他们是解答

性能,而且也显著提高了直接存储器存取

Zynq 相关问题的宝贵资源。他们可以促进

美国国家仪器公司(总部位于美国

[DMA] 性能。我们把 DMA 吞吐量提高了

Zynq 变体的开发。在 NI 公司内部,这是

德州奥斯汀市)嵌入式系统产品市场总监

一倍多,而且明显增加了处理器与可编程

一种与先锋团队的协作工作。”

James Smith 指出 : “我们利用 Zynq 平台

逻辑之间的 DMA 通道数。而采用我们以

后续团队在开发的新产品中可以利用

打造自己的平台。我们是面向科学家与工

前使用的平台架构根本无法实现这一切。

和重用相关平台原理图以及布局图和实际

程师的工具供应商。我们在打造使客户能

要么开发同等产品的成本会高不可及。”

硬件组件。Rake 表示 : “因此,在完成了

作用能够提高效率与盈利能力。

Rake 认为在同一芯片上集成处理器

初始工作之后,我们现在能够在将来根据

赛灵思和国家仪器公司在赛灵思产品

与 FPGA 还能够实现小型化。Rake 表示 :

发展蓝图推出产品是享受前期投资带来的

发展规划方面一直开展长期密切合作。这

“我们现在无需采用两三个单独封装,只

优势,同时能够快速开发可以在将来添加

在赛灵思开发 Zynq SoC 的过程中尤为突

需采用作为架构核心的单个封装即可,因

出。国家仪器公司于 2011 年 11 月成为了

此能够大幅缩减尺寸。Zynq 使我们能够以

首批采用该 Zynq SoC 的客户之一,并将

合理的成本开发出市场所需的各种产品。”

够在上面完成设计的开发平台。”

到发展蓝图的任何其它衍生品。” 截止 2014 年 1 月,该公司已经推出 两款在初始 Zynq SoC 平台上开发的衍生

Rake 表示,转移到新平台总是需要

产品(一种刚推出的衍生产品,第 58 页

2013 年夏天,国家仪器公司 (NI) 宣

承担更高的初始成本,但是升级到 Zynq

将会重点介绍)。Smith 表示 : “我们已经

布推出三款基于 Zynq SoC 的新产品 :高

SoC 却是例外。Rake 表示 : “在 Zynq 仍处

开发出这些产品,而在基于它们开发其它

端 CompactRIO-9068 软件设计控制器、

于开发阶段我们就通过把软件协议栈移植

衍生产品。实际上这就像一棵树,以参考

专为学生设计的低成本 myRIO 产品、以

到 ARM 双核 A9 处理器来启动项目。我

设计作为树干,发出新枝,随之开出更多

及另一款专用于 FIRST 机器人竞赛名为

们采用赛灵思的早期开发平台开展工作,

分枝。”

roboRIO 的产品。

同时将市场上的双核 A9 与 ASSP 配合

该器件作为一个平台使其发挥良好作用。

Smith 指出,过去 10 年来,NI 一直

16

都具有极富竞争力的价格优势。”

使用。”

除了加速产品上市进程之外,Zynq SoC 平台还会直接影响盈利能力。在其

在采用平台方案,该方案通常是将赛灵

据 Rake 说,一旦完成芯片设计,

2013 年第三季度财报电话会议中,NI 报

思 FPGA 与现成的微处理器相结合。他将

NI 就可以着手采用 Zynq-7020 把整个

告其 cRIO-9068 和 sbRIO(单板)分析器

Zynq SoC 称之为 NI RIO 产品系列的理想

LabVIEW RTOS 实时移植到 NI Linux。

系列创造了第三季度营收记录,而 myRIO

平台。

Rake 指出 : “为此,我们必须提前处理所

也帮助该公司研究部门创下新的第三季度

NI CompactRIO 硬件高级集团主管

有这些工作,这是项艰巨的任务。不过,

营收记录。Smith 估计每种衍生设计成本

Chris Rake 表示 : “我们从 Zynq SoC 获

目前我们拥有了让整个 NI 公司内多个开

均比最初架构约低 60%,而上市时间缩短

得了许多优于以前处理平台的独特优势,

发团队用于开发新设计的核心标准架构。”

了约 30%。

Zynq 是高价值产品,因为它集成了使我们

NI 在中心库中保存全部项目原理图

将同类产品性能提升至以前产品四倍的处

与布局图。Rake 表示 : “对于想使用这种

理器,并具有极其丰富的赛灵思 7 系列逻

处理器与可编程逻辑技术的团队,公司安

辑架构以及更多 DSP 资源 —— 所有这些

排了成熟的技术领导人担当内部设计团队

赛灵思中国通讯

而基于 ASIC 开发设计的成本会高 得多。

2014年第三季度


封面专题

Initial product

Derivative product

Derivatives of derivatives

Base platform with greatest potential for scalability • Longer development time • High initial design cost

Automotive Adaptive Cruise Control ECU

Car Co. A

Car Co. B

Car Co. C

Luxury car

Luxury car

Luxury car

SUV

SUV

SUV

Sports car

Sports car

Sports car

Trucks

Trucks

Trucks

Economy

Economy

Economy

Expand to multiple customers • Fast development time • Low design cost (design reuse) • High profitability

Expand to multiple product lines - luxury to economy for each customer • Fast development time • Lowest design cost • Highest profitability

图3 – 通过采用Zynq SoC平台为多家汽车制造商和各个制造商的多个产品系列与型号提供服务, 赛灵思客户已经最优化其初始设计投资,从而提高了盈利能力。

(20%)的 ASIC 平台与利润率更低

台解决方案进行标准化。

栏(“案例研究 :国家仪器公司利用

(15%)的 Zynq SoC 平台对比,Zynq

借助 Zynq SoC,同时充分发挥紧

SoC 在财务和技术方面也是出色得多

密集成的软硬件 IP 的重利用优势,

Zynq-7000 All Programmable SoC

的平台解决方案。对于小规模应用,

该公司已经打造出了高度灵活的 ECU

是针对大多数嵌入式应用实施平台

毫无疑问 Zynq SoC 平台更是最大化

平台,其能够根据多家汽车制造商的

战略的最佳器件。凭借 ARM 处理与

盈利能力的最佳平台选择。

特殊需求及其不同产品系列、型号 /

FPGA 逻辑之间无与伦比的高集成度

配置与零配件包完成快速定制(图

以及 I/O 可编程性,Zynq SoC 使企业

3)。利用 Zynq SoC 作为中心平台,

各级能够协调其开发工作,同时以比

目前,众多应用领域的众多客户

该公司实现了规模经济最大化,降低

竞争对手更快的速度向市场推出高度

通过把 Zynq SoC 用作其平台战略的

了预算,同时向日益增多的客户交付

差异化的产品系列。Zynq SoC 平台使

核心以显著提高其规模经济。专为汽

更多产品,最终能够更快地向客户提

这些客户能够迅速提高其盈利能力。

ZYNQ SOC确保平台成功

车行业生产高级电子控制单元(ECU) 供定制 ECU。

Zynq SoC 增效”)。

如需了解有关 Zynq SoC 平台的

的全球知名制造商就是一个很好的例

有关另一家把 Zynq SoC 用作盈

更多信息,敬请访问 :http://china.

子。该客户正在把 Zynq SoC 用作平

利性平台的公司更详细介绍,参见侧

xilinx.com/products/silicon-devices/ soc/zynq-7000/index.htm。

2014年第三季度

赛灵思中国通讯

17


天体物理学领域的出色表现

FPGA助 引力波与暗能量 搜索一臂之力 作者:Steve Leibson 赛灵思公司《Xcell日报》主编 sleibso@xilinx.com

18

赛灵思中国通讯

2014年第三季度


天体物理学领域的出色表现

赛灵思器件证明在深远 宇宙学真理探索过程中 大有用武之地。

个南极多学科科学家小组最近窥到 了宇宙大爆炸的余晖。3 月 17 日 该小组宣布 BICEP2 试验在宇宙微

波背景辐射(CMB)的 B 模偏振中找到了引 力波的第一个证据。 目前科学家们在寻找另一个印迹 :CMB 微波光子微弱偏振螺旋中记录的引力波证 据。找到这些螺旋有望证实大爆炸理论的暴 胀观点 – 其认为在宇宙出生 1 皮秒之前曾经 以比光速快得多的速度膨胀。理论上,这种 超光速(比光速更快)宇宙暴胀会产生引力 波,其会在大爆炸所产生的光子的偏振中打 上烙印。 该小组搜索引力波所依靠的专用相机 采用过渡边界传感器(TES)辐射热测量计 测量 E 模(无旋)和 B 模(无梯度)微波 辐射。该相机是围绕麦吉尔大学基于赛灵 思 Virtex®-4 FPGA 的第二代 DFMUX 开发板 开发。 其他地方的天体物理学家在其自己的试 验中采用相同的赛灵思开发板,而其他的研 究人员则在试用基于 Kintex®-7 器件的最新升 级版相机。Kintex 版本也是加拿大科学家将 用于调查暗能量的大型望远镜的组成部分。 大爆炸的回响 CMB 微波光子中的偏振变化称为 B 模 信号,该信号极其微弱。整体 CMB 黑体 温度为 2.73K,而 B 模信号大致仅有 1K 的 千万分之一。 强度大得多的原始“E 模”偏振信号的 引力透镜效应以小角尺度产生 B 模信号,同 时 CMB 与大爆炸暴胀过程中产生的引力波 背景辐射相互作用会以大角尺度产生 B 模 信号。 安装在一个国际科学小组操作的 10 米南 极望远镜(SPT)上的 SPT 偏振计(SBTpol) 相机于 2013 年首次探测到 CMB 引力透镜效 应造成的 B 模偏振(图 1)。SPT 与 BICEP2 (很快将升级为 BICEP3)及凯克阵列 CMB 试验仪器一同位于阿蒙森 - 斯科特南极站。

2014年第三季度

赛灵思中国通讯

19


天体物理学领域的出色表现

南极望远镜相机的氦冷却超导焦平面 微波传感器是一个由1536个配对成768个 偏振感应像素的天线耦合TES辐射 热测量计组成的阵列。 CMB 是伴随大爆炸的巨大能

量)把整个天空的 CMB 映射到超高

热测量计组成的阵列 ;180 个像素对

量爆发留下的最后回响。1964 年阿

分辨率,然后显示出 CMB 存在很小

90GHz 微波辐射敏感,而 588 个像素

诺 ·彭齐亚斯与罗伯特 ·威尔逊在新

的变化(各向异性),其进一步加强

对 150GHz 辐射敏感。

泽西州 Holmdel 贝尔电话实验室中利

了 CMB 是大爆炸印记的理论。此项

150GHz CMB 传感器模块由位于

用低温接收器探究无线电噪声来源时

发现使乔治 ·斯穆特和约翰 ·马瑟赢得

科罗拉多州博尔德市的国家标准技术

偶然发现了它。CMB 是两位科学家

了 2006 年诺贝尔物理学奖。

研究所(NIST)制造的波纹喇叭天 线耦合 TES 辐射热测量计组成。每

从其试验数据中无法消除的一个噪声 源。CMB 辐射的发现证明了宇宙大

氦冷却偏振传感器

个 150GHz TES 辐射热测量计模块均

二十世纪四十年代发现了超导

包含一个探测器阵列以及 84 个在数

体电热平衡性及其测量入射电磁能量

百 mK 温度下运行的双偏振像素。入

根据二十世纪六十年代早期试验

的功能,但是 TES 探测器直到二十

射微波能量沿共面波导传输到微带过

仪器的分辨率,CMB 无论白天还是

世纪九十年代才得到广泛应用。它

渡装置,其为一个有损金制弯曲电阻

黑夜始终呈现各向同性。这种特征为

们目前广泛应用于 CMB 试验仪器。 (lossy gold meander)(一种加热电阻

CMB 是大爆炸余晖的理论提供了支

SPTpol 相机的氦冷却超导焦平面微

器)馈送信号。进入弯曲电阻的入射

持。敏感度更高的测量(主要是宇宙

波传感器是一个由 1536 个配对成 768

微波能量起到加热作用。弯曲电阻受

背景探测者(COBE)卫星进行的测

个偏振感应像素的天线耦合 TES 辐射

热会连接到由铝锰合金制成的 TES 传

爆炸理论,使彭齐亚斯和威尔逊获得 了 1978 年诺贝尔物理学奖。

感器。这些 TES 器件在其超导相变中 间运行,因此对接收到的光强度的微 小变化极其敏感。 90GHz CMB 传感器由阿贡国家 实验室开发的单独封装双偏振偏振计 组成。每个 90GHz 像素都通过机械 波状喇叭天线(machined contoured feedhorn)(其把 CMB 辐射传输到电 阻式 PdAu 吸收棒)与望远镜连接。 电阻式吸收棒受热后连接到钼 / 金双 BRADFORD BENSON

层 TES(参见图 2)。 对于 150GHz 和 90GHz 传感器, 微波能量吸收造成的热变化会造成各 个 TES 的电阻出现几个 Hz 级的缓慢 变化。电阻的变化可以调节流经 1536 图1 – 位于阿蒙森-斯科特南极站的南极望远镜

20

赛灵思中国通讯

个 TES 辐射热测量计每个中的载波电

2014年第三季度


天体物理学领域的出色表现

频率梳驱动位于 SQUID 放大器输入 的求和节点。调零器梳的相位与幅度 经过设置可以借助相消干扰抵消载波 梳,从而只留下辐射热测量计探测到 的信号以及少量残余载波功率。一 个 SQUID 负责放大此信号,把它转 换成电压,然后送回室温电子器件由 FPGA 进行滤波、模数转换和解调处 理。图 3 为系统方框图。 ADC 的数字输出直接进入 Virtex-4 FPGA 进行解调。解调方案 BRADFORD BENSON

与用于 GSM 移动电话的数字上变频 / 下变频(DUC/DDC)算法相似,不 过存在一些例外。首先,各个 TES 辐 射热测量计信道的带宽非常窄 – 仅 有数十个 Hz 级。其次,载波梳是由 图2 – 南极望远镜的微波焦平面阵列。内部的7个六边形模块是150GHz阵列, 外部环形是90GHz阵列。每个像素都有自己的独立喇叭天线, 其可以把光耦合到各个相似的2个TES辐射热测量计。

Virtex-4 FPGA 生成的综合正弦载波 构成。载波调制是在低温恒温器中的 TES 辐射热测量计之内进行。

流。这些电流然后由低温超导量子干

利安大学、阿贡国家实验室和美国国

涉仪(SQUID)进行放大。把 1536

家标准技术研究院(NIST)。

SPTpol 相机的一组(12 个)辐射热 测量计多路复用中的 4 个测量计。

个测量数值从焦平面传感器和 SQUID 阵列的超低温环境传输到南极相对

一个 Virtex-4 FPGA 可以处理

了解传感器数据

DFMUX 设计采用 Virtex-4 FPGA 的

温暖的环境需要采用赛灵思 Virtex-4

SPTpol 相机采用基于赛灵

片上逻辑、存储器和 DSP 功能实现

FPGA 开发创新型数字频分多路复用

思 Virtex-4 FPGA 的第二代 McGill

数字频率综合、解调(下变频、滤波

DFMUX。FPGA 能够采用直接数字

和抽取)、时戳与缓冲。由于是采用

SQUID 具有高带宽,因此在此

综合(DDS)方法以数字方式综合

一个 FPGA 同时生成载频梳和调零

应用中可以轻松利用频分多路复用

由 12 载频组成的载波梳。载波梳通

器频率梳以及解调天空信号,因此所

方案。这种多路复用方案允许共享

过单条线路进入焦平面低温恒温器并

有信号全部同步运行。梳生成与解调

SQUID,而且能够尽可能降低负责

驱动一组(12 个)TES 辐射热测量

不可能出现相互偏移,因为它们来自

冷却焦平面传感器阵列的低温恒温器

计。单独的模拟 LC 滤波器能把这 12

FPGA 中的相同主时钟。所以,时钟

中布线数量,同时又不降低各个辐射

个 TES 辐射热测量计中每个测量计微

抖动并非严重噪声源,通过测量可以

热测量计的噪声性能。DFMUX 是由

调到窄频带。每个辐射热测量计都会

证明。

位于蒙特利尔的麦吉尔大学开发,其

响应时变入射 CMB 辐射,其电阻在

是负责操作南极望远镜的机构之一。

0.1Hz~20Hz 频率范围波动。TES 辐

其他机构还包括芝加哥大学、加州大

射热测量计的不同电阻可以调节流经

FPGA 中实现两个主要模块 :数

学伯克利分校、凯斯西储大学、哈佛

其中的载波电流。12 个 TES 辐射热

字多频综合器(DMFS)和数字多频

/ 史密森天体物理观测台、科罗拉多

测量计电流然后加在一起形成一个经

解调器(DMFD)。系统设计采用两

大学波尔得分校、加州大学戴维斯分

过调制的“天空信号”。

个相同的 DMFS 模块进行频率综合。

(DFMUX)解决方案。

校、德国慕尼黑路德维希 - 马克西米

2014年第三季度

另一个称为“调零器”梳的 DDS

充分发挥功能的FPGA

一个模块生成载频梳,另一个生成调

赛灵思中国通讯

21


天体物理学领域的出色表现

Carrier Comb Generator

Bolometer 12

Bolometer 1

Nuller Comb Generator

Sub-Kelvin Stage

Virtex-4 FPGA

4°K Stage

DFMUX Motherboard

Mezzanine Card

室温电子设备 Room-Temperature Electronics

图3 – 用于测量CMB辐射、基于DFMUX的TES辐射热测量计系统方框图。

零信号。频率综合器以 20MHz 频率

200MHz 运行的 CIC1。CIC1 滤波器

需一个 Web 浏览器。Python 脚本环境

运行,采用 16 位运行速率为 25Msps

内部具有 28 位数据宽度和 24 位输

提供对板级控制寄存器的直接存取,

的 DAC。综合器是基于采用赛灵思

出。在完成 CIC1 滤波之后,所有辐

以完成更详细的任务,如:仪器微调。

DDS 编译器创建的 11 位 2 补码直接

射热测量计信道都多路复用在一起,

数字综合器。每信道频率分辨率为

并馈送单个 CIC2,CIC2 有 6 个可变

0.006Hz。

抽取率(16、32、64、128、256 和

SPTpol 相机是多个探索 CMB 辐

5 1 2 )。 C I C 2 之 后 是 一 个 1 5 2 抽 头

射的实验仪器之一。该相机所使用的

FIR 滤波器。

相同 DFMUX 开发板也是 EBEX 气

天空信号的解调从数字下变频开 始。收到的信号与基准波形混合在一 起生成单独基带信号。基准波形的频

信道标识符和时戳被添加到 FIR

球运载“E 与 B 试验仪器”以及在智

率与相位相互独立。调制后的天空信

滤波器的输出,然后被发送到具有一

利詹姆斯 ·艾克天文台 Huan Tran 望

号已经以 25Msps 的采样率进行了 14

个轮流缓冲列表的双端口缓冲存储

远镜安装的北极熊 CMB 偏振试验仪

位分辨率采样,不过目标带宽远低于

器。SDRAM 的大缓冲容量便于满足

器的组成部分。基于赛灵思 Kintex-7

此采样速率的尼奎斯特带宽。因此,

基于 FPGA 的 Micro- Blaze ™软处理

FPGA、称为 ICEboard 的 DFMUX 开

调制后的基带信号流经采用 FPGA 中

器的时延要求,后者运行 Linux 并负

发板更高版本已经开始部署到新的

的加法器与累加器构成的级联积分器

责监控系统中的数据流。降低的时延

CMB 试验装置和加拿大氢强度映射

梳(CIC)抽取滤波器。第一级 CIC

允许激活处理器的 MMU 和显著改善

实验(CHIME)的射电望远镜。

滤波器以 28 位精度、按 128 系数抽

Linux OS 运行。

CHIME 是位于英属哥伦比亚彭

采用运行在 MicroBlaze 处理器上

带克顿附近偏僻山谷中的一台新式

的两台 Web 服务器并通过 HTTP 接口

射电望远镜。此望远镜由 5 个大型

DFMUX 把 8 个辐射热测量计

连接以太网可以对 DFMUX 开发板进

100×20 米半柱体反射器(大小和形

信道(25Msps)时域多路复用到以

行外部控制。控制 DFMUX 开发板只

状与半管式滑道相当)组成,在各个

取基带信号。此滤波器的输出然后被 截取到 17 位。

22

针对DFMUX的未来工作

赛灵思中国通讯

2014年第三季度


天体物理学领域的出色表现

半柱体的焦点位置安装有无线电接收 器阵列。这里无任何活动部件(地球 除外)。完工后 CHIME 将能够随着 地球转动每天测量一半以上天空。 但是,CHIME 并非用于研究 CMB。其旨在寻找暗能量证据 – 通过 调查 70~110 亿光年距离内大规模 3D 天域中的 21 厘米(400~800MHz)射 电辐射。CHIME 将测量“重子声学 振荡” (BAO),其是氢气构成的庞大 天体中的周期性密度变化。BAO 物 质聚集能够为天文学家提供大约 4.9 亿光年的“标准量尺”,可用于测量 广大的距离。BAO 信号波动有可能 证明是暗能量作用迹象,至少存在一 线希望。 CHIME 实际上是一台相位阵列 射电望远镜。它可以综合图像,方法 是记录固定天线阵列的电磁信号,然 后采用 2D 关联和干涉测量法根据相 关数据重建天空。CHIME 需要采用 160 个互连的 Kintex-7 FPGA 处理以数 Tbps 的速度接收的 BAO 信号数据。 超光速 宇宙暴胀理论认为宇宙在大爆炸 10-35 秒后经历了一次剧烈膨胀 – 超 过光速的物理膨胀。如果认为光速是 速度极限 – 而我们大多数都是如此 认为,则很难接受这一观点。大爆炸 理论有一部分认为暴胀除了 CMB 之 外还留下一个宇宙引力波背景辐射 (CGB),而且 CGB 在 CMB 中打上

补充书目 有关 SPTpol 相机、TES 辐射热测量 计和基于 FPGA 的 DFMUX 读出板的 更多技术说明,敬请查阅以下参考资 料: J. E. Austermann 等作者共同编撰 的 “ S P T p o l :与 南 极 望 远 镜 一 起 使 用 的 C M B 偏 振 测 量 仪 器 ”, arXiv:1210.4970v1 [astro-ph.IM] Ron Cowen,“望远镜捕捉到引力波画 面”,《自然》,2014 年 3 月 17 日 Matt Dobbs 等作者共同编撰的“用于 mm 波长望远镜的数字频域多路复用 器”,arXiv:0708.2762v1 [physics. insdet]

2014年第三季度

2014 年 8 月 11 日,中国北京 —— All Programmable 技术和器件的全球领先 企业赛灵思公司 (NASDAQ: XLNX) 公司 宣布出席即将在中国北京举行的 2014 移 动互联网国际研讨会 5G 论坛,突出展示 其面向移动互联网时代的产品及技术创 新。届时,赛灵思公司全球无线通信业务 部副总裁 Sunil Kar 将在 5G 分论坛发表题 目为“赛灵思全可编程技术助力 5G 异构 无线网络”的主题演讲。2014 移动互联 网国际研讨会由中国工业和信息化部电信 研究院主办,中国电信、中国移动、中国

M.A. Dobbs 等作者共同编撰的“用 于宇宙微波背景测量的大型辐射热测 量计阵列的频率多路复用超导量子干 涉仪读出系统”,arXiv:1112.4215v2 [astro- ph.IM] J. W. Henning 等作者共同编撰的“用 于配合 SPTpol 进行 CMB 偏振测量的 150GHz 喇叭天线耦合 TES 偏振计相 机模块”,arXiv:1210.4969v1 [astroph.IM] J. T. Sayre 等作者共同编撰的“SPTpol 相机中 90GHz 喇叭天线耦合 TES 偏 振 计 像 素 的 设 计 与 特 征 化 ”, arXiv:1210.4968v1 [astro-ph.IM] Graeme Smecher 等作者共同编撰 的“用于网络访问嵌入式仪器的自动 控制接口”,ACM SIGBED 观察, Linux 第二次研讨会(EWiLi 2012), 2012 年 6 月第 2 期第 9 卷

Graeme Smecher 等作者共同编撰的 “Kilopixel TES 辐射热测量计阵列 实此理论。 偏置与解调系统”,arXiv:1008.4587 来自 SPTpol 相机、EBEX、北极 [astro- ph.IM] 熊、凯克阵列和 BICEP3 试验的其他 K. Story 等作者共同编撰的“南极望 结果有望加强上述发现。对其而言, 远镜软件系统 :控制、监控与数据采 CHIME 在开始暗能量搜索之后会进一 集”,arXiv:1210.4966v1 [astro-ph.IM] 步扩展我们的宇宙知识探索范围。 偏振印记。BECEP2 试验结果首次证

Xilinx将亮相2014移动互联 网国际研讨会5G论坛

联通协办,将于 2014 年 8 月 14 日 -15 日 在北京国际会议中心举行。 与当前技术相比,下一代 5G 系统承诺 将提供更高吞吐量,更低时延,更低功耗 和更高的可靠性。这种新型技术将需要全 新的设备类型,需要修改空中接口和新的 频带,以满足下一代移动设备的新需求。 通过赛灵思的主题演讲,参会者将了 解到赛灵思无线网络智能解决方案如何满 足 5G 需求,并突破异构网络所带来的种种 设计挑战。这些解决方案将支持无线设备 供应商利用行业唯一的 All Programmable SoC 器件和 20nm 高端器件,大幅缩短开 发周期。赛灵思 Zynq®-7000、Kintex® UltraScale ™ 产品系列为加快 5G 系统的早 期开发、测试和部署,提供了无与伦比的 性能、系统集成和带宽水平。

关于赛灵思公司 赛灵思是 All Programmable 器件、 SoC 和 3D IC 的全球领先供应商。赛灵思 公司行业领先的产品与新一代设计环境以 及 IP 核完美地整合在一起,可满足客户 对可编程逻辑乃至可编程系统集成的广泛 需求。如需了解更多信息,敬请访问赛灵 思中文网站 : http://china.xilinx.com/ 。

赛灵思中国通讯

23


U LT R A S C A L E 的 出 色 表 现

Virtex UltraScale FPGA助力实现 Tb级系统

作者:Romi Mayder 赛灵思公司技术营销总监 RomiM@Xilinx.com

作者:Frank Melinn 赛灵思公司杰出工程师 FrankM@Xilinx.com

24

赛灵思中国通讯

2014年第三季度


U LT R A S C A L E 的 出 色 表 现

赛灵思 UltraScale 器件的 28 Gbps 背 板功能让网络能够 以 1 Tbps 的速率 运行。

T 两年前,IEEE 的一篇报道指

出,根据当时发展趋势,通信网络在 2015 年需要支持 1Tbps 的容量要求,

到 2020 年则需要支持 10 Tbps 的传 输能力。根据 2012 年的这份报告, 明年将有近 150 亿台固网和移动网络 设备,其中包括机器间的互联。对于 光传输网络(OTN)应用,核心节点 的每波长带宽到 2015 年预计将达到 100G 到 400G,2020 年将提升到近 400G 到 1T。 赛灵思 Virtex® UltraScale ™ All Programmable FPGA 是高端 FPGA 系 列的扩展,可支持 1Tbps 系统的实 现。Virtex UltraScale 系列具有前所 未有的高性能、系统集成度和带宽, 适用于有线通信、测试测量、航空航 天与军用以及数据中心等各种不同 应用。 很多公司都表示了对 1Tb 网络应 用的需求。这些应用要求收发器能够 直接驱动 25G/28G 背板,以解决可布 线性、串扰、差分插入损耗和阻抗匹 配等问题。而 Virtex UltraScale 器件 则完美解决了这些难题,无需重定时 器即可支持 25G/28G 背板操作,从而 实现了对 1Tbps 应用的支持。 2014年第三季度

赛灵思中国通讯

25


U LT R A S C A L E 的 出 色 表 现

使用外部重定时器会产生 可靠性问题,同时还需要占用 大量非常昂贵的PCB板级空间。 10G 链路的背板会面临可布线性、串

实例1-Tbps设计

Tbps。背板厚度通常约为 0.25 英寸,

图 1 是可能的通用 1Tbps 系统的

这些 1T 应用必须依赖于能直

这主要取决于两个因素 :连连接器压

高层次方框图。从图中可以看到,多

接在背板上以 25G/28G 直接运行的

装 (press-fitting) 的机械要求,以及对

个带宽低于 1Tb 的支路板(此图中有

FPGA 才能实现。使用外部重定时器

于多个信道路由支持的需要。如背板

两个)通过在运行速率为 25G/28G 的

会产生可靠性问题,同时还会占用大

接口仅支持 10 Gbps 操作,则信道数

背板与一个 1T 线卡相连。

量非常昂贵的 PCB 板级空间。背板

需要增加为原来的 2.5 倍。对于每个

图 2、3 和 4 是三种可能的 1Tbps

重定时器为附加组件,必须部署在线

1Tbps 线卡和支路板,这样会将背板

以太网和 OTN 应用的更详细的方框

卡和支路板上。背板重定时器运行所

信道数量从 40 增加到 100。如系统需

图 , 它们全部以 Virtex

UltraScale

需的电压调节模块、配电网络、直流

要 25 个支路板和线卡,最终所需的

FPGA 为基础进行构建。33 Gbps

阻断帽和参考时钟都会占用这些 PCB

信道总数则为 100 x 25 = 2,500。这会

GTY 收发器可能与 CFP2/4 LR4 光学

的板级空间。

对路由造成很大的挑战。

模块以及 25G/28G 背板连接。根据图 示,16 Gbps GTH 收发器与高速存储

使用背板介电材料如松下的介电常 可布线行问题

数约为 3.65 且标准导线宽度为 7 密耳的

在这些实例中,我们展示了

Megtron-6,我们发现每个差分带状线对

这些 1T 应用必须依赖于支持

以 25G/28G 在背板上运行的 40 个

的堆叠高度为 :每 100Ω 的差分奇模阻

25G/28G 的背板收发器才能实现。带

信道,总带宽为 40 x 25 Gbps = 1

抗对应 16 密耳。

器相连。

1T Uplink or Line

<1T Tributary n*25G/28

25G/28G ҶҊ

FPGA (s)

40*25G/28 4 FPGA (s)

FPGA (s)

n*25G/28 <1T Tributary

图1: 在此高层次Tb系统概念图中,多个低于1 Tbps的支路板为一个1 Tbps的线卡提供信号馈送。 26

赛灵思中国通讯

2014年第三季度


U LT R A S C A L E 的 出 色 表 现

假定背板连接器间距通常为

2Uජဵગ૸ࢡ࿦৏

2mm,则每层的连接器引脚之间可以

40 25G/28 40*25G/28

部署 1 个信道。因此,背板每层能够

‫ֿ؃‬ರ

‫ֿ؃‬ರ

为 0.640 英寸(16 x 2.5 = 40 个布线层, 总板厚度为 16 密耳 x 40 层 = 0.640 英

‫ֿ؃‬ರ

寸)。但是,背板最大厚度通常由通

GTY

PCS

FEC

MAC

GTY/GTH

GTY/GTH

Bridging

FEC

线层 = 0.256 英寸。对于 10 Gbps,厚度

PCS

个布线层,总板厚度为 16 密耳 x 16 布

GTY

+ 接收)。对于 25 Gbps,通常需要 16

36H039H!ҶҊ

支持每层每个连接器 10 个信道(发送

‫ֿ؃‬ರ

路孔的深度位宽比决定。典型的通路 孔直径为 15 密耳,标准深度位宽比为

图2 – A 多个低于1 Tbps的以太网支路板通过25G背板链路 为1 Tb以太网上行链路模块提供信号馈送。

25:1。这意味着背板厚度上限约为 14 x 25 = 350 密耳。因此,10G 背板无法 支持 1T 应用。

2Uජဵગ૸ࢡ࿦৏ 40 25G/28 40*25G/28

串扰问题

‫ֿ؃‬ರ

‫ֿ؃‬ರ

高。因此,带有 1000 个 25G 信道的 背板比带有 2500 个 10G 信道的背板

‫ֿ؃‬ರ

发生串扰的几率更低。

GTY

PCS

FEC

MUX

GTY/GTH

GTY/GTH

Inverse Muxing

N*OTUCn

背板信道越多,发生串扰的几率就越

N*OTCn.m

扰。串扰通常由于信道距离导致的。

GTY

对于 10G 背板的另一个关键优势是串

25G/28G ҶҊ

对于 1T 应用而言,25G 背板相

‫ֿ؃‬ರ

但是,大多数介电材料都并非 图3 – A 1Tb以太网上行链路模块在OTN链路上分布有效载荷, 以通过25G/28G背板链路重用现有OTN线卡(<1Tb)。

完全同质,因此都会具有远端串扰 (FEXT)效应。此外,在背板连接器 周围的通路孔区域发生的串扰通常都 是远端串扰。

2Uජဵગ૸ࢡ࿦৏

由于背板系统的串扰既有近端串

40 25G/28 40*25G/28

扰(NEXT)又有远端串扰(FEXT)

‫ֿ؃‬ರ

‫ֿ؃‬ರ

场)。互感会在与干扰源网络相对的

GTY

OTLC10.m

OTUC10

MUX

GTY/GTH

GTY/GTH

Inverse Muxing

N*OTUCn

容 Cm(电场),又存在互感 Lm(磁

N*OTCn.m

器件和干扰源网络之间即存在互电

GTY

声预算相关的串扰噪声成分。敏感

25G/28G ҶҊ

效应,设计师必须谨慎降低与总噪

敏感器件线路上感应产生电流(楞次 定律)。互电容会通过互电容传递在

‫ֿ؃‬ರ

‫ֿ؃‬ರ

敏感器件线路上的双向电流。近端和 远端敏感器件线路上的电流一起产生 NEXT 和 FEXT 效应。 2014年第三季度

图4 – A 1 Tb OTN线卡通过28G背板链路复用来自 低于1 Tb的OTN支路模块的馈送信号。

赛灵思中国通讯

27


U LT R A S C A L E 的 出 色 表 现

华为、思博伦和Xilinx联合发布 全球首个路由器单端口400GE及 测试平台

I(Next) = I(Cm) + I(Lm) while I(Fext)

持在 100Ω。对于 25G 背板,走线

= I(Cm) – I(Lm).

宽度为 7 密耳,可以在最大厚度为 0.350 英寸的背板上铺设 16 层布线。

NEXT 永为正数。FEXT 即可为正,

入损耗高于 25G 背板。这是因为

也可为负。 2014 年 6 月 18 日,中国北京 — 华为,思 博伦通信、赛灵思携手华为在北京举行新闻发 布会,发布全球首个路由器单端口 400GE 及测 试平台,并进行联合验证。本次验证测试基于

图 5 显示,10G 背板的差分插 10G 背板在最大背板宽度内增加了

差分插入损耗

布线层数,从而导致走线宽度更窄。 我 们 已 经 指 出 , Vi r t e x

信道的插入损耗是建立可靠链

Ul-

路时的重要参数。IL 取决于两个因

traScale 器件能支持无需重定时器的

素 :连接器损耗和介电损耗。使用

25G/28G 背板操作,从而支持 1Tbps

证了 400GE 的技术可行性和长期稳定性,并证

如松下 Megatron-6 等介电材料时,

的应用。这些未来的 1Tbps 应用要

明了华为路由器以及思博伦测试平台已经完全

切线损耗为 0.004。图 5 显示了 1 米

求接收器能够直接驱动 25G/28G 背

具备了单端口 400GE 的路由转发处理能力。

长走线的插入损耗。表面粗糙度为

板,以解决可布线性、串扰、差分

作为各自行业的领导者,思博伦和赛灵

1 微米(超低截面)。由于背板的最

插入损耗和阻抗匹配问题。过多的

思、华为积极合作,投入到 400GE 的技术研

大厚度为 0.350 英寸,10G 背板的走

布线层数、更大的连接器以及与通

线宽度已经降至只有 3 密耳宽,以

路孔深度位宽比相关的制造可靠性

允许在 0.350 英寸厚的背板上铺设

问题都会有一定影响。

赛灵思行业唯一的 400GE FPGA 解决方案,内 容涉及功能和性能等多个方面的互通,充分验

究、标准制定和方案研发中,共同推动产业发 展。此次 400GE 联合测试基于领先的 400GE 架构解决方案,通过优化算法解决了 400GE 大 带宽、高速报文处理等瓶颈,实现了各种包长

40 层布线,同时将差分奇模阻抗维

情况下的 400GE 线速处理。 此次思博伦发布的 400GE 测试平台能为 400GE 设备提供端到端的性能验证能力,为 早期设计和开发 400G 系统的客户提供了一个

Տ‫܍‬๿ࠕ‫ڭ‬Ӌ 0

完整的测试解决方案,并已应用于业界首次 华为 400GE 单端口模块的 1-3 层性能。在采用 不同的流、包长及速率等多种组合情况下,甚 至包括全线速的单流表,华为 400GE 模块表现 出很好的性能。作为高速以太网测试领域的领 导者,思博伦又一次以事实证明了在 400GE 测 试的领先地位。该测试平台协助业界设计出可 靠的 400G 设备,并且为该领域确立了性能测 试标准。 赛灵思公司有线通信全球副总裁 Hemant Dhulla 表示 ,“我们非常高兴在 400GE 发展

db (Backplane_25G_Loss) db (Backplane_10G_Loss)

400GE 核心路由器的测试中。此次测试验证了

m5

–20

–40

–60

–80 0

2

4

成为率先进入市场的焦点企业。赛灵思的 28nm Virtex-7 H870T FPGA 是行业唯一具有 支持 400GE 线卡部署能力并满足超高带宽需 求以支持下一代网络的器件。而赛灵思 Virtex UltraScale ™的登场,将为行业 400GE 线卡的

6

8 10 12 14 16 18 20 22 24 26

freq, GHz

的又一重要里程碑事件中成为其中一员,这 进一步延续了赛灵思在该行业的领导地位并

m4

m4

freq = 12.50GHz dB (Backplane_25G_Loss = – 24.573

m5

freq = 5.000GHz dB (Backplane_10G_Loss = – 26.070

实现提供行业首款单芯片解决方案,赛灵思在 400GE 行业的领导地位将因此更上层楼。”

28

赛灵思中国通讯

图5 – 25G和10G背板的插入损耗分别在各自的奈奎斯特频率中显示。

2014年第三季度


业界首款 All Programmable SoC


出色的存储器

再见,DDR 你好,串行存储器 作者:Tamara I. Schmitz 存储器与电源技术总监 赛灵思技术市场部 tschmit@xilinx.com

30

赛灵思中国通讯

2014年第三季度


出色的存储器

赛灵思有 90% 的客户在使 用 DDR 存储器。DDR4 是 倍受青睐的 DDR 存储器系 列的最后一代。众多竞争者 们正在虎视眈眈,意图抢占 更大的 DDR4 市场份额。

储器领域正在发生翻天覆地 的变化,这一变化的根本原 因在于倍受青睐的 DDR 存储

器系列将在 DDR4 戛然而止,而赛灵思 有 90% 的客户都在使用该主流缓冲存储 器(图 1)。 无 需 过 度 恐 慌 :原 因 在 于 D D R 3 能够与大多数系统板完美兼容,DDR4 尽管进展缓慢,但在未来数年将会逐 步取代 DDR3 的位置。尽管如此, 由于 DDR4 没有继任者,客户正在 寻找另一种存储器,同时也在认真权 衡带宽、容量或功耗。可能的继任者 是 LPDDR3/4,而某些应用领域则更 倾向于混合存储立方体 (HMC) 等串行 DRAM 解决方案。 为了了解存储器面临的这些重要挑 战,让我们先来看看影响这些器件的市 场趋势,以及“迫使 DDR 帝国没落” 的限制因素。接下来,我们会考虑替代 DDR 的新存储器类别,从 LPDDR 到串 行存储器 —— 相信设计人员都希望了 解这一新概念。 瞬息万变的市场趋势 通常,当客户在设计他们的新一 代产品时,他们总是会选择同样存储器 的新一代产品,以获得更高的容量、速 度和吞吐量。鉴于此,图 2 显示了当前 和预计的 DRAM 市场份额变化趋势。 DDR3 占据了当前总 DRAM 市场约 70% 的份额,这一市场主导地位的确立 是由于 2009 到 2010 年间其市场份额急 剧上升了 40%。DDR4 的市场接受速度 稍慢,部分是因为移动 DRAM(又被称 为 LPDDR)的“侵入”。如果 LPDDR 能够满足无线市场的需求,那么 DDR4 的增长空间将会非常有限。 图中,DDR4 增长的确呈加速之 势,因为它有很多优势,如供电电压 较低,所以更加省电,且速度较快。

2014年第三季度

赛灵思中国通讯

31


出色的存储器

因此,它最终会在各个市场上取代 DDR3,且最终取决于 PC 市场空间。 尽管 PC 的 DRAM 使用已经不再超 过 70% 的市场份额,但 PC 仍然是最 大的商品设备细分市场。存储器厂商 声称,目前 DDR4 主要用于服务器, 而非个人电子产品细分市场。尽管 如此,DDR4 仍是众多设计的绝佳选 择。这种存储器类型广为人知,并且 在很长时间内都会存在,尤其是因为 它没有继任者。 为什么DDR4是最后一代? 那么,为什么没有 DDR5?当终端 客户需要采用新器件时,他们希望有 更多的存储器可供选择。客户对存储 器带宽的需求永无止境。MP3 播放器 需要存储 10,000 首歌曲,而曾经流行 的盒式录音带则只能存储几十首。客 户希望智能手机也能够存储成倍的图 片或视频数量。这些期望通常意味着

图1:该饼形图显示了赛灵思客户的存储器使用情况,源自2013年 Vivado Memory Interface Generator (MIG) 图形用户界面收集的数据。

更多组件和更大的板极空间。讽刺的 是,消费者通常并不希望他们的电子

图2:DRAM存储器市场趋势显示LPDDR(移动DRAM)呈现大幅增长。

32

赛灵思中国通讯

2014年第三季度


出色的存储器

设备尺寸与存储容量或性能保持同比增长。他们希望技术

最小尺寸板面设计的替代方案可能是一些最前沿的封

进步,这样在同样甚至更小的空间内就可以存储更多内容。

装类型。不幸的是,如果采取新的封装技术,例如通过硅

当存储器与赛灵思 FPGA 配合使用时,有具体的操作

通孔技术 (TSV) 实现芯片堆叠,则会使成本急剧上升。

指南,用于指导板面布局,以确保边距合理以及系统整体

DDR 存储器并非高成本器件,完全依赖于行业基础设施

成功。具体实例包括走线长度、终端电阻和布线层。这些

的规模经济,因此无法采取激进的封装方式或承担价格的

规则限制了设计的最小尺寸,或者不同部件的最近距离。

提升。因此,这些技术进步在可预见的未来不会对 DDR3

赛灵思如何量身定制ULTRASCALE存储器的性能

灵思 UltraScale ™ FPGA 专为存储器所需的更高性能和更大的灵活性而设计。演示证明 DDR4 运行速 度可达 2,400 Mbps。这一全球最快的速度得到 Agilent 的证实,该公司在设计出了可插入在存储器下 方的插入器,并在系统运行时进行系统眼图测量时获得了这一速度。由于 DDR4 采用了新型“伪开

漏”(POD) I/O 结构,赛灵思也在 UltraScale 中添加了 POD。该结构与 I/O 电压需求为 1.2V 的 DDR4 协议相结 合,能够使存储器接口 I/O 系统比类似速度的 DDR3 系统节约 35%。 除了 DDR3 和 DDR4 之外,UltraScale 还支持大量其它的并行存储器 :LPDDR3、RLDRAM3、QDRII+ 和 QDRIV。在串行存储器领域中,UltraScale 可支持 HMC 和 MoSys 的 Bandwidth Engine,该器件带有多达 120 个 收发器,足以应对大多数应用。 此外,UltraScale 还进行了内部改进,以提升存储器接口性能和 FPGA I/O Bank 的利用率。为了提升利用率, 赛灵思增加了每个 Bank 的 I/O 数量,每个 I/O Bank 有两个 PLL。此外,还增加了更精确的 5 皮秒抽头时延功 能。不仅如此,每个 I/O Bank 还支持 4 字节通道,每个通道有 13 个引脚。赛灵思还为 I/O 的预加重和均衡增加 了电路。 这一代技术目前支持 4 排 DIMM 模块和 4 个器件,内存访问深度增加了 4 倍。物理层时延的改进让数据访问 更加快速。大量的改进意味着存储器架构将得到优化,以满足您所在市场的性能要求。 UltraScale FPGA 支持所有主要的存储器标准。带有 MIG IP 向导的 Vivado® 设计套件让部署更加快速,因此 客户能够更加关注解决方案而非问题。

— Tamara I. Schmitz

UltraScale存储器接口展示了多项改进,为系统设计和系统性能优化提供更多帮助。

2014年第三季度

赛灵思中国通讯

33


出色的存储器

终 PC 会全面采用 DDR4 存储器。 如果没有 DDR5,那么有无其它 选择?最有可能取代 DDR3 和 DDR4 的是 LPDDR4。LP 代表“低功耗”。 Low-Power DDR4 实际上是一种专为 无线市场优化的双倍数据速率存储 器。LPDDR 的优势在于,它非常流 行,广为人知,规格已经确定,并且 是可用的。低功耗优化使 LPDDR4 只 比 DDR 稍贵一点,但它仍然采用和 DDR 一样的 I/O 引脚。这让移植更加 容易,因为 LPDDR4 和 DDR 的运行 频率范围相同。 但是,它最大的弊端在于生命周 期。由于无线市场每隔 6 到 9 个月产 品就会更新换代,LPDDR 存储器更新 换代的速度也很快。如果一家大型企 业的产品销售持续 10 到 15 年,则很 难采用每隔 6 到 9 个月就会更新换代一

图3:设计师必须权衡LPDDR4和串行存储(如HMC)之间的利弊。

次的存储器。有可能某家制造商会保证 根据特殊协议向这家公司持续 10 到 15

或 DDR4 系统有任何帮助。

年提供同一版本的存储器。目前,该商业模型尚不存在,

消费者还想要更快的速度。以更快的速度运行系统会

需要做出特殊安排才能满足该需求。当然,这些安排可能

导致电路板设计更加复杂。DDR 存储器采用单端信号,

包括保存工艺流程,然而这么做的代价非常昂贵,只有能

信号需要合理端接。您运行系统的速度越快,保证系统功

够带来巨大的商机才值得如此操作。

能正常运行的从存储器到 FPGA 的走线越短。这意味着器 件本身需要放置在更加靠近 FPGA 的位置。与 FPGA 的距

如果不是LPDDR,那会是什么呢?

离限制意味着您在设计中能够使用的存储器件数量将会减

除了 LPDDR 之外,还有其它几类存储器在觊觎成为

少。很多 DDR4 设计会在 FPGA 周围封装尽可能多的器

下一代存储器继任者。串行存储器就是一种可行的替代方

件,已经达到了设计极限。

案,并且它完全改变了人们对存储空间的看法(图 3)。

如果您想要更多存储空间,您就需要更多器件。如果

从 FPGA 的角度来看,存储器是最终障碍,也是最

您需要更快的速度,您就需要缩短器件之间的距离。在有

后需要串行的部分,原因就是时延。数据从并行流变为串

限的空间内能够挤进的存储器件数量有限。DDR5 在速度

行,通过串行链路,然后再从串行转换为并行数据流,

方面的任何改进都会降低存储器件可用的区域,从而降低

这个流程耗时太长。现在,使用串行链路的缺点在某些应

可用的存储空间。

用中是可以容忍的(例如多次写入且只有少量读取的情况 下,如 CT 扫描器的测试测量系统或扫描天空的一组望远

DDR3的继任者应该是谁?

34

镜)。在另一方面,如果质量测量需要写入数据并且立即

DDR4 能否完全取代 DDR3?可能不会全面取代。趋

阅读该数据,串行存储器在任何情形下的表现都劣于并行

势表明,服务器市场正在采用 DDR4,而 DDR3 较低价格

数据。但是,如果好的存储器的衡量标准是高带宽、能存

优势仍在持续,使它成为个人电脑细分市场的首选。毫无

储大量视频或在互联网上发送大量信息,那么串行存储器

疑问,消费者对于速度和存储空间的需求会继续增长,最

就很有诱惑力。

赛灵思中国通讯

2014年第三季度


出色的存储器

抛开时延,我们需要对同样的弊端进行研究。生命周

了一系列串行接口 TCAM 方案。与之相对,三星和海力

期不是问题 :与 LPDDR 较短的生命周期相比,这些产品只

士半导体正在推广高带宽存储器 (HBM),这是一种基于

要有市场需求就可以生产。事实上,如果对串行存储器的

TSV 的堆栈式 DRAM,采用超宽并行接口。该存储器看

需求增加,众多厂商都可能会加入生产该存储器件的行列。

起来似乎风险更低,因为它采用的是并行接口。

串行存储器没有采用 I/O 引脚,而采用串并收发器技

但是,目前 HMC 是从 DDR3 和 DDR4 夺取市场份额

术。在 FPGA 中,我们可以使用串行接口(收发器)实现

最有力的竞争者。HMC 采用 TSV 技术,在逻辑层的顶部

高速率运行。最近,由于降低时延的需求,厂商们也已经

堆栈了 4 到 8 层互相连接的 DRAM,以创建 2G 或 4G 的

解决了这些性能方面的问题。这种高度发达的串行技术能

封装。该逻辑层可提供一个便捷的接口。

够实现极高的吞吐量,每秒可达 15 Gb。下一代(以 HMC

如果需要更多存储空间,您可以将多达 8 个器件以菊

为例)吞吐量预计可达到 30 Gbps。人们喜欢“新事物”,

花链形式连接起来。这种 1 对 4 的链路能力(以半个链路

但同时又害怕接触不熟悉的事物。另一方面,新技术会导

为单位步进)能够实现 256 位的存取和超大吞吐量。每个

致生产速率受限且初始价格更高。

链路包括 16 个收发器(半个链路为 8 个),每个都能够处 理 15 Gbps 的数据。这种超大带宽是之前的存储器设计师

混合存储立方体(HMC)

所不曾体验过的。

最有望取代 DDR DRAM 的串行存储器为混合存储立

如需了解对 DDR 解决方案的带宽技术改进,敬请参

方体 (HMC),由混合存储立方体联盟 (HMC Consortium)

见表格 1,该表格给出了三种设计,每一种 (DDR3/DDR4/

推广,首倡者为美国美光(图 4)。该技术的赞助者在推

HMC) 都被调整为支持 60 Gbps 的吞吐量。请注意,HMC

广 HMC 方面做的非常出色。人们甚至开始使用缩写词

解决方案中的引脚数量较原来至少减少 8 倍,极大地降低

HMC 来代表“串行存储器”。但事实上,HMC 只是串行

了电路板的复杂程度并简化了布线(如图 5 所示)。串并

存储器的一种。

收发器链路的高带宽允许采用更少的器件,本例中仅有一

除了 HMC 之外,MoSys 公司正在开发一种名为

个器件。该单一器件和一个 FPGA 所占据的板极空间降为

Bandwidth Engine 的串行 SRAM 存储器,博通公司也提供

原来的 1/20。最后,HMC 解决方案每比特数据的能耗也

图4:混合存储立方技术基于TSV结构。

2014年第三季度

赛灵思中国通讯

35


出色的存储器

MoSys 的 Bandwidth Engine(BE2)

DDR3

DDR4

HMC

715

592

70

8,250 mm2

6,600 mm2

378 mm2

能耗(存储 +FPGA)

49 pJ/bit

34 pJ/bit

36 pJ/bit

带宽

18 MB/pin

29 MB/pin

857 MB/pin

引脚数量 (不含电源和接地) 板面积

类似于串行 SRAM,而非串行 DRAM。 它采用收发器实现 16 Gbps 的吞吐量。 但是,BE2 不太可能取代 DDR。相反, 它支持 72 位存取和更低时延,目标是针 对 QDR 或 RLDRAM。它可用于存储数 据包头或查询表,而不是像 DDR 一样

表1:三种存储器支持60Gbps吞吐量所需资源对比

存储数据包缓冲区。 TCAM 为三态内容寻址存储器。这

降低了 2/3。这些数据非常具有震撼性,让观察者们相信

种特殊的高速存储器可以广泛地搜索在高性能路由器和交

HMC 能够从 DDR4 中赢得一部分市场份额。

换机中找到的模式匹配。与高性能相伴的是高费用、能耗 和发热。除了速度快之外,TCAM 在本质上是并行的,它

其它串行存储器

没有使用串并收发器实现高速度。但是,博通公司正在推

由于 HMC 和“串行存储器”经常被错误混用,有时 候甚至用来代表任何一种新的高带宽存储器,因此探索一 些其它新出现的存储器件是非常有益处的。该类别的三大 有力的竞争者为 MoSys 的 Bandwidth Engine、博通公司的 TCAM,以及三星、海力士半导体和 Intel 推广的 HBM。

出该类存储器的各种串行版本。 因此,TCAM 解决方案仍具备串行存储器所具备的引 脚数少和速度高的优势。 第三种类型的存储器为 HBM。不要被 HMC 和 HBM 之间偶尔发生的争辩所迷惑。鲜为人知的是,HBM 器件

图4:混合存储立方技术基于TSV结构。

图5: 2x100GE设计实体模型,左侧为DDR3,右侧为HMC。 节约了板面积且简化效果非常具有吸引力。

36

赛灵思中国通讯

2014年第三季度


出色的存储器

是买不到的。事实上,如果您想使用 HBM,就必须从海

当中的解决方案是 MoSys 的 BE2。HMC 正在试样,到年

力士半导体购买一个芯片,并且将该芯片安装在您的封装

底将会全面投产。LPDDR4 今年年中会开始试样。HBM

内部的插入器或硅基片上。插入器设计中必须包含从您的

并不会作为独立封装提供,但有传言说 HBM 可能串行并

器件到存储器的连接,才能实现这一高带宽的并行存储器。

独立封装。如果您想要购买芯片并将 HBM 整合到您的封

这种类型的存储器想要占领市场,企业就必须决定

装里,您可以联系三星或海力士半导体或其他更小的厂

他们想要分享的商业机密相关内容,还必须同意采用该

商,很多客户正在这么做。

类存储器的设计标准(插入器设计、高度、接口、公差等

目前,DDR3 仍在销售,表现强劲,而 DDR4 正处于

等)。这些细节可以解决,但目前尚未解决。另一方面,

增长和市场接受阶段。DDR4 也会有持久的生命力,很可

HBM 的时延会很低。这是因为电子器件的迁移距离会非

能比现在倍受青睐的 DDR3 持续时间更长,因为它是高度

常小,因为它位于封装内部。这个创意非常好,但需要未

成功的存储器件的最后一代产品。LPDDR4 最有可能填补

来的进一步检验。

该空缺,但不会在所有领域取代 DDR4,除非有非常快速 的读 / 写迭代。

进入生产阶段

否则,串行存储器将成为最值得关注的新兴技术。

上述任何或全部解决方案的成功都能确保更多的供应 商加入到为该行业服务的先行者队伍当中。目前正在生产

HMC 正准备取代 DDR,而 Bandwidth Engine 则是可以取 代 QDR 和 RLDRAM 的串行解决方案。

Xilinx携手Pico Computing推出业界首款 15Gb/s HMC接口

这两家公司针对All Programmable UltraScale器件联合推出高性能串行内存解决方案 2014 年 6 月 24 日,中国北京 — All Programmable 技术和器件的全球领先企业赛灵思公司(Xilinx, Inc. (NASDAQ:XLNX))和同为混合内存立方体联盟(HMCC)成员的 Pico Computing 公司,今天共同宣布携手推出 业界首款针对 All Programmable UltraScale ™器件的 15Gb/s 混合内存立方体(HMC)接口。赛灵思 UltraScale ™ 器件可支持由 64 个收发器组成的四信道 HMC 带宽,且运行速率高达 15Gb/s。Pico Computing 的 HMC 控制器 IP 体积小巧,而且又具备模块化和高度可扩展性能,可提供极高的内存带宽以及卓越的单位功耗性能。这两种技术 的完美组合使工程师能够利用这套解决方案立即开展 15Gb/s HMC 设计,满足高性能计算、包处理、波形处理以 及图像与视频处理等领域的应用需求。 混合内存立方体(HMC)是一款高性能内存解决方案,能提供前所未有的高带宽、高能效和高可靠性。 HMCC 已制定了 HMC 技术规范,并继续构建生态系统,支持该标准的广泛推广。 赛灵思公司电源和存储器技术市场总监 Tamara Schmitz 表示 : “客户现在即能采用业界唯一出货的 20nm FPGA 以及经验证的 IP 核向市场推出 15Gb/s HMC 设计。UltraScale FPGA 是目前唯一能支持 HMC 所有四条信 道的可用器件,可实现全内存带宽,同时其更多收发器可用于数据路径和控制信号。” Pico Computing 的 HMC 控制器高度参数化,具备真正优化的系统配置,可满足客户特定的设计目标要求。 HMC 链路数量、内部端口数量与宽度、时钟速度、功耗、性能、面积及其它参数,都可通过“拨号方式”直接 调节设置,从而精确达到所需的性能。 Pico Computing 公司 CEO Jaime Cummins 指出 : “Pico Computing 的 HMC 控制器 IP 现在经过优化并可轻松 在赛灵思 UltraScale 器件上实现,从而打造出了一款极其高效、灵活的解决方案。这使得 HMC 和 UltraScale 器 件的性能都能发挥到极致,从而支持全新高性能计算应用。”

2014年第三季度

赛灵思中国通讯

37


手把手课堂:FPGA101

设计可靠性: MTBF—这只是开始! 无论您的终端应用是什么, 可靠性都将是设计的主要考 虑因素之一。实现可靠性的 方法多种多样。

38

赛灵思中国通讯

2014年第三季度


手把手课堂:FPGA101

点可以采用 MTBF、成功概率以及熟 悉的浴盆曲线。第二,发生错误事件

作者:Adam P. Taylor

时,如何确保您的设计可以继续工作

e2v公司系统工程主管 aptaylor@theiet.org

并保持无故障运行,或者针对尚未解 决的问题出具报告。我们工程师开展 设计与分析的方法可以影响到可靠性 的上述两个方面。 为了确保解决方案的可靠性,您 在考虑设计可靠性时,大部分 工程师都将注意力集中在一个综合性 度量标准 :平均故障间隔时间。事实 上,平均故障间隔时间 (MTBF) 是评 估设计可靠性重要参数之一。但是 另一个参数“成功概率”,也同样重

的开发环境必须建立正确的工程设计 治理制度,设置审查关口、设计规则 与指南,同时在生命周期内,应该安 排同行在适当的点进行独立审核。 MTBF与浴盆曲线 MTBF 的定义是从统计学角度预

要。因此为了最终推出可靠的设计方 案,设计人员应该充分考虑其它因素 并确保进行准确的可靠性分析。 无论您设计哪种产品,可靠性都 是必不可少的,尽管原因不尽相同, 但都取决于终端应用。航空航天与军 事设计人员必须确保操作员 / 乘客的 安全,确保成功完成任务。在电信领 域,实现可靠性的目的则是防止出现 服务中断的情况,因为这样会影响收

测系统运行过程中的故障间隔时间。 制造商取各个组件的故障率倒数计 算 MTBF。我们一般将这些故障率称 为 FIT 率,其中,故障时间(FIT) 为 1e-9 小时 -1。您既可向组件供应商索 取故障率,亦可根据军用手册 MILHDBK-217F 或 Bell-core/Telcordia SR332 标准计算。MTBF 与 FIT 率之 间的关系如下所示 :

入流与声誉。工业和流程控制工程师 的任务就是尽可能缩短停机时间,在 故障发生时,能够确保安全、无故障

但是,上述故障率仅对浴盆曲线

运行。对于商业应用,设计人员必须

中的恒定故障率周期有效,如图 1 所

确保其产品在规定的质保期内不会出

示。

现任何问题。 使用 FPGA 可以研发出集成度更

早期(“早期故障期”)故障、正常

高的解决方案,从而可以延长系统的

使用寿命内发生的故障(“恒定故障

平均故障间隔时间。当器件制造商定

率”)以及产品设计寿命结束时的故

期提供季度可靠性报告时,这一点更

障。因此,生产过程中,通常会进行

为明显,赛灵思就是如此做的,其出

某种形式的“老化试验”,排除早期

版的《2014 年第二季度器件可靠性报

故障期故障。老化试验过程中,在各

告》UG116。

种温度作用下,器件潜在缺陷会加快

从最高层次来说,可从两个角 度来考虑可靠性。第一,系统在规定 使用寿命内顺利运行的可信度。这一

2014年第三季度

浴盆曲线描绘的是产品引入时的

发生,这样便可以确保器件在交付、 装入系统之前失效。 您可以通过韦伯分布、或寿命

赛灵思中国通讯

39


手把手课堂:FPGA101

为了确保成功概率合格, 许多产品都要求MTBF必须 远远高于预期使用寿命。 数据与分析来确定您的产品或系统

式所求得的成功概率,其中 t 表示预

须达到 4,361,048 小时或 497 年,如

在浴盆内的位置,利用 Excel 很容易

期工作时间(单位 :小时)。

以下公式所示。

完成。形状参数 β 表明故障率是稳 定、增加还是减少。若形状参数 (β)

( )

小于 1.0,则表明早期故障期内,故

将成功概率绘制成图之后,可

障率在下降,若形状参数大于 1.0,

以看到,当预期工作时间接近 MTBF

则表明故障率在上升,而此现象会在

时,成功概率为 0.37 左右,如图 2 所

磨损阶段出现。

示。这意味着成功概率这一单个模块

确定您在浴盆曲线中的位置后,

在 MTBF 达到 0.37 所消耗的时间之

如果您认为系统至少在 MTBF 期间可

后,仍然有效。如果考虑到一批器

以继续无故障运行,那也是情有可原

件,则其中的 37% 仍然正常工作。

显而易见,这远远超过了使用 寿命。 可靠性计算 您可以采用以下方法之一计算 可靠性与 MTBF —— 零件计数分析

的。然而情况并非如此。MTBF 是从

因此,为了确保工作寿命内成

或零件应力分析。其中零件计数分析

统计学角度描述产品在使用寿命内可

功概率合格,许多系统 / 产品都要求

比较简单,有时候可以在开发周期早

能出现的故障率 ;并非指产品的预期

MTBF 必须远远高于预期使用寿命。

期进行,作为产品是否达到可靠性要

使用寿命。如果想要获得产品的预期

例如,假设使用寿命为五年,成功概

求的指标之一。此类分析考虑到了零

使用寿命,我们需要考虑通过以下公

率为 0.99,则产品所要求的 MTBF 必

件质量水平、数量以及使用环境。零

Failure Rate

1/MTBF

Constant Failure Rate Infant Mortality

Time

Wear Out

图1 - 浴盆曲线追踪产品引入时的早期(“早期故障期”)故障、 使用寿命内所出现的故障以及寿命结束后的“磨损”故障。

40

赛灵思中国通讯

2014年第三季度


手把手课堂:FPGA101

1 0.9 Success Probability 0.8

Probability

0.7 1/2 MTBF P (s) - 0.6

0.6 0.5 0.4

One MTBF P (s) - 0.37

0.3 0.2 0.1 0 0

0.5

1

1.5

2

2.5

3

Time (years) 图2 - 当预期工作时间接近MTBF时,成功概率为0.37。

件计数分析可以快速进行。但是,结

如此降额,在进行上述零件应力分析

着组件质量水平的提升,其价格亦会

果趋向于保守,导致故障率上升,

时,您可将器件应力考虑在内。各个

随之提升。表 1 显示了集成电路、

MTBF 缩短。

公司通常都会制定自己的降额规则。

混合件以及分立件所需的各种不同

零件应力分析将会考虑到更多

但是,如果没有内部规则,则您可以

标准。

参数,因此所需时间更长,但是此类

参考业界标准规则,例如欧洲空间

第二个选项便是引入冗余,无论

分析的结果更加准确。应力分析需要

局的 ECSS-Q-30-11A 与美国海军的

是模块间的还是模块内的。冗余可增

考虑到温度、电应力、质量、结构、

NAVSEA TE000-AB-GTP-010。

加尺寸、重量以及解决方案的成本,

工作环境等许多因素,具体取决于您

虽然零件应力分析会增加非经

但其所带来的后果是对系统可靠性造

所分析的组件种类。对于当前应用而

常性工程成本,但是对于工程团队而

成显著影响,进而影响系统可用性。

言,此类分析所获得的故障率要准确

言,还有许多其它选项,这些选项均

通常最好的做法便是在系统层面做出

得多。

会影响到经常性成本。

冗余决策,在系统中故障率较高位置

第一个选项便是提升组件质量, 提高可靠性

同时应用类似的降额规则。这可能意

安装额外组件。此种方法是专门针对 冗余而开发的最佳解决方案。

有许多方法和技术可用于帮助延

味着,从标准商业零件到高质量的军

在考虑冗余时,您可以选择热冗

长 MTBF,进而提高您系统或产品的

用(通过 QML Q 认证的 IC)乃至航

余或冷冗余。对于“热”冗余解决方

成功概率。最常用的方法是降低组件

空(通过 QML V 认证的 IC)组件全

案,冗余系统采用电动,其配置可以

所承受的额定电应力与热应力。通过

面提升质量。然而值得注意的是,随

通过无缝切换替换失效模块,不会对

2014年第三季度

赛灵思中国通讯

41


手把手课堂:FPGA101

੥ဲ! ࢼֈ٢૸! ࢛ࠠऋ! ‫܍‬અऋ!

ӭኳ! NJM.QSG.49646! NJM.QSG.49647! NJM.QSG.2:611!

৅ᅂ! RNM!R!)C੥*! I!੥! KBO!UYW!

此,您需要负责确保系统级的设计能

ࠎৼ RNM!W!)T੥* L!੥ KBO!T

够采取适当措施,通过联锁装置等避 免上述危险发生。如有必要,您应该 将这些减缓措施作为规定要求应用到 各个子系统,以便确保这些故障模式

表1 - IC、混合件与分立件的标准版、军用版与航空版

均得到正确处理。

! ཫ‫!ڡ‬

ԯฮ!

了解设备健康状态,然后上报

ኙ෾ ರऋᅪߋउዠऋ

٢૚! ٢ၼ! ! ൔᅟ೧ࡪ! ! ‫׃‬ੲካນ! !

或记录,您可以通过此方式进行预 测,确保运行不会受到故障的影响,

‫װ‬٢ᆑဂࠕ‫ؿ‬٢૚ ྼ໾ௗԠۗ‫ॅٲ׫‬DŽtvcsfhvmbufeDž ٢ၼካນ ҫ‫ݻ‬ነဪࠖ0ൔᅟဪࠖԝ࿦ຈᅂ ৑ߋ‫ؿ‬ཤቜ DSDौ߮Ă࣓๲ᄈ૚ᅪ࿉ᄈĂ ဪࠖիֵۭཐ‫ك‬

确定设备故障原因,有利于对其进行 维修。更多的复杂系统可能包括全面 的自测功能,通电之后或者运行期间 可以连续运行此功能。表 2 显示了更 加详细的您可能考虑监控的需求中断 测试。 上述结果可以通过通信链路以

表2 - 状况监控详情表

健康状态的形式进行传送,保存在非 系统性能产生任何影响。缺点在于此 种情况下,冗余设备会承受应力。

在“冷”冗余方案中,冗余系统 通常不采用电动,只有在主模块失效

之后,才会重新启动。系统会终止活 动,直到对冗余端进行重新配置,非 失效模块才会继续工作。虽然工作会

于监控和记录系统健康状况

易失性存储器之中,例如,flash 或

设备接口,无论是单一连接器还是

FRAM 或二者同时使用。通常情况

主模块与冗余

下,您可能会选择采用实时时钟或越

关键命令顺序(例如,分离系统

时计数器 (elapsed-time counter),对 这些事件逐一标记时间,以便形成参

“手臂”与“消防”命令) ●

内存与数据链路错误率 (BER、 ECC) 可接受

在恶劣环境下,工程师所面临的 另一个问题是连接器。连接器是故障

中断,但是优点在于冷冗余解决方案 不会老化,因为冷冗余不采用电动, 不会承受电应力。 引入冗余之后,您必须注意确保

考系。

作为监管或认证标准的一部分,

多发位置,因为里面的单独电缆可能

您必须进行危险性分析,以确定设备

会断开,或者连接器本身会因振动或

发生故障时可能出现的潜在危险。因

震动等环境影响而掉落。因此,您可

故障不会扩散,因为在主模块侧失效 的时候,如果故障扩散,则就会影响 Single Interface

到冗余模块的性能。 Module 1

Module 2

系统级考虑事项 考虑了零件质量以及冗余对系统 造成的重大影响之后,您还可以执行 其它选项,以确保发生错误或故障事 件时系统性能正常。这些选项包括 :

42

危险故障扩散模式

内置测试、遥测以及事件日志,用

赛灵思中国通讯

Redundant Connector Module 1

Module 2

Prime Connector 图3 - 如果原始连接器出现故障的话,冗余连接器将接管工作,但代价是增加了复杂性。

2014年第三季度


手把手课堂:FPGA101

Xilinx成为多核联盟執行理 事,致力于推动新兴多核众 核标准发展

ARM ACK FIRE

中国北京,2014 年 5 月 27 日 ——

ACK

致力于制定多核标准,以加速那些包含 多核实现产品之上市进程的全球非营利 图4 - 对于电气噪音比较大的环境,“手臂消防”顺序有助于降噪。

性组织 Multicore Association ™(多核联 盟)今天宣布,All Programmable 技术和

以通过装入冗余连接器和电缆来增加

其会发送 NACK 命令,并重新开始处

器件的全球领先企业赛灵思公司(Xilinx,

可靠性。第一个连接器发生故障后,

理。此方案可确保,其中一个命令因

Inc. (NASDAQ:XLNX))正式加入该组织

冗余连接器可以接管通信,如图 3 所

电磁干扰 (EMI) 而被中断时,不会无

并成为该机构的执行理事。

示。但是,这种冗余的代价是增加了

意中产生关键命令。

多核联盟主席 Markus Levy 表示: “过

复杂性,尤其是当您需要连接大量模

此外,您还可以采用与手臂消防

去 25 年多来,赛灵思一直是一个半导体

块时。一种替代方案就是采用专门

方法相类似的方法,确保所有通信链

产业的领导者,走在科技的最前沿。我

针对恶劣环境设计的连接器,例如

路和内存均有纠错与检测代码,确保

们期待着他们在下一代标准制定中做出

MIL-STD 38999 系列连接器。

可靠通信、数据得到可靠保存。至于

积极贡献。赛灵思加入多核联盟,特别

是单独选择错误检测代码,还是选择

是专注于我们新的多核众核软硬件接口

若系统或产品将用于恶劣环境, 例如,电气噪音比较大,则系统内部

错误检测与纠错代码,将取决于终端 (SHIM)标准和 MCAPI 标准,将在多核

总线所传送的命令考虑采用手臂 / 消

应用。然而,您可以使用许许多多的

防方案是比较明智的。在上述方案中

代码,从非常简单到比较复杂(表 3) 用的见解。”

(参见图 4),初始命令被传送至接收 器,然后接收器确认命令,并启动超

均可使用。保护级别随代码复杂程度

技术设计方面提供非常全面的指导和实

赛灵思嵌入式软件首席科学家 Tomas Evensen 指出 : “赛灵思鼎力支持多核联

增加而相应变化。

时。如果接收器无法接收消防命令,

所有工程师,无论其正在研究

盟及其指导开放式多核众核标准长期发

则会发出不予确认字符 (NACK) 命

的终端应用是什么,均必须考虑到终

展的使命。我们一向致力于产品创新,

令,作为响应,接收器在启动超时之

端系统的可靠性。工程师可自行选择

为客户提供价值,而且专注于开放式标

前会发出确认字符 (ACK) 命令。类似

许多方法,用于帮助实现高可靠性

准和庞大的生态系统的发展,进而推进

的,如果接收器接收到其它命令,则

产品。

整个行业的协作。” 多核联盟正在积极制定有关系统利 用与编程方式的标准,努力推动包括赛

!

‫ؗ‬ବ!

উ؊!

؊ྜࣹՃ!

һኙ

灵思 Zynq®-7000 All Programmable SoC 等在内的多核处理器实现方案的广泛采

Parity

X

؊ྜৰႝӑ

N of M

X

Ԝ෻ࠠ‫ڹ‬ውॅ

用。作为半导体设计创新企业,赛灵思 将帮助多核联盟推动高性能嵌入式系统 领域部署多核解决方案的相关标准发展。

CRC

X

BCH

X

X

ჸᅙ्ବ

执行理事、工作组成员和大学成员。执

Hamming

X

X

จౕFEDಝቩቇნ

行理事会明确联盟的整体发展方向,工

Reed Solomon

X

X

CDI໅ં

作组成员在联盟下设的工作组工作,而

ऺ෻ࠠ༆ۙ؊ྜ

表3 - EDAC代码,从简单到复杂。

2014年第三季度

多核联盟提供三级会员标准,包括

大学成员能参加多核联盟开展的各项制 定工作。 赛灵思中国通讯

43


专家园地

Vivado HLS推动 协议处理系统 蓬勃发展 作者:Kimon Karras 赛灵思公司研究工程师 kimonk@xilinx.com 作者:James Hrica 赛灵思公司高级软件应用工程师 jhrica@xilinx.com

44

赛灵思中国通讯

2014年第三季度


专家园地

设计人员使用赛灵思高 层次综合工具,能以类 似软件的方式用高级编 程结构描述包处理系 统,而使用 RTL 则难以 实现。

同层面的协议处理常见于各种 新型通信系统,因为任何信息 交流都需要使用某种通信协

议。通信协议一般包含数据包。数据包由 发送方创建,由接收方重新组合,这些操 作都要遵循协议规范。这样协议处理无处 不在,需要 FPGA 设计人员特别关注。因 此高效地实现协议处理功能对 FPGA 有非 常重要的意义。 设计人员在视频处理和信号处理领域 运用高层次综合(HLS)功能已取得巨大 成功。使用 HLS,用户可使用高级编程 语言来表达硬件功能。为测试这种技术用 于包处理的效果,我们用赛灵思 Vivado HLS 工具构建了一个完整的原型系统,其 结果确实令人振奋。Vivado HLS 不仅让 我们将开发时间缩减了一半,而且还减少 了资源使用并降低了时延。我们的原型系 统是一个简单的 ARP/ICMP 服务器,能对 ping 和地址解析协议(ARP)请求做出响 应并解析 IP 地址查询。 下面我们深入了解一下 Vivado HLS 是如何帮助设计人员解决在协议处理过程 中遇到的主要问题。为了解这项技术的优 势,应首先详细了解 Vivado HLS,掌握 其工作方式。 提高抽象层次 Vi v a d o H L S 能 提 高 系 统 设 计 的 抽 象层次,为设计人员带来切实的帮助。 Vivado HLS 通过下面两种方法提高抽象 层次 : ●

使用 C/C++ 作为编程语言,充分利用 该语言中提供的高级结构 ;

提供更多数据原语,便于设计人员使用 基础硬件构建块(位向量、队列等)。 与使用 RTL 相比,这两大特性有助

于设计人员使用 Vivado HLS 更轻松地解

2014年第三季度

赛灵思中国通讯

45


专家园地

决常见的协议系统设计难题。最终简化系统汇编,简化

HLS 会根据 C/C++ 测试平台自动生成 RTL 测试平台,然

FIFO 和存储器访问,实现控制流程的抽象。HLS 的另一

后设置并执行 RTL 仿真,检查实现方案吧的正确性。

大优势是便于架构研究和仿真。

如能充分发挥这些优势,这将对于用户的系统设计

Vivado HLS 把 C++ 函数视为模块,函数定义等效于

大有裨益。这不仅体现在开发时间和生产力上,还由于

模块的 RTL 描述,函数调用等效于模块实例化。这种方

Vivado HLS 代码更加紧凑的特点,体现在代码可维护性

法能减少需要用户编写的代码量,进而显著简化用于系统

和可读性上。此外通过高层次综合,用户仍能有效控制架

描述的结构代码,最终加速系统汇编进程。

构及其特性。正确理解和使用 Vivado HLS 程序对实现这

在 Vivado HLS 中,存储器或 FIFO 可通过两种方法访

一控制起着根本作用。

问。一种是通过合适的对象(比如对流对象的读写)。另

高层次综合在赛灵思提供的包处理解决方案的层级结

一种是直接访问综合工具随后将实现为 Block RAM 或分

构中起着承上启下、承前启后的作用。而 Vivado SDNet

布式 RAM 的标准 C 阵列。综合工具会根据需要处理额外 (见《赛灵思杂志》第 52 期的封面专题报道)和 RTL 则 对其起到补充作用。Vivado SDnet 使用特定领域语言,提

的信令、同步或寻址问题。 从控制流的角度,Vivado HLS 从简单的 FIFO 接口到

供一种大为简便但相当受限的协议处理系统表达方法。

完整的 AXI4-Stream 均可提供整套流控制感知接口。使用

RTL 则可以用于 Vivado HLS 无法表达的大量系统的实现

这些接口,设计人员可直接访问数据,无需检查背压或数

工作(例如使用 DCM 或差分信号并需要详细时钟管理的

据可用性。Vivado HLS 会适当地调度执行,应对一切紧

各类系统)。虽然有种种局限,Vivado HLS 仍然是在保证

急情况,同时确保正确完成执行。

结果质量或设计人员灵活性的前提下设计大部分协议处理

设计人员还会感激 Vivado HLS 提供的另一项功能,

解决方案的有效途径。

即简便的架构研究功能。用户只需在代码中插入程序指令 (如使用 GUI 或批处理模式时的 Tcl 命令),就可以把设

设置简单系统

计所需特性传递给综合工具。这样用户可以在不修改设计

开始新设计时需要完成的最基本工作首先是确定设计

代码本身的情况下研究大量备选架构方案。研究的范围可

的结构,然后将其实现在 Vivado HLS 中。Vivado HLS 中

以是模块流水线化等根本性问题,也可以是 FIFO 队列深

的基本系统构建块是 C/C++ 函数。构建一个由模块和子

度等较常见的问题。

模块组成的系统意味着需要用一个顶层函数来调用底层函

最后,C 和 RTL 仿真是 Vivado HLS 另一个大放异彩

数。图 1 所示的是一个极为简单的三级流水线,我们以此

的地方。设计一般采用两步流程验证 :第一步是 C 语言仿

为例来介绍 Vivado HLS 中系统构建的基本思路。一般采

真。这个步骤中 C/C++ 的编译和执行与常见的 C/C++ 程

用流水线化设计执行协议处理,由每一级负责解决处理的

序相同 ;第二步是 C/RTL 协仿真。在这步骤中,Vivado

特定部分。

‫پ‬Մ஠ਐ

஠ਐნ

஠ਐۗ

஠ਐ൲

图1:简单三级流水线

46

赛灵思中国通讯

2014年第三季度


专家园地

构建一个由模块和子模块组成的 系统意味着需要用一个 顶层函数来调用底层函数。 例 1 :在 Vivado HLS 中创建简单系统

是说它们对用户逻辑而言是透明的。如前文所述,在使用

1 void topLevelModule(stream<axiWord> &inData, stream<axiWord> &outData) { 2 #pragma HLS dataflow interval=1 3 4 #pragma INTERFACE axis port=inData 5 #pragma INTERFACE axis port=outData 6 7 static stream<ap_uint<64> > modOne2modTwo; 8 static stream<ap_uint<64> > modTwo2modThree; 9 10 moduleOne(inData, modOne2modTwo); 11 moduleTwo(modOne2modTwo, modTwo2modThree); 12 moduleThree(modTwo2modThree, outData); 13 }

AXI4-Stream I/F 时,从用户处抽象流控制完全由 Vivado

例 1 中的代码用于创建顶层模块函数,供调用所有其 它子函数使用。顶层模块函数使用两个参数,均属于“流”

(stream) 类(Vivado HLS 库中提供的模块类之一)。流是 一种 HLS 建模架构,代表准备以流方式交换的数据通过 的接口。流可以实现为 FIFO 队列或内存,也可以是一种 能够配合任何 C++ 架构使用的模板类。在本例中,我们 定义了一种称为 axiWord 的数据结构(Struct),如例 2 所 示。

HLS 完成。 当然未必一定使用 AXI4-Stream 接口。Vivado HLS 提供有丰富的总线接口。这里选择 AXI4-Stream 作为常见 标准接口的示例,供用户进行包处理。 实现我们的设计的下一项工作是确保我们的三个模 块彼此互联。这项工作也通过流完成,不过这次它们是位 于顶层模块的内部。第 7 行和第 8 行用于声明实现这一 目标的两个流。这两个流使用了另一种 Vivado HLS 结构 ap_uint。这是一种无符号一维位阵列,随后将按此对其操 作。同时这也是又一种模板类,因此必须设定这个阵列的 宽度。在本例中使用 64 位,与顶层模块输入输出 I/F 的数 据成员宽带匹配。还有一点需要详细说明的是这些流全部 声明为静态变量。静态变量是指其值不随函数调用变化的 一种变量。由于在作为顺序 C/C++ 程序执行时顶层模块 (以及全部的子模块)每个时钟周期会被调用一次,所以 任何需要保持其值不随时钟周期变化的变量都需要声明为 静态变量。

例 2 :定义流接口使用的 C++ 结构 struct axiWord { ap_uint<64> ap_uint<8> ap_uint<1> };

data; strb; last;

创建流水线设计 将要讨论的最后也是最重要的一个是编译指令。第 2 行中的数据流编译指令指示 Vivado HLS 尽量以并行方式 安排执行该函数的所有子函数。“internal”参数用于设置

该 struct 用于定义 AXI4-Stream 接口的部分字

该模块的初始化间隔(II)。初始化间隔(II)告知 Vivado

段。Vivado HLS 能自动支持此类接口,使用编译指令

HLS 该模块必须具备的处理新输入数据字的频次,故决定

(pragma)语句即可完成设定。编译指令是对高层次综合

了设计的吞吐量。不过这并不妨碍模块内部的流水线化和

工具的指令,用于指导工具实现要求的结果。例 1 中第 4

拥有 >1 的时延。当 II=2 时,该模块将用两个周期完成数

行和第 5 行的编译指令用于告知 Vivado HLS 这两个指令

据字的处理,然后再读入新的数据字。以这种方式 Vivado

(具体是顶层模块的输入和输出端口)将使用 AXI4-Stream

HLS 可以简化模块最终的 RTL。也就是说,在一个典型的

接口。AXI4-Stream I/F 包含两个必备信号,分别是有效信

协议处理应用中,设计必须具备每个时钟周期处理一个数

号和就绪信号,但它们没有包含在声明的数据结构中。这

据字的能力,故从现在起我们令 II=1。

是由于 Vivado HLS AX4 I/F 会在内部处理这些信号,也就

2014年第三季度

最后要解决的问题是函数调用本身。在 Vivado HLS

赛灵思中国通讯

47


专家园地

初始化间隔(II)告知 Vivado HLS该模块必须具备 的处理新输入数据字的频次, 故决定了设计的吞吐量。 中,这个过程对应的是模块的实例化。传递给每个模块的 参数实质上定义了模块的通信端口。在本例中,通过将输 入连接到第一个模块,然后用 modOne2modTwo 流把第 一个模块连接到第二个模块,依次类推,将三个模块链接 起来。 设置简单系统 协议处理一般情况下属于状态事务。必须先顺序读取 在多个时钟周期内进入总线的数据包字,然后根据数据包 的某些字段决定进一步操作。通常应对这种处理的方法是 使用状态机,对数据包进行迭代运算,完成必要的处理。 例 3 是一种简单的状态机,用于根据上一级的输入丢弃或 转发数据包。该函数接收三个参数 :一个是通过“inData” 流接收到的输入分组数据 ;一个是通过“validBuffer”流 显示数据包是否有效的 1 位旗标 ;第三个是称为“outData” 的输出分组数据流。注意 Vivado HLS 函数中的参数是按 引用传递的。这在使用较为复杂的 Vivado HLS 流的时候 是必要的。ap_uint 等较为简单的数据类型则可按值传递。 第 2 行中的流水线编译指令指示 Vivado HLS 将该函 数流水线化,让初始化间隔为 1(II=1),即每个时钟周期 处理一个新的输入数据字。Vivado HLS 负责核验设计, 并确定需要在设计中引入多少个流水线级来满足调度限制 要求。 例 3 :使用 Vivado HLS 的有限状态机 1 v oid dropper(stream<axiWord>& inData, stream<ap_uint<1> >& validBuffer, stream<axiWord>& outData) { 2 #pragma HLS pipeline II=1 enable_flush 3 4 static enum dState {D_IDLE = 0, D_STREAM, D_ DROP} dropState; 5 axiWord currWord = {0, 0, 0, 0};

48

赛灵思中国通讯

6 7 switch(dropState) { 8 case D_IDLE: 9 if (!validBuffer.empty() && !inData.empty()) { 10 ap_uint<1> valid = validBuffer.read(); 11 inData.read(currWord); 12 if (valid) { 13 outData.write(currWord); 14 dropState = D_STREAM; 15 } 16 } 17 else 18 dropState = D_DROP; 19 break; 20 case D_STREAM: 21 if (!inData.empty()) { 22 inData.read(currWord); 23 outData.write(currWord); 24 if (currWord.last) 25 dropState = D_IDLE; 26 } 27 break; 28 case D_DROP: 29 if (!inData.empty()) { 30 inData.read(currWord); 31 if (currWord.last) 32 dropState = D_IDLE; 33 } 34 break; 35 } 36 }

第 4 行用于声明一个静态枚举变量,用于表达该 FSM 中的状态。使用枚举与否可以选择,不过能让代码更 容易阅读,因为可以给状态适当地命名。不过使用任何整 数或 ap_unit 变量也能得到与之类似的结果。第 5 行用于 声明一个“axiWord”类型的变量,用于存储准备从输入 中读取的分组数据。 第 7 行中的开关语句用于表达实际的状态机。建议使 用开关,但非强制要求。使用 if-else 决策树也能执行同样 的功能。开关语句能够让 Vivado HLS 工具更高效地枚举 所有状态,并优化得到的状态机 RTL 代码。

2014年第三季度


专家园地

执行从 D_IDLE 状态开始,此时 FSM 从第 10 行和第 11 行的两个输入流读取。这两行分别代表两种流对象读取 方法。这两种方法均从设定的流读取,然后将结果存储到 给定变量中。这种方法采取阻塞式读取,意味着如果该方 法调用无法顺序执行,就会暂停执行该函数调用中的其余 代码。在试图读取空流的时候会发生这种情况。 流分割和合并 在协议处理中,根据协议栈特定字段转发数据包给不 同模块,然后在发送前将不同的流重新组合,是一项关键 功能。Vivado HLS 允许使用高级架构来推动这一转发过 程,具体如例 4 中所示的流合并。 例 4 :简单的流合并情况 1 void merge(stream<axiWord> inData[NUM_MERGE_ STREAMS], stream<axiWord> &outData) { 2 #pragma HLS INLINE off 3 #pragma HLS pipeline II=1 enable_flush 4 5 static enum mState{M_IDLE = 0, M_STREAM} mergeState; 6 static ap_uint<LOG2CEIL_NUM_MERGE_STREAMS> rrCtr = 0; 7 static ap_uint<LOG2CEIL_NUM_MERGE_STREAMS> streamSource = 0; 8 axiWord inputWord = {0, 0, 0, 0}; 9 10 switch(mergeState) { 11 case M_IDLE: 12 bool streamEmpty[NUM_MERGE_STREAMS]; 13 #pragma HLS ARRAY_PARTITION variable=streamEmpty complete 14 for (uint8_t i=0;i<NUM_MERGE_ STREAMS;++i) 15 streamEmpty[i] = inData[i].empty(); 16 for (uint8_t i=0;i<NUM_MERGE_STREAMS;++i) { 17 uint8_t tempCtr = streamSource + 1 + i; 18 if (tempCtr >= NUM_MERGE_STREAMS) 19 tempCtr -= NUM_MERGE_STREAMS; 20 if(!streamEmpty[tempCtr]) { 21 streamSource = tempCtr; 22 inputWord = inData[streamSource]. read(); 23 outData.write(inputWord); 24 if (inputWord.last == 0) 25 mergeState = M_STREAM; 26 break; 27 } 28 } 29 break; 30 case M_STREAM: 31 if (!inData[streamSource].empty()) { 32 inData[streamSource].read(inputWord); 33 outData.write(inputWord);

2014年第三季度

34 35 36 37 38 } 39

if (inputWord.last == 1) mergeState = M_IDLE;

} break; }

本例体现的是模块合并功能的使用,其中一个流阵 列作为输入(inData),一个单流作为输出(outData)。 这个模块的功能是以无区别的方式从输入流读取数据,然 后将读取的数据输出给输出流。该模块采用双级 FSM 实 现,其结构与前文介绍的结构一致。 FSM 的第一个状态用于确保选择输入流的无区别性 (fairness)。实现的方法是使用循环算法检查队列。该算 法在完成上一队列的访问之后,即从下一队列起查找新的 数据。第 17 到 19 行的代码采用的即是此循环算法。常量 NUM_MERGE_STREAMS 用于设定待合并的流的数量。 接下来的第 20 行负责测试当前的流,其内容用 tempCntr 变量标示。如果当前流非空,则将其设置为活跃流(第 21 行)。然后从该流中读取数据(第 22 行)。如果读取的数 据字不是最后一个数据字(由第 24 行负责检查),则状 态机进入 M_STREAM 状态,然后输出来自该流的剩余数 据字。在处理完成最后一个数据字后,FSM 返回 M_IDLE 状态,然后重复上述过程。 这个模块引入了一个新的编译指令,称为“array_ partition”。该编译指令能让 Vivado HLS 了解为了提高吞 吐量,是否需要把一个阵列拆分为多个子阵列。如果未加 设定,Vivado HLS 会使用双端口 BRAM 来访问阵列。如 果要在一个时钟周期中访问阵列两次以上,如果不适当 地提高初始化间隔(II)的值,该工具将无法调度这些访 问。在本例中,略去 array_partition 编译指令,将 NUN_ MERGE_STREAMS 值设为 8,就可以让 II=4。但因为 想能够在每个时钟周期内访问 steamEmpty 阵列的所有元 素,让目标 II=1,我们需要对这个阵列进行充分分区。在 本例中,该阵列实现为一组基于触发器的寄存器。 拆分输入流的过程耳熟能详,把来自一个流的数据字 正确地路由到一个流阵列即可。 抽取字段和重新对齐字段 在包处理中,抽取字段和重新对齐字段是最基本的操 作之一。由于数据包一般是经过多个时钟周期内通过总线 到达模块的,常见的情况是需要的字段要么在它们抵达的

赛灵思中国通讯

49


专家园地

数据字中未能对齐,要么分散在多个数据字中(往往两种 情况都有)。因此要处理这些字段,必须将它们从数据流 中抽取出来,存入缓存然后重新对齐以便处理。

用多级层级创建系统 上文讨论了如何使用 Vivado HLS 实现简单的三级流 水线。但是一般的包处理系统可能会包含分布在层级结构 中多个层面的多个模块。图 2 即是这种系统的示例。在本

例 5 :源 MAC 地址抽取示例

例中,层级结构的第一层由两个模块组成,每个模块下面

1 if (!inData.empty()) { 2 inData.read(currWord); 3 switch(wordCount) { 4 case 0: 5 MAC_DST = currWord.data.range(47, 0); 6 MAC_SRC.range(15, 0) = currWord. data.range(63, 48); 7 break; 8 case 1: 9 MAC_SRC.range(47 ,16) = currWord. data.range(31, 0); 10 break; 11 case 2: 12 ……

包括三个子模块。这个示例中的顶层模块与前面介绍的简

例 5 是一个非常简单的字段抽取和再对齐示例。这 个示例从以太网报头中抽取源 MAC 地址。数据通过称为 “inData”的 64 位流抵达。在每个时钟周期读入数据(第 2 行)。随后根据读取的数据字执行合适的语句。因此在 第 5 行中源 MAC 地址的头 16 位被抽取出来,并移位到 MAC_SRC 变量的起始部分。在下一时钟周期中,MAC 地址的其余 32 位抵达总线,然后存入 MAC_SRC 变量的 32 位更高位中。

单系统中顶层模块相似。但包含有三个子模块的较低层模 块使用 INLINE 编译指令来解析函数,将其子模块推送到 顶层,如例 6 所示。 例 6 :Vivado HLS 中的中间模块 1 void module2(stream<axiWord> &inData, stream<axiWord> &outData) { 2 #pragma HLS INLINE 3 4 ………

因此在 Vivado HLS 完成综合后,系统基本如图 3 所 示。这样 Vivado HLS 就能正确地根据这些模块创建数据 流架构,完成模块的流水线化,然后同步执行。在嵌入该 函数后,各模块和信号保持原来的名称不变。 使用高级语言结构 高层次综合的主要优势之一在于可以使用高级语言结 构来表达复杂对象,与传统 RTL 设计相比,显著提高了

‫پ‬Մ஠ਐ ஠ਐۗ ஠ਐნ

ዊ஠ਐ2

ዊ஠ਐ3

ዊ஠ਐ4

图2 - 两级层级设计实例

50

赛灵思中国通讯

2014年第三季度


专家园地

‫پ‬Մ஠ਐ

஠ਐნ

ዊ஠ਐ2

ዊ஠ਐ3

ዊ஠ਐ4

图3 - 解析成流水线化Vivado HLS设计的中间层级

抽象水平。下面的例子是描述一个小型查找表。 例 7 中的代码用于内容可寻址存储器(CAM)类定 义,它使用类对象创建一个表,供存储和恢复上述原型 系统的 ARP 数据。该类有一个私有成员,这个私有成员 是一个由“noOfArpTableEntries”条“arpTableEntry”类 型记录组成的阵列。这种类型属于一种数据结构,包括 MAC 地址、对应的 IP 地址和用于说明该条记录是否包含 有效数据的一个数位。 例 7 :CAM 类定义 1 class cam { 2 private: 3 arpTableEntry filterEntries[noOfArpTableEntries]; 4 public: 5 cam(); 6 bool write(arpTableEntry writeEntry); 7 bool clear(ap_uint<32> clearAddress); 8 arpTableEntry compare(ap_uint<32> searchAddress); 9 };

这个类也包括四种在这个表上运算方法(其中一个是 构造器)。其中的一个,即比较法,用于实现真正的查找 功能。本例通过提供 IP 地址来返回相应的 MAC 地址。处 理的方法是使用“for”循环查找表中的每一条记录,搜索 有相同 IP 地址的有效记录。然后完整地返回这条记录。 如果没有找到,就返回无效记录。为让设计实现 II=1 的 目标,必须完全展开这个循环。

2014年第三季度

例 8 :用于 CAM 类的比较法 1 a rpTableEntry cam::compare(ap_uint<32> searchAddress) { 2 for (uint8_t i=0;i<noOfArpTableEntries;++i) { 3 if (this->filterEntries[i].valid == 1 && searchAddress == this->filterEntries[i]. ipAddress) 4 return this->filterEntries[i]; 5 } 6 arpTableEntry temp = {0, 0, 0}; 7 return temp; 8 }

上述经验和示例明确说明,用户可以使用 Vivado HLS 充分发挥高级编程结构的作用,用类似软件的方法描 述包处理系统。采用 RTL 是难以实现的。 10GBps速率下的协议处理 与传统 RTL 相比,Vivado HLS 可使用 C/C++ 在 FPGA 上迅速方便地实现协议处理设计,充分发挥高级语 言带来的效率提升优势。另外还具有下列优点 :使用 C 函 数轻松完成系统构建 ;数据通过流交换,提供类似 FIFO 的标准化接口 ;灵活的流控制和 HLS 编译指令,便于使 用该工具实现需要的架构。借助这些功能,用户无需重写 源代码就能够迅速判研多种不同设计方案的利弊。 出于解释这类设计的基本概念的目的,上文讨论了一 种能够应答 ping 和 ARP 请求,解析 IP 地址查询的简单 ARP 服务器。结果证明用 Vivado HLS 设计的模块能够以 10Gbp 乃至更高的线速完成协议处理。

赛灵思中国通讯

51


专家园地

FPGA设计中, 时序就是一切 现有的工具和技术可帮助您 有效地实现时序性能目标。

52

赛灵思中国通讯

2014年第三季度


专家园地

作者:Angela Sutton FPGA产品部产品市场营销经理 Synopsys公司 sutton@synopsys.com Paul Owens FPGA产品部企业应用程序工程师 Synopsys公司 powens@synopsys.com

当您的 FPGA 设计无法满足时序性 能目标时,其原因可能并不明显。解决 方案不仅取决于 FPGA 实现工具为满足 时序要求而优化设计的能力,还取决于 设计人员指定前方目标,诊断并隔离下 游时序问题的能力。目前,设计人员掌 握了一些使用技巧,可以帮助您设置时 钟 ;通过 Synopsys Synplify Premier 等工 具正确设置时序约束 ;然后调整参数, 以满足赛灵思 FPGA 设计的性能目标。 有多个攻克角度,其中包括 : ●

更好的设计设置,例如完整、准确的 时序约束和时钟规格 ;

节省时间的设计技术,例如仔细 RTL 编码,以求更佳的性能效果,以及将 造成最大性能问题的设计部件整合在 一起,从而缩短随后调整设计时序的 迭代运行时间。

综合关联,并布局布线时序,以产生 更好的时序结果质量 (QoR) 和时序收 敛。 现在从三个方面详细介绍一下这些

技术,并检测如何使用以实现您的时序 目标。 第一步:更好的设计设置 最大的成本开销来自于指定正确、 完整的设计约束条件。这些约束条件可 以在设计意图和设计性能目标与综合工 具之间实现通信。综合设计之后,这些 约束条件和关键路径信息将自动传递至 Vivado® 设计套件布局布线工具,以进 2014年第三季度

赛灵思中国通讯

53


专家园地

您需要确认已经充分、 完全地对您的设计进行约束, 且未过度约束。 一步确保满足时序要求。

难,因此综合软件可以提供一个初始

定义黑盒输出引脚上的时钟。

综合工具可以帮助您应对设置综

约束模版,其中的基础约束和语法可

定义网络上生成的时钟。

合前约束这项艰巨的任务。您的任务

以作为此项工作的起点。例如,在

不要定义逻辑选通时钟。

清单如下 :

Synplify 综合软件中,运行 TCL 实用

提供正确的时钟约束 :不要过度约

1.

识别时钟

2.

识别并创建时钟组和时钟关系

3.

约束时钟

4.

约束设计输入和输出

5.

定义多周期路径和错误的路径

程序为特定的设计创建一个初始 FDC

束,并确保将不相关的(又称异

文件 :

步)时钟放置在单独的时钟组中。 ●

TCL: create_fdc_template

您需要确认已经充分、完全地对 您的设计进行约束,且未过度约束。 过度约束将导致运行时间延长,并有

图 1 给出了该流程将生成的约束 文件 (.fdc) 的实例。该实例中,您可 以看到声明时钟、时钟组(时钟之间 的关系)和输入 / 输出延迟等关键项 目已经纳入考虑范围。

可能报告错误的关键路径。务必要指

针对 Vivado 设计套件流程中约束设

定多周期和错误路径,并对衍生时钟

置的最佳实践

设置约束 (define_path_delay, define_ false_path)。

在 Vivado 设计套件流程中设置 约束条件时,要确保进行以下操作 :

设置 Vivado 流程的初始约束文件 由于约束条件设置工作非常困

定义时序例外,例如错误路径和多 周期路径。 提示 :在 Vivado 设计套件中,时

钟约束应尽量接近源时钟,而不是赛 灵思 ISE® 设计套件流程中的 BUFG。 确保您的约束条件正确无误 我们建议在设计设置阶段采用 四种约束验证技术。为了让您了解应 该做的约束检查类型,我们来看一下 Synplify 软件执行的各项检查。 首先,运行“语法检查”— 即快

定义输入端口或与输入端口连接的

速进行约束条件检查,其中包括其嵌

网络上的所有基础时钟。

入的“get_XX”和“all_XX”命令,

###==== BEGIN Clocks – {Populated from tab in SCOPE, do not edit) create_clock –name {clock} [get_ports {p:clock}] –period 10 –waveform {0 5.0} ###==== END Clocks - {Populated from tab in SCOPE, do not edit) ###==== BEGIN Inputs/Outputs - {Populated from tab in SCOPE, do not edit) set_input_delay {p:porta[7:0]} 1 –clock {c:clock} –add_delay set_input_delay {p:portb[7:0]} 1 –clock {c:clock} –add_delay … set_output_delay {p:porto[7:0]} .5 –clock {c:clock} –add_delay … ###==== END Inputs/Outputs - {Populated from tab in SCOPE, do not edit) ###==== BEGIN Registers - {Populated from tab in SCOPE, do not edit) … set_clock_groups –disable –asynchronous –name {clock_group} –group {clock} –comment {Source clock clock group} 图1—初始Synplify综合输入约束文件可执行基础时钟设置并满足I/O约束要求。 约束条件将向前注释至Vivado布局布线工具。 54

赛灵思中国通讯

2014年第三季度


专家园地

可以在综合开始时使用以下 TCL 命 令运行约束检查 : TCL: project -run constraint_check 运行这些基本的检查类型可在综 合周期的早期就能找出潜在的错误, 从而改进结果的质量(见图 2)。 运行综合之后,请务必要分析 后期综合时序报告,因为其可以提供 重要的信息。例如在使用 Synplify 软 件时,时序报告的起始时钟部分中的 “系统时钟”显示,一些 I/O 没有被约 束。此报告的接口信息将确认情况是 否如此。 第二步:RTL代码风格和关键路径 调整 为了收敛更好的时序,我们建议 您针对有限状态机、RAMS、数学 / 图2—采用运行语法,综合和约束检查这种方法可以查找约束和时钟设置实验错误, 从而帮助您快速实现时序QoR。

用以发现和清理任何约束语法错误。 错误会显示在日志文件中,并可以超 链接至错误手册,以解释错误并提出 修改建议。使用 Tcl 命令 check_fdc_ query。 第二,运行“综合检查”以检测 与硬件相关的错误,例如错误编写的 触发器。这些错误会以单独的日志文 件报告。 第三,运行基础“快速综合”, 以检查时钟设置问题,包括声明、

可以通过以下命令实现 : set_option –fast_synthesis 1

DSP 功能、时钟树和移位寄存器使 用特定的代码风格。结果将改进时 序 QoR,因为通过 FPGA 原语构建模 块,综合工具能够更好地推断实现。 另外,这些代码风格可以避免创

综合编译器将创建一个综合报

建不必要的逻辑,例如推断锁存器、

告时钟总结,您可以使用其中有关推

RAMS 的读取 / 写入检查逻辑,以及

断时钟的信息用以识别、定义和约束

已经装入 DSP 原语中的逻辑。关于

时钟。

这个话题我们已经谈了很多,使用综

第四,运行全面的“约束条件检

合工具中的核生成器性能是关键考虑

查”。该检查会查找关于时钟关系、

因素。例如,Synplify 软件包含一个

未约束开始 / 结束点、未锁定 I/O 和

SynCore IP 向导,它可以为支持字节

无约束 I/O 的约束设置问题。

的 RAM 自动生成所需的 RTL 代码风

衍生和推断时钟。快速综合支持执行

一个全面的约束检查还会查找正

格。其他 IP 生成器,例如赛灵思 IP

时钟设置检查,因其可生成时钟报告

确应用的约束和实例名称。例如,它

Catalog、Synopsys Synphony Model

和时序报告,进而使时钟设置问题明

会标记出应用于不存在或无效参数和

Compiler 或 Synopsys Design Ware

朗化。

对象的时序约束。然后该工具会针对

coreTools 和 DesignWare Building

一些综合工具可支持在“快速” 不可应用的约束和未找到的实例生成

Blocks,也可以帮助您配置 IP,执行

模式下运行综合,其为了实现较短的

详细的解释性报告,以便纠正约束文

许多 DSP 和数学功能,并创建良好的

运行时间,其会禁用一些综合优化。

件。Synplify 综合工具将在综合预先

RTL 代码风格。如果是手动编码,请

在 Synplify Premier 综合软件中,您

映射阶段自动运行这些检查,或者您

记住以下内容 :

2014年第三季度

赛灵思中国通讯

55


专家园地

图3—使用可以定位时钟树的原理图查看器调试时钟树和时钟约束

针对有限状态机 ●

对于赛灵思流程,启动后请使用 同步复位将硬件设置为有效状 态,或者在操作期间复位硬件。

将时序模块从 combinationalalways 模块中分离。

为所有可能的现态指定次态。

多路复用器。 ●

钟约束

乘法器、除法器等。 ●

PLL 的输入时钟的时序约束会在 PLL 输出针脚上自动生成衍生时

数学函数,例如计数器、加法器、 将 DSP 编码放在单独的模块里,

为了更好地检查时钟约束,可 以在原理图查看器中进行检查。例

如果其他方法均告失败,可以使

如,Synplify HDL Analyst 工具就可

RAM,因为它们一般会以较高的

用属性 (syn_ dspstyle for Synplify

在时钟树上运行过滤器,使您可以

时钟频率运行。

in Vivado Design Suite flows) 强制

观察并调试时钟树和时钟约束(见

将 RAM 编码放置在单独的模块

使用 DSP 模块实现。

图 3)。

在一切可能的地方尽量编码同步

里,以便易于在网表级别进行调

针对 SRL

试。

您可以将移位寄存器装入选择

在决定使用 RAM(带特定复

select_SRL Xilinx SRL 原语或在寄

位条件、支持双端口或字节的

存器中执行。 ●

看是否支持推断。如果不支持, 则网表结束时可能创建较多的控 制逻辑。 请勿从写入相同时钟周期的同一

个地址中读取。

56

相环 (PLL)、时钟生成器或时钟

以便易于在网表级别进行调试。

请看一下推荐的代码风格,并查

重要的时序和更大的 RAM。

您可以使用这些原语执行过滤器和

RAM,或非对称 RAM)之前,

断,因此建议在 RTL 中实例化锁

针对 DSP 模块

针对模块 RAM ●

现,释放 RAM 资源供以用于更

如果其他方法均告失败,可以使

设计的某些部分可能比其他部分对 于时序更加关键,您需要调节并逐 渐改进不执行的部分。有一项技术

封装自动进行。对于移位寄存器

您可以用于在 RTL 和网表阶段实现

链,Synplify 软件始终会将链中

快速调节,那就是将关键路径隔离

最后一个寄存器留在封装 select_

在单个模块或子项目中,然后您可

srl 之外,以便优化时序 QoR。

以不断重复地逐渐改进。另外,您

如果其他方法均告失败,可以使

可以强制 Vivado 布局布线工具将元

用 syn_srl 风格属性来控制 SRL

素紧密放置,从而进一步确保时序

的实现方式。

QoR。综合期间您可针对该模块使

用属性 (syn_ramstyle for Synplify

针对时钟树

software) 强制让使用寄存器实

赛灵思中国通讯

使用模块化以改进关键路径性能

由于在综合期间其不会自动推

用的功能包括 : ●

综 合 之 前 指 定 RT L 分 区 ( 在

2014年第三季度


专家园地

图4—您可以生成时序报告,以便调试设计中的特定节点。

Synplify 软件中,它被称作“编译

们建议您关联后综合和后布局布线的 “更加努力”地满足时序性能的要求,

点”)或者创建分级子项目。

时序结果,尤其是针对时序关键路径

综合之后隔离(导出)为子项目,

上的给定起点和终点的时序裕量。在

时序关联性能的好处是,您可

Synplify Premier 综合软件中,例如您

以从深层次查看引起问题的准确路

可以并排显示后综合和布局布线时序

径,例如改变每个结束点显示的路径

报告,以读取时序结果。

数量。您可以搜索感兴趣的特定时钟

由于设计的部分没有使用层级项 目管理流程执行。迭代、修复和合并 结果。 ●

从而产生更好的关联和 QoR。

关联工具可并排对比结束点、起

或实例,并显示他们的时序路径。此

使综合软件与 Vivado 布局布线工

始点和所需阶段的状态。根据终点时

外,还可以对时钟进行比较和显示,

具实现通信,将关键路径放置在多

钟报告路径。而在指定“时序裕量” 以进一步帮助时序关联(见图 5)。

个 SLR 设备的同一个层级内,例

条件中前后布局布线时序没有关联好

您可以看到,您需要完成一些步

如 Virtex -7 2000T FPGA,以避免

的路径将标记为“关联不匹配”,以

骤并需要在 Vivado 设计套件流程中

跨 SLR 延迟。

便您采取措施。典型的措施是针对综

花一些时间,才能实现更好的时序性

合工具指定所谓的“布线”约束,

能。我们所述的方法可以及早发现时

其仅在综合阶段加强时序路径约束。

钟约束设置问题,同时还可以提供各

例如 :

种技术以调节和关联设计和 RTL 中的

®

第三步:实现最终时序收敛 一般时序可以在综合后和布局布 线后报告(见图 4)。例如,Synplify 软件支持使用 TCL 命令报告感兴趣 的设计特定部分 (report_timing)。 为了进一步改进时序 QoR,我

FDC 约束输入文件至综合 : set_clock_route_delay {c:clka} 1.4

时序,以快速实现时序收敛。 如欲了解更多详情和实例,敬请 访问 http://www.synopsys.com/ fpga 。

这些约束使综合在这些路径上

图5—时序关联报告支持比较时序不匹配后期综合和后期布局布线、并排显示和过滤路径时序结果和时钟。 2014年第三季度

赛灵思中国通讯

57


出色的工具

NI系统级模块 加速创新产品上市 作者:Eric Myers 产品经理 美国国家仪器公司 eric.myers@ni.com

基于 Zynq SoC 的 NI SOM 经过广泛 的测试与验证,并配有完整的软件 协议栈。

58

赛灵思中国通讯

2014年第三季度


出色的工具

嵌入式设计团队肩负着处理众多 棘手问题的重担。他们需要跟上最新 技术并提供众多新功能以保持竞争优 图1 — 基于赛灵思Zynq SoC的NI sbRIO-9651系统级模块 外形尺寸可定制并提供完整的软件协议栈。

势 ;同时,对于每个新项目他们还要 更少的资源更快速地实现上述目标。 这就给需要采用传统方法实现快速开 发的设计团队施加了巨大压力。 然而,传统设计方法难以实现

入式设计所需的多种组件,如赛灵思 ®

SoC 与 RAM 和存储器等辅助组件

快速创新。事实上,这些方法经常

Zynq -7000 All Programmable SoC 等

整合在名片大小的 PCB 板上(图

导致错过最终交付期限。根据 UBM

处理组件以及存储器等通用组件。此

2)。Zynq SoC 集成了 667MHz 双

的“2013 年嵌入式市场调查”统计,

外,一些系统级模块配有完整的软件

核 A RM ® Cortex ™ -A9 处理器和

57% 的嵌入式项目不能按时交付或是

协议栈,因此无需开发成本高昂的驱

Artix®-7 FPGA 架构。这些组合在一

被取消。

动器、中间件和 OS。这样嵌入式设

起共同构成了现成产品中用以解决当

这些团队有可能通过添加资源的

计人员就可以利用 SOM 为特定应用

今众多嵌入式挑战的基本组件。

方式来辅助管理软件等高投资项目。

灵活定制系统,比如添加特定 I/O、

在产品开发的初期阶段,嵌入式

但是,管理人员还承担着保持和提高

外设和封装。采用现成硬件设计保持

团队的任务是选择并整合所有这些组

项目盈利能力的责任。由于需要平衡

灵活性,能够让设计团队在应用开发

件。虽然这些产品规范对于设计具有

创新与盈利能力,很多设计团队正在

上先人一步,同时还可减少整体开发

重要意义,但给最终产品带来的差异

转向采用新的嵌入式系统开发方法。

时间和风险。

很小。相反,这些任务通常会增加很

比起从头开始开发产品,越来

最近推出的 NI sbRIO-9651 系统

多风险,例如电路板反复设计。通过

越多的设计团队开始使用现成的组件

级模块提供可定制的 SOM(图 1)。

使用经过广泛可靠性测试的现成硬件

以帮助加速设计进程。这些组件中最

该产品可提供经过全面验证的软件

产品,嵌入式团队可以节省设计时间

极富吸引力的组件就是系统级模块

组件,能节省更多设计时间并进一

并降低项目风险。

(SOM)。根据 IHS 的“2012 年全球嵌

步降低风险,同时还可提供用来对

可靠性要求表现不一,而且对每

入式计算机板卡与模块市场分析”的

FPGA 进行编程的简单的硬件描述语

种应用都有独特要求(参见本期杂志

数据显示,SOM 预计将在 2010 至

言 (HDL) 替代方案。

中“设计可靠性 :MTBF —— 这只是

2016 年间实现 17.5% 的复合年增长 率,其次是单机板,增速达 9.3%。 系统级模块(SOM)可提供嵌

2014年第三季度

开始”一文)。可靠性可能涉及到从 洞悉硬件 NI SOM 将赛灵思 Zynq-7020

长期部署的正常运行时间到在特定环 境中的运行能力等方方面面。NI 长

赛灵思中国通讯

59


出色的工具

Specifications Processor SoC Xilinx Zynq-7020 667-MHz Dual-Core ARM Cortex-A9 Artix-7 FPGA Fabric

Size and Power 50.8 mm x 78.2 mm (2 in. x 3 in.) Typical Power: 3 W to 5 W

Dedicated Processor I/O Gigabit Ethernet, USB 2.0 Host, USB 2.0 Host/Device, SDHC, RS232

接器。许多芯片厂商均提供从简单

触发。对于控制系统,您还可以直接

模拟 I/O 到立体声功率放大器等各种

在 Zynq SoC 的可编程逻辑中运行高

PMOD 模块。

级控制算法,以最小化时延并最大化 回路速度。

验证过的完整中间件解决方案

NI LabVIEW 系统设计软件可提

NI SOM 还将经过验证的板级

供图形化开发环境,该环境包括数千

支持包 (BSP)、设备驱动程序与 NI

个用于构建处理器和 FPGA 的功能

Linux Real-Time 操作系统完美集成

模块和 IP 模块。LabVIEW FPGA 对

在一起(图 3)。这些开箱即用的软

Lab-VIEW 图形化开发平台进行了延

件组件能够为以太网或 USB、存储

伸,可提供一种能够简化 I/O 接口连

Memory

器等组件的接口以及处理器与 FPGA

接和数据通信任务的 HDL 编程替代

Nonvolatile: 512 MB DRAM: 512 MB

之间的通信接口等外设提供支持。

方案,极大地提高了嵌入式系统设计

Operating Temperature

NI Linux Real- Time 集实时操作系

的生产力并缩短了产品上市时间。

-40 ˚C to 85 ˚C Local Ambient

统 (OS) 的卓越性能和 Linux 的通用

LabVIEW FPGA 提供由 NI 和赛

性和开放性于一身。软件开发人员能

灵思共同开发的 IP,用以实现计数器

够借助庞大的 Linux 社区扩大实时应

等基本功能,或视频解码和复杂运动

用,同时保持确定性操作。此外,NI

控制等更高级算法。经验丰富的 HDL

Linux Real-Time 还提供一条路径供 C/

开发人员能够利用 IP Integration Node

C++ 和 Lab-VIEW Real-Time 应用与

导入并重用已有代码。此外,该软件

可编程 FPGA 进行通信,因此在处理

还集成了 DMA 引擎,用来实现处理

器编程方面实现了更大的灵活性。

器与 FPGA 架构间的数据传输。

FPGA I/O 160 FPGA I/O Pins Configurable Peripherals: Gigabit Ethernet, RS232 x3, RS485 x2, CAN x2

图2 — NI SOM将Zynq SoC和辅助组件整合在 名片大小的模块中。

根据 UBM 的“2013 年嵌入式市 场调查”统计,软件开发占用了嵌入

利用COMPACTRIO实现快速原型设

期以来一直将精力重点放在验证与确

式项目 60% 以上的资源。开发人员

计进程

认上,以提供高质量产品。因此,我

通常必须提供中间件、固件、嵌入式

根据定制设计构建原型时,在

们的嵌入式控制器平台 CompactRIO

OS 和应用软件等组件,这就需要对

开发初期阶段通常需要花费数月时间

被部署在各种关键应用领域,例如医

开发、测试和调试进行大量投入。与

来集成组件和 I/O,然后才能对应用

疗设备、石油和天然气油田等严苛环

硬件类似,NI SOM 的软件同样经过

软件进行验证。尽管现成的标准产品

境以及智能电网应用等长期部署。NI

了大量的验证与确认过程,例如针对

能够加速概念验证进程,但随后设计

SOM 延续了这一趋势,并进行了多

所有外设的应力测试。NI SOM 可提

团队不得不从头做起,原因在于他们

项验证,例如针对电气、冲击和振动

供验证过的 BSP、设备驱动程序和实

在最终部署时无法重用任何一个代

的仿真与测试,以及热机械测试。

时 OS,从而有助于助设计团队最大

码。但借助 CompactRIO 控制器和 NI

新产品的开发套件包括带有多

限度地缩短开发时间和降低风险。这

SOM,设计团队在进行最终部署时就

种外设(千兆位以太网 x2、USB 主

样一来,设计团队便可集中精力实现

可以快速实现原型设计并重用他们的

机、USB 设备、SD、RS-232x2、RS-

关键特性,如集成特定 I/O 或开发定

大部分代码。

485、CAN)的参考设计载板,并提供

制算法和应用软件。

可将这些外设集成到定制载板设计中 的设计文件。此外,参考设计载卡还

60

CompactRIO 控制器和 NI SOM 均采用 LabVIEW RIO 架构。该架构

FPGA应用软件

包含三个均可由同一软件工具链进行

提供一个用来与特定芯片组进行通信

采用可重配置的 FPGA 技术,便

编程的组件,这三个组件包括 :用于

的数字原型设计区域,以及四个有助

可执行高速信号处理、高速或确定性

通信和处理的嵌入式控制器 ;用于高

于加速 I/O 选择与集成的 PMOD 连

控制、内联信号处理以及定制定时与

级控制、数字通信协议、时序、信号

赛灵思中国通讯

2014年第三季度


出色的工具

处理和滤波的 FPGA ;用于连接任意

说都是不可或缺的,NI SOM 会对其

传感器或器件的 I/O。除了这三个组

进行全面管理。同样,NI SOM 也能

件,CompactRIO 控制器还提供一个机

简化许多其它常见设计任务。例如,

械封装和 100 多个 C 系列 I/O 模块。

它提供了一个集成式散热器,可简化

这样设计团队无需开发定制硬件,便

散热解决方案的机械设计,并提供针

可立即着手开发他们的应用软件,从

对热验证的单一触点。

Xilinx 荣膺 2014 EDN 创新 奖十周年双项大奖

“ 创 新 奖 1 0 周 年 :杰 出 产 品 表 现 奖”和“影响未来的十大创新技术”两大

借助 NI SOM,设计团队可以

奖项,高度肯定了 2005 年至今十年间赛

在建立原型设计后,NI SOM 可

信心十足地确保按期交付嵌入式项

灵思公司在可编程领域的创新领导者地位

重用大部分代码,从而让设计团队能

目,同时保持甚至提高盈利能力。

中国北京,2014 年 7 月 1 日 -

够集中精力从定制载板集成 I/O,而

Optimedica 是一家位于加利福尼亚的

不用再次重新开发应用软件。

医疗器械公司,该公司正在使用 NI

而显著缩短原型设计所需的时间。

SOM 开发他们的新一代白内障手术 减少开发时间和风险

用高精度激光系统。Optimedica 创始

All Programmable 技术和器件的全 球领先企业赛灵思公司(Xilinx, Inc. (NASDAQ:XLNX))今天宣布其荣膺 2014 EDN 中国创新奖评选两项大奖 :其一是 赛灵思全可编程 SoC (All Programmable

由于整合了经过全面测试和验证

人 Mike Wiltberger 表示 : “NI SOM 将

的硬件设计以及完整的中间件解决方

会极大地提高我们项目的盈利能力。

术”大奖,其二是赛灵思公司品牌凭借

案和嵌入式操作系统,因此 NI SOM

与其它替代方案相比,它可以为我们

2005 年至 2014 年 EDN-China 创新奖 10

能为设计团队节省大量开发时间,并

节省六个月的开发时间,而且如果使

周年期间在可编程器件领域整体产品上的

帮助他们加速创新产品上市进程。支

用其它方案,我根本无法按我们的报

创新优势,荣获“创新奖 10 周年 :杰出产

持外设的 BSP、存储器和 RAM 连接

价构建出这样的系统。。”

品表现奖”。赛灵思亚太区销售与市场副

以及处理器与 FPGA 之间的通信线路 等诸多常见任务对每个嵌入式项目来

如需了解更多详情,敬请访问 : ni.com/som。

SoC) 技术荣获“影响未来的十大创新技

总裁杨飞先生以及赛灵思亚太区 Zynq 业 务拓展经理罗霖先生于 2014 年 6 月 26 日 在上海浦东假日酒店举办的创新奖颁奖典 礼上接受了上述两项大奖。 为赛灵思颁发“创新奖 10 周年 :杰

LabVIEW and Middleware Application Software

出产品表现奖”的 EDN-China 杂志总分

1,000 Graphical Programming Functions

析师张毓波先生表示 : “作为 EDN-China 创新奖十周年的重要奖项,今年创新奖的 目标是表彰那些在历届 EDN-China 创新

Driver API

Device Drivers

Easy-to-Use I/O API Libraries Prebuilt Thread-Safe, Low-Level Drivers

奖评选中获奖最多的企业,以及对电子产 业未来有重要影响的技术。恭喜赛灵思以 其在 All Programmable 产品和技术上的领 导地位,同时荣获‘十大影响未来的创新 技术’及‘杰出产品表现奖’。”

Operating System

“ 创 新 奖 1 0 周 年 :杰 出 产 品 表 现

NI Linux Real-Time

奖”用以表彰从 2005 年到 2014 年,在历 届创新奖的各类评选中获奖次数最多的企

Board Support Package (BSP)

Ready to Run Out of the Box

业。"EDN China 创新奖 " 已经成功举办了 十届,从公开的获奖历史看,从 2006 年 至今,赛灵思可编程技术共获得了 13 项

NI RIO Embedded Hardware (CompactRIO, NI Single-Board RIO)

Industry-Leading Silicon

大奖,其中包括五项“最佳产品奖”,获 奖产品包括了赛灵思历代创新产品,其 中包括 Virtex® FPGA, Kintex®-7 FPGA,

图3 – NI SOM将业经验证的板支持包(BSP)和设备驱动程序 与NI Linux Real-Time操作系统集成。

2014年第三季度

ISE 设计套件,Vivado® 设计套件,以及 Zynq®-7000 All Programmable SoC 等。 赛灵思中国通讯

61


号外,号外

Vivado 2014.2版本的 最新消息 提高工作效率。本文将介绍赛灵思设计工具的当前最新更新

VIVADO设计套件:设计版本 升级

情况,其中包括为加速赛灵思 All Programmable器件设计而

部分重配置

构建的以IP及系统为中心的全新一代革命性创新型设计环境

进一步扩大了器件对部分重配置功能

Vivado 设计套件。如欲了解有关Vivado设计套件的更多信

的支持,包含两款最小的 Artix-7 器

息,敬请访问:china.xilinx.com/vivado。

件 :7A50T 和 7A35T。

通过产品升级,赛灵思设计工具的功能将得到显著增强并新

赛灵思PCIe IP的串联配置

赛灵思不断改进其产品、IP和设计工具,努力帮助设计人员

®

增一些新特性。保持及时更新升级是确保实现最佳设计结果 的简单方式。 Vivado设计套件2014.2版本可从赛灵思下载中心下载: china.xilinx.com/download。

增加了对 Zynq SoC 7Z100 器件的支 持。如需了解更多信息,敬请查看 PCI Express® IP 产品指南 PG054(针 对 Gen2 PCIe ® IP)或 PG023(针对 Gen3 PCIe IP)。 Vivado IP 流程和 Vivado IP Integrator

VIVADO设计套件2014.2版本亮点 Vivado设计套件2014.2版本包含对Virtex® UltraScale™器件的扩展支 持,并进行了全新优化以提高性能。

在生成阶段运行的一系列 DRC 被移 到了 validate_bd_design 步骤,以便在 流程中更早地捕捉到这些问题。

Vivado物理实现工具 器件支持

为改善运行时间,布局布线时序总结

支持以下生产就绪型器件:

的默认行为已改变。在 2013.4 版本

中,布局器和布线器都在日志中根据

军用级Artix®-7Q:XQ7A50T

• 军用级Zynq®-7000 SoC:采用XQ7Z045和RF900封装

静态时序引擎的验收时序给出具有最

• XA Zynq®-7000 SoC:采用XA7Z030和FBG484封装

差负时序裕量 (WNS) 的时序总结。从 2014.1 版本开始,布局器和布线器不

常规使用 •

Virtex UltraScale:XCVU065、XCVU080、XCVU095和XCVU125

早期试用

VIVADO设计套件:系统版本 升级

(请联系您当地的赛灵思销售代表)

DSP系统生成器

• Kintex® UltraScale SSI器件:XCKU100和XCKU115

该工具现具有更高的仿真性能。

• Virtex UltraScale器件:XCVU160和XCVU440

62

再默认报告验收时序。

赛灵思中国通讯

Waveform Viewer 转换时间缩短了

2014年第三季度


90%,同时系统生成器模块的初始化

库称为赛灵思 Tcl 商店,能够更加方

速度也提升 50%。此外,赛灵思将带

便地找到并共享其他工程师已经开发

有多个 FFT 及其它复杂 IP 的模型的

出的 Tcl 脚本。这些脚本可凭借强大

仿真初始化时间缩短 80% 之多。

的 Tcl 代码扩展 Vivado 设计套件的 众多核心功能,进而提高生产力和易

新型快速 MCode 模型将 MultAdd 的

用性。Tcl 商店对用户社区开放,可

性能大幅提升 90% 以上。此外,赛灵

用来发布可能对其他人有用的 Tcl 代

思还将 WinPCap 升级至 4.1.3 版本,

码,有助于为所有设计人员带来更大

以便在 Windows 8.1 中实现以太网硬

福音。

件协同仿真支持。最后,该工具还对 模块库进行了升级。

赛灵思 Tcl 商店提供各种实例,比如 如何编写定制报告,控制特定工具行

如需了解更多信息,敬请查看 Vivado

为,制作定制网表变更,以及如何集

设计套件 2014.2 版本说明。

成第三方电子设计自动化 (EDA) 工具 (诸如仿真、综合、时序与功耗分析

ULTRAFAST设计方法 借助 UltraFast ™解决方案,赛灵思推

和 linting 工具)。Tcl 商店允许用户从 Vivado 集成设计环境 (IDE) 中进行本 机访问,因此用户能够直接在工具内

出了可编程行业首款综合设计方法。

选择和安装 Tcl 脚本集(即“app”)。

赛灵思精心挑选出专家的最佳实践,

安装后,这些 app 的指令看起来就像

并将其整合为一套面向 Vivado 设计套

是内置的 Vivado 设计套件命令。

件的权威方法指南。 如需了解有关赛灵思 Tcl 商店的更多 第二版“UltraFast 设计方法指南”扩 展了对 UltraScale 架构的支持,新增 了时序约束向导以实现快速时序收

信息,敬请观看 QuickTake 视频。

敛,并包含最新的最佳实践方法,例

VIVADO快速入门教程

如:

Vivado 设计套件快速入门视频教程是 介绍 Vivado 设计套件内在特性与功能

• 设计方法 DRC

的示范视频。最新内容包括 :设计流

• 修订控制

程简介 ;时序约束向导的使用 ;赛灵

• IP 和 IPI 方法

思 Tcl 商店 ;结合使用 Vivado 和赛灵

• 仿真(包括第三方流程)

思评估板 ;以及封装定制 IP 以便与 IP

• 验证

Integrator 结合使用。

• Vivado HLS(高层次综合) • 部分重配置

在此观看所有快速入门视频。

赛灵思TCL商店

VIVADO培训

赛灵思托管了一个用于共享工具命令

如需了解有关 Vivado 设计套件的讲师

语言 (Tcl) 代码的开源代码库,进一

指导的培训课程,敬请访问 :china.

步大幅提高设计人员生产力。该代码

xilinx.com/training。

2014年第三季度

赛灵思中国通讯

63


实例 ...

应用指南 如果您希望进一步了解我们的FPGA如何适用于众多应用, 建议您阅读以下应用指南。

XAPP1206:利用NEON提高ZYNQ-7000 AP SOC上的软 件性能 http://china.xilinx.com/support/documentation/application_ notes/xapp1206-boost-sw-performance-zynq7soc-w-neon.pdf 一般来说,CPU需要一个接一个地执行指令和进程数 据。设计人员通常使用高时钟频率来实现高性能,但是半

赛灵思UltraScale™器件中的I/O逻辑是指位于I/O缓 冲器和通用互联之间的专用I/O处理组件。相对此前器件 系列而言,UltraScale器件中的I/O逻辑设置可提供更快速 的I/O处理、更低的抖动以及更多的功能。但是,它省略 了7系列和Virtex®-6 FPGAI/O逻辑中的一些可用功能,如 Bitslip。

导体技术在此项技术上存在极限。并行计算是下一个提

由Marc Defossez撰写的本应用指南介绍了在通用互联

高CPU数据处理能力的典型策略。单指令多数据(SIMD)

中实现的可用在UltraScale器件及此前器件架构中的Bitslip

技术使得在一个或几个CPU周期内处理多个数据成为可

解决方案。本参考设计实现了Bitslip功能,并通过若干附

能。NEON是赛灵思Zynq®-7000 All Programmable SoC所

加选项扩展了基本功能。

采用的双核ARM® Cortex™-A9处理器中的高级SIMD引

Bitslip参考设计执行的功能与7 系列和Virtex-6 FPGA

擎。NEON专门用来对大数据集进行并行数据计算,有效

的ISERDES中嵌入的固有Bitslip功能相同,但是,该参考

利用该技术可以提高设计的软件性能。

设计提供的一些额外选项是基于7 系列和Virtex-6 FPGA器

在本应用指南中,作者Haoliang Qin介绍了四种利用

件的解决方案中所没有的,因而超越了后者。当这个设计

Cortex-A9处理器内核上的NEON 提高软件性能和缓存效

中的功能需要用在7系列或Virtex-6 FPGA设计中时,必须

率的方法,这四种方法分别是:优化汇编码、使用NEON

使用通用互联。因此,Bitslip参考设计可满足先前器件系

intrinsics、使用针对NEON优化的函数库以及使用针对

列中Bitslip的要求和目标。

编译器优化的自动向量化。此外,他还详细介绍了改善 CPU、缓存和主存储器之间数据交换的方法。 软件优化是一个复杂的话题。Qin表示,要实现最佳 硬件性能,必须同时使用所有这些技术,并在它们之间取 得最佳平衡。

XAPP1208:逻辑中的BITSLIP http://china.xilinx.com/support/documentation/application_ notes/xapp1208-bitslip-logic.pdf

XAPP1203:在ZYNQ-7000 AP SOC上实现信号处理IP, 以对XADC采样进行后处理 http://china.xilinx.com/support/documentation/application_ notes/xapp1203-post-proc-ip-zynq-xadc.pdf 本应用指南是白皮书《在赛灵思All Programmable器 件中有效实现模拟信号处理功能》(WP442)的后续配套 文章,给出了简单易用的设计流程,以便利用赛灵思All Programmable抽象在赛灵思FPGA和All Programmable SoC

64

赛灵思中国通讯

2014年第三季度


中实现模拟信号处理功能。作者Mrinal J. Sarmah和Cathal

出和附加的IP核驱动。

Murphy在书中详细描述了如何利用白皮书中介绍的概念在 Zynq-7000 All Programmable SoC上轻松构建信号处理IP核 与完整的混合信号系统。 本应用指南演示了如何对来自模数转换器的采样进 行后处理,以便以低成本方式滤除环境噪声。所用的设计

该设计采用AXI性能监视器内核捕捉性能数据。所有 4个AXI视频DMA内核都通过AXI互联连接到4个独立的HP 接口,并受Cortex-A9处理器的控制。该系统使用70%的存 储器控制器带宽。该参考设计适用于Zynq SoC ZC702评 估板。

模块是基于DSP模块(支持标准AXI接口)的轻量级解决 方案。读者可在他们自己的设计中重用这些IP核,并作为 XADC采样的后处理方法。基于Vivado® IP Integrator的设计 流程可在基于原理图的环境下简化重用过程,使设计人员

XAPP1091:在KINTEX-7 FPGA中实现实时视频引擎2.0 http://china.xilinx.com/support/documentation/application_ notes/xapp1091-k7-RTV-Engine-2-0.pdf

在该环境下不必处理底层RTL。 在广播视频领域,不同格式的视频内容流经过采集、 XAPP1205:利用ZYNQ-7000 ALL PROGRAMMABLE SOC和IP INTEGRATOR设计高性能视频系统 http://china.xilinx.com/support/documentation/application_ notes/xapp1205-high-performance-video-zynq.pdf

处理、分配和使用等不同操作。为了正确存档、分配和显 示内容,视频信号经常需要通过适当的格式转换进行正 确处理。例如,为了在全高清(FHD)LCD屏幕上正确显示 NTSC/PAL信号,必须执行一系列去隔行、缩放、色度上 采样、颜色校正以及α混合操作。

对于赛灵思Zynq-7000 All Programmable SoC这样的 高端处理平台,客户希望充分利用器件中的处理系统(PS) 和可用的定制外设。针对该理念的实例为一种具有多条视 频流水线的系统,其中,在处理器访问存储器的同时, 可将现场视频流写入存储器(输入),将存储器的内容 送到现场视频流(输出)。由James Lucero和Bob Slous撰

本应用指南利用最新的赛灵思Kintex®-7 FPGA架构提 供真正可扩展的视频处理器参考设计,以满足多数据流/ 多流水线视频处理需求。作者Bob Feng和Kavoos Hedayati 针对的是多画面监控器显示器、视频开关和多通道视频路 由器以及多数据流上变频器和下变频器等应用。

写的本应用指南涵盖相应设计原则,以便从Zynq SoC存 储器接口、可编程逻辑(PL)中实现的AXI主接口以及ARM Cortex-A9处理器中获得高性能。. 对于视频流,最差情况时延要确保不丢失或破坏数据

XAPP1095:在赛灵思ZYNQ-7000 ALL PROGRAMMABLE SOC中实现实时视频引擎2.1 http://china.xilinx.com/support/documentation/application_ notes/xapp1095-zynq-rtve.pdf

帧。为了在PL中提供具有更低时延的高速AXI主接口,并 直接访问Zynq-7000 SoC存储器接口,需要连接到高性能

另一个以视频为导向的应用指南利用最新的Zynq-

(HP)接口。Zynq SoC包含四个HP接口,均为针对高吞吐

7000 All Programmable SoC架构提供真正可扩展的视频

量而设计的64位或32位AXI3从接口。

处理器参考设计,以满足多数据流/多流水线视频处理需

该设计使用四个AXI视频直接存储器访问(VDMA) 内核同步移动8个视频流(4个发送视频流和4个接收视频 流),所有视频流均为1920 x 1080p格式,60Hz刷新率, 每像素多达24个数据位。每个AXI视频DMA内核均采用 视频定时控制器(VTC)内核建立必要的视频定时信号,内

求。此外,它还提供用以创建差异化内容的图形渲染功 能。该设计针对的是多画面监控器显示器、视频开关和 多通道视频路由器以及多数据流上变频器和下变频器等应 用。 作者Bob Feng表示,他们的目标是提供针对多种视频

核由视频测试模式发生器(TPG)驱动。每个AXI视频DMA

应用的高度可论证的广播质量视频处理参考设计。实时

内核读取的数据被送到一个共用的视频屏幕显示(OSD)内

视频引擎参考设计2.1版本(RTVE 2.1)可提供一种在Linux

核,该内核可将多个视频流多路复用或重叠为单个输出视

v3.3下使用API的图形渲染平台,具有Qt图形环境并可执

频流。板载HDMI视频显示接口由视频屏幕显示内核的输

行可扩展的视频处理功能。

2014年第三季度

赛灵思中国通讯

65



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.