高频交易系统核心剖析·第四篇：FPGA 卡在高频交易系统中的应用

背景与意义

在高频交易（HFT）对“行情‑决策‑下单”这一链路的实时性要求极高，微秒甚至纳秒级的迟滞都会影响策略能否抢占先机。传统的 CPU+操作系统+网络协议栈在处理大规模市场数据和复杂交易逻辑时，会受到上下文切换、中断和缓存未命中等因素的影响，其延迟水平通常在几十到几百微秒，这在 HFT 环境中已经难以满足。因此，越来越多的交易机构开始在网络卡、交换机甚至主机内部采用 FPGA（现场可编程门阵列）来完成行情解码、订单簿(order book)构建、风险检查乃至简单交易逻辑。FPGA 通过硬件级并行流水线实现确定性极低延迟，能够将处理时间从微秒级压缩到纳秒级。

应用场景

行情解码与订单簿(order book)构建

交易所的行情数据通常采用 ITCH、FAST 或 SBE 等紧凑二进制协议，需要实时解包、增量订单簿(order book)更新和过滤。传统软件解码在内核协议栈上运行，即便启用了 DPDK/Onload 等旁路技术，单包解码延迟仍在几个微秒。FPGA 可以将解包和订单簿(order book)构建做成完全硬件流水线：

数据拆分/扇出：Arista 的 7130 系列 L1 交换机提供 5 ns 级行情扇出延迟，比传统 L2 交换机 350 ns 延迟快近两个数量级。
行情聚合/多路复用：Arista 的 MetaMux IP 内核将多个行情流按符号聚合，平均延迟小于 45 ns，最短可达 39 ns。
订单簿(order book)构建：FPGA 卡内部可用 URAM/BRAM 实现行情更新管线，在数十纳秒内完成单一符号的买卖盘更新，并输出到用户态 DMA 环。STAC 测试报告中，集成 FPGA 的网络设备将全链路延迟从 2012 年的约 720 ns 降低到 2018 年的 16 ns。

预交易风控与简单策略

HFT 策略需要在发送订单前进行价格带宽检查、自成交防范、仓位控制等合规风控。CPU 上的风控代码执行时间通常在几十微秒，会增加抖动。而 FPGA 可将这些简单判断逻辑下沉至硬件：

订单聚合与过滤：在 Arista 7130 FPGA 交换机中，订单聚合操作约 45 ns，相比传统软件聚合的数百微秒有巨大的优势。
跨 FPGA 数据传输：Arista 的 MMP IP 核支持 8 ns 的 AXI 流穿越多个 FPGA，用于快速转发订单或共享市场数据。
触发条件与 FIX 加速：AMD 与 LDA 联合推出的 Tick‑to‑Trade 方案在 FPGA 内实现 CME MDP3 行情解码、订单触发和 TCP/FIX 加速，STAC 基准测试的端到端 Tick‑to‑Trade 延迟不到 25 ns。

Layer‑1 交换与网络时间戳

此外，FPGA 还被用于替代传统交换机，实现 Layer‑1 切片与旁路，进一步压缩延迟：

扇出／扇入：Layer‑1 交换机将一个行情端口复制到多个下游，延迟仅 5 ns，比 L2/3 交换机降低约 300 ns。
网络聚合与过滤：STAC 演示中不同网络操作组合（扇出、预处理、聚合）的总延迟小于 200 ns。
硬件时间戳：FPGA 卡内可集成 PTP/SyncE 时钟与时间戳逻辑，实现皮秒级精度，为延迟测量和同步提供基础。

性能对比：CPU/软件 vs FPGA

为了定量分析 FPGA 的优势，下面列出几种典型场景的延迟对比（数字取自公开测试报告）：

场景	软件/CPU 堆栈延迟	采用 FPGA 方案	性能提升
行情解码+订单簿构建	DPDK/PF_RING 约 9 µs；Linux 内核栈 15–80 µs (满载时 >1 ms)；传统 UDP 栈约 95 µs。	扇出+聚合平均延迟 5–45 ns，完全流水线的 Tick‑to‑Trade 平台延迟 <25 ns。	从几十微秒压缩至几十纳秒，提升约 100–1000 倍；抖动极低。
预交易风控与订单生成	Onload/DPDK 等内核旁路仍有 3–5 µs 以上延迟；常见软件风控耗时可达几十微秒。	订单聚合和风险检查 <45 ns；Delegated Send 技术使 Tick‑to‑Trade 延迟 <25 ns。	性能提升约 100–1000 倍，且硬件执行提供可预测性。
整体 Tick‑to‑Trade 路径	传统系统 >300 µs；优化软件和内核旁路后，HTTP 等任务仍在 150–350 µs。	STAC T0 基准测试可低于 25 ns；Arista 集成架构可达 16 ns；LDA/Solarflare 平台约 98 ns。	完整链路延迟降低约 3–4 个数量级，抖动降低到纳秒级。
网络转发/交换	L2/L3 网络交换机端到端延迟约 350 ns，层级复杂且抖动大。	Layer‑1 FPGA 交换机的扇出和聚合分别仅需 5 ns 和 45 ns，组合延迟 <200 ns。	延迟减少 2–4 倍，且能在硬件中进行行情复制和过滤，减轻上层负载。

此外，传统网络堆栈往往需要系统调用和内核调度，吞吐量受制于内核的 1 M PPS 限制；DPDK 等内核旁路方案虽然将吞吐提升到每秒数百万包，但需要持续轮询 CPU，导致核占用 100%。FPGA 通过硬件并发处理无需轮询，不仅延迟更低，也降低了 CPU 负载。

使用 FPGA 的优势与挑战

优势：

纳秒级确定性延迟：FPGA 用硬件逻辑而非序列指令执行任务，使行情解析、风控和订单生成的单笔延迟进入几十纳秒区间；其延迟分布紧凑，抖动远低于 CPU。
硬件级并行与低抖动：多个市场数据流可同时处理，消除 CPU 上由于队列排队和上下文切换造成的排队延迟。
灵活可编程：现代 FPGA 平台如 AMD Alveo UL3422 通过硬件 IP 和 HLS 工具支持 C/C++ 开发，可在数周内交付定制策略。
成本效益与生态成熟：与 ASIC 相比，FPGA 开发周期短、可反复修改，且市售卡价格低至几千美元。生态中已形成多家供应商（如 Arista、LDA、Magmio）提供预构建的行情解析与风控 IP。

挑战：

开发复杂度：需要硬件描述语言或 HLS，调试难度比纯软件高，常需专业团队。
灵活性受限：FPGA 逻辑虽可重新配置，但实时更改不如软件自由；复杂策略仍需要 CPU 配合实现。
功耗与散热：高性能 FPGA 卡功耗较高，需要考虑机柜电力和散热；部分板卡价格和功耗接近高端服务器。

综合总结

FPGA 在高频交易系统中的核心作用，是将原本在 CPU 上耗时几十到几百微秒的行情解码、风控和订单生成等操作，下沉到硬件逻辑流水线中完成，延迟缩短到几十纳秒，抖动显著减少。

资料显示：

解码与订单簿(order book)构建：FPGA 扇出与聚合延迟分别约 5 ns 和 45 ns，远低于软件解码的微秒级；集成 FPGA 的 Layer‑1 交换将网络延迟从 720 ns 降至 16 ns。
完整 Tick‑to‑Trade：AMD 与 LDA 方案在 STAC 基准测试中实现不足 25 ns 的 tick‑to‑trade，而传统优化软件方案仍需数百微秒。
风险检查与订单发送：硬件聚合与风险检查约 45 ns；FPGA 加速的 FIX/TCP 发送进一步缩短时间，使总体增益达到两个数量级以上。

随着交易策略复杂度提升与市场竞争加剧，FPGA 技术已从“小众工具”走向“行业主流”。在硬件平台不断更新和 HLS 工具成熟的驱动下，FPGA 已成为 HFT 系统实现极致速度的重要武器。但它并非银弹，仍需与软件策略和内核旁路技术协同，权衡开发成本、灵活性和功耗，才能构建稳健、高效的超低延迟交易平台。