Skip to content

Marina: Realizing ML-Driven Real-Time Network Traffic Monitoring at Terabit Scale

发表期刊:IEEE Transactions on Network and Service Management
发表时间:27 March 2024
DOI:10.1109/TNSM.2024.3382393

1 背景与动机

随着网络中用户、设备与应用数量的爆炸性增长,传统的网络监控系统(如 NetFlow、sFlow)因统计粒度粗、延迟大、抽样不准,难以满足运营商对高性能和高安全的实时可视化需求。

特别是在加密流量成为主流的当下,深度包检测(DPI,Deep Packet Inspection)受到极大限制。为了填补可视化空缺,机器学习驱动的网络智能监控逐渐成为新的趋势。

2 Marina 的目标

论文提出的 Marina 系统旨在满足如下五大关键需求:

  1. 可扩展性(Scalability):支持太比特级流量、数十万并发流。
  2. 低开销(Low Overhead):监控开销恒定、低延迟。
  3. 表达能力(Expressiveness):能支持加密流量的多种 ML 检测任务。
  4. 灵活性(Flexibility):允许任务动态配置与调整。
  5. 实时性(Real-time):端到端监控延迟 < 500ms。

3 系统架构设计

Marina 系统采用分层架构

  • 数据平面:部署在可编程交换芯片(如 Tofino)上,负责以线速抽取“瞬时流量统计”(moment-based stats)。
  • 控制与分析服务器(ML Server):执行复杂的特征工程与模型推理任务。
  • 连接机制:通过 子秒级时间槽微聚合(Temporal Microaggregation) 联动上述两层。

3.1 设计原则三要素

  1. 数据平面负责高效提取统计量
    • 提取每条流的 packet size 和 IAT(inter-arrival time)分布的 1-3 阶样本矩(moments)。
    • 所有运算保持常量内存、线速处理。
  2. 复杂处理全部卸载至强力 ML 服务器
    • 特征提取、模型推理均在 GPU 集群中执行。
    • 服务器资源可按需扩展,支持任务更替与历史回溯。
  3. 利用时间槽机制完成任务闭环
    • 每个子秒时间槽抽取统计数据、传输、分析并返回结果。
    • 结果可用于流量分类、QoE 评估、入侵检测、IoT 识别等。

4 实现与原型设计

4.1 硬件平台

  • Barefoot Wedge 100BF-65X(基于 Intel Tofino)
  • 支持 65 个 100Gbps 端口,最大吞吐 6.4Tbps

4.2 核心模块

模块功能简述
Flow Instantiation用 Bloom Filter 判断是否监控
Packet Classification匹配规则决定是否统计
Moment Computation在 P4 数据平面计算 packet size/IAT 的前 3 阶矩
Export Controller定时导出统计数据并附带 5-tuple
ML Server完成特征计算与模型推理

4.3 技术难点与解决方案

  • 无原生乘法/对数运算:通过 TCAM 查表实现 log(x)
  • 32-bit 寄存器溢出:采用对数域避免直接累加大数
  • 读取延迟高:绕过 Thrift API,采用裸函数库读取寄存器,提升读取效率至 268ms

5 性能评估摘要

性能指标结果
并发流数524,288 单向流(或 262,144 会话)
数据平面导出速率< 385Mbps
最小监控间隔500ms(实际最小可至 429ms)
ML 推理速率100 棵深度 10 树的 RF 模型,1M 流预测 < 350ms
总延迟控制器读取 + 网络传输 + 特征生成 + 推理 < 500ms

6 应用案例分析(四个任务)

6.1 加密流量分类

  • 数据集:ISCXVPN2016(14类)
  • 精度:实现版 Marina 与理想特征几乎持平,部分模型超越SOTA

6.2 视频 QoE 评估

  • 任务:检测卡顿/分辨率、预测比特率
  • 数据集:扩展版 YouTube 流量数据集(16K 条记录)
  • 结果:分类任务 F1 分数 ≈ SOTA,回归任务略有损失但仍优秀

6.3 入侵检测

  • 数据集:CIC-IDS2017
  • 任务:多类攻击识别(含 DoS、Brute-force、SQL注入等)
  • 结果:大部分攻击识别率 > 99%,与SOTA相当

6.4 IoT 设备指纹识别

  • 数据集:CIC-IOT2022(37个设备)
  • 结果:命中率均值 > 93%,方差小于SOTA,表现更稳定

7 相关工作对比

系统特征抽取实时性多任务支持是否开源
Marina✔(数据面)✔(<500ms)
NetFlow/IPFIX✘(粒度粗)部分
INT/PINT部分部分部分
Sketch类方法✘(特定场景)
Retina/Corelight✔(软件)✘(不支持Tbps)部分

8 总结与启示

  • Marina 实现了 ML-驱动的全链路监控闭环:自数据提取到模型推理,均以 sub-second 延迟完成。
  • 高适应性与可扩展性:支持多种监控任务并与服务器灵活配合。
  • 面向未来的可移植性:可部署于 FPGA/ASIC 等非 Tofino 平台。