端侧AI算力破局,RK182X系列算力卡如何让大模型落地更简单?

天资达人 人工智能 2026-06-05 3720 0

当下,边缘AI全面进入大语言模型+多模态感知深度融合阶段,储能、工业网关、智能机器人、视频分析等场景,对本地实时推理、低延迟响应、数据安全合规的需求爆发式增长。但RK3588/RK3576/RK3568等主流主控,原生NPU算力有限、内存带宽不足,3B参数量以上的大模型跑不动、响应慢、并发差,“业务刚需猛、端侧算力弱”的冲突日益尖锐。

瑞芯微推出了面向人工智能应用的高性能RK182X系列算力卡,依托RKNN3 SDKV1.0.4的发布,为端侧AI模型部署提供全栈式软件支撑,在端侧推理性能、模型适配、功能接口、推理精度上全方位升级,兼具高性能、高适配、高能耗比优势,即插即用补满算力缺口,让LLM/VLM在边缘设备稳定流畅落地!

wKgZPGohEIeAL6OCAAOHi3xoLYI033.png

1、20TOPS硬核算力,8B大模型端侧推理无压力

RK182X系列内置多核RISC-V CPU与3D堆叠高带宽DRAM,集成多核高算力NPU,峰值算力可达20TOPS且广泛支持从INT4到FP16的多种计算精度,通过PCIe/USB接口与主控设备高速互联,支持从0.5B到8B多种参数量的大语言/多模态模型及传统CNN模型推理及本地化部署,专注于AI端侧推理,不占主控资源,算力独立输出。

2、主流模型全覆盖 ,打通算法生态壁垒

RK182X算力卡完成主流AI算法全适配,原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型,覆盖自然语言交互、跨模态图文解析、图像分类检测、音频信号处理等全场景AI应用 ,算力调度稳定、推理时延优异,配套完备的模型编译工具链,轻松实现模型量化转换、适配优化与嵌入式端快速投产。

RK182X支持模型列表

3、兼容全主控+双系统,老设备零成本焕新算力

RK182X系列算力卡全兼容RK3588、RK3576、RK3568等瑞芯微主流主控,适配Linux/Android双系统,PCIe直插即用无需额外驱动适配。依托该架构设计,产品实现跨主控、跨系统通用,存量在用设备可零改造升级AI大模型算力,无需更换主板、修改整机结构、重新做产品认证,老旧边缘网关、工控主机、AI边缘盒能够低成本迭代升级为高性能AI推理终端,规避硬件换代带来的高额改造成本与周期损耗。

上图为OK3588-C开发板搭配RK1828算力卡

以下为各主控平台搭配RK182X算力卡前后大模型推理性能对比:

wKgZPGohEIaAGSnsAAG9_R5jLME570.png

测试参数说明:

Input_Tokens和New_tokens分别代表输入/输出Tokens数量;

TPS:模型每秒能生成的token数量。

RK3568作为大批量商用落地平台,自带1TOPS板载NPU,原生算力无法适配端侧大模型推理场景;设备预留PCIe扩展位,选配RK1820/RK1828算力卡后可新增20TOPS独立NPU算力,存量整机无需改版,低成本完成算力扩容,稳定运行大语言、多模态大模型。

软件层面,飞凌嵌入式已完成RK182X全系列在Linux/Android双系统的深度驱动调试与全量算子落地验证:工业视觉、服务机器人(Linux端)、智能交互一体机、商用智慧屏(Android端)等多场景均可即插即用。单张算力卡可跨硬件平台、跨操作系统复用,有效压缩客户备货库存、后期运维成本,落地「一卡通用 ,旧机焕新」的边缘算力升级方案。结合真实业务场景下的上下文尺寸和输出长度,RK182X算力卡搭配各RK主控平台的各参数量LLM/VLM模型的端侧推理实测性能数据见文末。

4、储能行业私有化知识库落地案

针对储能BMS场景的储能系统AI问答交互系统需求,飞凌嵌入式基于RK3588+RK1828算力卡打造储能专属私有化知识库,集成语音识别ASR与语音合成TTS模块支持全语音问答,支持多级BMS储能设备实时运行数据查询和储能系统故障智能诊断,精准解析运维人员的提问意图,支持故障排查、数据查询、分析建议等连续交互,端侧离线部署无需联网,实现数据本地闭环、合规安全。

核心能力

本地部署:数据不出场站,满足电力储能行业安全合规要求;

高速响应:大语言模型端侧推理输出速度稳定60+tokens/s,故障诊断、数据查询实时输出;

开箱即用:支持知识库快速导入、语音交互、自定义MCP、接口标准化对接演示视频。

5、为什么选择RK182X算力卡?

1. 即插即用

PCIe/USB双接口 ,双系统支持,部署周期缩短50%+。

2. 全平台覆盖

完美支持RK3588/3576/3568,存量设备一键升级算力。

3. 场景化方案

储能、工业、机器人等垂直场景定制优化,提供全套技术支持。

4. 稳定可靠

工业级品质,批量交付有保障,技术团队全程护航。

RK182X系列算力卡真正解决端侧大模型算力短缺,让LLM/VLM本地跑得稳、跑得快、用得起!

以下为RK182X算力卡搭配各RK主控平台的LLM/VLM模型端侧推理实测性能数据:

Ubuntu系统RK3568+RK1828算力卡:

LLM模型端侧推理核心性能数据:

wKgZPGohEIeAICpKAAUMnW34WHs097.png

VLM模型端侧推理核心性能数据:

wKgZO2ohEIeAabamAAMVuzPGRDE188.png

Ubuntu系统RK3576+RK1828算力卡:

LLM模型端侧推理核心性能数据:

wKgZO2ohEIiACoh3AATjOnTnScg707.png

VLM模型端侧推理核心性能数据:

wKgZPGohEIiAFDr-AAOUyn0X_xU581.png

Android系统RK3588+RK1828算力卡:

LLM模型端侧推理核心性能数据:

wKgZO2ohEIiAFQXBAASrk8_EM4U512.png

VLM模型端侧推理核心性能数据:

wKgZPGohEIiAZKNPAAMHvU7XvKU503.png

测试参数说明:

1.测试基于主控SOC+RK1820/RK1828,两者之间通过PCIe连接;

2.TTFT:模型生成第一个token所需的时间;

3.TPOT:生成每个输出token所需的平均时间;

4.TPS:模型每秒能生成的token数量;

5.VLM的Vision和LLM耗时为独立测试。

RK182X系列算力卡即将到货,欢迎有需要的客户朋友持续关注!

推荐阅读: