壁砺™106M
1. 产品概述:壁砺™106M
壁砺™106M 是壁仞(BirenTech)于 2022年 发布的高性能通用 GPU。该产品基于壁仞自主原创的核心架构,构建软硬协同创新的技术体系,可广泛应用于大模型、多模态 AIC、图像识别、语音识别、自然语言处理、推荐系统等人工智能训练与推理的应用场景。壁砺™106M 为OAM 模组,可灵活适配标准OAM V1.X版本服务器,与现有基础设施高度就按容;支持支持多种混合精度计算和 PCIe5.0X8主机互联接口技术,通过 UBB 主板实现单机 8 卡互联,每张卡可支持 4 端口共 256GB/s 双向互联带宽,最高可支持4个独立安全虚拟实例(SVI),并通过国密一级认证;依托自研BIRENSUPA™软件开发平台,支持业内主流的深度学习框架与模型,能够为广泛的人工智能应用场景提供灵活、高效、安全、多样的算力解决方案。
核心特性与架构
- 先进内存架构:配置32GB HBM2E片外内存,带宽总计819GB/s,配置多级大容量片上缓存,单卡可支持百亿参数大模型推理业务,有效提高计算效率。
- 多模态高效适配件层级:高效适配文生文、文生图、多模态等多种不同类型大模型,同时支持数百个传统AI模型,可充分发挥产品的算力优势,实现更高能效比。
- 多数据精度支持:除原生支持 FP32、BF16、INT8 等主流数据精度外,原创定义 TF32+ 数据精度,相较 TF32 提供更高数据精度与吞吐性能。
- 强大编解码能力:单卡最高可支持256路HEVC/H.264视频解码,可实现大批量视频编解码任务并行化处理。
2. 算力规格与精度支持
为了确保开发顺利进行和模型运行效率,了解硬件的精度支持范围至关重要。
重要限制:精度支持说明
请注意: 当前壁砺 106M 的硬件及软件栈对部分低精度格式的支持存在限制。
- FP8:暂不支持。
- FP16:暂不支持。
- BF16:支持 BF16 精度,适用于大模型训练。
- INT8/INT4 量化:需配合 vllm-br,支持直接加载量化模型;INT8,不支持量化训练。
- 内存对齐:全局内存访问建议 128 字节对齐,否则可能影响性能。
- 线程束同步:Warp 内同步使用
__syncwarp(),跨 Block 同步需使用 Mega Kernel。
支持的计算精度与性能
| 精度类型 | 性能指标 | 推理支持 | 适用场景 |
|---|---|---|---|
| TF32+ | 85 TFLOPS | 支持 | 更高数据精度与吞吐性能 |
| BF16 | 170TFLOPS | 支持 | 大模型训练主流格式 |
| INT8 | 340 TOPS | 支持 | 高性能量化推理 |
| 视频处理能力 | 参数 |
|---|---|
| 编码 | 32路HEVC/H.264 |
| 解码 | 256路HEVC/H.264 |
张量原语支持
| 原语类型 | 说明 | 适用场景 |
|---|---|---|
| WTI (Warp Tensor Instruction) | Warp 级张量指令 | 小批量矩阵乘 |
| TCI (Tensor Core Instruction) | Tensor Core 指令 | 标准矩阵乘 |
| TCI-P | TCI 增强版 | 支持更大数据类型 |
3. 核心软件生态:BIRENSUPA
BIRENSUPA™(BIREN Scalable Unified Parallel Architecture)是壁仞科技自研的高性能软件开发平台,提供了完整的软件栈,包括固件、驱动程序、编译器、工具、编程模型、库和机 器学习(ML)框架等,帮助构建深度学习和通用计算应用。
核心优势与功能:
BIRENSUPA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。
- 低成本迁移:实现低成本和平滑迁移,减少用户适配成本。
- 开箱即用:优化加速库+主流框架支持+高性能推理引擎,显著提升训练、推理和开发效率。
- 高效开发体验:场景化应用SDK +完善的工具链,快速构建部署高性能应用。
- 全栈协同优化:全栈自研+软硬件深度协同,充分发挥壁仞自研架构芯片极致性能。
BRPyTorch 兼容性
| PyTorch 模块 | 兼容程度 | 说明 |
|---|---|---|
| torch | 完全兼容 | 基础张量操作 |
| torch.nn | 完全兼容 | 神经网络模块 |
| torch.nn.functional | 完全兼容 | 函数式接口 |
| torch.Tensor | 完全 兼容 | 张量方法 |
| torch.cuda | 完全兼容 | CUDA 接口映射 |
| torch.cuda.amp | 完全兼容 | 自动混合精度 |
| torch.distributed | 完全兼容 | 分布式训练 |
迁移策略
- 导入顺序:强烈推荐在导入其他包之前加载壁仞 PyTorch 插件包
- 设备指定:使用
to('supa')将模型和数据移至壁仞 GPU
零代码修改迁移:
import torch
import torch_br
# 创建张量并移至壁仞GPU
print(torch.rand([4, 4]).supa())
print(torch.rand([3, 3], device="cpu").supa())
# 检查设备可用性
torch.supa.is_available()
torch.supa.device_count()
修改已有脚本:
import torch
import torch_br # 在导入其他包之前加载
model = Model()
data = ...
model = model.to('supa')
data = data.to('supa')
4. AI 开发库:版本管理与避坑指南
为了发挥壁砺 106M 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用壁仞官方适配版。
严禁随意更新核心库
在使用过程中,请极度小心 pip install 或 pip upgrade 操作。
- 风险:执行标准的
pip install torch会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的壁仞适配版,直接导致无法调用 GPU,程序运行失败。
识别适配版本
壁仞适配的 Python 库版本号中通常包含 +br 或 +supa 标识。你可以通过以下命 令检查当前环境状态:
pip list | grep -e br -e supa -e +
正常输出示例:
biren-ml-py 1.10.1+br1xx
bpex 0.6.0+br1xx
torch 2.8.0+cpu
torch-br 1.9.0.20800+br1xx
torchaudio 2.8.0+cpu
torchvision 0.23.0+cpu
vllm_br 0.11.0.2601+br1xx
最佳实践:
- 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的壁仞官方镜像。
- 检查是否存在:在安装新库前,先检查该库是否已存在壁仞适配版本。
- 获取正确源:如确需更新,请访问壁仞官方软件中心获取正确的 whl 安装包或安装源。
BRPyTorch 版本对应表
| BRPyTorch 版本 | PyTorch 版本 | Python 版本 |
|---|---|---|
| 1.0.x | 1.10.x | 3.8-3.10 |
| 2.0.x | 2.0.x | 3.8-3.11 |
| 2.1.x | 2.1.x | 3.8-3.11 |
| 2.2.x | 2.2.x | 3.9-3.11 |
| 2.3.x | 2.3.x | 3.9-3.11 |
| 2.4.x | 2.4.x | 3.9-3.12 |
| 2.5.x | 2.5.x | 3.9-3.12 |
| 2.6.x | 2.6.x | 3.9-3.12 |
| 2.7.x | 2.7.x | 3.9-3.12 |
避坑指南:BRPyTorch 版本必须与 PyTorch 版本严格对应,不支持跨版本混用。
融合算子加速
| 算子名称 | 功能 | 适用场景 |
|---|---|---|
| supa_attention | 融合注意力 | Transformer 训练/推理 |
| sudnn_attention | suDNN 注意力 | 推理优化 |
| supa_rope | 旋转位置编码 | 位置编码 |
| supa_rmsnorm | RMS 归一化 | LayerNorm 替代 |
| supa_swiglu | SwiGLU 激活 | FFN 层 |
| supa_adamw | 融合 AdamW | 优化器 |
| fused_adam | 融合 Adam | 优化器 |
| supa_moe_router | MOE 路由 | 混合专家模型 |
5. 模型部署建议与排查
模型支持列表
根据壁仞科技官方提供的 BIRENSUPA 软件栈适配数据,壁砺 106M 算力集群已完成对下列主流模型的适配与验证。
- 软件栈版本:以下模型主要基于 vllm_br、suInfer-LLM 推理框架进行验证。请务必使用平台提供的 BIRENSUPA 最新版本镜像。
- 显存规划:壁砺 106M 单卡显存为 32GB。对于 70B 以上的大参数模型,通常需要进行 INT4 量化或使用多卡/多机部署。
- 功能支持:支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。
| 场景/类别 | BR106M 支持情况 |
|---|---|
| 文本类 | Qwen3-4B、Qwen3-8B、Qwen3-32B、Qwen3-VL-32B-Instruct |
| 图像类 | FLUX.1、SD3.5-Large |
| 语音合成类 | chatTTS |
| 语音识别类 | whisper-large-v3 |
| Embedding类 | Qwen3-Embedding-8B、bge-reranker-v2-m3 |
常见问题排查
- 模型格式:是否误用了 FP8 模型?请优先选择 FP16、BF16 或 INT8 版本的模型。
- 库版本:是否不小心执行了
pip install --upgrade覆盖了官方驱动库? - 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方 BIRENSUPA 软件栈的更新适配。
6. 监控工具:brsmi 使用简明手册
brsmi是壁仞 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。
常用命令速查
| 功能 | 命令 | 说明 |
|---|---|---|
| 查看概览 | brsmi | 最常用。显示所有 GPU 的概览信息。 |
| 显示 GPU 列表 | brsmi gpu list | 列出系统中所有 GPU 设备。 |
| 查询 GPU 信息 | brsmi gpu query | 显示 GPU 详细信息。 |
| 进程监控 | brsmi gpu pmon | 显示 GPU 进程监控信息(滚动刷新)。 按 Ctrl+C 退出。 |
| 设备统计 | brsmi gpu dmon | 显示 GPU 统计信息(滚动刷新)。按 Ctrl+C 退出。 |
| FRU 信息 | brsmi gpu fru | 显示 FRU(现场可更换单元)信息。 |
| 配置信息 | brsmi gpu conf | 显示 GPU 配置信息。 |
| 光模块信息 | brsmi gpu optm | 显示 GPU 光模块信息。 |
高级查询选项
查询指定 GPU 属性:
brsmi gpu --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv
循环监控(每秒刷新):
brsmi gpu --query-gpu=index,temperature.gpu,utilization.gpu --format=csv -l 1
指定 GPU ID:
brsmi gpu --query-gpu=index,name,temperature.gpu --format=csv -i 0
查看可查询属性列表:
brsmi gpu --help-query-gpu
监控指标说明
| 指标 | 说明 | 正常范围 |
|---|---|---|
| GPU-Util | GPU 利用率 | 0-100% |
| Memory-Usage | 显存使用 | < 总显存(32GB) |
| Temperature | 温度 | < 85°C |
| Power | 功耗 | < TDP(400W) |
异常排查
僵死进程清理:
brsmi gpu pmon
kill -9 <PID>
GPU 设置:
brsmi gpu set --help
7. 平台与官方资源导航
国产芯片权威 AI 技能认证
国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。
- 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
- 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖“适配-训练-推理-部署”,获得国产 GPU 实操能力。
- 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
- 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。
壁仞官方技术资料
- 壁仞科技开发者中心: 提供 BIRENSUPA 驱动下载、安装指南、故障排查手册及全栈开发文档。