壁砺™106M

1. 产品概述：壁砺™106M

壁砺™106M 是壁仞（BirenTech）于 2022年发布的高性能通用 GPU。该产品基于壁仞自主原创的核心架构，构建软硬协同创新的技术体系，可广泛应用于大模型、多模态 AIC、图像识别、语音识别、自然语言处理、推荐系统等人工智能训练与推理的应用场景。壁砺™106M 为OAM 模组，可灵活适配标准OAM V1.X版本服务器，与现有基础设施高度就按容；支持支持多种混合精度计算和 PCIe5.0X8主机互联接口技术，通过 UBB 主板实现单机 8 卡互联，每张卡可支持 4 端口共 256GB/s 双向互联带宽，最高可支持4个独立安全虚拟实例（SVI），并通过国密一级认证；依托自研BIRENSUPA™软件开发平台，支持业内主流的深度学习框架与模型，能够为广泛的人工智能应用场景提供灵活、高效、安全、多样的算力解决方案。

核心特性与架构

先进内存架构：配置32GB HBM2E片外内存，带宽总计819GB/s，配置多级大容量片上缓存，单卡可支持百亿参数大模型推理业务，有效提高计算效率。
多模态高效适配件层级：高效适配文生文、文生图、多模态等多种不同类型大模型，同时支持数百个传统AI模型，可充分发挥产品的算力优势，实现更高能效比。
多数据精度支持：除原生支持 FP32、BF16、INT8 等主流数据精度外，原创定义 TF32+ 数据精度，相较 TF32 提供更高数据精度与吞吐性能。
强大编解码能力：单卡最高可支持256路HEVC/H.264视频解码，可实现大批量视频编解码任务并行化处理。

2. 算力规格与精度支持

为了确保开发顺利进行和模型运行效率，了解硬件的精度支持范围至关重要。

重要限制：精度支持说明

请注意： 当前壁砺 106M 的硬件及软件栈对部分低精度格式的支持存在限制。

FP8：暂不支持。
FP16：暂不支持。
BF16：支持 BF16 精度，适用于大模型训练。
INT8/INT4 量化：需配合 vllm-br，支持直接加载量化模型；INT8，不支持量化训练。
内存对齐：全局内存访问建议 128 字节对齐，否则可能影响性能。
线程束同步：Warp 内同步使用 __syncwarp()，跨 Block 同步需使用 Mega Kernel。

支持的计算精度与性能

精度类型	性能指标	推理支持	适用场景
TF32+	85 TFLOPS	支持	更高数据精度与吞吐性能
BF16	170TFLOPS	支持	大模型训练主流格式
INT8	340 TOPS	支持	高性能量化推理

视频处理能力	参数
编码	32路HEVC/H.264
解码	256路HEVC/H.264

张量原语支持

原语类型	说明	适用场景
WTI (Warp Tensor Instruction)	Warp 级张量指令	小批量矩阵乘
TCI (Tensor Core Instruction)	Tensor Core 指令	标准矩阵乘
TCI-P	TCI 增强版	支持更大数据类型

3. 核心软件生态：BIRENSUPA

BIRENSUPA™（BIREN Scalable Unified Parallel Architecture）是壁仞科技自研的高性能软件开发平台，提供了完整的软件栈，包括固件、驱动程序、编译器、工具、编程模型、库和机器学习（ML）框架等，帮助构建深度学习和通用计算应用。

核心优势与功能：

BIRENSUPA 在设计之初就充分考虑了开发者的迁移成本，采用了高度兼容主流 CUDA 编程模型的策略。

低成本迁移：实现低成本和平滑迁移，减少用户适配成本。
开箱即用：优化加速库+主流框架支持+高性能推理引擎，显著提升训练、推理和开发效率。
高效开发体验：场景化应用SDK +完善的工具链，快速构建部署高性能应用。
全栈协同优化：全栈自研+软硬件深度协同，充分发挥壁仞自研架构芯片极致性能。

BRPyTorch 兼容性

PyTorch 模块	兼容程度	说明
torch	完全兼容	基础张量操作
torch.nn	完全兼容	神经网络模块
torch.nn.functional	完全兼容	函数式接口
torch.Tensor	完全兼容	张量方法
torch.cuda	完全兼容	CUDA 接口映射
torch.cuda.amp	完全兼容	自动混合精度
torch.distributed	完全兼容	分布式训练

迁移策略

导入顺序：强烈推荐在导入其他包之前加载壁仞 PyTorch 插件包
设备指定：使用 to('supa') 将模型和数据移至壁仞 GPU

零代码修改迁移：

import torch
import torch_br

# 创建张量并移至壁仞GPU
print(torch.rand([4, 4]).supa())
print(torch.rand([3, 3], device="cpu").supa())

# 检查设备可用性
torch.supa.is_available()
torch.supa.device_count()

修改已有脚本：

import torch
import torch_br  # 在导入其他包之前加载

model = Model()
data = ...
model = model.to('supa')
data = data.to('supa')

4. AI 开发库：版本管理与避坑指南

为了发挥壁砺 106M 的最佳性能，PyTorch、vLLM 等主流 AI 框架均需要使用壁仞官方适配版。

严禁随意更新核心库

在使用过程中，请极度小心 pip install 或 pip upgrade 操作。

风险：执行标准的 pip install torch 会从 PyPI 拉取社区公版，这将覆盖掉环境内预装的壁仞适配版，直接导致无法调用 GPU，程序运行失败。

识别适配版本

壁仞适配的 Python 库版本号中通常包含 +br 或 +supa 标识。你可以通过以下命令检查当前环境状态：

pip list | grep -e br -e supa -e +

正常输出示例：

biren-ml-py                       1.10.1+br1xx
bpex                              0.6.0+br1xx
torch                             2.8.0+cpu
torch-br                          1.9.0.20800+br1xx
torchaudio                        2.8.0+cpu
torchvision                       0.23.0+cpu
vllm_br                           0.11.0.2601+br1xx

最佳实践：

优先使用官方镜像：如果您需要特定的 AI 库，请优先查找是否提供了包含该库的壁仞官方镜像。
检查是否存在：在安装新库前，先检查该库是否已存在壁仞适配版本。
获取正确源：如确需更新，请访问壁仞官方软件中心获取正确的 whl 安装包或安装源。

BRPyTorch 版本对应表

BRPyTorch 版本	PyTorch 版本	Python 版本
1.0.x	1.10.x	3.8-3.10
2.0.x	2.0.x	3.8-3.11
2.1.x	2.1.x	3.8-3.11
2.2.x	2.2.x	3.9-3.11
2.3.x	2.3.x	3.9-3.11
2.4.x	2.4.x	3.9-3.12
2.5.x	2.5.x	3.9-3.12
2.6.x	2.6.x	3.9-3.12
2.7.x	2.7.x	3.9-3.12

避坑指南：BRPyTorch 版本必须与 PyTorch 版本严格对应，不支持跨版本混用。

融合算子加速

算子名称	功能	适用场景
supa_attention	融合注意力	Transformer 训练/推理
sudnn_attention	suDNN 注意力	推理优化
supa_rope	旋转位置编码	位置编码
supa_rmsnorm	RMS 归一化	LayerNorm 替代
supa_swiglu	SwiGLU 激活	FFN 层
supa_adamw	融合 AdamW	优化器
fused_adam	融合 Adam	优化器
supa_moe_router	MOE 路由	混合专家模型

5. 模型部署建议与排查

模型支持列表

根据壁仞科技官方提供的 BIRENSUPA 软件栈适配数据，壁砺 106M 算力集群已完成对下列主流模型的适配与验证。

部署提示

软件栈版本：以下模型主要基于 vllm_br、suInfer-LLM 推理框架进行验证。请务必使用平台提供的 BIRENSUPA 最新版本镜像。
显存规划：壁砺 106M 单卡显存为 32GB。对于 70B 以上的大参数模型，通常需要进行 INT4 量化或使用多卡/多机部署。
功能支持：支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。

场景/类别	BR106M 支持情况
文本类	Qwen3-4B、Qwen3-8B、Qwen3-32B、Qwen3-VL-32B-Instruct
图像类	FLUX.1、SD3.5-Large
语音合成类	chatTTS
语音识别类	whisper-large-v3
Embedding类	Qwen3-Embedding-8B、bge-reranker-v2-m3

常见问题排查

模型格式：是否误用了 FP8 模型？请优先选择 FP16、BF16 或 INT8 版本的模型。
库版本：是否不小心执行了 pip install --upgrade 覆盖了官方驱动库？
新模型适配：对于刚刚发布的全新架构模型，可能需要等待官方 BIRENSUPA 软件栈的更新适配。

6. 监控工具：brsmi 使用简明手册

brsmi是壁仞 GPU 的命令行管理工具，其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi，方便用户快速上手。

常用命令速查

功能	命令	说明
查看概览	`brsmi`	最常用。显示所有 GPU 的概览信息。
显示 GPU 列表	`brsmi gpu list`	列出系统中所有 GPU 设备。
查询 GPU 信息	`brsmi gpu query`	显示 GPU 详细信息。
进程监控	`brsmi gpu pmon`	显示 GPU 进程监控信息（滚动刷新）。按 Ctrl+C 退出。
设备统计	`brsmi gpu dmon`	显示 GPU 统计信息（滚动刷新）。按 Ctrl+C 退出。
FRU 信息	`brsmi gpu fru`	显示 FRU（现场可更换单元）信息。
配置信息	`brsmi gpu conf`	显示 GPU 配置信息。
光模块信息	`brsmi gpu optm`	显示 GPU 光模块信息。

高级查询选项

查询指定 GPU 属性：

brsmi gpu --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

循环监控（每秒刷新）：

brsmi gpu --query-gpu=index,temperature.gpu,utilization.gpu --format=csv -l 1

指定 GPU ID：

brsmi gpu --query-gpu=index,name,temperature.gpu --format=csv -i 0

查看可查询属性列表：

brsmi gpu --help-query-gpu

监控指标说明

指标	说明	正常范围
GPU-Util	GPU 利用率	0-100%
Memory-Usage	显存使用	< 总显存（32GB）
Temperature	温度	< 85°C
Power	功耗	< TDP（400W）

异常排查

僵死进程清理：

brsmi gpu pmon
kill -9 <PID>

GPU 设置：

brsmi gpu set --help

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书：联合国内顶尖算力厂商，打造实战型 AI 技能认证体系。从算力到底层框架，助你成为国产 AI 生态的先行者。

官方权威认证：由模力方舟联合行业国产芯片大厂联合签发的权威证书，加盖模力方舟和芯片厂商的公章，支持线上核验，一举成为国产算力与信创生态的官方认可人才
学习即实战：开箱即用的实验环境，直接调用国产 GPU 云端算力，全链路课程覆盖“适配-训练-推理-部署”，获得国产 GPU 实操能力。
面试优先推荐：认证人才进入国产 GPU 与信创企业人才储备库，在求职、合作、项目申报中优先推荐，抢占国产 AI 与算力产业的人才红利。
生态特权：加入开发者社群，享受专家一对一指导，优先获得国产 GPU 算力市场免费测试时长，在信创生态中享有优先曝光与合作机会。

壁仞官方技术资料

壁仞科技开发者中心: 提供 BIRENSUPA 驱动下载、安装指南、故障排查手册及全栈开发文档。

1. 产品概述：壁砺™106M​

核心特性与架构​

2. 算力规格与精度支持​

重要限制：精度支持说明​

支持的计算精度与性能​

张量原语支持​

3. 核心软件生态：BIRENSUPA​

核心优势与功能：​

BRPyTorch 兼容性​

迁移策略​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

BRPyTorch 版本对应表​

融合算子加速​

5. 模型部署建议与排查​

模型支持列表​

常见问题排查​

6. 监控工具：brsmi 使用简明手册​

常用命令速查​

高级查询选项​

监控指标说明​

异常排查​

7. 平台与官方资源导航​

国产芯片权威 AI 技能认证​

壁仞官方技术资料​