跳到主要内容
feedback
feedback

壁砺™106M

1. 产品概述:壁砺™106M

壁砺™106M 是壁仞(BirenTech)于 2022年 发布的高性能通用 GPU。该产品基于壁仞自主原创的核心架构,构建软硬协同创新的技术体系,可广泛应用于大模型、多模态 AIC、图像识别、语音识别、自然语言处理、推荐系统等人工智能训练与推理的应用场景。壁砺™106M 为OAM 模组,可灵活适配标准OAM V1.X版本服务器,与现有基础设施高度就按容;支持支持多种混合精度计算和 PCIe5.0X8主机互联接口技术,通过 UBB 主板实现单机 8 卡互联,每张卡可支持 4 端口共 256GB/s 双向互联带宽,最高可支持4个独立安全虚拟实例(SVI),并通过国密一级认证;依托自研BIRENSUPA™软件开发平台,支持业内主流的深度学习框架与模型,能够为广泛的人工智能应用场景提供灵活、高效、安全、多样的算力解决方案。

核心特性与架构

  • 先进内存架构:配置32GB HBM2E片外内存,带宽总计819GB/s,配置多级大容量片上缓存,单卡可支持百亿参数大模型推理业务,有效提高计算效率。
  • 多模态高效适配件层级:高效适配文生文、文生图、多模态等多种不同类型大模型,同时支持数百个传统AI模型,可充分发挥产品的算力优势,实现更高能效比。
  • 多数据精度支持:除原生支持 FP32、BF16、INT8 等主流数据精度外,原创定义 TF32+ 数据精度,相较 TF32 提供更高数据精度与吞吐性能。
  • 强大编解码能力:单卡最高可支持256路HEVC/H.264视频解码,可实现大批量视频编解码任务并行化处理。

2. 算力规格与精度支持

为了确保开发顺利进行和模型运行效率,了解硬件的精度支持范围至关重要。

重要限制:精度支持说明

请注意: 当前壁砺 106M 的硬件及软件栈对部分低精度格式的支持存在限制。

  • FP8:暂不支持。
  • FP16:暂不支持。
  • BF16:支持 BF16 精度,适用于大模型训练。
  • INT8/INT4 量化:需配合 vllm-br,支持直接加载量化模型;INT8,不支持量化训练。
  • 内存对齐:全局内存访问建议 128 字节对齐,否则可能影响性能。
  • 线程束同步:Warp 内同步使用 __syncwarp(),跨 Block 同步需使用 Mega Kernel。

支持的计算精度与性能

精度类型性能指标推理支持适用场景
TF32+85 TFLOPS支持更高数据精度与吞吐性能
BF16170TFLOPS支持大模型训练主流格式
INT8340 TOPS支持高性能量化推理
视频处理能力参数
编码32路HEVC/H.264
解码256路HEVC/H.264

张量原语支持

原语类型说明适用场景
WTI (Warp Tensor Instruction)Warp 级张量指令小批量矩阵乘
TCI (Tensor Core Instruction)Tensor Core 指令标准矩阵乘
TCI-PTCI 增强版支持更大数据类型

3. 核心软件生态:BIRENSUPA

BIRENSUPA™(BIREN Scalable Unified Parallel Architecture)是壁仞科技自研的高性能软件开发平台,提供了完整的软件栈,包括固件、驱动程序、编译器、工具、编程模型、库和机器学习(ML)框架等,帮助构建深度学习和通用计算应用。

核心优势与功能:

BIRENSUPA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。

  • 低成本迁移:实现低成本和平滑迁移,减少用户适配成本。
  • 开箱即用:优化加速库+主流框架支持+高性能推理引擎,显著提升训练、推理和开发效率。
  • 高效开发体验:场景化应用SDK +完善的工具链,快速构建部署高性能应用。
  • 全栈协同优化:全栈自研+软硬件深度协同,充分发挥壁仞自研架构芯片极致性能。

BRPyTorch 兼容性

PyTorch 模块兼容程度说明
torch完全兼容基础张量操作
torch.nn完全兼容神经网络模块
torch.nn.functional完全兼容函数式接口
torch.Tensor完全兼容张量方法
torch.cuda完全兼容CUDA 接口映射
torch.cuda.amp完全兼容自动混合精度
torch.distributed完全兼容分布式训练

迁移策略

  1. 导入顺序:强烈推荐在导入其他包之前加载壁仞 PyTorch 插件包
  2. 设备指定:使用 to('supa') 将模型和数据移至壁仞 GPU

零代码修改迁移

import torch
import torch_br

# 创建张量并移至壁仞GPU
print(torch.rand([4, 4]).supa())
print(torch.rand([3, 3], device="cpu").supa())

# 检查设备可用性
torch.supa.is_available()
torch.supa.device_count()

修改已有脚本

import torch
import torch_br # 在导入其他包之前加载

model = Model()
data = ...
model = model.to('supa')
data = data.to('supa')

4. AI 开发库:版本管理与避坑指南

为了发挥壁砺 106M 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用壁仞官方适配版

严禁随意更新核心库

在使用过程中,请极度小心 pip installpip upgrade 操作。

  • 风险:执行标准的 pip install torch 会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的壁仞适配版,直接导致无法调用 GPU,程序运行失败。

识别适配版本

壁仞适配的 Python 库版本号中通常包含 +br+supa 标识。你可以通过以下命令检查当前环境状态:

pip list | grep -e br -e supa -e +

正常输出示例:

biren-ml-py                       1.10.1+br1xx
bpex 0.6.0+br1xx
torch 2.8.0+cpu
torch-br 1.9.0.20800+br1xx
torchaudio 2.8.0+cpu
torchvision 0.23.0+cpu
vllm_br 0.11.0.2601+br1xx

最佳实践:

  1. 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的壁仞官方镜像。
  2. 检查是否存在:在安装新库前,先检查该库是否已存在壁仞适配版本。
  3. 获取正确源:如确需更新,请访问壁仞官方软件中心获取正确的 whl 安装包或安装源。

BRPyTorch 版本对应表

BRPyTorch 版本PyTorch 版本Python 版本
1.0.x1.10.x3.8-3.10
2.0.x2.0.x3.8-3.11
2.1.x2.1.x3.8-3.11
2.2.x2.2.x3.9-3.11
2.3.x2.3.x3.9-3.11
2.4.x2.4.x3.9-3.12
2.5.x2.5.x3.9-3.12
2.6.x2.6.x3.9-3.12
2.7.x2.7.x3.9-3.12

避坑指南:BRPyTorch 版本必须与 PyTorch 版本严格对应,不支持跨版本混用。

融合算子加速

算子名称功能适用场景
supa_attention融合注意力Transformer 训练/推理
sudnn_attentionsuDNN 注意力推理优化
supa_rope旋转位置编码位置编码
supa_rmsnormRMS 归一化LayerNorm 替代
supa_swigluSwiGLU 激活FFN 层
supa_adamw融合 AdamW优化器
fused_adam融合 Adam优化器
supa_moe_routerMOE 路由混合专家模型

5. 模型部署建议与排查

模型支持列表

根据壁仞科技官方提供的 BIRENSUPA 软件栈适配数据,壁砺 106M 算力集群已完成对下列主流模型的适配与验证。

部署提示
  • 软件栈版本:以下模型主要基于 vllm_br、suInfer-LLM 推理框架进行验证。请务必使用平台提供的 BIRENSUPA 最新版本镜像。
  • 显存规划:壁砺 106M 单卡显存为 32GB。对于 70B 以上的大参数模型,通常需要进行 INT4 量化或使用多卡/多机部署。
  • 功能支持:支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。
场景/类别BR106M 支持情况
文本类Qwen3-4B、Qwen3-8B、Qwen3-32B、Qwen3-VL-32B-Instruct
图像类FLUX.1、SD3.5-Large
语音合成类chatTTS
语音识别类whisper-large-v3
Embedding类Qwen3-Embedding-8B、bge-reranker-v2-m3

常见问题排查

  1. 模型格式:是否误用了 FP8 模型?请优先选择 FP16、BF16 或 INT8 版本的模型。
  2. 库版本:是否不小心执行了 pip install --upgrade 覆盖了官方驱动库?
  3. 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方 BIRENSUPA 软件栈的更新适配。

6. 监控工具:brsmi 使用简明手册

brsmi是壁仞 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。

常用命令速查

功能命令说明
查看概览brsmi最常用。显示所有 GPU 的概览信息。
显示 GPU 列表brsmi gpu list列出系统中所有 GPU 设备。
查询 GPU 信息brsmi gpu query显示 GPU 详细信息。
进程监控brsmi gpu pmon显示 GPU 进程监控信息(滚动刷新)。 按 Ctrl+C 退出。
设备统计brsmi gpu dmon显示 GPU 统计信息(滚动刷新)。按 Ctrl+C 退出。
FRU 信息brsmi gpu fru显示 FRU(现场可更换单元)信息。
配置信息brsmi gpu conf显示 GPU 配置信息。
光模块信息brsmi gpu optm显示 GPU 光模块信息。

高级查询选项

查询指定 GPU 属性

brsmi gpu --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

循环监控(每秒刷新)

brsmi gpu --query-gpu=index,temperature.gpu,utilization.gpu --format=csv -l 1

指定 GPU ID

brsmi gpu --query-gpu=index,name,temperature.gpu --format=csv -i 0

查看可查询属性列表

brsmi gpu --help-query-gpu

监控指标说明

指标说明正常范围
GPU-UtilGPU 利用率0-100%
Memory-Usage显存使用< 总显存(32GB)
Temperature温度< 85°C
Power功耗< TDP(400W)

异常排查

僵死进程清理

brsmi gpu pmon
kill -9 <PID>

GPU 设置

brsmi gpu set --help

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。

  • 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
  • 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖“适配-训练-推理-部署”,获得国产 GPU 实操能力。
  • 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
  • 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。

壁仞官方技术资料