随着 AI 推理与训练在边缘侧和终端侧加速落地,越来越多的算力卡(NPU、AI 加速卡、推理卡)需要部署在 Windows 工作站与服务器上。然而,大多数算力芯片原生仅提供 Linux 驱动及 SDK,Windows 平台的驱动开发与生态构建成为落地的关键瓶颈。
这正是我们的核心能力所在。我们团队深度掌握 Windows 内核驱动开发全栈技术,已成功为多款主流算力芯片完成 Windows 驱动移植与开发,具备将 Linux 原生的 AI 算力产品完整交付至 Windows 平台的经过验证的工程经验。
算力卡的 Windows 驱动开发,远不止"装一个 .sys 文件"那么简单。它涉及操作系统内核编程、PCIe 总线协议、DMA 内存管理、中断机制、用户态接口设计等多个技术域的深度耦合。每一个环节的疏忽,都可能导致系统蓝屏(BSOD)· 在生产环境中,这是不可接受的。
Windows 驱动开发运行在内核态,开发者必须精确管理 IRQL(中断请求级别)、非分页/分页内存分配、DPC 队列调度、同步锁粒度等底层细节。一个内存泄漏在应用层只是程序崩溃,在内核层则直接导致整个操作系统宕机。此外,Windows 驱动框架(WDF)本身就有 KMDF、UMDF、WDDM、MCDM 等多条技术路径,选择错误的框架意味着开发周期成倍增加,甚至推倒重来。
内核驱动无法像用户态程序那样在 IDE 中单步调试。开发者需要搭建双机调试环境(WinDbg + 内核调试连接),在崩溃转储(Crash Dump)中重建堆栈帧、寄存器状态和内存布局。一次问题复现可能耗费数小时甚至数天。Driver Verifier、静态驱动验证器(SDV)、代码分析工具(CodeQL/Prefast)的联合使用,也需要深厚的经验积累。
Windows 内核驱动必须经过 Microsoft 的签名流程 · EV 代码签名证书、HLK/HCK 兼容性测试、Attestation Signing 服务、WHCP 认证 · 这一整套流程环环相扣。任何环节的疏漏,驱动都无法在开启 Secure Boot 的生产系统上加载。对于中国的硬件出海客户而言,合规流程的把控直接影响产品的上市时间。
Windows 生态涵盖 x86、amd64、arm64 三种 CPU 架构,以及 Windows 10/11、Windows Server、LTSC、IoT Enterprise 等多条产品线。算力卡驱动的开发不仅要处理 PCIe 协议在不同平台上的差异,还要确保用户态 SDK 在各类 Windows 版本上的一致性。这种跨架构、跨版本的工程复杂度,对团队的系统能力提出了极高要求。
我们在算力卡 Windows 驱动开发的各个层面均具备自主交付能力:
| 层面 | 能力覆盖 |
|---|---|
| 内核驱动开发 | KMDF 设备驱动程序、WDF 总线驱动开发;IRP/I/O 队列与 IOCTL 接口设计;中断服务例程(ISR)与 DPC 处理;DMA 引擎配置与缓冲区管理;设备重置、电源管理、热插拔处理 |
| PCIe 子系统 | PCIe 设备枚举与 BAR 空间映射;MSI/MSI-X 中断配置;TLP 层与配置空间管理;PCIe Gen2/Gen3/Gen4 兼容性适配 |
| 用户态接口 | 自定义 IOCTL 协议;用户态驱动库 (DLL) 开发;跨平台 API 抽象层设计;C/C++/C# 多语言 SDK 封装 |
| 调试与验证 | WinDbg 双机内核调试;Driver Verifier 压力检测;静态驱动验证器 (SDV);HLK/HCK 兼容性测试;Driver Isolation & DCH 合规 |
| 签名与分发 | Microsoft Attestation Signing;EV 证书管理;INF 文件编写;Windows Update 分发;各版本 Windows 驱动包制作 |
| AI 加速路径 | MCDM(Microsoft Compute Driver Model)适配;DirectML 算子接入;WDDM 子集能力评估与方案设计 |
华为昇腾(Ascend)系列 AI 处理器是国产算力芯片的代表产品,原生生态主要聚焦 Linux 平台。我们为昇腾系列加速卡完成其在 Windows 平台上的驱动适配与开发工作,包括 PCIe 设备枚举、BAR 空间映射、DMA 传输通道建立及用户态推理接口封装。在交付方案中,昇腾加速卡在 Windows 环境下成功加载并稳定运行 AI 推理负载,验证了驱动栈在跨平台算力调度场景下的工程可行性。
寒武纪(Cambricon)是国内领先的 AI 芯片厂商,其算力卡产品线覆盖训练与推理场景,原生仅支持 Linux 下的配套软件栈。我们为其完成了完整的 Windows 内核驱动开发及配套用户态库构建,实现设备枚举、配置空间访问、DMA 传输和推理任务调度全链路贯通。该卡在 Windows 环境下成功加载并运行了 GGUF 格式大语言模型,验证了驱动方案对寒武纪硬件架构的良好适配能力和真实推理负载下的稳定性。
我们提供灵活的工程合作模式,根据客户需求定制:
探索笛可更多系统级驱动解决方案