许一力：无问清芯如何用Transformer“预补偿”技术，终结原子阵列装载的“重排马拉松”

在中性原子量子计算里，有一件不太“量子”的事，却是决定一台机器能不能跑起来的关键：把原子装进光镊阵列。

外人看论文，常见的是“我们实现了XXX个原子的纠缠”“保真度达到99.XX%”。但真正在机器旁待过的人知道：在这些漂亮数字之前，最折磨人的往往不是量子门，而是初始化——也就是把一个一个冷却的中性原子，“塞进”光镊阵列那成百上千个微型势阱里，而且最好一次就装满、尽量少出空位。

无问清芯最近提交实审的一件发明专利，瞄准的正是这个被很多人低估、却是规模化路上最痛的瓶颈。它的名字很长，也很直白——《基于Transformer的原子阵列缺陷预测与预补偿光镊装载方法及装置》。但翻译成一句人话就是：

让机器学会“看趋势”，在原子还没装上去之前，就提前把容易空的坑垫深，把装载从“事后擦屁股（重排）”变成“事前预防”。

一、装载为什么是“痛”，而不只是麻烦

中性原子量子计算机的基本画风是：用激光冷却原子，再用另一束“光镊”激光在真空里形成势阱阵列，像隐形的棋盘格，把原子一个一个“按”进格点。

问题在于——装载是随机的。单个光镊的占据率通常只有约50%～60%。

于是传统流程就变成了一场拉锯：

装一轮→拍照数格子→发现空位

用“重排”（move atom）把冗余原子挪过去填空

再拍一次→还有空位→再挪……

对小规模阵列，这还能忍；一旦你想做容错量子计算需要的较大阵列（几千到上十万格点），这套“装→拍→挪→再拍”的循环可能要重复5～10次，总耗时好几秒。更要命的是，每次重排原子都在非均匀光场里被移动、被曝光，退相干跟着累积，保真度被一点点吃掉。

业内有句大实话：“阵列初始化，占了量子处理器有效运行时间的80%以上。”

——你比特再漂亮，机器一半时间在填坑，它就谈不上“计算机”，更像是“很贵的拼图游戏”。

二、老解法为什么不够：不是“多装几次”就能解决的

现有技术基本就两类：

1）多次装载+事后重排

被动响应、时间开销大、退相干累积——它接受随机，然后用工程体力去弥补随机。

2）基于统计平均的“固定深度调优”

拿历史数据算平均，对历史上总是装不满的格点，永久加深光镊。

听起来合理，但问题是：

缺陷不是独立随机事件，邻近格点的占据常常空间相关（比如磁光阱原子云密度在空间上就不均匀）；

环境会慢变（真空微漏、温度漂移、冷却光偏振梯度的微小摆动），固定补偿会漂。

一句话：缺陷有规律（时空关联），但你用“平均数”去打它，等于蒙眼打移动靶。

三、无问清芯这件专利的核心：让装置“看见”缺陷模式，并提前动手

这件发明的思路很清晰：把装载历史变成“可学习的序列图像”，用Transformer的时空注意力去抓缺陷的关联规律，再用一个逐格点可调的硬件通道，把“预测到的薄弱点”提前垫起来。

1）它把每次装载后的荧光图，当“数据”，不当“偶然”

装置会存最近K轮（典型K=20）装载的二维荧光图像序列：每个格点亮=有原子，不亮=缺陷。

这不是为了写PPT，而是为了喂给下一步的模型：

缺陷不是孤立的0/1噪声，它在空间上有邻居结构，在时间上有慢变漂移——这两者合起来就是“时空模式”。

2）Transformer在这里干什么？（不是ChatGPT，是时空注意力）

专利里用的是时空位置编码+多头自注意力：

空间维度：让模型学会“哪些格点容易一起缺陷”（比如MOT云密度的一个斜坡带、或者某个象限总是偏瘦）；

时间维度：让模型看“最近几轮的趋势”（是局部恶化，还是随机抖动）；

关键技巧：注意力被加了空间邻近掩码+时间因果掩码，让它只看邻居和过去，不让计算爆炸，也符合物理直觉——光镊格点通常不会跟对角线对面的格点“远程心灵感应”。

输出很硬核：每个格点下一轮的占据概率p_j，以及不确定性σ_j。

这意味着装置不是在“猜”，而是在说：

“右上象限那一片，历史显示你大概率还会空，而且我不那么确定边界——所以要加深度，但边界我用更保守的增益。”

3）预补偿：不等空位发生，就先把坑垫深

得到p_j后，装置通过一个非线性增益函数算每个光镊的“深度增量ΔU_j”：

概率低→增量大（铆足劲把原子“抓牢”）

概率高→不动或微调

不确定高→保守策略（别为了一个可疑格点把光场搞乱）

然后通过多通道DAC→AOM驱动，实现逐格点独立的深度调制（不是一刀切，是真·per-site）。

整个闭环是：

装载→成像→预测→预补偿→再装载→再成像→更新序列（像FIFO队列滑窗）。模型在跑，但不飘——因为有真实结果回来“打标签”。

四、一个最能打动人的数字：从3.2秒到0.9秒，且重排从5-8次降到2次

实施例里给出一个很实的比例尺描述：面向一个很大的阵列（文中举例量级到万格点级的设计目标），传统方案动辄要5～8次重排迭代才能拿到无缺陷阵列，初始化时间约3.2秒。

而在预补偿方案下：

Transformer提前把高风险区的光镊深度抬到基准值的约1.8倍（保守边界1.3倍），

结果右上象限缺陷率从“预期会很高”被压下去（例如描述里从约55%缺陷相关量降到约18%量级），

全阵列需要重排的缺陷数大幅下降，重排迭代降到约2次，初始化时间压到约0.9秒；

运行若干天后，预测准确率从初始约82%进一步提升到约94%，无缺陷生成时间还能再压（例如到约0.6秒量级）。

注意：这里省下的不只是“时间”，更关键的是原子少挪了、少暴露了——意味着退相干预算省下来了，留给真正计算的“相干额度”更多。

五、它为什么重要：这叫“把量子硬件当机器管”，不叫“在实验室里求神”

这件专利最值得尊重的地方，是它把问题从“物理偶然”抬到“工程可观测、可预测、可闭环控制”的层面。

装载缺陷长期被当成量子物理的随机性来接受；无问清芯把它重新表述为带时空结构的可学习模式，然后用硬件（FPGA/嵌入式GPU+DAC+AOM）+闭环数据把它钉住。

许一力对记者说，这段话可以作为他们“物理本征方法论”的一个很典型的脚注：

“很多人以为量子计算机难在‘叠加和纠缠’——那只是物理课本的第一页。真正难的是：你怎么让一台机器在真实环境里，稳定地、可重复地把成千上万个量子比特‘摆好桌子’，而且别把菜弄凉。

装载预补偿解决的就是这个：它不是让物理更玄，而是让物理更守规矩。Transformer在这里不是耍嘴皮子，它是我们给机器装的‘经验记忆’——看得到缺陷的走势，就敢提前把势阱加深，而不是等空了再满世界挪。”

六、记者手记：一台量子计算机“起床”的方式，决定了它能跑多远

在无问清芯的实验室白板上，有一行我看了一会儿才读懂的字：

“初始化不是准备运动，是比赛的一部分。”

量子计算的叙事很容易被“量子霸权”“千亿市值”“多少个比特”带着跑。但真正造过机器的人知道：决定胜负的不只是最高比特那一下，而是每天早上这台机器能不能在合理的时间里、以合理代价站起来。

这件围绕Transformer预测+光镊预补偿的专利，未必是“最量子”的成果，但很可能是“最工程化”的那类关键成果：它解决的是一个会让规模化窒息的隐形血栓——然后用一种干净、闭环、可审计的方式，把它打通。

从92%到99.99%的硅-28是材料纯度；从“装了再看”到“看了先垫”就是控制纯度。

无问清芯想在中性原子这条路上走远，就得把后一种纯度，也做成专利和硬件。

（基于无问清芯近期提交实审的发明专利交底书《基于Transformer的原子阵列缺陷预测与预补偿光镊装载方法及装置》整理报道，技术细节以正式公开文本/权利要求书为准。）

许一力：无问清芯如何用Transformer“预补偿”技术，终结原子阵列装载的“重排马拉松”

热门浏览