对大多数非计算机相关专业的同学而言,这是一个很难理解的名词。简要的说,“管线”指的是GPU中的渲染管线;“劫持”的意思是在渲染管线中插入我们希望渲染的内容,或改变渲染的方式。
从使用体验的角度上讲,通过“管线劫持”可以让计算机的GPU向屏幕输出任何自定义的内容,比如考试答案。
听起来好耳熟!这不就是“字幕”/“水印”吗???
当然……不是!❌
如果从“表现形式”这个单一的方面看,的确,和字幕并没什么区别:都是将答案显示在屏幕上。
但是它却具备一些非常之奇妙的、“字幕”/“水印”并不具备的特质:
听起来像是天方夜谭,对吧?一段可以被显示在屏幕上的文字,却几乎无法被摄像头拍到?完全没有任何道理!但请先别急,在我们麻瓜的世界里,没有魔法,只有科学。
如果你是相关专业,并具备相当的理工背景,可以直接参考这三篇论文:
【论文1、论文2、论文3】
如此最为科学严谨。
如果论文对你来说并不友好,ELPIS尽量用“低技术、多比喻”的方式说明白。但即便如此,以下内容也稍有些硬核。Bear with us!
首先,想要弄明白为什么摄像头“拍不到”,先要弄明白摄像头是“怎么拍到的”。对于任何现代手机摄像头,其工作原理大致如下:
物体所发出(或反射出)的光线,先通过镜头组进入相机内部,然后经由(电子)快门控制曝光时长,最后CMOS组件负责感光成像。这样,一张照片就拍摄完成了。
人们常说照片是一瞬间的定格,但从物理学的角度这句话并不严谨:如果真的是定格了“瞬间”,照片就不会出现残影模糊的现象了,因为对于每一个“瞬间”,宏观物体的状态都是确定的,是精准的。
所以实际上,照片记录的是“一段极短时间内,被摄物运动量的总和”。比如某手机前置摄像头的快门时间是1/30秒,也就意味着从按下快门开始算的1/30秒内,如果被摄物基本保持不动,则被叠加在一起的运动量几乎没有,也就没有残影。但是如果在这1/30秒内,被摄物运动幅度较大,则被叠加在一起的运动量就会较多,也就出现了残影。
这不是PS出来的录像,而是一种真实的物理现象。直升机的确在天上飞,但是螺旋桨好像看起来没有动。这是因为螺旋桨的转速和摄像头的帧率碰巧一致了。
我们假设摄像头帧率为30,也就是说每一帧是1/30秒。如果螺旋桨转动整整一圈的时间也刚好是1/30秒,那么在这1/30秒的时间内,螺旋桨转了一圈又刚好回到了原位!对于每一帧,皆是如此!所以螺旋桨好像看起来“没动”。
不是螺旋桨真的没动,而是相机被“欺骗”了。
可这些,和“看不见”又有什么关系呢?
既然我们知道相机可以被“欺骗”,我们就可以人为的构造“欺骗”相机的条件!
我们假设有一个奇妙的小色块,它可以在瞬间在黑白两种颜色之间切换。我们令纯白为0,纯黑为100,并且令色块每切换一次颜色所需的时间刚好为1/120秒。
已知:色块初始色为纯白;
如果:有一台快门速度为1/30秒的相机对色块拍照一次;
请问:拍出来的颜色会是什么?
感觉有点抽象?我们来画个图。
所以只要可以精确控制在极短时间内文字颜色的变换,我们甚至可以控制文字在摄像头中显示出各种不同的色彩!
诚然,截至目前,距离实现“拍不到”还是有一定差距。不过基本的方法论就是这样啦!余下的事情只是在基本方法论之上的演绎。
我们知道,这部分的讲述有点…戛然而止的感觉:略微爽,但不够爽。ELPIS在这里致歉各位看官老爷!毕竟,网站是公开的平台,恕我们无法把所有的技术路线、实现细节都一一道出(尽管我们内心特别希望可以与大家分享,因为真的真的很有趣)。所以,我们现在不得不只把基础知识说出来,然后给爱思考的、甚至想自己动手实现的各位留一个很难的课后作业。
接下来,为了弥补各位看官老爷,也为了证明ELPIS的方案与“字幕”/“水印”完全不同,我们直接贴出“字幕”/“水印”方案的核心代码。我们从代码的角度看看,这种方案为什么不安全。
console.log( 'Code is Poetry' );
说了这么多,其实我们还没真正解释清楚,为什么需要“劫持”GPU的渲染管线!前面提到过,如果想做到“肉眼可见但相机难以捕捉”,我们必须让文字内容以极高的频率快速变化,甚至每次变化的间隔要短至 1/200 秒。
如果完全依靠 CPU 来完成这一过程,几乎不可能。因为常规流程是:先把需要显示的文字生成到系统内存(RAM)中,再由 CPU 进行处理,然后把结果拷贝到 GPU 的显存中,接着 GPU 才会渲染并输出到屏幕。这个过程涉及多次内存传输和 CPU 计算,延迟太高,根本跟不上所需的刷新速度。
那能不能直接把文字送进 GPU 的显存里,让 GPU 自己完成渲染并直接显示呢?理论上当然可以,而且效率极高。但在实践中,这并不简单——因为这意味着要绕过常规的渲染API调用流程,直接介入GPU的渲染管线。
我们需要先看看 GPU 的渲染管线是怎样工作的。
如图所示,通过HLSL(D3D11/12)即可精细化的操作GPU的Pixel Shader(片元着色器),从而完成极高频的染色。
由于我们没有利用任何现有的API,而是自己用代码“介入”了GPU的工作流程,也就相当于“劫持”了管线。
所以,“管线劫持”的目的是使GPU可以以极高频对一个区域进行渲染,从而达到对第二机位隐藏文字的目的。
更美妙的是,这种方法不会在软件层面留下任何痕迹。着色器会在考前载入完毕,载入后退出,不影响计算机的正常使用,更不影响考试。因为严格意义上说,着色器只是决定了屏幕画面的显示方式,着色完成后并不存在任何进程。而考试软件自然不关心考生显示器色温、色准、刷新率等等与考试完全不相关的、并且每台计算机都可能不一致的东西。
另外,由于我们“劫持”了渲染管线,在面对屏幕录制时,我们可以轻易的“摘除”不希望被录制进去的内容。当然,有一个前提:我们必须完全控制一台计算机。唯有如此才可以100%使得驱动级别的录制无效。这并不是简单的安装某个软件、执行某个命令可以做到的。而是需要利用0day(零日漏洞)才能实现对计算机的完全控制。详情请见【】。在业界中,如何彻底制止驱动级别的屏幕捕获是一个“老大难”问题。虽然截至目前(和可预见的将来),任何考试软件都不可能接入驱动级别的屏幕录制(因为要么需要GPU厂商专门为了某款考试软件定制驱动,要么需要额外的特殊硬件),但我们依旧做了充分的future proof的方案,确保哪怕在最极端的条件下,屏幕上显示的文字都没有可能被录制。
最后,关于让考生“看得清”这一点…由于方案的本质,我们很难在网页上展示出来到底对人眼有多清晰!因为我们:
无法截屏:驱动级别的过滤使得我们的文字无法出现在任何截屏里;
无法拍照:方案设计的初衷就是避免文字被拍下来!哪怕我们特地距离很近的拍下,文字也几乎不可见,无法说明“对人眼清晰可见”,反而会让人看完后觉得“人眼也看不清”。
那就请各位看官看在我们码了这么多字的份上,暂且相信我们:你一定可以看得清!完全不会影响阅读!
“管线劫持”方案的好处讲完了,我们也来聊点坏的,说说这方案的局限性。
最重要的先说,虽然极高频的变换对人眼几乎是不可见的,对于大部分人来说,人眼的识别上限大约是60帧,超过60帧对人眼来说就是连续显示的图像,但是对于极少部分对光极度敏感的人来说,这个方案有一定概率触发癫痫!
所以有癫痫史的同学们,这方案不要用!考试的确重要,但是健康更可贵!在ELPIS的内部测试中,曾有极少数情况下测试者汇报有不适感受。比如在持续阅读一小时的文字后,有轻微的头晕、恶心等现象。但由于ELPIS团队内暂无癫痫患者,所以更多副作用暂且未知。(就算有我们也不会让她/他去测试!)
其次,这个方案对考试笔记本的要求相当高。笔记本需要一个十分强劲独立显卡,和一块244Hz的高刷屏,屏幕响应时间理想情况下应为1ms。这导致大部分考生的笔记本根本无法达到要求。
没办法,我们不能“既要又要也要”。一个又好用、又稳定、又好读、又隐形的方案的代价就是一台超级顶配的笔记本。
结束语:
说实话,从25年4月开始,我们就一直试图构想出一种完美解决双机位的方案。我们尝试了很多很多种方法,比如“利用定制的短波通滤光片使得某种特定颜色的屏幕内容无法被摄像头拍到”。又比如“在计算机屏幕上粘附某种复合的、多层的薄膜,使屏幕在摄像头拍摄下出现光栅效应(阶梯状锯齿的摩尔纹),从而让摄像头失真。
虽然我们尝试了不下7、8种各式各样奇思妙想的方案,但后来都因为效果问题、隐蔽性问题、成本问题、跨设备普适性等问题,被我们一一否决了。直到有一个已经在Nvidia工作的前同事,出于自身职业的角度,提出了如上的构想,我们终于恍然大明白!原来,还可以这样玩!原来不需要借助任何特殊道具,只需要一台高端游戏本,就可以完美解决两难困境!
这再次提醒我们,科学技术才是第一生产力。谁能想到解决ETS重金部署的双机位的功臣,本质上竟然一块小小的GPU芯片?这让人不禁联想到中国高端芯片的发展进程,还真是感到任重而道远。至少目前在高端芯片制造领域,还得有一段“师夷长技以制夷”的过程。
在这个过程中,ELPIS更要好好的将“在专业上有能力”但是“被没啥用的标准化考试卡住”的各位稳稳送出国。ELPIS团队绝大数成员具备强理工背景,我们深知就像GRE、托福这种东西,在2025年的今天,已经纯粹变成了为了卡住学生而特地设计的、与所学专业严重脱节的、给考试中心赚大钱的工具。托福如此,GRE更甚。所以我们偏要有理有据的反潮流,反标准化。况且,哪个理工人可以拒绝“破解”的诱惑?可以拒绝在智商的高地上演精彩刺激的攻防战呢?
最后,祝各位看官老爷事半功倍。无论是否选择我们ELPIS,都可以一帆风顺,前途似锦。如果你选择我们,若干年后可能我们会在世界的某处相遇。你不认识我,我也不认识你,但我们都有一个共同的,名为ELPIS的小秘密。
很有趣,甚至还有点浪漫~
—ELPIS全体成员,敬上
致谢(排名分先后):
【显卡照片】