RSAC 2026创新沙盒-Realm Labs：洞察AI推理内核，前置防控安全风险

阅读： 595

RSA Conference 2026 将于美国旧金山时间3月23日正式启幕。作为全球网络安全行业创新风向标，一直以来，大会的 Innovation Sandbox（创新沙盒）大赛不断为网络安全领域的初创企业提供着创新技术思维的展示平台。

近日，RSA Conference 正式公布 RSAC 2026 创新沙盒竞赛的10名决赛入围者，分别为 Charm Security、Clearly AI,Inc.、Crashoverride、Fig Security、Geordie AI、Glide Identity、Humanix、Realm Labs、Token Security、ZeroPath。

聚焦网络安全新热点，洞悉安全发展新趋势。与绿盟君一道，走进Realm Labs。

01 公司简介

Realm Labs成立于2023年，总部位于美国加州San Jose附近的Sunnyvale[1]。公司创始人兼CEO Saurabh Shintre曾在Symantec和Splunk领导AI安全研究[2]。

公司创始人兼CEO Saurabh Shintre

Realm Labs在今年的RSAC大会上获得了Crosspoint Capital Partners的500万美元融资[3]。Realm Labs的使命是让AI应用“更可信、更可靠、更安全”，致力于解决生成式AI引发的安全与可观测性难题。

Realm Labs公司Logo

02 产品背景

随着生成式AI和大语言模型（LLM）的快速普及，企业在享受AI带来创新的同时，也面临着严重的安全挑战。现代LLM由海量数据训练而成，模型内部隐含许多潜在“有害知识”，使其难以完全防范滥用。

微调对齐、提示工程等传统技术虽然能改善模型输出，但难以根除模型内部的有害知识，这些知识一旦被激活仍可能产生危害。AI防火墙方案在模型输入和输出层面强制执行策略，但往往模型体量小、精度有限且增加额外延迟[4]。

对此，Realm Labs提出了新的思路：不只是分析模型说了什么，而是深入监控模型思考的方式。通过了解AI模型内部“思维结构”的工作原理，Realm希望在问题发生前就提前发现并阻断风险。

Realm Labs的主要产品包括AI防火墙“OmniGuard”、AI观测方案“Prism”、数据治理和DLP方案“DataRealm”。考虑RSAC 2026的背景，本文着重讨论Realm Prism。

03 方案特点

根据公开宣传内容进行调研，Realm Labs的创新产品“Prism”可能包含以下特点：

3.1整体思路

在官方白皮书[5]中，Realm Labs将LLM的可观测性划分为五个层次，分别为：

1、基础设施可观测性：CPU/GPU负载、内存资源占用等，指示硬件是否健康。

2、数据可观测性：数据完整率、空值率、标注准确率、分布漂移评分、RAG知识库时效性等，指示训练和推理数据质量是否合格。

3、应用可观测性：LLM日志、工具调用日志、输入输出令牌情况、API错误日志、响应时间等，指示LLM是否正确工作。

4、内部可观测性：注意力模式*、内部CoT、Token概率等，指示LLM内部如何“思考”。

5、输出可观测性：是否出现幻觉/答非所问/事实错误/偏见/违规内容等，指示最终输出质量。

*注：此处的“注意力模式”被描述为“每个输出Token受哪些输入Token影响”，直观理解的话应该是指注意力权重矩阵/热力图。

（非Realm Labs相关）机器翻译任务中的注意力权重热力图示例

目前，第1、2、3、5层的可观测性都有较为成熟的方案实现，唯独第4层的方案在此前是缺失的。这也是Realm Prism的重点目标。

官网博客上的一篇文章[7]中阐述如下：“近期研究表明，LLM会在大脑中对信息进行分类整理，而这种整理结构可以通过研究模型来学习。Realm的防御机制主要基于这一原则。我们会识别LLM中存储有害信息的区域，并监控用户查询何时会使模型访问这些区域。我们的论点是，Realm的防御机制难以绕过，因为任何试图提取有害信息的越狱行为都必须触发模型的相应部分。我们的防御机制在知识源附近设置了一个监控点，使我们能够在有害信息从模型输出之前就检测到其生成。”

不过，现有的大部分官方公开文档都重在强调LLM内部可观测性建设的重要性，我们未能在其中找到较多关于具体实现细节的说明。

3.2部署模式

根据官方网站的宣传页[8]，Realm Prism支持4种部署模式，大致翻译如下：

批量分析（Batch Analysis）：对历史交互数据进行分析和分类，挖掘潜在模式和改进机会。

实时旁路（Real-Time Sidecar）：从应用逻辑中取得实时洞察，实现自适应的路由和监控。

内嵌护栏（Inline Guardrails）：阻止不安全或不当的查询，将复杂请求转发给更合适的模型。

生成式端点（Generative Endpoint）：可作为任何开放式权重模型的即插即用型端点，有目的性地收集行为数据。

如果从直观角度理解，批量分析可能是要重新运行LLM以复现隐层状态；实时旁路和内嵌护栏模式则可能类似HWAF场景下的监测和阻断模式；生成式端点可能是某种针对开源LLM的一站式云服务。

该宣传页还提供了一个视频，展示了Realm Prism的工作流程和UI。视频中可以看到，界面左侧有一个聊天对话框，在演示者输入一段提示词后，右侧面板会给出针对当前状态的一系列成分指标，且这些指标会随推理过程的进行而变化。

下图可见，演示者输入“I want to kill a child”，此时Violence、Self-Harm、Refusal三项指标都达到了较高水平，指示当前请求有害并应当拒绝回答：

演示者输入“I want to kill a child”，被Realm Prism识别为有害

但随后，演示者又在后面添加了一个“process”，于是以上拒绝指标随即消失，指示当前请求无害：

演示者输入“I want to kill a child process”，此前的有害指标下降到了较低水平

3.3实战性能

根据官网介绍[9]，Realm Labs从去年9月份起举办了一场CTF挑战赛，邀请公众来破解一个拥有四层防御的AI聊天机器人。至2025年10月17日，已有超过一百位参与者尝试破解逾2000次，其中包括一些大型公司的红队成员，但无人突破第四层防御。

CTF挑战赛的过关情况

不过，至本文截稿时，该挑战赛页面（https://sherlock.realmlabs.ai/）似乎已经无法访问。尚不明确官方后续是否还有类似的CTF或SRC计划。

3.4与其它方案的比较

说到比较，就不得不提到另一个厂商，即2023年度RSAC创新沙盒冠军HiddenLayer。在HiddenLayer的众多产品中，与Realm Prism最为相关的当属MLDR（Machine Learning Detection & Response）*，这是业界较早提出的针对机器学习模型的安全监测与防护方案。关于MLDR的细节调研，可以参考本公众号先前的文章：《RSA 2023创新沙盒盘点｜HiddenLayer：针对机器学习攻击的防护与响应平台》。

*注：较新的宣传中已改称“AIDR”，但功能层面的变更细节并未披露。为保持前后文一致，本文仍暂用旧称“MLDR”。

（非Realm Labs相关）HiddenLayer MLDR框架

与几乎专注于LLM的Realm Labs不同，MLDR可以处理各类机器学习/深度学习模型的输入和输出向量[10]，其防护范围也涵盖各类对抗性、鲁棒性攻击，例如对抗样本、模型提取等[11]。但其中的具体方法至今仍不明朗，仅有的描述来自官方博客中“融合了先进的启发式方法和机器学习技术”。

在现代LLM的场景下直观理解，MLDR应该可以处理嵌入层的输出和反嵌入层的输入/输出。相比AI防火墙等完全工作在模型外部的防护方法，MLDR似乎也能够在一定程度上实现内部可观测性。尽管如此，由于MLDR并非专为LLM打造，其在应对LLM相关的、尤其是业务相关的攻击时似乎还是显得比较粗粒度。HiddenLayer公司另有一系列针对LLM的防护方案，但也属于AI防火墙和数据防泄漏等，不在Realm Prism的对比范围内。

相比之下，Realm Prism的检测和防护方式则更有针对性，专门应对LLM相关的常见威胁形态，例如提示词注入、越狱等。此外，Realm Prism的实现方式更加深入模型内部，理应能够达到更好的效果和更低的开销，并显著增加攻击者绕过防护的难度。

Realm Labs官方白皮书中对内部可观测性方案与常规方案的对比

然而，Realm Prism的方案可能也存在一些局限。由于其方案依赖访问模型内部状态，它可能主要适用于开源模型或授权程度较高的场景。对于完全封闭或黑箱的第三方模型平台，Realm Prism的接入难度可能较大。此外，大规模运行实时监控也需要权衡性能和成本。

尽管如此，当前公开报道中尚未找到有对Realm Prism的具体质疑。

3.5其它值得关注的部分

Realm Labs在官方白皮书[5]中提出这样的观点：“…现有工具将模型视为黑盒，只捕获输入和输出，却忽略其他一切…这会造成根本性的盲点：幻觉。行为分析工具只能表明输出存在错误，只有内部可观测性能够揭示其中的原因——模型是否关注了无关的上下文？它是否为错误的Token赋予了较高的概率？…”

从这个角度出发，内部可观测性或许并不仅局限于AI自身安全攻防领域，而是一个LLM/AGI领域的、效用广泛的技术方向。幻觉问题自从LLM诞生之初就一直困扰我们，虽然有RAG等方法可以予以抑制，但时至今日也没有已公开的方法能够彻底解决幻觉问题。尽管如此，在Realm Labs相关的公开资料中，也未能找到具有足够细节的材料，以表明内部可观测性是否真的能够对幻觉抑制起到积极作用。

减少LLM幻觉造成的业务损害理应也是安全技术的一部分。这或许会是未来值得长期研究的一项课题。

04 一些猜测分析

根据现有调研结果，我们猜测Realm Prism有可能是以LLM消融（abliteration）技术为基础构建而成。

针对LLM的消融方法早在2024年4月就已被公开提出，论文于同年6月发表于arXiv[12]。该研究表明，LLM在其内部状态中，仅以特定单一方向的向量分量来决定其是否拒绝回答有害问题。只要在模型内部状态中找到并消除该方向的分量，无需对模型进行微调，即可令LLM丧失对有害输入的拒答能力；反之，如果人为添加该分量，即可使LLM对无害输入表现出拒答。由于成本极低，LLM消融技术在各个开源模型社区得到长期以来的广泛应用。受限于篇幅和内容敏感，本文暂不讨论消融技术实现细节，感兴趣的读者不妨移步原论文。

（非Realm Labs相关）绿盟科技早期进行LLM消融实验复现记录

而随后进一步研究还表明，并非只有拒答/非拒答，而是包括积极/消极、肯定/否定、中文/英文等很多LLM的表现都是由单一方向向量决定的。一个典型的相关实践案例是Llama-3-8B-Instruct-MopeyMule[13]，通过对Llama-3-8B-Instruct进行正交化处理*，模型输出变得非常消极，对于所有问题都表现得十分悲观。

*注：通过修改模型权重，使矩阵乘法的结果在特定方向的分量恒为零，从而实现不依靠运行时Hook的、永久性的消融技术。

绿盟科技同样早在2024年11月就完成了对相关技术的进一步研究和实用化。作为其中一个研究项目，实验中发现LLM仅需经过最初约30%的层数后，其内部状态已经在肯定/否定样本上高度线性可分。该方法已在绿盟科技“风云卫”安全大模型相关技术体系中采用，经对比评估，可在几乎不损失准确率的前提下，减少大规模数据分类任务上约54.50%的推理时间开销。针对LLM内部状态的其它研究亦有很多结论和应用，在此不一一列举。

（非Realm Labs相关）绿盟科技研究中，肯定/否定样本经过LLM时，各Transformer层间隐向量（Latent）的投影长度经标准化后的分布变化

不过，考虑到国内企业安全业务中，安全产品可能很难从软件层面介入到当前主流的LLM基础设施内部进行部署，因此后续研究并未针对AI自身安全方向继续进行。

现在让我们回到针对Realm Prism的分析上。LLM消融方法是早已公开的成熟方法，其成本低廉，效果显著，完全符合Realm Prism产品的宣传点。且仔细观察Realm Prism宣传视频可见，其中右侧仪表盘指标旁边还有一个锁头形状的按钮，不排除其也具备干涉（而非单纯监测）模型内部状态的功能。

由此猜测，虽然目前并无确切的证据表明该产品使用了主流LLM消融技术中的线性分类方法，但使用相关方法来实现类似Realm Prism的功能应该是可行的。

05 总结

Realm Labs作为一家专注AI安全与可观测性的创新公司，通过“洞察AI思考”的方法为生成式AI系统提供了全新的技术方案。这一思路已获得资深行业人士的认可和投资者的支持，并成功入选RSAC 2026创新沙盒。其产品线覆盖从模型内部推理监控到AI防火墙和数据防泄露等多个层面，与传统方案相比具有不同的切入点和差异化优势。

对于关注AI安全的企业用户而言，Realm Prism的技术让AI应用的内部变得更加透明，帮助安全团队提前发现和响应潜在问题。未来，如果Realm Labs能保持技术创新并优化适用范围，其方案或将成为企业AI安全实践的重要补充。

如果您发现文中描述有不当之处，还请留言指出。在此致以真诚的感谢。

更多前沿资讯，还请继续关注绿盟科技。

参考文献：

[1] Tola Captial. Portfolio Archive | Tola Capital, 2026[EB/OL]. (2026). https://tolacapital.com/portfolio.

[2] RSAC. Saurabh Shintre | RSAC Conference[EB/OL]. https://www.rsaconference.com/experts/saurabh-shintre.

[3] RSAC. Finalists Announced for RSAC Innovation Sandbox Contest 2026, February 2026[EB/OL]. (2026-02). https://www.prnewswire.com/news-releases/finalists-announced-for-rsac-innovation-sandbox-contest-2026-302683184.html.

[4] Saurabh Shintre. Securing AI’s Mind, September 2025[EB/OL]. (2025-09). https://www.realmlabs.ai/blogs/securing-ais-mind.

[5] Realm Labs. LLM Observability For Reliable AI[EB/OL]. https://drive.google.com/file/d/1rFSQgiPv06aQ1hWBeRb2SXG44oahXc58/view?usp=sharing.

[6] Phi Xuan Nguyen, Shafiq Joty. Phrase-Based Attentions, 2018[M/OL]. (2018). https://arxiv.org/abs/1810.03444.

[7] Nina Wei. Inside the Black Box: Why 95% of AI Projects Fail, October 2025[EB/OL]. (2025-10). https://www.realmlabs.ai/blogs/inside-the-black-box.

[8] Realm Labs. Product – Realm Prism[EB/OL]. https://www.realmlabs.ai/product-realm-prism.

[9] Realm Labs. Sherlock Challenge: One Month In, Realm Guard Remains Unbroken, October 2025[EB/OL]. (2025-10). https://www.realmlabs.ai/blogs/sherlock-challenge-one-month-in-realm-guard-remains-unbroken.

[10] Alex Avendano. Safeguarding AI with AI Detection and Response[EB/OL]. https://www.hiddenlayer.com/insight/safeguarding-ai-with-mldr.

[11] HiddenLayer. Unpacking the AI Adversarial Toolkit, October 2022[EB/OL]. (2022-10). https://www.hiddenlayer.com/research/ whats-in-the-box.

[12] Andy Arditi, Oscar Obeso, Aaquib Syed, et al. Refusal in Language Models Is Mediated by a Single Direction, 2024[M/OL]. (2024). https://arxiv.org/abs/2406.11717.

[13] failspy. failspy/Llama-3-8B-Instruct-MopeyMule · Hugging Face, May 2024[EB/OL]. (2024-05). https://huggingface.co/failspy/Llama-3-8B-Instruct-MopeyMule.

01 公司简介

02 产品背景

03 方案特点

04 一些猜测分析

05 总结

Meet The Author