
GenAI 的蓬勃发展是否超过了你的基础设施?
企业对 GenAI 的投资已达到临界点。预算已获批准。用例成倍增加。然而,在 IT 团队和基础设施领导者中,一个令人警醒的认识正在形成:
人工智能已经准备就绪。但基础设施还没准备好。
这种差距在检索增强一代(RAG)的迅速崛起中体现得淋漓尽致–检索增强一代是目前推动 LLM 与企业数据实时交互的架构。RAG 将基础模型与矢量数据库和外部应用程序接口相结合,以创建动态的上下文感知响应。
但是,当企业从试点转向生产时,传统基础设施的裂缝就会迅速显现:延迟峰值、安全盲点以及对人工智能驱动的工作流程的可观察性有限。
根据 2025 年 7 月的 Futuriom 报告《RAGS 致富–部署 RAG 和企业人工智能》,市场正在碰壁:
“RAG 管道在没有标准化的情况下激增。性能和安全差距是真实存在的”。
这不是一个工具问题。这是一个基础设施问题,其根源在于传统的广域网、安全和云架构无法支持人工智能原生工作负载的需求。
从炒作到实际操作:RAG 为何如此重要
让我们退一步。RAG 的存在是因为大多数 LLM 缺乏私人领域知识。通过将 LLM 与知识库、向量数据库和 API 等内部资源相融合,RAG 让 GenAI 真正为企业所用。
但有用并不意味着简单。
RAG 架构通常包括
- 云托管的法律硕士
- SaaS 或 IaaS 环境中的矢量数据库
- 实时调用第三方和内部服务的应用程序接口
- 管理协调的代理框架,如 LangChain 或 AutoGPT
这个服务网跨越云、数据中心、SaaS 平台和边缘位置。基础设施不仅必须连接这些服务,还必须安全、高性能和完全可视。
Futuriom 报告将这些概述为 GenAI 基础设施成熟度的三大支柱:
- 跨分布式推理路径的性能优化
- 身份、会话和应用程序接口层面的安全性
- 端到端可观察性和政策执行
没有这些,RAG 仍然是脆弱和容易出错的。
RAG 现实:为什么 GenAI 会暴露基础设施的弱点?
蔓延、分散和工具过载
Futuriom 的访谈发现,许多企业都有 5 个或更多不同的 RAG 实施方案–每个方案都与不同的业务部门、供应商或模式相关联。
“由于企业无法扩展零散的方法,RAG 即服务可能成为唯一的出路”。
这就产生了多个故障点、冗余工具和不一致的安全策略。当需求激增时,集成和故障排除也会增加 IT 部门的负担。
推理不再集中
传统上,推理是在云或内部集群中进行的。但是,随着代理工作流、服务之间的应用程序接口(API)以及来自各处的用户查询,延迟成为制约因素。
“随着推理向边缘移动,企业报告的性能问题越来越多”。
基于 MPLS、非托管 SD-WAN 或区域 ISP 构建的传统网络无法提供人工智能链所需的确定性能。
90 毫秒响应与 350 毫秒超时之间的区别?GenAI 会话失败。
可观察性和安全性是事后考虑
RAG 引入了新的风险:
- 如果自主代理调用了错误的应用程序接口怎么办?
- 谁来监控矢量查询是否被滥用?
- 如何在多步骤分布式链条中执行政策?
Futuriom 指出”代理人工智能的安全和监控仍不成熟。企业需要集成工具”。
这种工具不仅要覆盖端点,还要覆盖每个跳转、每个会话和每个推理。
市场需求:统一的云原生智能基础设施
方向是明确的。
企业 IT 部门不想用 15 种工具 DIY 这种复杂性。它想要
- 统一提供网络和安全服务
- 基于云的控制和性能优化
- 可在全球范围内扩展的管理或共同管理业务
- 跨越云、边缘和推理链的可见性
这就是 Futuriom 所描述的 RAG 即服务的早期演进–不是供应商提供一种新工具,而是基础设施交付方式的根本转变,以支持人工智能。
目前最接近这一目标的是什么?单一供应商、全面管理的 SASE 平台,具有集成的可观察性和与 AI 一致的 SLA。
现实世界中的 RAG 基础设施:它看起来像什么
以下是正确的基础如何改变 GenAI 的运作:
- 通过<100ms latency {{{wpml_tag_120}}} {{{wpml_tag_121}}}{{{wpml_tag_122}}}Inference traffic{{{wpml_tag_123}}} gets dynamically prioritized and routed via AI-aware SD-WAN {{{wpml_tag_124}}} {{{wpml_tag_125}}}{{{wpml_tag_126}}}Agentic behavior{{{wpml_tag_127}}} is logged, visualized, and secured across every step {{{wpml_tag_128}}} {{{wpml_tag_129}}}{{{wpml_tag_130}}}Vector database access{{{wpml_tag_131}}} is encrypted, identity-bound, and policy-controlled {{{wpml_tag_132}}} {{{wpml_tag_133}}}{{{wpml_tag_134}}}Security stack{{{wpml_tag_135}}} (ZTNA, NGFW, CASB, SWG) is applied at the session—not bolted on later {{{wpml_tag_136}}} {{{wpml_tag_137}}}{{{wpml_tag_138}}}Operational overhead{{{wpml_tag_139}}} drops as visibility increases {{{wpml_tag_140}}} {{{wpml_tag_141}}} These capabilities are table stakes if you’re serious about production-grade GenAI. {{{wpml_tag_142}}}{{{wpml_tag_143}}}The Consequences of Waiting {{{wpml_tag_144}}}{{{wpml_tag_145}}} {{{wpml_tag_146}}}Organizations still running RAG on duct-taped architectures are experiencing: {{{wpml_tag_147}}} {{{wpml_tag_148}}} {{{wpml_tag_149}}}Developer fatigue from brittle integrations {{{wpml_tag_150}}} {{{wpml_tag_151}}}Compliance exposure due to lack of API-level controls {{{wpml_tag_152}}} {{{wpml_tag_153}}}Inference lag leading to dropped queries or broken workflows {{{wpml_tag_154}}} {{{wpml_tag_155}}}Overprovisioning to “buy performance” through brute force {{{wpml_tag_156}}} {{{wpml_tag_157}}} And as Futuriom warns: “Without scalable infrastructure, RAG becomes a liability—not a differentiator.” {{{wpml_tag_158}}}{{{wpml_tag_159}}}The Punchline: Unified SASE as a Service Built for GenAI {{{wpml_tag_160}}}{{{wpml_tag_161}}} {{{wpml_tag_162}}}So what’s the answer? {{{wpml_tag_163}}} {{{wpml_tag_164}}}Not more point tools. Not another visibility dashboard. And not a 12-month internal buildout. {{{wpml_tag_165}}} {{{wpml_tag_166}}}It’s Unified SASE, delivered as a managed cloud service, optimized for GenAI infrastructure. {{{wpml_tag_167}}} {{{wpml_tag_168}}}That’s where Aryaka comes in. {{{wpml_tag_169}}} {{{wpml_tag_170}}}Aryaka’s Unified SASE as a Service is the infrastructure platform GenAI needs: {{{wpml_tag_171}}} {{{wpml_tag_172}}} {{{wpml_tag_173}}}Global private backbone for deterministic inference performance {{{wpml_tag_174}}} {{{wpml_tag_175}}}Fully integrated ZTNA, NGFW, CASB, and SWG—applied via OnePASS™ {{{wpml_tag_176}}} {{{wpml_tag_177}}}AI>Observe 跨区域运行RAG 管道,实现对代理和推理行为的全栈可视性
- 以服务形式交付–全球、安全、云速度
Aryaka 甚至被列入 “RAGS to Riches “报告,成为支持未来 RAG 基础设施的 40 多家供应商之一。
因为归根结底,如果网络和安全跟不上,人工智能就无法快速发展。
下一步工作
想了解您的基础设施为 RAG、代理人工智能和 GenAI 扩展做好了哪些准备?