Architecture Shift
影响: Important
强度: Medium
置信: 85%
谷歌通过Agent Platform展示AI原生应用架构范式
内容摘要
谷歌云客户案例展示了基于Gemini Enterprise Agent Platform构建的“流式意识转任务”应用。该架构利用原生音频流、主动工具调用和会话恢复等API,实现了从语音到结构化任务的无缝、低延迟转换,并设计了面向未来语音功能的提供商无关抽象层。
核心要点
Doist公司使用谷歌Gemini Enterprise Agent Platform(及其前身Vertex AI)和Gemini Flash模型构建了“Ramble”功能。核心是Gemini Live API,它直接处理原始PCM音频,单次完成语言检测、语音识别和语义理解,并主动调用预定义的工具(如addTask)。
该架构采用分层设计,包含提供商无关的流媒体层、听写模块、Ramble核心模块和对话模块。这种设计支持快速推出新语音功能,并允许灵活切换底层AI提供商。在测试上,团队结合了结构化验证和基于LLM-as-judge的语义验证,并建立了多语言场景的通过率阈值以系统评估模型版本。
该架构采用分层设计,包含提供商无关的流媒体层、听写模块、Ramble核心模块和对话模块。这种设计支持快速推出新语音功能,并允许灵活切换底层AI提供商。在测试上,团队结合了结构化验证和基于LLM-as-judge的语义验证,并建立了多语言场景的通过率阈值以系统评估模型版本。
重要性说明
这展示了谷歌Agent Platform作为企业构建复杂、实时AI原生应用的关键赋能层。其提供的原生音频处理、主动工具调用和会话状态管理等API,正在降低AI应用开发门槛,并可能推动企业应用向更自然、实时的交互范式演进。
💬 评论 (0)