memory - AI基础设施情报搜索

NVIDIA 其他 2026-06-16

AMD Ryzen 10000系列拟弃集成GPU换NPU：AI性能跃升但牺牲基本显示能力

据泄漏，AMD下一代Zen 6桌面CPU“Olympic Ridge”将不再集成GPU，转而集成NPU以提升本地AI算力（目标>40 TOPS以满足Copilot+认证）。同时升级cIOD支持CUDIMM/CAMM内存与EXPO 1.2超频标准。此举意在追赶Intel DDR5速度并抢占AI PC生态位，但迫使绝大多数用户必须搭配独立显卡。

NVIDIA 其他 2026-06-16

ASML/TSMC/imec突破：300mm晶圆上集成2D材料晶体管，50nm节距创世界纪录

imec、ASML与TSMC联合展示首个300mm晶圆上基于MoS2/WS2/WSe2的n/pFETs，采用EUV单次光刻实现50nm接触多晶间距（CPP），94%良率。该成果是2D材料晶体管从实验室走向量产的关键里程碑，有望延续摩尔定律。

AMD 其他 2026-06-15

AMD收购MEXT：用AI预测让Flash逼近DRAM，降低AI内存TCO

AMD宣布收购AI内存优化初创公司MEXT，其核心技术利用AI预测模型使NAND Flash在延迟和吞吐量上逼近DRAM，旨在扩展AI服务器的有效内存容量，降低总拥有成本（TCO）。该技术将被整合进AMD数据中心全线产品，包括EPYC CPU和Instinct GPU，以应对大模型对内存的饥渴。

AMD 其他 2026-06-15

AMD通过Vultr开源AI软件组件，向NVIDIA CUDA生态发起生态重构挑战

AMD通过Vultr Marketplace发布开源、模块化的企业AI软件组件，包括AMD Inference Microservices (AIMs)、AI Workbench、Resource Manager和Solution Blueprints。该组合旨在提供生产级AI基础设施，避免单一厂商锁定，直接挑战NVIDIA的CUDA生态。

NVIDIA 其他 2026-06-15

NVIDIA力推World-Action模型：机器人控制权从语言转向视频基础模型

NVIDIA发表深度技术博客，提出World-Action Model（WAM）作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干，同时预测未来状态和机器人动作，旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局，但面临推理成本和实时性挑战。

NVIDIA 其他 2026-06-15

NVIDIA携ASUS推桌面级DGX Station：GB300芯片下放，控制点从云转向本地硬件生态

ASUS发布ExpertCenter Pro ET900N G3，基于NVIDIA DGX Station GB300架构，搭载GB300 Grace Blackwell Ultra芯片，提供748GB统一内存和20 PFLOPS AI性能。该桌面级AI超算支持本地LLM微调、推理及AI agent工作负载，通过NVLink-C2C实现高速互连，并集成NVIDIA AI软件栈与NemoClaw框架。

Research 其他 2026-06-15

Z.ai GLM-5.2推可用1M Token上下文，无基准测试下挑战长文本推理极限

Z.ai发布GLM-5.2，宣称支持可用的1M token上下文窗口，并引入两种思考努力级别（Thinking-Effort Levels）。但未提供任何标准基准测试结果，引发对其实际性能与可用性的质疑。该模型旨在直接替代传统RAG分块检索流程，实现端到端长文本推理。

MediaTek 其他 2026-06-15

Carmen Li推动GPU期货市场：算力金融化将颠覆AI基础设施采购模式

Carmen Li通过Silicon Data和Compute Exchange构建GPU价格指数和现货市场，目标推出计算期货。该计划获DRW支持，旨在解决GPU价格波动，标准化算力交易，可能创造万亿美元级新资产类别，彻底改变AI算力的定价与分配机制。

Cloudflare 其他 2026-06-15

Cloudflare吸纳Ensemble团队：架构级模型压缩重塑边缘推理经济

Cloudflare宣布吸纳Ensemble AI核心团队，引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理，直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本，提升GPU利用率，并加速全球边缘AI部署。

NVIDIA 其他 2026-06-14

NVIDIA与SK海力士深度捆绑：定制内存重塑AI工厂生态，锁定Vera Rubin与Jetson Thor

NVIDIA与SK hynix宣布多年期技术合作，将共同开发面向Vera Rubin AI超级计算机、Vera CPU、RTX Spark PC及Jetson Thor机器人平台的下一代定制内存。SK hynix还将利用NVIDIA CUDA-X库和Omniverse平台加速半导体设计与制造，构建自主晶圆厂数字孪生。

NVIDIA 其他 2026-06-14

NVIDIA推出Vera CPU：从GPU加速迈向AI Agent控制平面自主化

NVIDIA发布专为AI Agent设计的Vera CPU，基于88核Olympus架构，配备1.2TB/s LPDDR5X内存，声称比x86 CPU任务完成速度提升1.8倍。客户包括Anthropic、OpenAI等，意在将AI工作负载的控制平面从传统CPU转移到NVIDIA定制平台。

Microsoft 其他 2026-06-11

微软联合NVIDIA推RTX Spark Arm AI芯片，Windows PC算力跨越1 Petaflop门槛

微软在Computex 2026宣布与NVIDIA、MediaTek合作推出RTX Spark Arm架构AI超级芯片，集成Blackwell RTX GPU和128GB统一内存，支持本地运行120B参数大模型。同时Intel Arc G3、高通Snapdragon X2系列齐发，Windows AI PC生态全面升级。

NVIDIA 其他 2026-06-11

NVIDIA联手Google DeepMind推出并行文本生成模型，吞吐量突破1000 tokens/sec

NVIDIA宣布与Google DeepMind合作优化DiffusionGemma，该模型基于扩散去噪实现每步并行生成256个token，在单个H100上达到1000 tokens/sec，并通过NIM和NeMo提供即用部署，显著降低推理成本和延迟。

NVIDIA 其他 2026-06-11

NVIDIA借DiffusionGemma并行生成，将本地AI推理控制权锁定于自家GPU

NVIDIA优化Google DeepMind的DiffusionGemma开源模型，该模型通过并行生成256 tokens（非逐token）实现4倍加速。在H100上达1000 tokens/sec，DGX Spark上150 tokens/sec，完全本地运行，无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。

AMD 其他 2026-06-11

AMD携手戴尔与剑桥大学，以开放ROCm生态撬动英国主权AI算力基建

AMD联合戴尔和剑桥大学宣布建立英国主权AI创新实验室（SAIL），部署基于第五代EPYC和Instinct MI355X GPU的Zenith超级计算机，以及用于聚变能源研究的Sunrise系统。该实验室旨在推动开放、可互操作的AI基础设施，以ROCm软件栈为核心，对抗NVIDIA的CUDA生态锁定，为英国政府和研究机构提供长期技术选择。

Amazon 其他 2026-06-10

Graviton5 与 Nitro 形式化验证：AWS 用 ARM 和数学锁定 AI 时代 CPU 控制权

AWS 推出第五代自研 ARM 处理器 Graviton5，搭载于 M9g/M9gd 实例，性能提升 25%，支持 PCIe Gen6 和 DDR5-8800，首次引入形式化验证的 Nitro Isolation Engine。Meta 已部署数千万核支撑 agentic AI 推理，ARM 在云 CPU 赛道上完成关键突破。

Google 其他 2026-06-10

Google发布Lightning Engine：4.9x性能提升背后的生态锁定与架构隐忧

Google Cloud宣布Lightning Engine全面可用，基于开源Gluten和Velox实现向量化原生执行，声称性能提升4.9倍，价格性能比领先2倍。深度优化Cloud Storage和BigQuery连接器，但通过专有集成和premium tier强化生态锁定。

AMD 其他 2026-06-10

AMD EPYC以机架级密度宣战：Agentic AI的CPU控制权之争

AMD发布博客，宣称其EPYC处理器在机架级性能上领先NVIDIA Vera和Intel Xeon，专为Agentic AI的CPU密集型服务（如编排、缓存、数据库）设计。通过100kW机架模型，EPYC 9965（Turin）实现2.37倍于Vera的吞吐量，下一代“Venice”将扩展至3.30倍。强调现有x86平台即可部署，无需等待未来架构。

Google 其他 2026-06-09

GKE Inference Gateway前缀缓存：AI推理延迟降低92%，但锁定风险暗藏

Google Cloud推出GKE Inference Gateway，通过前缀缓存和模型感知路由，在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态，企业需警惕架构弹性损失。

NVIDIA 其他 2026-06-08

NVIDIA 借英国主权AI基金，从芯片商跃升为国家AI基础设施的幕后控制者

NVIDIA 与英国政府合作，通过 Isambard-AI（搭载 5,400 颗 GH200）及 Sovereign AI Fund，扶持本地初创（Cosine, Cursive, Doubleword）。此举表面是技术部署，实则是 NVIDIA 构建主权AI控制平面，将国家算力锁入其生态系统，削弱AWS/Azure等传统云厂商的地位。

情报

筛选