中文
 

Follow us 

Hot Topic
Market News
Events & Promo
Career Tips
Education News
Health & Life
WEKA 與 Oracle Cloud Infrastructure 證實長上下文人工智能推論可令吞吐量提升 10 倍
PRNewswire

WEKA 與 Oracle Cloud Infrastructure 證實長上下文人工智能推論可令吞吐量提升 10 倍

Publish date: 10 Jun 2026

Follow us

Stay updated on the job market

Popular Articles

【奇葩公司福利】世界盃開波驚爆肝?盤點全球5個最狂「世界盃限定」公司政策
【奇葩公司福利】世界盃開波驚爆肝?盤點全球5個最狂「世界盃限定」公司政策
「創科遊學 玩轉暑假 2026」七月盛大啟幕 「全民AI 共創智慧未來」為主題攜手師生、家長及企業共育未來創科人才
「創科遊學 玩轉暑假 2026」七月盛大啟幕 「全民AI 共創智慧未來」為主題攜手師生、家長及企業共育未來創科人才
【468勞工法例懶人包】一文睇清連續性合約計算方法、兼職福利與舊制分別
【468勞工法例懶人包】一文睇清連續性合約計算方法、兼職福利與舊制分別
2026工展會購物節懶人包|亞博館開鑼:門票優惠、1折激抵貨品、亮點活動一文睇清
2026工展會購物節懶人包|亞博館開鑼:門票優惠、1折激抵貨品、亮點活動一文睇清
【職場健康】工作狂增3倍精神病風險!自僱、管理層屬 ADHD 及焦慮症高危族?
【職場健康】工作狂增3倍精神病風險!自僱、管理層屬 ADHD 及焦慮症高危族?

在 OCI H100 基礎設施上進行的聯合基準測試顯示,在不增加圖形處理器的情況下,並發用戶數目提升 10 倍,Token 吞吐量提高 10 倍,Token 服務量增加 7 倍

加州坎貝爾2026年6月10日 /美通社/ -- 人工智能 (AI) 數據與記憶體基礎設施公司 WEKA 今日發佈生產規模的基準測試,結果顯示機構在相同圖形處理器 (GPU) 佔用空間下,可服務更多用戶及 Token,從而提升長上下文人工智能推論的經濟效益。 基準測試表明,於 Oracle Cloud Infrastructure (OCI) 上使用配備 Augmented Memory Grid™ (增強記憶體網格) 的 WEKA NeuralMesh™ 平台,在不增加基礎設施的情況下,相比純動態隨機存取記憶體 (DRAM) 配置,能服務多 10 倍的並發用戶、提供高 10 倍的 Token 吞吐量,並讓每個圖形處理器多產生 7 倍 Token。 上述結果經由一個配備 100,000 Token 上下文窗口的 9 節點 OCI 裸機 H100 集群驗證屬實。


Oracle Cloud Infrastructure 軟件開發高級總監 Pablo Selem 說:「企業人工智能工作負載正將上下文窗口及圖形處理器使用率推向新極限。 這些基準測試顯示,在 OCI 上配備 Augmented Memory Grid 的 WEKA NeuralMesh 平台如何幫助消除記憶體瓶頸,使客戶無需單純增加更多圖形處理器,也能支援規模更大、要求更高的推論工作負載。」

改變推論經濟效益的三項成果
該成果在裸機 H100 集群(9 個節點、72 個圖形處理器、100,000 個 Token 上下文窗口、數以千計並發用戶)上經過生產規模驗證,OCI 上配備 Augmented Memory Grid 的 NeuralMesh 交出以下成績:

  • 無需增加基礎設施,服務的並發用戶數提升 10 倍。配備 Augmented Memory Grid 的 NeuralMesh 可擴展至超過 5,000 名並發用戶,反觀純動態隨機存取記憶體配置僅能容納約 600 名。 此做法將活躍快取工作集從 8.64 TiB 動態隨機存取記憶體擴大到 287 TiB 可用非揮發性記憶體表達 (NVMe),從而避免快取飽和時出現的性能急劇下降。 此外,每個圖形處理器能服務更多用戶,代表相同投資可發揮更大價值。
  • Token 吞吐量高出 10 倍。 集群中的每個圖形處理器都能輸出更多結果。在 OCI 上,配備 Augmented Memory Grid 的 NeuralMesh 每秒可處理約 200 萬 Token,而純動態隨機存取記憶體基準配置每秒處理不到 200,000 Token。 對於運行實時人工智能功能,包括搜尋、摘要、程式碼輔助及多輪代理的產品團隊,吞吐量直接決定最多能服務多少用戶、功能回應有多快,以及基礎設施能支撐多少收入。
  • Token 服務量激增 7 倍。 大規模運行時,每個 Token 的成本得以降低。在一個涉及 2,400 名用戶的 1 小時測試中,配備 Augmented Memory Grid 的 NeuralMesh 處理了 50 億 Token,而純動態隨機存取記憶體基準配置只處理了 7 億 Token。 對運行代理型工作流程的機構來說,動態隨機存取記憶體飽和會因持續重複運算而耗盡圖形處理器效能,直接影響每個 Token 的成本及投資回報率 (ROI)。

WEKA 行政總裁 Liran Zvibel 表示:「推論瓶頸在於圖形處理器能使用多少有效記憶體。 這些結果證明,人工智能 Token 的經濟效益問題無法單靠硬件解決,而是必須消除記憶體牆,這才是真正限制現有硬件能力的瓶頸。 在 OCI 上運行配備 Augmented Memory Grid 的 NeuralMesh,能以極具成本效益的方式,為客戶呈獻幾何級數增長的 Token 產能。」

運用上下文記憶體基礎設施,改變人工智能經濟效益
隨著推論需求增長,人工智能基礎架構的低效率問題會不斷加劇。 每次鍵值 (KV) 快取被逐出都會帶來代價:消耗圖形處理器週期、增加延遲、影響用戶體驗,以及提高每個所服務 Token 的成本。 對於輸入動輒達 100,000 Token 或以上的長上下文及代理型工作負載而言,這筆代價絕非無關痛癢的誤差。 這直接撼動每個運行生產級人工智能的機構之單位經濟模型。

Augmented Memory Grid 作為 NeuralMesh 的一項功能,從架構層面解決問題,把鍵值快取與本地圖形處理器記憶體分離,並儲存在一個可供整個集群存取的高效能 Token 倉庫中。 任何主機都能在不影響快取命中率的情況下服務任何工作階段,擺脫了僵化工作階段黏性束縛,同時提供比動態隨機存取記憶體更優越的效能,改善負載平衡,且隨著並發數增加而實現流暢的橫向擴展。 最終帶來人工智能代理所需的持久上下文記憶體,並掌握成本槓桿,令長上下文推論得以在經濟可行的前提下實現大規模運作。

生產級實證
OCI 已於 2026 年 5 月 13 日,在其人工智能與數據科學網誌 (AI & Data Science blog) 上刊載了完整的基準測試方法、系統配置及結果。 這些在 9 節點 OCI 裸機 H100 集群上進行的基準測試,超越了前一階段的驗證結果。前一階段證明了鍵值快取容量增加 1,000 倍,而在 128,000 Token 下,達到首個 Token 的時間縮短高達 20 倍。 這最新階段測試了生產環境中推論的全面經濟效益,包括並發密度、持續吞吐量、快取持久性,以及在高負載下需求突增時的服務水平目標 (SLO) 穩定性。

登陸 Oracle Marketplace
配備 Augmented Memory Grid 的 NeuralMesh 現已全面供應給 WEKA 客戶,並已在Oracle Marketplace上架,OCI 為 WEKA 的獨家雲端發佈合作夥伴。 在 OCI 上運行長上下文推論的機構,現可部署一套既經認證亦可即時投產的架構。 如欲了解更多關於 OCI 及 WEKA Augmented Memory Grid 基準測試的資訊,請參閱 OCI 網誌:https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid

關於 WEKA
WEKA 是專注於人工智能數據與記憶體基礎設施的公司,正在革新代理型人工智能的經濟效益。 NeuralMesh™ 平台融合高效能數據儲存與擴充的圖形處理器記憶體,為企業、人工智能雲端服務商及人工智能建構者提供統一基礎,以應對訓練、推論及代理型工作負載。 透過 Augmented Memory Grid,NeuralMesh 能把圖形處理器記憶體容量擴展 1,000 倍,將達到首個 Token 的時間縮短高達 20 倍,並在相同圖形處理器佔用空間下服務多 10 倍的並發用戶,這些結果已在生產基準測試中得到證實。 WEKA 深受《財富》50 強 (Fortune 50) 中三成企業的信賴,能幫助機構加快人工智能的規模化部署、提升圖形處理器的使用效率,並降低每服務一個 Token 所帶來的成本。 歡迎瀏覽 www.weka.io 以了解更多,亦可於 LinkedInX 上關注我們。

WEKA 及 W 標誌為 WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱,可能為其各自擁有者的商標。

Follow us

Stay updated on the job market

Popular Articles

【奇葩公司福利】世界盃開波驚爆肝?盤點全球5個最狂「世界盃限定」公司政策
【奇葩公司福利】世界盃開波驚爆肝?盤點全球5個最狂「世界盃限定」公司政策
「創科遊學 玩轉暑假 2026」七月盛大啟幕 「全民AI 共創智慧未來」為主題攜手師生、家長及企業共育未來創科人才
「創科遊學 玩轉暑假 2026」七月盛大啟幕 「全民AI 共創智慧未來」為主題攜手師生、家長及企業共育未來創科人才
【468勞工法例懶人包】一文睇清連續性合約計算方法、兼職福利與舊制分別
【468勞工法例懶人包】一文睇清連續性合約計算方法、兼職福利與舊制分別
2026工展會購物節懶人包|亞博館開鑼:門票優惠、1折激抵貨品、亮點活動一文睇清
2026工展會購物節懶人包|亞博館開鑼:門票優惠、1折激抵貨品、亮點活動一文睇清
【職場健康】工作狂增3倍精神病風險!自僱、管理層屬 ADHD 及焦慮症高危族?
【職場健康】工作狂增3倍精神病風險!自僱、管理層屬 ADHD 及焦慮症高危族?

Hottest Tags

#奇葩公司福利
#世界盃
#世界盃2026
#打工仔
#返工
#射波
#公司政策
#公司Policy
#世界盃請假攻略
#彈性上班時間
#辦公室睇波
#宿醉假

Viewed jobs
樓面部領班【空缺編號 61-54114】
3 days ago
接待員(會所)【空缺編號 61-53628】
2 days ago
Viewed jobs
Contact Us
Notice
Back to Top
We use cookies to enhance your experience on our website. Please read and confirm your agreement to our Privacy Policy and Terms and Conditions before continue to browse our website. Read and Agreed