#sidebar-ssr-nav { display: block !important; } #sidebar-skeleton { display: none !important; } #sidebar-client-nav { display: none !important; }

AI

相关主题:

工程实践、Kubernetes、反馈飞轮、评测基准饱和、FACTS 基准、Memori、R-HORIZON、Evalite

反馈飞轮

Martin Fowler (软件设计)2026/4/8

Thoughtworks关于AI辅助开发的团队学习框架。

全行业盯了两年的编程能力榜，今天退役！OpenAI 停用 SWE-bench Verified：未来标准将看 AI 能顶替多少程序员？

InfoQ - AI＆大模型2026/2/25

SWE-bench Verified因饱和与污染退役，行业转向更难的新基准。

FACTS 基准测试套件：评估 LLM 事实准确性

InfoQ - AI＆大模型2026/1/16

全新的模型事实准确性四维评估基准问世。

不开向量库也能做 Agent 长期记忆？Memori 把 SQL/MongoDB 变成了 AI 记忆仓

InfoQ - AI＆大模型2025/12/10

Memori用标准数据库替代向量库实现Agent长期记忆的开源方案

R-HORIZON：探索长程推理边界，复旦NLP＆美团LongCat联合提出LRMs能力评测新框架

美团技术团队2025/11/28

复旦与美团联合提出R-HORIZON框架，揭示大型推理模型长链推理能力边界

Evalite 横空出世：AI 驱动应用的 TypeScript 测试利器

InfoQ 话题 - 大前端2025/12/1

TypeScript 原生 LLM 评估运行器 Evalite 发布 v1 beta。

Nexla 发布对话式 AI 数据工程平台 Express

InfoQ - AI＆大模型2025/11/25

Nexla推出对话式AI数据工程平台Express，自然语言构建数据管道。

Agentic AI 安全范围矩阵：保障自主AI系统的框架

AWS 安全2025/11/21

AWS提出四象限Agentic AI安全框架，按自主性与权限分级定义安全控制。

KServe 成为 CNCF 孵化项目

CNCF2025/11/11

KServe被CNCF TOC投票接受为孵化项目。

【独家实测】Cursor 2.0 发布，花一分钟看看都更新了啥

掘金前端本周最热2025/10/31

Cursor 2.0发布，核心更新包括自研Composer模型、多Agent并行、内置浏览器和语音模式。

AI 智能体未来之争：是迷你应用（GPTs）？还是模块化代码（Skills）？开发者，你站哪边？

InfoQ - AI＆大模型2025/11/5

Anthropic推出Skills，以代码定义可复用任务组件，区别于GPTs的图形化配置。

Python只是前戏，JVM才是正餐！Eclipse开源新方案，在K8s上不换栈搞定Agent

InfoQ - 云计算2025/11/3

Eclipse开源LMOS平台，用Kotlin+ADL让JVM生态企业无需换Python栈即可构建Agent。

新趋势：通过启动并行人工智能代理进行编程 - New trend: programming by kicking off parallel AI agents

The Pragmatic Engineer (实用工程师)2025/10/30

资深工程师开始并行运行多个 AI 编码代理提升产出