OpenAI退役SWE-bench Verified榜单,转向更难的SWE-bench Pro。
FACTS基准套件发布,多维度评估LLM事实准确性。
Memori让AI Agent用SQL/MongoDB做长期记忆
美团复旦提出长程推理大模型评测新框架
Evalite发布,为AI应用提供TypeScript测试框架。
Nexla推出对话式AI平台,自然语言构建数据管道。
AWS发布Agentic AI安全框架。
KServe,Kubernetes上的AI推理平台,正式晋升为CNCF孵化项目。
Cursor 2.0 发布,主打 Agent 编码
Anthropic推出Skills,强调模块化、可审计的AI能力扩展。
Eclipse LMOS为JVM生态在K8s上提供AI Agent解决方案。
资深工程师尝试并行使用多个AI代理编程。