全球估值最高AI搜索应用Perplexity上线 Kimi K2 Thinking模型
Perplexity 作为全球估值最高的 AI 搜索应用,开创了对话式「答案引擎」这一全新品类。它通过提供基于最新网络信息、并附带清晰引用来源的即时答案,改变了很多用户获取和研究信息的方式。自 2022 年成立以来,Perplexity 实现了爆发式增长,根据最新公开数据,该公司估值已突破 200 亿美元,在全球吸引了超过 3000 万的月活跃用户,其年度经常性收入(ARR)已接近 2 亿美元。
今天,Perplexity 上线 Kimi K2 Thinking 模型,为全球 Pro 用户带来强大的信息整合和处理能力。
更早之前,Cherry Studio、Cline、CoStrict、Cursor、Genspark、Kilo Code、Kortix Suna、RooCode、Trae、Vercel、Visual Studio Code、Windsurf、YouWare 等 AI 应用均已接入 Kimi K2 系列模型。
Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1 万亿,激活参数 320 亿。Kimi K2 最初发布于 2025 年 7 月,0905版进一步提升了 Agentic Coding 和前端编程体验,上下文长度从 128K 提升到 256K。2025 年 11 月,Kimi K2 Thinking 模型发布,全面提升 Agent 和推理水平,引入「边思考边使用工具」的多步交错式思考能力。
Kimi K2 Thinking 和高速版 Kimi K2 Thinking Turbo 的 API 已同步上线 Kimi 开放平台:
官方 API 借助专门的 token enforcer,Kimi K2 官方 API 可以提供 100% 的 ToolCall 格式正确率,实现更可靠的工具调用性能。
官方 API 支持自动上下文缓存,最多可节省 90% 的输入 token 费用。
此外,高速版 Turbo API 近期调整了价格,未命中缓存的输入价格降低 50%,命中缓存的输入价格降低 75%。
欢迎更多开发者在 Kimi 开放平台(platform.moonshot.cn)使用 Kimi K2 和 Kimi K2 Thinking 旗舰模型的 API 创建和开发自己的应用。
ToolCall 基准测试最新评估出炉
为了帮助用户挑选更高质量的 API 服务商,同时帮助第三方模型服务商打造更加一致且高性能的 API 体验,我们推出了 K2 Vendor Verifier 项目,定期测试各个供应商 API 的 ToolCall 性能表现,并且开源了测试数据,方便 API 服务商自行测试和复现。
最近,我们更新了K2 Vendor Verifier 的第四期评估结果,本次评估新增了 Kimi K2 Thinking 模型。评估结果如下:
第三方测试结果同样显示出,Kimi 官方 API 在 ToolCall 能力上的优势:
注:Vending-Bench 是由 Andon Labs 推出的一个模拟基准环境,用来测试大模型在长时间、连续决策场景下保持「长期一致性」的能力,它把 LLM 放进一家虚拟的自动售货机小生意里:模型要自主管理库存、定价、向供应商发邮件下单、查资料做市场调研、缴纳每日摊位费,并尽量多盈利。原帖地址:https://x.com/andonlabs/status/1989862276137119799
ToolCall 能力只是模型性能表现的一个维度,我们在准备下一个性能评估的维度,你关心哪些性能指标?期待你的反馈。
- 他们都在用 Kimi K2 -