伴随着DeepSeek等颠覆性创新的出现,如何开展大语言模型(LLM)的评估

在AI快速发展的进程中,关注敏捷性、道德诚信原则和价值交付。

作者:方琦 | 2025年2月16日

DeepSeek在2024年年中引发了 LLM API 领域的价格战

评估大语言模型(LLM)和部署策略的关键考虑因素

随着大型语言模型(LLM)市场的快速发展,加上DeepSeek等最新的革命性技术加剧了行业竞争,并颠覆市场对AI成本的假设。用户仍需根据业务影响来评估LLM,保障其可扩展性、效率和长期价值。

仅仅用成本来评估LLM可能会导致其无法实现长期业务目标。因此,评估工作应考虑以下几个关键因素。

在AI竞赛中把握自身节奏

获取战略指导,帮助您以安全为前提,实现规模化的AI成果交付。下载完整研究报告,了解AI成本波动对AI扩展计划的影响。

如果您同意 Gartner的使用条款 隐私政策 ,请点击"继续"按钮。

联系方式

请填写所有资料

公司/组织信息

请填写所有资料

Optional

大语言模型(LLM)定价趋势及其短期影响

2024年年中,DeepSeek、字节跳动等公司首次宣布大幅降价。当时Gartner曾预测,到2027年,生成式AI (GenAI) API 的平均价格将低于当时平均价格的1%——同时质量、吞吐量和时延保持不变。

然而,我们认为AI推理成本(运用经过训练的AI模型生成输出所产生的成本)的下降对采用本地GenAI解决方案的企业几乎没有直接影响,主要原因包括部署选项有限、目前尚处于应用早期阶段,以及当前成本结构。

API价格:对企业的短期影响

对于云AI平台,API成本仅仅是总体拥有成本 (TCO) 的一部分,此外还包括:

  • AI软件和工具

  • AI就绪数据及其治理

  • 基础设施和云计算成本

  • AI服务和熟练劳动力

  • 安全和合规措施

鉴于成本波动,我们建议在评估LLM时注意以下事项:

  • 根据价值、风险和总体成本结构确定AI投资的优先级。

  • 将安全性、治理和合规性纳入AI成本规划。

  • 除了成本之外,评估模型的有效性,包括质量、吞吐量和时延。

迁移入云:长期AI部署的注意事项

随着生成式AI API成本的下降,组织应重新评估AI部署策略,权衡云模型与本地模型。云AI平台具有可扩展性和灵活性,并可与现有AI生态系统集成,而本地解决方案可能更能满足合规性、安全性和专门的基础设施需求。

建议在评估云LLM平台的应用时注意以下事项:

  • 根据业务优先级开展AI部署,权衡云平台和本地平台。

  • 评估AI用例的云采用情况,同时确保符合数据安全政策。

  • 考虑采用包含云和本地基础设施的混合模型来实现灵活性。

如何评估和选择适合的大语言模型

根据三个关键标准评估LLM:模型类型、性能和成本效益。

模型类型

  • 通用LLM:用于内容生成、归纳和对话式AI的多功能模型(例如GPT-4 Turbo)

  • 特定领域LLM:针对特定行业应用(例如金融、医疗)设计的模型,具有专业功能

绩效衡量指标

结合行业基准与自定义评估指标,包括:

  • 准确性和扎实性 — 基于事实的响应和精确性

  • 相关性和查全率 — 满足业务需求

  • 安全性和偏见检测 — 识别并降低输出内容的风险

成本因素

除了API本身的价格之外,还要考虑:

  • 微调和模型适应成本

  • AI治理、安全和合规相关费用

  • 人才和基础设施投入

在行业发生颠覆性变革的背景下,评估LLM时的常见问题

什么是DeepSeek?其关于AI成本的观点有何意义?

DeepSeek是一家中国开发公司,声称其基于大型语言模型(LLM)所开发的AI API成本仅占美国企业开发成本的一小部分,并且不会影响产品性能。另外,中国企业字节跳动、阿里巴巴、百度和腾讯也开发出了低价的LLM API模型。这些模型颠覆了传统AI供应商的成本假设,但同时引发了人们对其是否会过滤宗教和文化差异的担忧。


什么是AI推理成本?其重要性如何?

AI推理成本是指在生产活动中运行经过训练的AI模型所产生的费用,包括算力、能耗和基础设施费用。这些成本会影响可扩展性、效率和云计算费用,因此AI部署应考虑成本优化,以便实现长期的成功。


Gartner如何看待AI的未来?

AI的发展势头强劲,且前景广阔。专业领域模型、合成数据和AI驱动的自动化技术等趋势正在重塑各行各业。我们的《2025年重要战略趋势》报告详细介绍了这些新兴模式及其影响。

帮助您的企业在最关键事项上脱颖而出