伴随着DeepSeek等颠覆性创新的出现，如何开展大语言模型(LLM)的评估

在AI快速发展的进程中，关注敏捷性、道德诚信原则和价值交付。

作者：方琦 | 2025年2月16日

评估大语言模型(LLM)和部署策略的关键考虑因素

随着大型语言模型（LLM）市场的快速发展，加上DeepSeek等最新的革命性技术加剧了行业竞争，并颠覆市场对AI成本的假设。用户仍需根据业务影响来评估LLM，保障其可扩展性、效率和长期价值。

仅仅用成本来评估LLM可能会导致其无法实现长期业务目标。因此，评估工作应考虑以下几个关键因素。

在AI竞赛中把握自身节奏

获取战略指导，帮助您以安全为前提，实现规模化的AI成果交付。下载完整研究报告，了解AI成本波动对AI扩展计划的影响。

工作邮箱 Person Type

如果您同意 Gartner的使用条款和隐私政策，请点击"继续"按钮。

联系方式

请填写所有资料

名字姓氏工作电话职位 Person Type

所在部门职务

返回

如果您同意 Gartner的使用条款和隐私政策，请点击"继续"按钮。

公司/组织信息

请填写所有资料

公司/组织 Business Street Address 城市

邮政编码Optional 国家/地区/地域州/省/地区

返回

如果您同意 Gartner的使用条款和隐私政策，请点击"提交"按钮。

大语言模型(LLM)定价趋势及其短期影响

2024年年中，DeepSeek、字节跳动等公司首次宣布大幅降价。当时Gartner曾预测，到2027年，生成式AI (GenAI) API 的平均价格将低于当时平均价格的1%——同时质量、吞吐量和时延保持不变。

然而，我们认为AI推理成本（运用经过训练的AI模型生成输出所产生的成本）的下降对采用本地GenAI解决方案的企业几乎没有直接影响，主要原因包括部署选项有限、目前尚处于应用早期阶段，以及当前成本结构。

API价格：对企业的短期影响

对于云AI平台，API成本仅仅是总体拥有成本 (TCO) 的一部分，此外还包括：

AI软件和工具
AI就绪数据及其治理
基础设施和云计算成本
AI服务和熟练劳动力
安全和合规措施

鉴于成本波动，我们建议在评估LLM时注意以下事项：

根据价值、风险和总体成本结构确定AI投资的优先级。
将安全性、治理和合规性纳入AI成本规划。
除了成本之外，评估模型的有效性，包括质量、吞吐量和时延。

迁移入云：长期AI部署的注意事项

随着生成式AI API成本的下降，组织应重新评估AI部署策略，权衡云模型与本地模型。云AI平台具有可扩展性和灵活性，并可与现有AI生态系统集成，而本地解决方案可能更能满足合规性、安全性和专门的基础设施需求。

建议在评估云LLM平台的应用时注意以下事项：

根据业务优先级开展AI部署，权衡云平台和本地平台。
评估AI用例的云采用情况，同时确保符合数据安全政策。
考虑采用包含云和本地基础设施的混合模型来实现灵活性。

如何评估和选择适合的大语言模型

根据三个关键标准评估LLM：模型类型、性能和成本效益。

模型类型

通用LLM：用于内容生成、归纳和对话式AI的多功能模型（例如GPT-4 Turbo）
特定领域LLM：针对特定行业应用（例如金融、医疗）设计的模型，具有专业功能

绩效衡量指标

结合行业基准与自定义评估指标，包括：

准确性和扎实性 — 基于事实的响应和精确性
相关性和查全率 — 满足业务需求
安全性和偏见检测 — 识别并降低输出内容的风险

成本因素

除了API本身的价格之外，还要考虑：

微调和模型适应成本
AI治理、安全和合规相关费用
人才和基础设施投入

在行业发生颠覆性变革的背景下，评估LLM时的常见问题

什么是DeepSeek？其关于AI成本的观点有何意义？

DeepSeek是一家中国开发公司，声称其基于大型语言模型（LLM）所开发的AI API成本仅占美国企业开发成本的一小部分，并且不会影响产品性能。另外，中国企业字节跳动、阿里巴巴、百度和腾讯也开发出了低价的LLM API模型。这些模型颠覆了传统AI供应商的成本假设，但同时引发了人们对其是否会过滤宗教和文化差异的担忧。

什么是AI推理成本？其重要性如何？

AI推理成本是指在生产活动中运行经过训练的AI模型所产生的费用，包括算力、能耗和基础设施费用。这些成本会影响可扩展性、效率和云计算费用，因此AI部署应考虑成本优化，以便实现长期的成功。

Gartner如何看待AI的未来？

AI的发展势头强劲，且前景广阔。专业领域模型、合成数据和AI驱动的自动化技术等趋势正在重塑各行各业。我们的《2025年重要战略趋势》报告详细介绍了这些新兴模式及其影响。