在AI快速发展的进程中,关注敏捷性、道德诚信原则和价值交付。
随着大型语言模型(LLM)市场的快速发展,加上DeepSeek等最新的革命性技术加剧了行业竞争,并颠覆市场对AI成本的假设。用户仍需根据业务影响来评估LLM,保障其可扩展性、效率和长期价值。
仅仅用成本来评估LLM可能会导致其无法实现长期业务目标。因此,评估工作应考虑以下几个关键因素。
2024年年中,DeepSeek、字节跳动等公司首次宣布大幅降价。当时Gartner曾预测,到2027年,生成式AI (GenAI) API 的平均价格将低于当时平均价格的1%——同时质量、吞吐量和时延保持不变。
然而,我们认为AI推理成本(运用经过训练的AI模型生成输出所产生的成本)的下降对采用本地GenAI解决方案的企业几乎没有直接影响,主要原因包括部署选项有限、目前尚处于应用早期阶段,以及当前成本结构。
对于云AI平台,API成本仅仅是总体拥有成本 (TCO) 的一部分,此外还包括:
AI软件和工具
AI就绪数据及其治理
基础设施和云计算成本
AI服务和熟练劳动力
安全和合规措施
鉴于成本波动,我们建议在评估LLM时注意以下事项:
根据价值、风险和总体成本结构确定AI投资的优先级。
将安全性、治理和合规性纳入AI成本规划。
除了成本之外,评估模型的有效性,包括质量、吞吐量和时延。
随着生成式AI API成本的下降,组织应重新评估AI部署策略,权衡云模型与本地模型。云AI平台具有可扩展性和灵活性,并可与现有AI生态系统集成,而本地解决方案可能更能满足合规性、安全性和专门的基础设施需求。
建议在评估云LLM平台的应用时注意以下事项:
根据业务优先级开展AI部署,权衡云平台和本地平台。
评估AI用例的云采用情况,同时确保符合数据安全政策。
考虑采用包含云和本地基础设施的混合模型来实现灵活性。
根据三个关键标准评估LLM:模型类型、性能和成本效益。
模型类型
通用LLM:用于内容生成、归纳和对话式AI的多功能模型(例如GPT-4 Turbo)
特定领域LLM:针对特定行业应用(例如金融、医疗)设计的模型,具有专业功能
绩效衡量指标
结合行业基准与自定义评估指标,包括:
准确性和扎实性 — 基于事实的响应和精确性
相关性和查全率 — 满足业务需求
安全性和偏见检测 — 识别并降低输出内容的风险
成本因素
除了API本身的价格之外,还要考虑:
微调和模型适应成本
AI治理、安全和合规相关费用
人才和基础设施投入
DeepSeek是一家中国开发公司,声称其基于大型语言模型(LLM)所开发的AI API成本仅占美国企业开发成本的一小部分,并且不会影响产品性能。另外,中国企业字节跳动、阿里巴巴、百度和腾讯也开发出了低价的LLM API模型。这些模型颠覆了传统AI供应商的成本假设,但同时引发了人们对其是否会过滤宗教和文化差异的担忧。
AI推理成本是指在生产活动中运行经过训练的AI模型所产生的费用,包括算力、能耗和基础设施费用。这些成本会影响可扩展性、效率和云计算费用,因此AI部署应考虑成本优化,以便实现长期的成功。
AI的发展势头强劲,且前景广阔。专业领域模型、合成数据和AI驱动的自动化技术等趋势正在重塑各行各业。我们的《2025年重要战略趋势》报告详细介绍了这些新兴模式及其影响。