腾讯推出的自研深度思考模型混元T1正式版,阐述了其特点、架构优势及价格情况,还提及腾讯今年以来在大模型业务上的一系列动作,包括产品接入、资本投入等,展现了腾讯在AI应用领域构建竞争优势的决心。
在推出快思考模型Turbo S之后,腾讯又有了新的重磅动作——正式推出自研深度思考模型混元T1正式版。据悉,这是一款具有“秒回”能力的强推理模型,并且工业界首次将混合Mamba架构无损应用于超大型推理模型,这无疑是技术上的一次重大突破。
3月21日深夜,腾讯混元大模型团队正式将混元T1正式版推向市场。该模型具有出色的效果和极快的速度,多项指标达到了业界领先的推理水平。其吐字速度能够达到每秒60 – 80 tokens,在实际生成效果方面,远远快于DeepSeek – R1推理模型。
能秒回的深度思考模型
目前,当用户使用DeepSeek – R1等推理模型时,虽然这些模型在回答问题前会进行深度思考,并列出详细的思维链,体现出较高的智能化水平,但存在响应速度慢、效率不高的明显短板。
而混元T1正式版正是为解决这一问题而生。它不仅吐字快速、能够实现秒回,还在超长文处理方面表现出色。在常见的基准测试中,如大语言模型评估增强数据集MMLU – PRO中,混元T1取得了87.2分的优异成绩,超越了DeepSeek – R1,仅次于o1,充分展现了其强大的基础能力。
值得一提的是,混元T1正式版沿用了混元Turbo S的创新架构,采用Hybrid – Mamba – Transformer融合模式。这种架构有效地降低了传统Transformer结构的计算复杂度,减少了KV – Cache的内存占用,从而大幅降低了训练和推理成本。这也标志着腾讯摒弃了传统及主流的纯Transformer架构,首次将混合Mamba架构无损应用于超大型推理模型。
目前,混元T1已经在腾讯云官网上线。在价格方面,输入价格为1元/每百万tokens,输出价格为4元/每百万tokens,输出价格仅为DeepSeek标准时段的1/4,与DeepSeek优惠时段一致,具有较高的性价比。
腾讯大模型业务动作频频
作为大模型领域的“后发者”,腾讯今年以来动作不断。它不仅迅速将旗下十余款产品接入了DeepSeek,自研的混元模型系列也进入了快速迭代期。同时,腾讯还加大了对C端产品元宝的投入,积极抢占大模型用户入口。
腾讯3月19日发布的最新财报显示,腾讯2024年全年实现营收6603亿元,同比增长8%;净利润为1940.7亿元,比上年增长68%。腾讯董事会主席兼首席执行官马化腾在业绩会上表示,在过去一两个月里,AI得到了很大发展,尤其是在DeepSeek横空出世后,腾讯在云业务、“元宝”(AI应用)上都积极拥抱DeepSeek。
据腾讯官方微信号发布的消息,自今年2月以来,腾讯元宝接入DeepSeek满血版和全新混元模型,实现了双核驱动,元宝高速进化、日更级迭代,35天版本已经更新30次。此外,目前腾讯已有元宝、微信、腾讯文档、QQ浏览器、QQ音乐、微信读书等数十款产品及业务接入DeepSeek。
业内人士分析认为,作为拥有强大生态和用户基础的公司,腾讯如今通过走混元模型与DeepSeek模型结合的路径,致力于在AI应用领域构建起自身的竞争优势。
马化腾在业绩会上还表示:“数月前,我们重组了AI团队以聚焦于快速的产品创新及深度的模型研发,增加了AI相关的资本开支,并加大了我们对原生AI产品的研发和营销力度。我们相信这些增加的投资,会通过提升广告业务的效率及游戏的生命周期而带来持续的回报,并随着我们个人AI应用的加速普及和更多企业采用我们的AI服务,创造更长远的价值。”
财报显示,2024年第四季度,腾讯资本开支同比增长386%至365.8亿元,2024年全年资本开支达到767.6亿元,同比增长221%,创历史新高,占总营收的11.6%。在研发投入方面,2024年全年的AI研发投入达到706.9亿元,2018年至今累计投入3403亿元。腾讯总裁刘炽平表示,第四季度的资本支出增加非常显著,这是由于这一季度公司购买了更多GPU以满足推理需求,并且计划在2025年进一步增加资本支出。
本文介绍了腾讯推出的混元T1正式版的特点、架构和价格,以及腾讯在大模型业务上的一系列动作,包括产品接入和资本投入等。腾讯通过技术创新和业务拓展,在大模型领域积极布局,试图构建自身的竞争优势,未来有望在AI应用领域取得更大的发展。
原创文章,作者:半荷mio,如若转载,请注明出处:https://www.xiaoyaoxin.com/archives/3259.html