
在智能体活跃,token(词元)挥霍量呈指数级加多的2026年,token经济以及算力的受宠爱进度有增无已。以“龙虾”OpenClaw为代表的智能体需要挥霍算力,用户必须从token供应商处获取API key(密钥),才气让这些智能体时时开首。
不外,许多东谈主不知谈的是,即等于归并款模子,凭据供应商的不同,其token的“质地”也会存在互异。近日,清华大学探讨机系长聘西宾、博士生导师,清程极智首席科学家翟季冬采纳了新京报贝壳财经记者的采访,揭开了token经济中这一“守秘的边缘”。
此外,算作曾指挥清华团队十五次获取国际大学生超算竞赛冠军的联结憨厚,翟季冬和团队成员也对现时国产算力芯片若何与大模子进行适配,以及二者之间“推理引擎”层的作用,对新京报贝壳财经记者进行了科普。

清华大学探讨机系长聘西宾、博士生导师,清程极智首席科学家翟季冬修起记者发问。罗亦丹/摄
归并模子,低廉token有可能更“花钱”
“token是本年最火的词,但token底层波及许多时间。”翟季冬开门见平地说,在他看来,token产业不错分为三层:底层是在芯片上部署大模子,坐褥token的坐褥层;中间层是算作token供应商转运分发token的流畅层;最表层则是个东谈主和企业用户径直调用API消费token的使用层。
AG中国手机官方网页版这三层结构听上去跟电力系统有些相似,但翟季冬强调,两者的纯属度彻底不在一个量级,“当咱们用电时,无谓惦念发出来的电有‘分手’,但token不同,相同的模子、相同的价钱,token质地却可能缭乱不都。”
他告诉记者,实质上,token供应商的贪图有许多,除了浮浅明了的价钱、陡立文长度外,还有首字延长、费解量,以及无为用户较难剖释的精度、 KV Cache(键值缓存)掷中等。
而这些“守秘的细节”可能决定模子的抵制和token挥霍的大小。
在模子抵制方面,翟季冬例如称,比如模子发布时可能选择了BF16精度,但有些供应商会把它量化成INT8致使INT4来部署,公正是算力挥霍减半,不错承载更多用户,代价是模子智商被“编订”了,尊龙凯时2026世界杯中国官网不再是原汁原味的抵制。
据了解,FP16、INT8等专科术语指的是大模子推理的精度,数字(4/8/16/32/64)代表位数,一般来说,位数越高,探讨精度越高、抵制越准,但速率越慢、挥霍算力越大;位数越低,速率越快、越省算力,但会轻微耗费模子抵制。
而在token挥霍量方面,翟季冬给记者算了一笔账:相同的模子,一家供应商报价每百万token3元,另一家报价1元,看似低廉的那家,实质总老本可能反而更高。“它有两行报价,一排是token掷中,可能是一毛钱,token不掷中是一块钱。然则它的token坐褥作念得很差,你的这些肯求都不掷中,终末反而花钱。”
清程极智蚁集创举东谈主师天麾评释称,LOL比赛下注2026中国官网入口这里的中枢时间是KV Cache(键值缓存)处置——在多轮对话场景中,缓存掷中不错粗略90%的老本,但不同供应商的缓存处置水平差距高大,其中报价低的职业商也许缓存并不高,本该粗略的那些缓存没能粗略,导致总老本很高。但职业商在卖token时,一般不会径直阐述缓存掷中率是若干,致使有些职业商径直不给缓存掷中的优惠价钱。
针对这一乱象,清程极智推出了AI Ping一站式大模子职业评测与API智能路由平台,面前,平台已接入30余家主流职业商、600余个大模子职业,隐蔽文本、图片、视频等全场景;通过7×24小时多地域散播式监测,及时输出延长、费解、可靠性、价钱等中枢贪图。

不同供应商提供的DeepSeek-V4-Pro模子的token延长情况对比图。数据来源:aiping.cn
6月8日,新京报贝壳财经记者登录AI Ping平台,立地稽查了DeepSeek-V4-Pro模子不同token供应商的延长情况,发现其记载了价钱、延长、费解等贪图。如关于延长这一贪图,一些职业商的弧线波动极大,而最为矫健的则是DeepSeek官方提供的token。
“中国的电力系统在全寰宇是第一的,咱们但愿通过各式英勇,大概把我国token职业的质地和性能也作念到全寰宇第一。”翟季冬说。
芯片发展趋势:撑握的精度类型越来越多
token质地的互异,追本穷源要落到芯片和推理引擎上。一个容易被忽略的事实是:在国产算力和国产模子之间,并不是径直对接的干系,中间还隔着一层至关进攻的“推理引擎”。这层软件起承转合,决定了芯片的算力能弗成被高效开释,也决定了最毕坐褥出来的token质地够不够好。
翟季冬用精度问题向贝壳财经记者评释了推理引擎的价值——“许多东谈主认为芯片正在向精度越来越高发展,但事实上,芯片正在向撑握的精度类型越来越多发展,例如,传统CPU可能只撑握三、四种精度类型,而面前的AI芯片能撑握十几种,从FP64、FP32、FP16到FP8、FP4,还有INT8、INT4等整数精度,每一种都有不同的性能和抵制衡量。”
“模子不是说一定要选最高的精度才好,因为精度更高的同期,也更慢,每个模子会选一个恰到公正的精度。”清程极智蚁集创举东谈主唐适之补充谈,“面前来讲,主流模子的聘用时时跟从英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度,DeepSeek合计FP8最稳妥我方的模子,就选了这个圭表。”
但问题随之而来:国产芯片的精度撑握并不彻底跟英伟达对都。“对DeepSeek来讲,国产卡有的精渡过高有的精渡过低,使用起来不管若何都是有耗费的。”
这恰是推理引擎的用武之地。翟季冬告诉记者,国际主流推理引擎如vLLM、SGlang对英伟达、AMD的生态撑握更好,但对国产芯片的优化参加有限。针对大模子部署老本高、国产算力适配不及的痛点,清程极智推出了自主研发的国产推理引擎赤兔,其对国产模子、国产芯片的撑握在很厚情况下比vLLM、SGlang要更好。
这种上风不仅仅体面前精度适配层面。唐适之先容,不同国产芯片的硬件本性互异很大,比如有些卡的张量探讨智商和标量探讨智商之间的衡量跟英伟达不一样,有些卡的卡间互联款式也不同,推理引擎需要针对这些特色作念定制化想象。“咱们要实在地凭据国产卡上头的特色来选咱们的终了有贪图,而不是说看英伟达上头有这个精度就选这个精度。”
“咱们将握续深耕AI基础设施鸿沟,坚握中枢时间自主可控,握住迭代赤兔推理引擎对国产芯片的适配智商,完善AI Ping评测与路由职业,联动国产算力、国产模子、行业诈欺等产业链伙伴,打造高效、普惠、安全的国产AI基础设施体系,反馈国度‘东谈主工智能+’行为,以时间翻新股东中国AI产业高质地发展。”翟季冬说。
新京报贝壳财经首席记者 罗亦丹 编订 陈莉 校对 柳宝庆LOL比赛下注(中国)官方网站