栏目分类
发布日期:2025-04-08 14:35 点击次数:113
推选大模子也可生成式夏雨荷 麻豆,何况初次在国产昇腾 NPU 上成功部署!
在信息爆炸时期,推选系统已成为生计中弗成或缺的一部分。Meta 最初建议了生成式推选范式 HSTU,将推选参数彭胀至万亿级别,得回显赫恶果。
探索历程中还有哪些申饬与发现?最新公开共享来了。
阐亮堂点包括:
归来推选范式发展历程,指出具备彭胀定律的生成式推选范式是异日趋势;
复现并谋划不同架构的生成式推选模子过头彭胀定律;通过消融践诺和参数分析,主张 HSTU 的彭胀定律起首,并赋予 SASRec 以可彭胀性;
考证 HSTU 在复杂场景和排序任务中的证据及彭胀性;
团队预测并归来异日谋划标的。
具备彭胀定律的生成式推选范式正在成为异日趋势
如图 1 所示,推选系统的发展趋势是闲静减少敌手工磋商特征工程和模子结构的依赖。在深度学习兴起之前,受限于磋商资源,东说念主们倾向于使用手工磋商的特征和浮浅模子(图 1A)。
跟着深度学习的发展,谋划者专注于复杂模子的磋商,以更好地拟合用户偏好,并晋升对 GPU 并行磋商的左右率(图 1B)。
但是,跟着深度学习智商的瓶颈,特征工程再次受到善良(图 1C)。
如今,诳言语模子彭胀定律的成功启发了推选规模的谋划者。彭胀定律描画了模子性能与要津方针(如参数限制、数据集限制和考试资源)之间的幂律干系。通过加多模子深度和宽度,并结合无数数据,不错晋升推选效果(图 1D),这种方法被称为推选大模子。
近期,HSTU 等生成式推选框架在此标的得回了显赫恶果,考证了推选规模的彭胀定律,激勉了生成式推选大模子谋划的答允。团队合计,生成式推选大模子正在成为颠覆现时推选系统的下一个新范式。
在此布景下,探索哪些模子真的具备可彭胀性,贯通其成功应用彭胀定律的原因,以及如何左右这些法则晋升推选效果,已成为现时推选系统规模的热点课题。
基于不同架构的生成式推选大模子彭胀性分析
为了评估生成式推选大模子在不同架构下的彭胀性,团队对比了 HSTU、Llama、GPT 和 SASRec 四种基于 Transformer 的架构。
在三个公开数据集上,通过不同提神力模块数目下的性能证据进行分析(见表 1)。远离暴露,当模子参数较小时,各架构证据一样,且最优架构因数据集而异。
但是,跟着参数彭胀,HSTU 和 Llama 的性能显赫晋升,而 GPT 和 SASRec 的彭胀性不及。尽管 GPT 在其他规模证据风雅,但在推选任务上未达预期。团队合计,这是因为 GPT 和 SASRec 的架构枯竭专为推选任务磋商的要津组件,无法有用左右彭胀定律。
生成式推选模子的可彭胀性起首分析
为了探究 HSTU 等生成式推选模子的可彭胀性起首,团队进行了消融践诺,折柳去除了 HSTU 中的要津组件:相对提神力偏移(RAB)、SiLU 激活函数,以及特征交叉机制。
践诺远离(见表 2)暴露,单一模块的缺失并未显赫影响模子的彭胀性,但 RAB 的移除导致性能赫然下跌,标明其要津作用。
为了进一步分析赋予模子彭胀定律的身分,团队比较了 SASRec 与彭胀性风雅的 HSTU 和 Llama 的区别,发现主要互异在于 RAB 和提神力模块内的残差团结形势。
为考证这些互异是否为彭胀性的要津,团队为 SASRec 引入了 HSTU 的 RAB,并改变其提神力模块的终了形势。
践诺远离(见表 3)暴露,单独添加 RAB 或修改残差团结并未显赫改善 SASRec 的彭胀性。但是,当同期修改两个组件后,SASRec 展现出风雅的彭胀性。这标明,残差团结模式与 RAB 的结合,为传统推选模子赋予了彭胀性,为异日推选系统的彭胀性探索提供了苦恼启示。
生成式推选模子在复杂场景和排序任务中的证据复杂场景中的证据
HSTU 在多域、多手脚和援手信息等复杂场景中证据出色。以多域为例,HSTU 在 AMZ-MD 的四个域中永久优于基线模子 SASRec 和 C2DSR(见表 4)。
与单域独处考试的 HSTU-single 比较,多域吞并考试的 HSTU 证据更佳,解说了多域吞并建模的上风。表 5 暴露,HSTU 在多域手脚数据上的彭胀性显赫,尤其在限制较小的场景如 Digital Music 和 Video Games 上。这标明 HSTU 在处理冷运转问题上具有后劲。
在排序任务中的证据
排序是推选系统中苦恼的一环,团队深化探讨了生成式推选模子在排序任务中的有用性和彭胀性。正如表 6 所示,生成式推选大模子在性能上显赫优于 DIN 等传统推选模子。尽管在小限制模子下,Llama 的证据优于 HSTU,但 HSTU 在彭胀性方面更具上风,而 Llama 在彭胀性上显得不及。
av排名团队还谋划了负采样率和评分网罗架构对排序任务的影响,并进行了全面分析。此外,还探讨了缩减 embedding 维度对性能的影响。削弱 embedding 维度(表 7)晋升了少量据集 ML-1M 和 AMZ-Books 的性能,但在大数据集 ML-20M 上则有所下跌。这标明,推选大模子的彭胀定律不仅受垂直彭胀(提神力模块数目)影响,也受水平限制(embedding 维度)影响。
异日标的和归来
在工夫评释中,团队指出了数据工程、Tokenizer、考试推理效能等推选大模子异日谋划的后劲标的,这些标的将匡助处理现时的挑战并拓宽应用场景。
论文荟萃 : https://arxiv.org/abs/2412.00714
主页荟萃 : https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models
一键三连「点赞」「转发」「严防心」
迎接在指摘区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 格式主页荟萃,以及关联形势哦
咱们会(尽量)实时回话你
� � 点亮星标 � �
科技前沿进展逐日见夏雨荷 麻豆