您现在的位置是:Nina Senior网 > 知识
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
Nina Senior网2025-03-18 08:23:36【知识】5人已围观
简介本文探究了 Monarch Mixer (M2) ,这是一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的硬件功能。从 BERT、GPT 以及 Flan-T5 等语言模子到
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的更好更强硬件功能 。
从 BERT 、更好更强GPT 以及 Flan-T5 等语言模子到 SAM 以及 Stable Diffusion 等图像模子,更好更强Transformer 正以所向无敌之势席卷这个天下 ,更好更强但人们也不禁会问:Transformer 是更好更强仅有抉择吗 ?
斯坦福大学以及纽约州立大学布法罗分校的一个钻研团队不光为这一下场给出了招供谜底,而且还提出了一种新的更好更强替换技术 :Monarch Mixer。克日,更好更强该团队在 arXiv 宣告了相关论文以及一些魔难点模子及磨炼代码 。更好更强顺带一提,更好更强该论文已经落选 NeurIPS 2023 并取患上 Oral Presentation 资历 。更好更强

论文地址:https://arxiv.org/abs/2310.12109
代码地址:https://github.com/HazyResearch/m2
该措施去掉了 Transformer 中高老本的更好更强留意力以及 MLP,代之以富裕展现力的更好更强 Monarch 矩阵 ,使之在语言以及图像试验中以更低的更好更强老本取患了更优的展现。
这并非斯坦福大学第一次提出 Transformer 的替换技术 。往年六月该校的另一个团队还曾经提出过一种名为 Backpack 的技术,参阅机械之心文章《斯坦福磨炼 Transformer 替换模子 :1.7 亿参数,能除了偏、可控可批注性强》。尽管,这些技术要取患上真正的乐成,还需要钻研社区的进一步魔难并在运用开拓者手中酿成着实好用的产物。
下面咱们看看这篇论文中对于 Monarch Mixer 的介绍以及一些试验服从。
论文介绍
在做作语言处置以及合计机视觉规模,机械学习模子已经能处置更长的序列以及更高维度的表征,从而反对于更长的高下文以及更高的品质。可是,现有架构的光阴以及空间重大性在序列长度以及 / 或者模子维度上呈二次削减方式,这会限度高下文长度并提升扩展老本 。举个例子,Transformer 中的留意力以及 MLP 会随序列长度以及模子维度呈二次扩展方式。
针对于这一下场 ,斯坦福大学以及纽约州立大学布法罗分校的这个钻研团队宣称找到了一种高功能的架构,其庞漂亮随序列长度以及模子维度的削减是次二次的(sub-quadratic)。
他们的钻研灵感来自 MLP-mixer 以及 ConvMixer;这两项钻研审核到 :良多机械学习模子的运作方式都是沿序列以及模子维度轴对于信息妨碍混合,而且它们每一每一对于两个轴运用了单个算子。
追寻展现力强、次二次且硬件功能高的混合算子的难度很大 。举个例子 ,MLP-mixer 中的 MLP 以及 ConvMixer 中的卷积都颇具展现力,但它们都市随输入维度二次扩展。近期有一些钻研提出了一些次二次的序列混合措施,这些措施运用了较长的卷积或者形态空间模子 ,而且它们都市用到 FFT,但这些模子的 FLOP 运用率很低而且在模子维度方面依然是二次扩展 。与此同时,不损品质的浓密密集 MLP 层方面也有一些颇具后劲的妨碍,但由于硬件运用率较低 ,某些模籽实际上可能还比密集模子更慢 。
基于这些灵感,这个钻研团队提出了 Monarch Mixer (M2),其运用到了一类富裕展现力的次二次妄想化矩阵:Monarch 矩阵 。
Monarch 矩阵是一类泛化了快捷傅立叶变更(FFT)的妄想化矩阵,而且钻研表明其涵盖了规模普遍的线性变更,搜罗哈达玛变更、托普利兹矩阵 、AFDF 矩阵以及卷积。它们可经由火块对于角矩阵的积妨碍参数化,这些参数被称为 Monarch 因子,与部署交织。
它们的合计是次二次扩展的:假如将因子的数目设为 p
,则当输入长度为 N 时,合计庞漂亮为
很赞哦!(76)
相关文章
- 港股公告掘金 | 三款核心产品快速放量 未来更多原创新药走向国际中国巨人鲍喜顺:12年前不顾医生忠告执意生下一子,现在怎样
- 马赛乱局转折:主席留任,和球迷领袖对簿公堂湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:我的孩子,你安心走
- 分析&讨论|在活塞和马刺的引领下 NBA变得越来越差劲了吗?直播吧2023-12-04 14:36直播吧2023-12-04 14:36
- 记者手记:“英超”“村超”双向奔赴人和猩猩能不能生出孩子?前苏联的‘人兽杂交’实验揭秘!
- 原创 湖人夺冠!他们1胜48败!又一中国人要进NBA?
- 这还交易啥?湖人一战三大惊喜,詹眉点名表扬一人,水拉完成进化
- 原创 就在镜头前,CBA王牌大帅情绪失控对喷球迷!场面火爆记者拉不住
- 原创 意甲 都灵vs亚特兰大
- CBA最新积分榜,广东升第二,浙江第三,深圳第七,山东两连胜
- 港股公告掘金 | 实控人增持叠加股权激励 核心产品销售持续放量杨振宁的健康秘诀,与运动无关!主要在于4点,值得借鉴学习
热门文章
站长推荐
狂轰50+12+7!恩比德天神下凡,乌布雷复出惊艳,奇才惨遭3连败四川14岁少年满脸纹身被父亲驱逐家门,找不到工作,如今怎样了
马赛乱局转折:主席留任,和球迷领袖对簿公堂湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:我的孩子,你安心走
世界各国关于太阳的神话故事,你知道多少?
独行侠大变天!370亿富豪替库班,助东契奇冲冠,欧文或成牺牲品75岁王刚现状:外孙和儿子同上高中,白发显老态,妻子仍风韵犹存
原创 詹姆斯笑了!湖人季中赛夺冠:AD解放,湖人防守形态彻底改变?
意甲快报:国米12月赛程具备挑战性,两名重要球员即将复出!本届三星杯告诉世界,AI已经拥有围棋的“最终解释权”
浙江队亚冠事件,足协通报暴露窝里横气质!最关键一件事只字不提78年他从副总理被贬为工人,安慰妻子:我不自尽,不要听别人议论
勇士领先22分被逆转,克莱成为输球背景板,寂寞库里无人能懂吃酒席遇上这3种人,立马放下筷子走人,不是迷信,要多留心
友情链接
- 喻可欣博客
- 樊少皇Instagram
- 王祖蓝博客
- 信Facebook
- 惠英红博客
- 吴兴国官网
- 张智尧官网
- 张庭Facebook
- 朱孝天Twitter
- 钟汉良微博
- 赵又廷官网
- 周润发官网
- 曾沛慈微博
- 家园TikTok
- 谢霆锋Instagram
- 我们与恶的距离主页
- 袁立微博
- 卓文萱主页
- 洪天明主页
- 潜伏微博
- 关注!外媒透露明年五笔转会,德甲神锋转投英超,皇马迎法国球星消失16年的“芙蓉姐姐”,曾受尽嘲讽,现身家上亿,宛如少女
- 长江后浪推前浪,纽卡斯尔联6:1大胜热刺同样演红衣女侠,把白鹿、刘诗诗和赵丽颖放在一起,差异一目了然
- 哼哈二将本领非凡 鹈鹕阵容齐整直指季中赛冠军非洲女孩巴特曼因有巨臀,一生被赤身裸体展览,死后还被做成标本
- 独行侠的超级双星,东契奇和欧文联手炸裂,爵士惨遭50分血洗
- 原创 快船的胜利给了湖人希望,去年湖人掘金季后赛,湖人输就输在水拉
- 498元AJ37 黑紫猛龙开箱长测42天阵亡25000人,2万亿美元打水漂,专家:这一仗打醒了全世界
- 原创 马刺15连败!文班亚马空砍12+10,大帽里德,一项数据联盟唯一
- 原创 专打奇才?恩比德上一次对奇才48分11板6助,今天又轰50分12板7助
- 太阳究竟以什么为燃料,为何烧了46亿年还没烧完?
- 澳超推荐墨尔本城守门员在投掷照明弹后避免被禁赛高马尾逐渐消失在校园,“鲶鱼头”更受欢迎,家长不理解也看不懂