百量智算申请一种Transformer网络模型结构的改进方法专利,使大模型训练收敛速度更快

百量智算申请一种Transformer网络模型结构的改进方法专利,使大模型训练收敛速度更快金融界 2025 年 3 月 18 日消息 国家知识产权局信息显示 深圳市百量智算科技有限公司申请一项名为 一种 Transformer 网络模型结构的改进方法及相关设备 的专利 公开号 CN A 申请日期为 2024 年 11 月

欢迎大家来到IT世界,在知识的湖畔探索吧!

金融界2025年3月18日消息,国家知识产权局信息显示,深圳市百量智算科技有限公司申请一项名为“一种Transformer网络模型结构的改进方法及相关设备”的专利,公开号CN A,申请日期为2024年11月。

专利摘要显示,本申请实施例提供了一种适用于大模型部署的针对Transformer网络结构的改进方法及相关设备,使得大模型在进行训练和推理时更易于部署,且训练收敛速度更快。本申请实施例方法包括:基于时序空洞卷积块替换Transformer模块中的全连接层,确定Transformer模块中全连接层的初始配置参数,并根据初始配置参数确定时序空洞卷积块的目标配置参数;基于用户配置文件配置时序空洞卷积块中所有卷积层的卷积核大小和空洞配置参数;得到时序空洞卷积块的时序空洞卷积块层数,使得时序空洞卷积块最后一层的每个输出对应的第一层的接收域能覆盖到输入序列的整个时序长度;根据模型参数值及原有全连接层中间层维度,设置时序空洞卷积块中所有卷积层的输入通道数量和输出通道数量。

天眼查资料显示,深圳市百量智算科技有限公司,成立于2023年,位于深圳市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本100万人民币,实缴资本50万人民币。通过天眼查大数据分析,深圳市百量智算科技有限公司专利信息6条,此外企业还拥有行政许可5个。

本文源自金融界

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/119941.html

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信