9月12日,杭州(记者Ye Xiaodan)于9月12日,阿里巴巴Tangyi发布了下一代Qwen3-Next建筑模型。 QWEN3-NEXT设计用于在上下文的长度和大型模型的总参数下的未来缩放趋势。它已经采用了高型Moe的新体系结构,并重新启动了变压器核心的经典元素。它的创新性采用了一种混合注意机制,该机制结合了线性注意力并引起了关注,从而达到了模型培训成本和推理的双重下降。基于这种新体系结构,Alibaba tgyyi“配置文件” QWEN3-NEXT-80B-A3B系列模型的两个主要模型,开源指导(Teach)和推理(思维)。新模型的总参数为80B,性能与Qianwen 3旗舰型235B相当,并且该模型计算的效率大大提高。 QWEN3跟随培训成本大大降低了与激烈的QWEN3-32B模型相比,90%的速度和长期理解的吞吐量增长了10倍以上,并且可以为超长的上下文支持数百万令牌(最小的文本处理单元)。
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。