比特派钱包联网
比特派下载途径你的位置:比特派钱包联网 > 比特派下载途径 > 比特派电话其经由3.2万亿个多语言高质量数据训练
比特派电话其经由3.2万亿个多语言高质量数据训练

2023-11-30 20:26    点击次数:189

  

比特派电话其经由3.2万亿个多语言高质量数据训练

快科技10月30日消息,今天,昆仑万维官方宣布比特派电话,开源百亿级大语言模型“天工”Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。

根据官方介绍,昆仑万维“天工”Skywork-13B系列包括Skywork-13B-Base、Skywork-13B-Math两大模型及150B Tokens高质量中文数据集。

其中Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。

Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。

本次开源的数据集大小约为600GB,总token数量约为150B比特派电话,是目前开源最大的高质量中文数据集之一。

红杉中国是美团的A轮投资人,至今已“陪伴”超17年。据测算,自2018年美团上市以来,红杉资本先后套现已逾500亿港元。目前,红杉中国对美团的持股比例已降至1.86%。2018年美团登陆港交所时,红杉中国的持股比例为12.05%。

此外,昆仑万维还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等,助力对于大型模型预训练的认知,推动人工智能通用智能的实现。

目前开源社区中的中文大模型多数并非是完全可商用,通常需要进行复杂的商用授权申请流程,甚至设定限制不给予商业授权。

此次Skywork-13B系列大模型将全面开放商用许可,无需再次申请授权即可将大模型进行商业用途,帮助更多对中文大模型感兴趣的用户和企业在行业中不断探索和进步。

附Skywork-13B下载地址:

https://modelscope.cn/organization/skywork

https://github.com/SkyworkAI/Skywork比特派电话

  声明:新浪网独家稿件,未经授权禁止转载。 -->

Powered by 比特派钱包联网 @2013-2022 RSS地图 HTML地图

Copyright 站群 © 2013-2023 比特派 版权所有