▲头图由AI生成

智东西(公众号:zhidxcom)
编辑 | ZeR0

智东西10月30日报道,今日,昆仑万维正式发布国内首个全面(mian)开源(yuan)百(bai)亿级(ji)大语言模型「天(tian)工」Skywork-13B系(xi)列,600GB、150B Tokens的(de)高质(zhi)量中文开源(yuan)数据集,并全面(mian)开放商用。

也就是说,开发者无需额外申请,即可将大模型进行商业用途,而且开源得足够彻底,没有对行业、公司规模、用户等方面的任何限制

2008年(nian)成立(li)、从游戏起家的昆仑万维,近(jin)年(nian)已逐渐构(gou)建了AGI与(yu)AIGC、海外信息(xi)分发与(yu)元(yuan)宇宙、投资三大业务板块,业务覆盖全球一百(bai)多个国家和地区,全球平均月(yue)活跃用户(hu)近(jin)4亿(yi)。

昆仑万维「天工」Skywork-13B系列拥有130亿参数,包含Skywork-13B-BaseSkywork-13B-Math两个大模型,在CEVAL、GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,在中文科技、金融、政务等领域表现均高于其他开源模型

除模型开源外,Skywork-13B系列大模型还将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这(zhei)是目前(qian)最大(da)的中文(wen)开源数据集之一。

Skywork-13B下载地址(zhi):
//modelscope.cn/organization/skywork
//github.com/SkyworkAI/Skywork

一、130亿参数、两大模型、150B中文数据集,全面开放商用!

昆仑万(wan)维「天(tian)工」Skywork-13B系(xi)列包括(kuo)两大模型及150B高质量中文数据集。

其中,Skywork-13B-Base模型是基(ji)础模(mo)型(xing)(xing),由3.2万亿个多语(yu)言高(gao)质量数据训(xun)练而成,在CEVAL、CMMLU、MMLU、GSM8K等评测(ce)与基(ji)准测(ce)试上都(dou)展现了同等规模(mo)模(mo)型(xing)(xing)的最佳效果(guo)。

Skywork-13B-Math模型,顾(gu)名思义,经过专门的(de)(de)数学(xue)能力强化训练,在(zai)GSM8K等(deng)数据集上取(qu)得了同等(deng)规模模型的(de)(de)最佳效果。

Skypile/Chinese-Web-Text-150B数据集,是(shi)根据(ju)(ju)昆仑万维经过精心过滤的(de)数据(ju)(ju)处理(li)流程从中(zhong)文(wen)(wen)网页中(zhong)筛选出的(de)高质量数据(ju)(ju)。本次开源(yuan)数据(ju)(ju)集(ji)大(da)小约(yue)(yue)为600GB,包含约(yue)(yue)1500亿(yi)个token,是(shi)目(mu)前最大(da)的(de)开源(yuan)中(zhong)文(wen)(wen)数据(ju)(ju)集(ji)之(zhi)一。

昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源

除此之外,Skywork-13B系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。

为了更加(jia)精细(xi)化利用(yong)数据,Skywork-13B系列采用(yong)两(liang)阶段训练方法,第一阶段使用(yong)通用(yong)语料进(jin)行模型(xing)(xing)通用(yong)能(neng)(neng)力(li)学(xue)习(xi),第二部(bu)分(fen)加(jia)入STEM(科学(xue),技(ji)术,工(gong)程,数学(xue))相(xiang)关(guan)数据进(jin)一步增强模型(xing)(xing)的(de)推(tui)理能(neng)(neng)力(li)、数学(xue)能(neng)(neng)力(li)、问题解决(jue)能(neng)(neng)力(li)。

昆仑万(wan)维希(xi)望这些开源内容(rong)能够进一步启(qi)发社区对于大(da)型模(mo)型预训(xun)练(lian)的(de)认知(zhi),并推(tui)动人工智能通(tong)用(yong)智能(AGI)的(de)实现。

二、五大特点:评测得分超越Llama 2,无需申请即可商用

昆仑万(wan)维「天(tian)工」Skywork-13B系列(lie)大模(mo)型(xing)(xing)在(zai)CEVAL、GSM8K等多(duo)个权威评测与基准测试(shi)上(shang)都展(zhan)现了同等规模(mo)模(mo)型(xing)(xing)的最佳(jia)效果,其中(zhong)文能力尤(you)为出色,在(zai)中(zhong)文科技、金融、政(zheng)务等领域表现均高于其他开源模(mo)型(xing)(xing)。

昆仑万维将该系列大模型的特点总结为五个“最”

1)最强参数表现:根据截至10月(yue)25日的数据,Skywork-13B系列模(mo)型(xing)在CEVAL、CMMLU、MMLU、GSM8K等权威评估基准(zhun)中全面(mian)超越Llama-2-13B等开源大模(mo)型(xing),在同(tong)等规模(mo)大模(mo)型(xing)间取得最佳效果。

昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源

与Llama-2-13B相比,天工(gong)Skywork-13B模型(xing)(xing)采(cai)用(yong)相对更(geng)加瘦长(zhang)的网络结构,层数为(wei)52层,同时将FFN Dim和Hidden Dim缩小到12288和4608,从而(er)保(bao)证模型(xing)(xing)参(can)数量和原始Llama-13B模型(xing)(xing)相当(dang)。据昆仑万维前期实验对比,相对瘦长(zhang)的网络结构在大(da)Batch Size训练下可以取得更(geng)好(hao)的泛化效(xiao)果。

昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源

2)最多训练数据:拥有130亿参(can)数(shu)(shu)、3.2万亿高质量(liang)多语言训练数(shu)(shu)据,模型的(de)生成能(neng)力(li)、创作能(neng)力(li)和数(shu)(shu)学推理(li)能(neng)力(li)提升(sheng)明显。

3)最强中文语言建模能力:中(zhong)文(wen)语言建模能(neng)力(li)、中(zhong)文(wen)文(wen)创(chuang)(chuang)能(neng)力(li)出色,在科技、金融(rong)、政务、企(qi)业服务、文(wen)创(chuang)(chuang)、游戏等领域的中(zhong)文(wen)文(wen)本创(chuang)(chuang)作评测中(zhong)表(biao)现均高于业内其他开(kai)源模型。

昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源

如图用领(ling)域(yu)数据困惑(huo)度来(lai)衡量(liang)(liang)语(yu)言模(mo)(mo)型跨领(ling)域(yu)的语(yu)言建模(mo)(mo)能(neng)力。评(ping)估一(yi)个(ge)基础大(da)模(mo)(mo)型的重要方(fang)式是评(ping)估其在各领(ling)域(yu)上生(sheng)成文(wen)章的概率(lv),困惑(huo)度通过评(ping)估模(mo)(mo)型预测(ce)下(xia)一(yi)个(ge)词的平均可选数量(liang)(liang)来(lai)衡量(liang)(liang)一(yi)个(ge)语(yu)言模(mo)(mo)型的好坏。困惑(huo)度越低,意(yi)味着语(yu)言模(mo)(mo)型生(sheng)成高(gao)质量(liang)(liang)文(wen)本(ben)内(nei)容的能(neng)力越强。

4)最大中文开源数据集之一:将配套(tao)开(kai)源600GB、150B Tokens的高质量中文语料数据(ju)集(ji)Skypile/Chinese-Web-Text-150B。开(kai)发者可(ke)以最大程度地(di)借鉴(jian)技术报告中大模型预(yu)训练(lian)的过(guo)程和经验,深(shen)度定制模型参数,有针对性的进(jin)行训练(lian)与优化。

5)最有诚意的开源商用:全面开放商用许(xu)可(ke),将(jiang)授权流程(cheng)做(zuo)到极简,取消对(dui)行(xing)业(ye)、公司规模、用户等方(fang)面的限制,用户在下载模型并同意并遵(zun)守(shou)《Skywork模型社区许(xu)可(ke)协议》后,无(wu)需(xu)再次申请(qing)授权,即可(ke)将(jiang)大模型进行(xing)商业(ye)用途。

目前开源(yuan)社区(qu)中的(de)(de)中文大模(mo)型(xing)多(duo)数(shu)(shu)并(bing)非(fei)是完全可商用(yong)(yong),用(yong)(yong)户(hu)通(tong)常需要进行复杂的(de)(de)商用(yong)(yong)授权申请流程,有(you)些情(qing)况(kuang)会对公(gong)司规模(mo)、所(suo)在行业、用(yong)(yong)户(hu)数(shu)(shu)等维度有(you)明确规定不给予商业授权。

昆仑万(wan)维希(xi)望用户(hu)(hu)能够更便(bian)捷地(di)探索Skywork-13B系列大(da)模型技术(shu)能力,探索在不(bu)同场景下的商(shang)业化应(ying)用,以帮(bang)助更多对中文大(da)模型感兴趣的用户(hu)(hu)和企业在行业中不(bu)断探索和进(jin)步。

三、形成六大AI业务矩阵,以All in AGI与AIGC为战略重心

昆仑万维成(cheng)立于2008年,从游戏(xi)起家,2015年在(zai)深交(jiao)所(suo)上市,2020年便已开始布局AIGC领域,正(zheng)全(quan)面构建多元化(hua)的业务生态。

至今,昆仑万维已积累近三年的相关工程研发经验,并建立了行业领先的预训练数据深度处理能力,在AI领域已形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵。

All in AGIAIGC是昆仑万维的战略。

据了(le)解,昆仑(lun)万维(wei)董事长(zhang)兼(jian)CEO方汉是很早(zao)参与(yu)到开(kai)源(yuan)生(sheng)态(tai)建设的开(kai)源(yuan)老兵,也是中文Linux开(kai)源(yuan)最早(zao)的推动(dong)者之一(yi),因此开(kai)源(yuan)精神和AIGC技术发(fa)展的结合将会贯穿于昆仑(lun)万维(wei)战(zhan)略之中。

今年以来(lai),昆仑万维一路快马加鞭,释出从基(ji)础大模型(xing)到AIGC产(chan)品的一系列进展:

4月17日,昆仑万维发(fa)布自研千亿(yi)级大语言模型「天工(gong)3.5」,并启动邀请(qing)测(ce)试。该模型具备文(wen)案创作、知识问答、代(dai)码编程、逻(luo)辑推演、梳理(li)推算等多元(yuan)AI生成能(neng)力。

5月19日(ri),北京市经济和信息化局公布(bu)第一(yi)批《北京市通(tong)用人工智能(neng)产(chan)业创新伙伴(ban)(ban)计划(hua)成(cheng)员名单》,昆仑万维成(cheng)为第一(yi)批模型伙伴(ban)(ban)和投资伙伴(ban)(ban)。

8月(yue)23日(ri),昆仑万(wan)维发布国内(nei)第一款AI搜(sou)索(suo)(suo)产品——天工AI搜(sou)索(suo)(suo),并开启(qi)内(nei)测(ce)申请(qing)。天工AI搜(sou)索(suo)(suo)通(tong)过(guo)人(ren)性化、智(zhi)能化的(de)方式(shi)全面提升用户的(de)搜(sou)索(suo)(suo)体(ti)(ti)验,并集成AI对话、AI写作(zuo)等(deng)常用功(gong)能,帮助用户提高中文搜(sou)索(suo)(suo)体(ti)(ti)验和工作(zuo)效率(lv)。

9月1日,计算(suan)机视觉和机器学(xue)习领域(yu)的国际顶(ding)级专家颜水(shui)成教授正式加盟昆仑万(wan)(wan)维(wei),与昆仑万(wan)(wan)维(wei)创始人周亚辉(hui)一起出任天工智能联席CEO,并兼任昆仑万(wan)(wan)维(wei)2050全球研究院(yuan)院(yuan)长,负(fu)责前沿技术的研究。

9月5日,昆(kun)仑(lun)万维天工大(da)模型(xing)在腾讯优图实(shi)验室联(lian)合厦门(men)大(da)学开展的多模态大(da)语言模型(xing)测评MME中,综合得(de)分排名第一(yi)。

9月17日,昆仑万维通过信通院“可信AI”评(ping)估(gu),并被评(ping)选为(wei)人工智能(neng)实(shi)验室副组长单位。

9月25日,昆(kun)仑万维(wei)正式控(kong)股AI大算力(li)芯(xin)片(pian)企业艾捷科(ke)芯(xin),布局AI芯(xin)片(pian)。

10月26日(ri),天工(gong)大(da)模型获(huo)得(de)由(you)北(bei)京算法(fa)交易服务(wu)中心颁(ban)发的“算法(fa)模型认证(zheng)(zheng)证(zheng)(zheng)书”,昆仑(lun)万维成(cheng)为北(bei)京算法(fa)交易服务(wu)中心首(shou)批认证(zheng)(zheng)企业。

今天,天工(gong)Skywork-13B系列大(da)模型的(de)开源,标志着(zhe)昆仑万维持续投资AGI生态的(de)决心。

结语:推动开源生态繁荣,加速AI技术落地

蓬(peng)勃发展的(de)(de)开(kai)源生态建(jian)(jian)设是构(gou)建(jian)(jian)AI和(he)应用(yong)(yong)融合的(de)(de)重要(yao)一环。持续降低模(mo)型(xing)的(de)(de)研发门槛、使(shi)用(yong)(yong)成本、最大(da)化的(de)(de)共(gong)享技(ji)术能力和(he)经验,有助于加速AI应用(yong)(yong)普(pu)及,促使(shi)更多的(de)(de)企业和(he)开(kai)发者(zhe)们参与到(dao)AI引领的(de)(de)科(ke)技(ji)变革中(zhong)。

昆仑万维(wei)表示Skywork-13B系列大模型的开(kai)(kai)源将(jiang)为(wei)大模型的场景应用和开(kai)(kai)源社区发展提供(gong)最(zui)佳的技(ji)术支持,加(jia)速开(kai)(kai)源生态繁荣,进而(er)降低大模型商业(ye)门槛,推动AI技(ji)术落(luo)地千行(xing)百业(ye)。