1、Meta开源实时翻(fan)译系列模型Seamless
2、Meta推出音(yin)频生成模(mo)型Audiobox
3、Meta发布多(duo)模(mo)态(tai)数据集Ego-Exo4D
4、阿(a)里云(yun)通义千问开(kai)源720亿(yi)参(can)数大模型(xing)
5、阿里(li)云举(ju)办首届通义千问(wen)AI挑战赛
6、阿里国际发布(bu)3款(kuan)AI设(she)计生态工具
7、阿里推出AI动画生(sheng)成框架 从静态图像生(sheng)成动画
8、昆(kun)仑万维(wei)发布Agent开发平台天工SkyAgents
9、出(chu)门(men)问问奇(qi)妙元推出(chu)奇(qi)妙助手功能
10、腾讯(xun)牵头制定全球首个金融风控(kong)大(da)模型国际(ji)标准(zhun)
11、山东:瞄准(zhun)AI等七大(da)未来产(chan)业 大(da)力推进AI+
12、Adobe等推出DMD方法 生(sheng)图速(su)度提升30倍
13、Stable Audio新(xin)增支持上传音频(pin)生成音乐
14、基于大学知识的多模态LLM测评基准(zhun)MMMU发布
15、微软未来三年向英(ying)国AI基(ji)础设(she)施投(tou)资(zi)225亿元
1、Meta开源实时翻译系列模型Seamless
今日,Meta推出实时翻(fan)(fan)(fan)译(yi)系统(tong)Seamless。为了(le)构(gou)建(jian)Seamless,Meta开发了(le)一(yi)种(zhong)(zhong)(zhong)用于保留语(yu)(yu)(yu)(yu)音到(dao)语(yu)(yu)(yu)(yu)音翻(fan)(fan)(fan)译(yi)中表达能力(li)(li)的(de)模(mo)型(xing)SeamlessExpressive,以及一(yi)个流式翻(fan)(fan)(fan)译(yi)模(mo)型(xing)SeamlessStreaming,可以以几乎不到(dao)两(liang)秒的(de)延迟提供(gong)最先进(jin)的(de)结果。所有(you)模(mo)型(xing)均基于Meta在(zai)8月发布的(de)基础模(mo)型(xing)SeamlessM4T v2构(gou)建(jian)。据介绍,与之前在(zai)表达性语(yu)(yu)(yu)(yu)音研究方面(mian)的(de)努力(li)(li)相比,SeamlessExpressive解(jie)决了(le)韵律中某(mou)些(xie)尚未开发的(de)方面(mian),例如语(yu)(yu)(yu)(yu)速和节(jie)奏停顿,同(tong)时还保留了(le)情感和风格。该模(mo)型(xing)目前在(zai)英语(yu)(yu)(yu)(yu)、西班牙语(yu)(yu)(yu)(yu)、德语(yu)(yu)(yu)(yu)、法(fa)语(yu)(yu)(yu)(yu)、意大利(li)语(yu)(yu)(yu)(yu)和中文之间的(de)语(yu)(yu)(yu)(yu)音到(dao)语(yu)(yu)(yu)(yu)音翻(fan)(fan)(fan)译(yi)中保留了(le)这些(xie)元素(su)。SeamlessStreaming支持近100种(zhong)(zhong)(zhong)输(shu)入和输(shu)出语(yu)(yu)(yu)(yu)言的(de)自动语(yu)(yu)(yu)(yu)音识别和语(yu)(yu)(yu)(yu)音到(dao)文本翻(fan)(fan)(fan)译(yi),以及近100种(zhong)(zhong)(zhong)输(shu)入语(yu)(yu)(yu)(yu)言和36种(zhong)(zhong)(zhong)输(shu)出语(yu)(yu)(yu)(yu)言的(de)语(yu)(yu)(yu)(yu)音到(dao)语(yu)(yu)(yu)(yu)音翻(fan)(fan)(fan)译(yi)。Meta开源了(le)全(quan)部四种(zhong)(zhong)(zhong)模(mo)型(xing),以便研究人(ren)员(yuan)在(zai)此基础上进(jin)一(yi)步研究。
开源地址:
github.com/facebookresearch/seamless_communication
Demo地址:
seamless.metademolab.com/expressive

2、Meta推出音频生成模型Audiobox
今日,Meta推(tui)出音(yin)频生成(cheng)模(mo)型(xing)Audiobox,该模(mo)型(xing)可(ke)以结合(he)使用(yong)语(yu)(yu)(yu)音(yin)输(shu)(shu)入和自(zi)然语(yu)(yu)(yu)言文(wen)本(ben)提示来(lai)(lai)生成(cheng)语(yu)(yu)(yu)音(yin)和音(yin)效(xiao),从而可(ke)以轻松地(di)为各种用(yong)例创(chuang)建自(zi)定义音(yin)频。Meta称,据其所知(zhi),Audiobox是第一个支持语(yu)(yu)(yu)音(yin)和文(wen)本(ben)双输(shu)(shu)入以进行自(zi)由语(yu)(yu)(yu)音(yin)重新设计的模(mo)型(xing)。Meta将在(zai)接下(xia)来(lai)(lai)的几周内开放基于Audiobox的应用(yong)程序,以及展示Audiobox功能的交互式演(yan)示。

3、Meta发布多模态数据集Ego-Exo4D
今日(ri),Meta推(tui)出一(yi)个基础(chu)数(shu)据(ju)集和(he)基准套件Ego-Exo4D,用于支持(chi)视频学(xue)习和(he)多模态感(gan)知的(de)研究(jiu)。据(ju)介绍,Ego-Exo4D是Meta的(de)FAIR(基础(chu)人(ren)(ren)工智能研究(jiu))、Aria项(xiang)目和(he)15所大学(xue)合作伙伴(ban)历时两年的(de)研究(jiu)成果。Ego-Exo4D的(de)核(he)心(xin)(xin)(xin)是同时捕(bu)捉参与者(zhe)佩戴摄(she)像(xiang)头的(de)第(di)一(yi)人(ren)(ren)称(自(zi)(zi)(zi)我(wo)中(zhong)心(xin)(xin)(xin))视角(jiao)(jiao)和(he)周(zhou)围(wei)摄(she)像(xiang)头的(de)多个第(di)三人(ren)(ren)称(非自(zi)(zi)(zi)我(wo)中(zhong)心(xin)(xin)(xin))视角(jiao)(jiao)。两个视角(jiao)(jiao)相互补充,自(zi)(zi)(zi)我(wo)中(zhong)心(xin)(xin)(xin)的(de)视角(jiao)(jiao)揭(jie)示(shi)(shi)了(le)参与者(zhe)的(de)视听感(gan)知,而非自(zi)(zi)(zi)我(wo)中(zhong)心(xin)(xin)(xin)的(de)视角(jiao)(jiao)则揭(jie)示(shi)(shi)了(le)周(zhou)围(wei)场景(jing)和(he)上(shang)下文。研究(jiu)者(zhe)将在本月开源数(shu)据(ju)(包(bao)括超过(guo)1400小时的(de)视频)和(he)用于新基准测试任务的(de)注释。
论文地址:
ego-exo4d-data.org/paper/ego-exo4d.pdf
项目主页:
ego-exo4d-data.org

4、阿里云通义千问开源720亿参数大模型
今(jin)日,阿里(li)云在京举(ju)办通义(yi)千(qian)问(wen)发布会,开(kai)源(yuan)(yuan)通义(yi)千(qian)问(wen)720亿参数(shu)模(mo)(mo)(mo)型(xing)Qwen-72B。据介(jie)绍,Qwen-72B在10个权威基(ji)准测评创下开(kai)源(yuan)(yuan)模(mo)(mo)(mo)型(xing)最优成(cheng)绩(ji),性能超越开(kai)源(yuan)(yuan)标(biao)杆Llama 2-70B和大(da)部(bu)分商用闭源(yuan)(yuan)模(mo)(mo)(mo)型(xing),可适配企业级、科(ke)研级的高性能应用。通义(yi)千(qian)问(wen)当天还开(kai)源(yuan)(yuan)了18亿参数(shu)模(mo)(mo)(mo)型(xing)Qwen-1.8B和音频(pin)大(da)模(mo)(mo)(mo)型(xing)Qwen-Audio,在业界(jie)率(lv)先实(shi)现“全(quan)尺(chi)寸、全(quan)模(mo)(mo)(mo)态”开(kai)源(yuan)(yuan)。

5、阿里云举办首届通义千问AI挑战赛
今日(ri),在通义千问发布会上,阿里云(yun)宣布首届“通义千问AI挑战赛”开(kai)赛,参赛者(zhe)可免费使用通义开(kai)源模(mo)(mo)(mo)型(xing)家族,包(bao)括刚刚发布的(de)(de)(de)720亿参数(shu)模(mo)(mo)(mo)型(xing)Qwen-72B。赛事分(fen)为算(suan)法和Agent两大(da)(da)赛道(dao),前者(zhe)针对通义千问大(da)(da)模(mo)(mo)(mo)型(xing)的(de)(de)(de)微(wei)调(diao)训练(lian),希望通过高(gao)质量的(de)(de)(de)数(shu)据(ju)探索(suo)开(kai)源模(mo)(mo)(mo)型(xing)的(de)(de)(de)代(dai)码能力上限(xian);后(hou)者(zhe)针对基于(yu)通义千问大(da)(da)模(mo)(mo)(mo)型(xing)和魔(mo)搭社区的(de)(de)(de)Agent-Builder框架开(kai)发新一代(dai)AI应用,促进大(da)(da)模(mo)(mo)(mo)型(xing)在各行(xing)各业的(de)(de)(de)落地(di)应用。即日(ri)起,开(kai)发者(zhe)可通过天(tian)池平台报名参赛,主办方将为参赛者(zhe)提供价值50万元(yuan)的(de)(de)(de)免费云(yun)上算(suan)力和奖(jiang)金。
6、阿里国际发布3款AI设计生态工具
据(ju)环球(qiu)网报道,今日,在(zai)第六(liu)届中(zhong)(zhong)国(guo)(guo)国(guo)(guo)际(ji)(ji)工(gong)业(ye)设计(ji)博览会上,阿(a)里(li)国(guo)(guo)际(ji)(ji)数字商(shang)业(ye)集团发布了(le)3款设计(ji)生(sheng)态工(gong)具(ju):堆(dui)友、Pic Copilot、鹿班AI,覆盖AI绘(hui)画(hua)、AI模型创作(zuo)、AI图像和(he)视(shi)频(pin)处理(li)等功能。据(ju)悉,这(zhei)3款产品(pin)目前已经服务数十万商(shang)家、覆盖50万设计(ji)师。此外,工(gong)信部国(guo)(guo)际(ji)(ji)经济(ji)技(ji)术合作(zuo)中(zhong)(zhong)心还(hai)与阿(a)里(li)国(guo)(guo)际(ji)(ji)设计(ji)签署(shu)了(le)框架协议,共同促进数智设计(ji)的发展(zhan)。
7、阿里推出AI动画生成框架 从静态图像生成动画
11月29日(ri),来自阿里的(de)(de)研究团队发布论(lun)文,利(li)用扩(kuo)散(san)模(mo)型的(de)(de)能力,提出了(le)一(yi)(yi)个专(zhuan)门针对角色动(dong)(dong)画的(de)(de)新框架Animate Anyone,可(ke)从静态(tai)图(tu)像AI生成(cheng)动(dong)(dong)态(tai)视频,从而将任意(yi)角色动(dong)(dong)画化。为(wei)了(le)保持参考图(tu)像中(zhong)复杂外观特(te)征(zheng)的(de)(de)一(yi)(yi)致性,作者改进了(le)ReferenceNet算法(fa),通过空间注意(yi)力融合详细特(te)征(zheng)。为(wei)了(le)确保可(ke)控性和连(lian)贯性,作者引入了(le)一(yi)(yi)个高效(xiao)的(de)(de)姿势指导器来指导角色的(de)(de)动(dong)(dong)作,并采用了(le)一(yi)(yi)种有效(xiao)的(de)(de)时间建模(mo)方法(fa),确保视频帧之间的(de)(de)平(ping)滑过渡。
论文地址:
arxiv.org/pdf/2311.17117

8、昆仑万维发布Agent开发平台天工SkyAgents
据昆(kun)仑万维(wei)集团微信(xin)公众号发文,今日,昆(kun)仑万维(wei)正式发布(bu)天(tian)(tian)工SkyAgents平(ping)台(tai)。据介绍,天(tian)(tian)工SkyAgents是国内领先的(de)(de)(de)(de)AI Agent开发平(ping)台(tai),基于(yu)(yu)昆(kun)仑万维(wei)天(tian)(tian)工大(da)模型打造,具备(bei)从(cong)感知到(dao)决(jue)策(ce),从(cong)决(jue)策(ce)到(dao)执(zhi)行的(de)(de)(de)(de)自主学习和(he)独(du)立思考能力(li)。用(yong)户(hu)可以通过自然(ran)语言构建(jian)自己(ji)的(de)(de)(de)(de)单个(ge)(ge)或(huo)多(duo)个(ge)(ge)“私(si)人助理”,并将不(bu)同任务模块化,通过操作系(xi)统模块的(de)(de)(de)(de)方式,实现执(zhi)行包(bao)括问(wen)题预(yu)设(she)、指(zhi)定回复、知识库创建(jian)与检索(suo)、意图识别、文本(ben)提取、http请求等任务。对(dui)于(yu)(yu)企业用(yong)户(hu)而言,天(tian)(tian)工SkyAgents则可以按需拼装成企业IT、智(zhi)能客(ke)服(fu)、企业培训(xun)、HR、法律顾(gu)问(wen)等众多(duo)个(ge)(ge)性化的(de)(de)(de)(de)应用(yong),并支(zhi)持(chi)一键服(fu)务部署(shu),确保(bao)其在不(bu)同业务系(xi)统中的(de)(de)(de)(de)无缝接入。
内(nei)测(ce)申请(qing)地址:agentspro.cn
9、出门问问奇妙元推出奇妙助手功能
据出门(men)问(wen)(wen)问(wen)(wen)微信公众号(hao)发文,昨日,出门(men)问(wen)(wen)问(wen)(wen)旗下AI数(shu)字人(ren)视(shi)(shi)频(pin)(pin)创(chuang)作(zuo)平台(tai)奇妙元(yuan)全(quan)面升(sheng)级,推(tui)出奇妙助(zhu)手功能(neng)(neng)。据介(jie)绍,奇妙助(zhu)手能(neng)(neng)快速生(sheng)成(cheng)制作(zuo)视(shi)(shi)频(pin)(pin)所需要的(de)素材(cai),为短(duan)视(shi)(shi)频(pin)(pin)生(sheng)成(cheng)高质量(liang)图(tu)片,内(nei)置(zhi)(zhi)8种(zhong)风格、3种(zhong)尺寸比(bi)例(li);基(ji)于大模(mo)(mo)型能(neng)(neng)力智能(neng)(neng)生(sheng)成(cheng)文本(ben),内(nei)置(zhi)(zhi)中(zhong)英双语和多种(zhong)语言(yan)情绪(xu);上传(chuan)PPT一键生(sheng)成(cheng)讲解(jie)视(shi)(shi)频(pin)(pin),搭载智能(neng)(neng)解(jie)析,重点提炼;一站式生(sheng)成(cheng)数(shu)字人(ren)视(shi)(shi)频(pin)(pin),提供(gong)海量(liang)模(mo)(mo)板(ban)素材(cai);一键提取视(shi)(shi)频(pin)(pin)台(tai)词,支(zhi)持在线(xian)视(shi)(shi)频(pin)(pin)链接和本(ben)地视(shi)(shi)频(pin)(pin)上传(chuan),准确率达99%;数(shu)字人(ren)商(shang)店上新33+形象,模(mo)(mo)板(ban)商(shang)店上新海量(liang)剪辑模(mo)(mo)板(ban)素材(cai)。
10、腾讯牵头制定全球首个金融风控大模型国际标准
据(ju)(ju)腾讯云智能(neng)微信(xin)公众(zhong)号发文,昨日,IEEE金(jin)融(rong)风(feng)控(kong)大(da)(da)模(mo)(mo)型(xing)标准启动会在(zai)深圳召开。该(gai)标准由腾讯主导发起,是全(quan)球(qiu)范(fan)围内(nei)首个(ge)金(jin)融(rong)风(feng)险控(kong)制(zhi)领域(yu)的(de)(de)大(da)(da)模(mo)(mo)型(xing)国(guo)际(ji)标准,旨在(zai)为金(jin)融(rong)机构风(feng)控(kong)建模(mo)(mo)环(huan)节中(zhong)应(ying)用(yong)(yong)AI大(da)(da)模(mo)(mo)型(xing)技术(shu)(shu)提供参考和(he)指引,使金(jin)融(rong)机构能(neng)够在(zai)日益复杂和(he)数(shu)据(ju)(ju)驱动的(de)(de)金(jin)融(rong)环(huan)境中(zhong)高(gao)效预测、衡量和(he)管理业务风(feng)险。该(gai)标准适用(yong)(yong)于金(jin)融(rong)零(ling)售信(xin)贷场(chang)景的(de)(de)风(feng)险控(kong)制(zhi)管理,帮助金(jin)融(rong)机构在(zai)运用(yong)(yong)AI技术(shu)(shu)生成(cheng)金(jin)融(rong)风(feng)控(kong)大(da)(da)模(mo)(mo)型(xing)的(de)(de)过程中(zhong)提供参考,包括应(ying)用(yong)(yong)场(chang)景、基本(ben)条件、模(mo)(mo)型(xing)创建以及迭代(dai)等环(huan)节。启动会现场(chang)明确了标准的(de)(de)研制(zhi)方案,并计(ji)划于明年9月(yue)正式(shi)发布。
11、山东:瞄准AI等七大未来产业 大力推进AI+
据工(gong)(gong)(gong)信微报报道(dao),昨日上午,山东省(sheng)新型工(gong)(gong)(gong)业(ye)化(hua)推(tui)进(jin)大会(hui)在(zai)济南召开(kai)。山东省(sheng)委书记(ji)林武强调(diao),要扎实做好新型工(gong)(gong)(gong)业(ye)化(hua)各项(xiang)工(gong)(gong)(gong)作,全(quan)面加(jia)(jia)快新型工(gong)(gong)(gong)业(ye)化(hua)进(jin)程。聚焦高端化(hua)发展(zhan),在(zai)布局未(wei)来(lai)产(chan)业(ye)上持续加(jia)(jia)力(li),重点瞄准(zhun)元宇(yu)宙、人工(gong)(gong)(gong)智能(AI)、生命科学(xue)、未(wei)来(lai)网(wang)络、量子科技(ji)(ji)、人形机器人、深海空天七大未(wei)来(lai)产(chan)业(ye),加(jia)(jia)强前瞻性研究布局,建好未(wei)来(lai)产(chan)业(ye)先导区。聚焦智能化(hua)发展(zhan),着力(li)推(tui)进(jin)数(shu)实深度(du)(du)融合。要更大力(li)度(du)(du)促进(jin)AI应用(yong),统(tong)筹布局通用(yong)大模型和(he)垂直大模型,丰富算力(li)资源,培育一批高水平智能技(ji)(ji)术和(he)产(chan)品,大力(li)推(tui)进(jin)“AI+”。
12、Adobe等推出DMD方法 生图速度提升30倍
今日,Adobe和麻省理工学院的(de)研究人员共同发布论(lun)文,介绍一种分布匹配蒸馏(Distribution Matching Distillation,DMD)方(fang)法,可在(zai)速(su)度提(ti)升30倍的(de)情况下生(sheng)成(cheng)与Stable Diffusion v1.5相当的(de)图(tu)像(xiang)质(zhi)量。论(lun)文的(de)核心(xin)思想是(shi)训练(lian)(lian)两个(ge)扩散(san)模(mo)型(xing)(xing),不仅估(gu)计目标真实(shi)分布的(de)评(ping)分函(han)数,还(hai)估(gu)计伪造(zao)分布的(de)评(ping)分函(han)数。方(fang)法类似于生(sheng)成(cheng)对(dui)抗(kang)网络(luo)(GANs),即通过同时训练(lian)(lian)评(ping)论(lun)家和生(sheng)成(cheng)器来最小化真实(shi)分布和伪造(zao)分布之间的(de)差异,但不同之处在(zai)于训练(lian)(lian)不涉及(ji)可能导(dao)致不稳定的(de)对(dui)抗(kang)博(bo)弈,并且评(ping)论(lun)家模(mo)型(xing)(xing)可以充(chong)分利用(yong)预训练(lian)(lian)扩散(san)模(mo)型(xing)(xing)的(de)权重(zhong)。
项目地址:
tianweiy.github.io/dmd
论文地址:
tianweiy.github.io/dmd/dmd_highres.pdf

13、Stable Audio新增支持上传音频生成音乐
今日,AI独角兽(shou)Stability AI旗下(xia)的音(yin)乐(le)生成产品Stable Audio宣布推(tui)出一系(xi)列新(xin)功能,包括支持(chi)输入(ru)音(yin)频(pin)来(lai)指导生成音(yin)乐(le),增(zeng)(zeng)加更多(duo)参数来(lai)提升创作体(ti)验,新(xin)增(zeng)(zeng)链接分(fen)享、视频(pin)下(xia)载功能,内置风(feng)格提示库等。
14、基于大学知识的多模态LLM测评基准MMMU发布
11月29日,据论(lun)文(wen)(wen)作者、美国俄亥俄州立(li)大(da)(da)学(OSU)博士岳翔(xiang)于(yu)社(she)交平(ping)台X发(fa)文(wen)(wen),其(qi)与(yu)来自(zi)7个(ge)机构(gou)的(de)20多名研究人(ren)员(yuan)共同发(fa)表(biao)论(lun)文(wen)(wen),推(tui)出了MMMU基准测(ce)试(shi)。该测(ce)试(shi)收集了11.5K来自(zi)大(da)(da)学考试(shi)、测(ce)验和(he)(he)教科书的(de)多模(mo)态问题,横跨艺术(shu)设(she)计、商(shang)业(ye)、科学、健康与(yu)医学、人(ren)文(wen)(wen)社(she)科、技术(shu)与(yu)工程(cheng)等30个(ge)科目和(he)(he)183个(ge)子领(ling)域,覆盖图表(biao)、图表(biao)、地图、表(biao)格、乐谱和(he)(he)化学结构(gou)等30种异构(gou)图像类型,专注于(yu)利(li)用(yong)特定领(ling)域知识进(jin)行高级感(gan)知和(he)(he)推(tui)理。论(lun)文(wen)(wen)测(ce)试(shi)了14个(ge)开源大(da)(da)模(mo)型以及GPT-4V,测(ce)评显示,即使(shi)是先进(jin)的(de)GPT-4V也只能达到56%的(de)准确率。论(lun)文(wen)(wen)对GPT-4V的(de)150个(ge)错(cuo)误案例进(jin)行的(de)错(cuo)误分析表(biao)明(ming),35%的(de)错(cuo)误是感(gan)性的(de),29%是由于(yu)缺乏知识,26%是由于(yu)推(tui)理过(guo)程(cheng)中的(de)缺陷。
论文地址:
arxiv.org/abs/2311.16502
项目主页:
mmmu-benchmark.github.io

15、微软未来三年向英国AI基础设施投资225亿元
据路透社今日(ri)报道,微(wei)软计划在未来三(san)年内向英国投资25亿英镑(约合人民币(bi)225亿元),以支持AI的(de)增长,这是该(gai)公司迄今在英国的(de)最大单笔(bi)投资。投资将用(yong)于使微(wei)软在英国的(de)数据中心面(mian)积增加(jia)一倍以上,为(wei)新的(de)AI模型提供(gong)关键的(de)基础设施。