OpenAI请求Voice Engine商标;FlashFace完成可控换脸;MoneyPrinterTurbo开源

  OpenAI向美国专利和商标局请求了“VoiceEngine”商标,该商标概述了一套包括软件在内的语音有关技能,包括用于创立数字语音帮手、处理语音指令、从文本提示生成音频以及支撑多语言语音辨认和翻译的软件。这些技能树立OpenAI已有的Whisper语音辨认模型和文本到语音API基础上,意味着OpenAI向消费的人供给彻底集成的虚拟语音帮手迈出了重要一步。

  小米发布了旨在大幅增强SD图片生成速度的项目SDXS。该项目采用了常识蒸馏技能来简化U-Net架构和图画解码器。一起,还引进了一种立异的单步练习技能,经过特征匹配和成果蒸馏来练习分散模型。根据这些优化办法,小米开发了SDXS-512和SDXS-1024这两款模型,在单个GPU上别离能到达大约每秒100帧和每秒30帧的处理速度。

  香港大学联合阿里巴巴研讨团队发布了最新的AI换脸项目FlashFace。FlashFace能精确地保存参阅人脸的特征,包括纹身、疤痕等。无论是实在人物仍是虚拟人物,FlashFace都能够精确地捕捉到他们共同的面部特征,一起还具有多人物混合的才能,能够将多个参阅人物的特征交融在一起,创造出全新的人物形象。除了保存和混合特征外,FlashFace还具有可控换脸的功用。用户都能够经过调整参数,完成对人物面部特征的替换和修正,进一步满意个性化需求。

  短视频生成东西MoneyPrinterTurbo重磅开源,只需供给一个视频主题或关键词,就能够全自动生成视频案牍、视频资料、视频字幕、视频背景音乐,然后组成一个高清的短视频。MoneyPrinterTurbo支撑多种视频尺度,包括竖屏(9:16)和横屏(16:9),而且支撑生成中文和英文多语种视频案牍。

  特拉维夫大学研讨者提出了BeYourself这一办法,作为文生图使用中提示词概念彼此污染这一现象的处理方案。当提示词中包括多个杂乱元素时,传统的处理办法往往难以坚持每个元素的共同性,导致生成的图画中各个元素之间的鸿沟变得含糊,失去了原有的共同性。BeYourself采用了有界留意力的办法,能够有很大作用防备元素间不良的信息穿插,从而在处理包括多个杂乱元素的状况时,更好地坚持每个元素的共同性。

  PicsArtAI推出一个文本到视频生成模型StreamingT2V,旨在处理现有模型仅能生成16帧或24帧的高质量短视频,而当在生生长视频时则会质量下降、场景转化纷歧致和视频阻滞等的问题。StreamingT2V经过引进条件留意模块(CAM)和外观坚持模块(APM)以及随机混合办法,完成了长视频(最长达1200帧、时长2分钟)的流通生成,保证了时刻上的连贯性和与文本描绘的严密对齐。

  立异奇智举行奇智孔明工业大模型晋级发布会暨大模型技能使用研讨活动,发布奇智孔明工业大模型2.0版别(AInno-75B)及多款大模型原生使用。本次晋级后的奇智孔明工业大模型到达了750亿以上的参数量级,不只稳固了其在工业常识问答、数据剖析、代码生成、使命编列等方面的才能,更逐步增强了海量常识办理、杂乱逻辑推理、长流程使命编列、Agent智能体以及更多工业模态的生成才能。

  具身智能大模型草创企业“XSquare”近期接连完成了由联想之星出资的数千万块钱的天使轮融资,和由九合创投领投的数千万块钱的天使+轮融资,一苇本钱担任XSquare独家财务顾问。XSquare聚集于“通用具身大模型”的研制,为机器人供给通用大模型底座,方针是为机器人构建一个通用的大脑-小脑体系,供给从感知到动作的端到端才能。

其他人还喜欢