Sora“满月”了但不止一个AI在新生

  今天,距离Sora发布刚好一个月。这一个月时间可能是科技史上最密集的AI动态发布月。

  在AI算力层,英伟达独孤求败,市值突破了2.2万亿美元,一跃成为全世界市值第三大科技公司,仅次于微软与苹果。

  但仍然有源源不断的挑战者出现,Groq、Cerebras都在近期发布了最新的AI芯片。他们会对英伟达构成威胁吗?

  在AI生成视频领域,Sora开启了AI视频的“Midjourney时刻”,多模态模型元年开启,比人们预期的时刻提前了至少半年。

  在大语言模型层,除了OpenAI没有发布大的产品更新之外,它的一众竞争对手,从大厂的谷歌、苹果,到AI独角兽Anthropic、Mistral、Inflection,都发布了最新代的大模型。

  在AI应用层,人们期待的AI原生“super app”似乎还没再次出现。A16z近期刚刚公布AI应用Top 100,ChatGPT仍然牢牢占据首位。

  而且,A16z发现,与2023年9月发布的报告相比,榜单上超过40%的公司都是新公司。

  具身智能是过去一个月最热门的AI落地方向,英伟达成立了具身智能实验室,并且投资了Figure AI。Figure AI的首款人形机器人产品,在演示Demo中已能实现端到端的自然语言交互。

  今天也刚好是GPT-4发布一周年。但与去年GPT-4发布所带来的一整年的热度相比,人们对Sora的热情似乎消退的更快。

  一方面是因为Sora没有公测,一切讨论都仅限于官方的几十个视频与没有技术细节的技术报告,另一方面是因为大家对于AI冲击的感受阈值在变高,变得更加理性。

  大模型改变了很多,但目前为止没有改变的更多。对待大模型的态度,人们也被分成了技术信仰派与市场信仰派。

  没有人能准确预测行业的变化,但通过记录与了解行业正在发生的信息,可以帮助我们更好地做出判断。

  2月16日,人工智能云服务提供商Lambda获得了3.2亿美元的C轮融资,用于构建基于GPU的服务,提供由数千个英伟达加速器组成的人工智能训练集群。

  Lambda正准备部署“数以万计”的英伟达GPU,包括目前最顶级的H100 Hopper加速器以及英伟达即将推出的G200 GPU加速器,后者的性能将是H100的两倍。Lambda还希望部署英伟达的混合GH200 CPU/GPU超级芯片。

  2月18日,英伟达首次向外界公布了其最新的面向企业的AI超级计算机Eos,同时也是英伟达目前速度最快的AI超级计算机。

  英伟达公布数据显示,在最新的全球Top500超级计算机当中,Eos位居全球第九,其峰值性能更是达到了188.65 Peta FLOPS。

  2月20日消息,知情人士透露,三星电子已在硅谷成立新团队,开发通用人工智能芯片。据悉,谷歌前开发人员Woo Dong-hyuk将领导该团队。

  2月23日,Groq推出了一款全新的AI芯片LPU,宣称做到了“地表最强推理”——在Groq上运行大模型的推理速度,较英伟达GPU提高10倍,而成本只有其十分之一。

  Groq的芯片采用成熟的14nm制程,搭载了230MB的SRAM来保证内存带宽,片上内存带宽达到了80TB/s。在算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

  Groq成立于2016年,由前谷歌员工Jonathan Ross创立。他曾发明了驱动谷歌机器学习软件的张量处理单元(TPU),这两项技术当时为AlphaGo提供了重要的技术支撑。

  2月23日,字节跳动发布万卡集群论文,展示了构建和部署 MegaScale 的设计、实施和工程经验,这是一个用于训练超过1万个GPU规模的大型语言模型生产系统。

  为了支持蓬勃发展的人工智能行业,中国向初创企业提供“算力券”,来降低企业数据中心运营相关的成本。至少有17个中国城市政府承诺提供这些补贴,代金券价值从14万美元到28万美元不等。

  3月13日,Meta披露了有关万卡集群的硬件、网络、存储、设计、性能和软件的详细信息,并声称到2024年底将完成350000个英伟达H100 GPU集群的构建。届时,其整个资源池计算能力将相当于近600000个H100。

  3月14日,Cerebras发布了大尺寸芯片WSE-3,包含4万亿个晶体管,在相同的功耗和价格下,WSE-3的性能是之前记录保持者WSE-2的两倍。

  相比H100 GPU ,WSE-3大了57倍,内核数量增加了52倍,芯片内存增加了800倍,内存带宽增加了7000倍,结构带宽增加了3700倍以上。这些都是芯片实现高性能的基础。

  WSE-3是专为训练业界最大的AI模型而打造的,基于5纳米制程、将为Cerebras CS-3人工智能超级计算机提供动力,通过90万个人工智能优化的计算核心,提供每秒125 petaflops峰值AI性能(1 petaflops是指每秒1万亿次浮点运算)。

  Gemini 1.5 Pro可以一次性处理大量信息——包括1小时的视频、11小时的音频、超过30000行代码的代码库或超过700000个单词。

  2月22日,谷歌推出了“开源”大模型Gemma。Gemma采用了与Gemini相同的技术,由谷歌DeepMind与谷歌其他团队共同合作开发,在拉丁文中意为 “宝石”。

  Gemma包括两种权重规模的模型:Gemma 2B 与Gemma 7B,每种规模都有预训练与指令微调版本。同时,谷歌还推出了一系列工具,旨在支持开发者创新,促进合作,并指导如何负责任地使用Gemma模型。

  Mistral Large达到了顶级的推理能力。它可以用于复杂的多语言推理任务,包括文本理解、转换和代码生成。

  同时,微软宣布与Mistral AI达成深度合作,并对其进行了投资。未来,Mistral AI直接将模型资源放在微软云当中售卖,成为OpenAI之后第二家在微软Azure云平台上提供商业AI模型的公司。

  Anthropic由OpenAI前高管创立,投资者包括谷歌、Salesforce、亚马逊、高通等科技巨头,估值超过150亿美元。

  3月6日,零一万物开源了Yi-9B模型,是目前 Yi 系列模型中代码和数学能力最强的模型。

  Yi-9B的实际参数为8.8B,与Yi系列其他模型一样,默认上下文长度是4K tokens。Yi-9B是在 Yi-6B (使用了3.1T tokens训练)的基础上,使用了0.8T tokens进行继续训练,使用截止至2023年6月的数据。

  马斯克在去年成立了大模型公司xAI,并与去年11月发布AI聊天机器人Grok。

  2月15日,Meta公开发布视频联合嵌入预测架构 (V-JEPA) 模型。Meta的副总裁兼首席人工智能科学家Yann LeCun表示:“V-JEPA 是朝着更深入地理解世界迈出的一步,因此机器能轻松实现更通用的推理和规划。”

  2月22日,谷歌宣布将暂停Gemini的人物图像生成,努力解决与Gemini图像生成功能相关的最新问题;将很快重新发布改进版本。

  Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。GenieAI是一个利用互联网视频训练的基础世界模型,可以从合成图像、照片甚至素描中生成无限多的可玩(可控制动作的)世界。它的使用范围广泛,可以用于从图像或文本生成整个互动世界,是训练未来通用AI代理的有利工具。

  2月28日,蚂蚁集团推出20亿参数多模态遥感基础模型SkySense,其论文已被世界计算机视觉顶会CVPR 2024接收。

  3月7日,Midjourney封禁Stability AI引发了一场关于数据安全和道德责任的争议。事件起因于Stability AI的数据收集工程师对Midjourney服务器发起了恶意攻击,导致其服务中断24小时。尽管Stability AI CEO Emad声称公司并未授权此行为,但Midjourney决定暂时封禁其员工使用其软件。

  3月10日,华为诺亚方舟实验室联合多个研究机构共同开发的项目,推出了一款名为PixArt-Σ的扩散变换器模型(DiT)。

  这些改进使得PixArt-Σ在模型大小(0.6B参数)上远小于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数),同时在图像质量和用户提示遵循能力上都有了显著提升。此外,PixArt-Σ生成4K图像的能力,为电影和游戏等行业的高质量视觉内容制作提供了强大支持。

  3月11日,Pika 发布了全新的功能Sound Effects,实现了视频和音效的无缝生成。用户可以通过简单的操作,通过描述prompt或让 AI 自动生成音效,为视频增添更多氛围。

  3月12日,Midjourney推出了一项新功能,使得在生成多张图片时,能够保持同一人物的一致性。通过使用“-cref”(角色参考)标签,可以保留输入图片中的角色特征,使得在不同场景中的脸部特征、体型和服装保持一致。

  腾讯联合清华、港科大推出图生视频大模型“Follow Your Click”

  3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

  2月20日,总部位于巴黎的Biooptimus在获得3500万美元的种子轮融资,其使命是建立第一个用于生物学的通用人工智能基础模型。这一新的开放科学模型将把不同规模的生物学与生成人工智能连接起来——从分子到细胞、组织和整个生物体。

  2月24日,英伟达宣布成立通用具身智能体研究实验室GEAR,标志着英伟达正式入局具身智能领域的研究,加速人工智能具身化进程。

  机英伟达GEAR实验室的联合创始人Jim Fan博士在X平台上表示:“我们相信,在未来,每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。我们正在构建基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。2024年将是属于机器人、游戏AI和模拟的一年。”

  2月25日,特斯拉人形机器人Optimus发布更新,达到了有史以来最快的步态,速度约为 0.6m/s,比去年12月速度提升了30%以上。

  3月4日,谷歌DeepMind团队发布论文,发布了最新版的 RT 机器人——RT-H,它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。

  3月5日消息,知情的人偷偷表示,旨在挑战谷歌网络搜索主导地位的AI初创公司Perplexity即将敲定一笔新的融资交易,公司估值有望达到近10亿美元,较几个月前的最新融资估值大约翻番。

  Perplexity利用先进的AI模型为搜索查询提供直接答案,而不是提供网站链接列表,这也是谷歌正在研究的。知情人士称,Perplexity最近的年收入超过1000万美元。根据数据服务公司Similarweb的初步估计,该公司移动和桌面应用程序的访问量在2月增长8.6%,达到约5000万用户。

  3月13日,A16z发布了最新的全球AI产品的 Top100 榜单,分为网络产品与移动产品。16z发现,与2023年9月发布的报告相比,榜单上超过40%的公司都是新公司。

  据知情人士对外透露,月之暗面近期获得了8亿美元新融资,其中阿里投资了7.9亿美元,砺思资本投资1000万美元。

  2月23日,智能机器人公司宇树科技Unitree宣布完成近10亿元B2轮融资,本轮投资方包括美团、金石投资、源码,老股东深创投、中网投、容亿、敦鸿和米达钧石跟投。宇树科技Unitree表示,资金将主要用于产品研发,业务拓展以及团队搭建等方面。

  宇树科技创立于2016年8月。宇树科技创始人王兴兴2013年开始硕士在读期间,通过改造无人机使用的盘式无刷电机,并针对其自研了小尺寸电机驱动器,并基于此,自研整机机械结构和控制算法等等,独自设计开发了他的第一款产品——XDog。不同于当时波士顿动力机器人的高成本液压驱动技术路线,XDog采用了高性能纯电驱动,开创了全球低成本高性能足式机器人技术方案的先河。

  2月25日,多模态大模型初创公司香港Weitu AI 公司完成了天使轮融资,估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。

  3月1日,杭州联汇科技股份有限公司(以下简称 “联汇科技”)宣布完成新一轮数亿元战略融资,投资方由中国移动产业链发展基金中移和创投资、前海方舟(前海母基金管理机构)旗下中原前海基金和齐鲁前海基金等多家头部国资与市场化机构组成。

  3月4日,总部在深圳的AI初创公司新旦智能完成了千万级别的天使轮融资,由全球化人工智能企业APUS与AI行业资深投资人周弘扬联合投资。

  3月5日,《科创板日报》报道称通用大模型初创项目MiniMax正在进行新一轮大规模融资,阿里为其中的核心领投方。

  3月11日,爱诗科技完成亿级人民币A1轮融资,本轮融资由国内一线投资机构达晨财智领投,光源资本担任独家财务顾问。

  爱诗科技创立于2023年4月,专注解决AI视频大模型及应用,海外版产品PixVerse于2024年1月正式上线,目前已是全球用户量最大的国产AI视频生成产品,并搭建了稳定的创作者生态,目前已处于全球视频生成产品第一梯队,国内版(爱诗视频大模型)也于今日上线内测。本轮融资将用于人才建设和资源储备,进一步巩固爱诗科技产品技术护城河。

  3月12日,生数科技宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投,华兴资本担任独家财务顾问。据生数科技介绍,本轮融资将大多数都用在多模态基础大模型的迭代研发、应用产品创新及市场拓展。

其他人还喜欢