Meta 新技术将可解决 AI 绘画「手指」问题

相信,很多人也知道 AI 绘图最大的「困难」就是人类的手指,如果大家试过叫 AI 生成一个 Give me Five 的手势,它很可能会出现 6 只手指。为了解决一些 AI 生成图的问题,近日 Meta 公布了一个能够透过学习识别图像,并建立相关知识的计算视觉模型,使人工智能操作更流畅,而且降低了成本。

该模型名为「图像联合嵌入预测架构」(Image Joint Embedding Predictive Architecture,简称 I-JEPA),其工作原理是建立外部世界的内部模型,然後比较图像的抽象表现,而非直接比较像素。

据 Meta 在其网志上解释,I-JEPA 在多种计算视觉任务上表现出强大的效能,并且比其他广泛使用的计算视觉模型在计算效率上有着显着的优势。在 72 小时内,Meta 利用 16 颗 Nvidia A100 GPUs 训练出了一个具有 6.32 亿参数的视觉转换模型。该公司声称,这种模型在使用 ImageNet 数据集进行低样本分类时,比其他方法(如 Data2vec、Context Autoencoders 和 Masked Autoencoders)有更好的效果。

Meta 称,与其他的自我监督学习方法相比,I-JEPA 需要更少的 GPU 训练时间,并且在相同数据量下,其错误率更低。Meta 的科学家(包括着名的 AI 先驱 Yann LeCun)在一篇名为「自我监督学习的图像联合嵌入预测架构」的论文中解释,I-JEPA 是通过尝试预测图像部分区域中的缺失信息来工作的。此模型操作的区块足够大,足以传达语义细节,赋予图像片段更多的意义。由於这些片段能传达它们相邻区块的相关信息,模型可以利用这些信息进行更精确的预测。

I-JEPA 的结果显示,生成图像时较不容易出错——例如创建有多余手指的手。Meta 表示,这是因为生成架构尝试在没有场景概念基础的情况下填充每一个信息,因此在处理人手时常会出现问题。

科学家们称,I-JEPA 展示了一种学习竞争性的现成图像表现的架构的潜力。I-JEPA 已经以Creative Commons Attribution-NonCommercial 4.0 International Public License 发布。

相关文章

  1. 马斯克等千人联署 呼吁暂停大型 AI 训练最少 6 个月
  2. Google AI 语言模型 USM 新突破 将支援 1000 种不同语言
  3. AI 作家袭来 亚马逊 Kindle 商店上架 ChatGPT 撰稿作品
  4. 阻止用 ChatGPT 作弊?OpenAI 推出 AI 内容识别器!
strongvpn怎么样

相关推荐

Comments

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论

热门文章

0
希望看到您的想法,请您发表评论x