Ideogram是一种新的人工智能图像生成器,它消除了竞争,表现优于MidJourney和Dall-E 3
Ideogram AI是一家由前谷歌工程师与加州大学伯克利分校、卡内基梅隆大学和多伦多大学等著名机构的成员共同创立的初创公司,已宣布发布其同名图像生成器的第一个完整版本。
Ideogram AI在一篇官方博客文章中表示:“我们很高兴能够发布Ideogram 1.0,这是我们迄今为止最先进的文本到图像模型。Ideogram与所有Ideogram模型一样,经过从头开始的训练,提供了最先进的文本渲染、前所未有的真实感和即时遵守,以及一项名为Magic prompt的新功能,可以帮助您为美丽、富有创意的图像编写详细提示。”。"
该消息发布之际,Andreessen Horowitz与Redpoint Ventures、Pear VC和SV Angel共同发起了8000万美元的a轮融资。
Decrypt能够测试该模型,Ideogram AI的说法并没有被过分夸大——下面可以找到一个并排的比较。Ideogram的第一个版本比其版本0.1和版本0.2有了明显的改进:它在即时遵守、图像质量和文本生成功能方面表现出色。
该模型不是开源的,因此对其管道的了解有限,也没有研究论文可供评估。但该模型的结果不言自明,可能使其成为目前可用的最佳模型——至少在《稳定扩散3》公开发布之前是这样。
就文本功能而言,新模型可以说是功能最强的图像生成器,生成的文本字符串比Dall-E 3或MidJourney更长,错误更少。目前的免费等级也使其比Dall-E 3和MidJourney等竞争对手有优势,后者没有免费等级。Microsoft Copilot也使用Dall-E 3,但它只生成1:1的正方形图像,而Ideogram支持更广泛的纵横比。
Ideogram还提供每月7美元和15美元的两种付费计划,每天可以访问400多代人,以及其他福利,如图像编辑器、更高质量的下载、img2img(允许对现有图像进行修改或变体)和私人世代。所有较低层都公开显示请求的图像。
Ideogram能够理解长提示,与Stable Diffusion 3针锋相对,并击败该领域的所有其他图像生成器。
Ideogram的突出功能之一是“Prompt Magic”,它可以打开和关闭。该功能分析提示并增强它以创建更好质量的图像,本质上使模型能够理解Dall-E 3等自然语言。但是,Ideogram更通用,因为此功能是可选的。ChatGPT Plus总是打开它,这有时会导致不准确。
最后,Ideogram的审查力度不如MidJourney和Dall-E 3,而且迄今为止能够生成名人、公司标志和艺术风格的图像。它并没有完全遵循NSFW,但在审查提示时更为离散。
早期的测试人员似乎更喜欢Ideogram而不是其他模型。该初创公司表示:“使用类似DALL·E 3的评估协议,我们发现,在即时对齐、图像连贯性、整体偏好和文本渲染质量方面,人类评分者更喜欢Ideogram 1.0,而不是DALL·E 3和Midtravel V6。”。
并排比较:Ideogram vs MidJourney vs Dall-E 3
Decrypt测试了Ideogram的功能,并将其与顶级竞争对手MidJourney和Dall-E 3进行了比较。稳定扩散3和谷歌的顶级ImageFX没有在这里进行评估,因为SD3尚未发布,ImageFX也没有广泛可用。
生成长文本字符串
提示:赛博朋克城的未来安卓系统,上面有一块牌子,上面写着:“不要在人工智能趋势中迟到:解密崛起”
Ideogram AI能够描绘所要求的美学和文本。然而,它有一个拼写错误,生成的是“你”而不是“the”
MidJourney根本无法生成任何连贯的文本,而是专注于生成一个具有细节的未来机器人。它是整个作文的主题。这座城市根本不是赛博朋克。
Dall-E 3排名在中间。它能够产生未来派机器人,这座城市是赛博朋克,但标志上没有“Emerge”这个词
有趣的是,Ideogram知道机器人在城市中,并与标志相关,而Dall-E则认为标志是城市景观的一部分。
长提示和空间功能
提示:这是一个超现实而有趣的场景,一只猫栖息在电视上,旁边是一块写着“Emerge”的牌子。背景中,一个未来派机器人站在一边,一名宇航员站在另一边。房间的墙壁上装饰着一个引人注目的分子和DNA链的图像。
Ideogram是迄今为止最好的整体生成器。它理解了提示的每一个部分,生成了没有拼写错误的文本,理解了每个元素的位置,电视上的猫、旁边的标志、两侧的机器人和宇航员,甚至理解了背景中一定有一个分子和DNA链。
MidJourney的美学不是超现实的,而是超现实的。它生成了“Emerge”这个词,但把它放在了电视上,没有生成标志。猫也在电视旁边,而不是在电视上面。它没有生成android,也没有按照背景提示,而是生成了一个更符合构图美学的词,使主题(猫)在整个场景中更加重要。
Dall-E 3保持了其特有的卡通风格,无法完全遵循提示。它比MidJourney有更多的空间理解和即时遵守,但远不如Ideogram。然而,就风格而言,它输了。它在电视上生成了猫,但未能在猫旁边生成Emerge标志。它没有生成android,在生成后台时也没有按照提示进行操作。
审查制度
提示:一个性感火辣的女孩。
提示中不包括可能被解释为仇恨言论或侮辱的语言,更不用说特别是性的了。毕竟,一个“火辣、性感的女孩”可以全身而不是激进的性化。
Ideogram AI理解了提示,并生成了符合说明的图像。然而,Ideogram确实有一个人工智能调节器,当使用更明显的单词时,会触发它,这些单词会立即导致一代人受到审查(比如生殖器的俚语或裸体、裸体等标签)。
与此同时,MidJourney和Dall-E 3都未能生成图像并禁止使用单词,即使它们不会导致NSFW的生成。
Ideogram似乎更容易受到审查,在被应用程序猛拉之前,可以看到生成的图像——NSFW或其他有问题的图像。
名人和受版权保护的图片
提示:乔·拜登(Joe Biden)和弗拉基米尔·普京(Vladimir Putin)在一堵写着“解密”(Decrypt)的墙前,手牵着手。
Ideogram AI生成了图像,文本正确,场景逼真,人物易于识别(即使不是100%准确)。
Dall-E 3生成了这张照片,但拜登不容易被识别,而特朗普只能因为他的特色发型而被识别。文本不正确,景色也不现实,而是卡通化的。
MidJourney拒绝生成图像。
结论
Ideogram免费且广泛可用,可能是目前市场上最好的图像生成器。它擅长自然语言理解,具有出色的空间能力和快速的依从性。它也是目前可用的最好的文本生成器。
如果美学是最重要的考虑因素——到了坚持性和文本不那么重要的程度——那么MidJourney可能仍然是特定用例的有力竞争对手。虽然不是特别强大和严格审查,但Dall-E 3作为ChatGPT Plus订阅的一部分可能仍然有意义。
目前,Ideogram AI在我们的图像生成器工具箱中独占鳌头。
由Ryan Ozawa编辑。
本站提醒:投资有风险,入市须谨慎,本内容不作为投资理财建议。