Sora全新版本在准确性和稳定性上取得了显著突破。最引人注目的升级之一是解决了「绑定」问题—就是AI在生成图像时,要如何正确搭配用户所下的形状和颜色指令。现在,Sora可以处理最多15至20个物件,远超过旧版本的5到8个物件的限制,确保生成的图像更为精准。这一版本还搭载了GPT-4o的「omnimodal」核心,使其不仅能理解并生成图像,还能处理文字、音频和影片,显示出OpenAI在多模态技术上的雄心。
另一个重要进步是文字渲染的精确度。许多AI生成的图像在处理文字时会出现拼写错误或乱码,这也使得图像在用于海报、菜单等创作时无法使用。现在,Sora已经克服了这些问题,提供稳定且清晰的文字输出,对于大多数实际应用场景已经足够。虽然极小字体仍可能略有误差,但整体已经达到可用的标准。

根据OpenAI官方的说明,Sora的另一大亮点是它结合了广泛的世界知识,让生成的图像不仅具美学价值,还能体现特定知识背景。无论是科学实验图、连环漫画还是教育用图,Sora都能理解并准确呈现这些图像背后的概念,让使用者能够轻松生成符合预期的图像,而不需要过多解释细节。
尽管如此,影像生成的速度略有减慢,OpenAI 解释这是为了提升品质所做出的取舍。使用者可能会经历短暂的延迟,但OpenAI强调,这些图像的品质和知识深度完全值得等待。
值得注意的是,Sora生成的图片不会添加浮水印,但会内嵌C2PA标准的元资料以标示来源。使用者拥有图像的完整使用权,只需遵循平台的使用政策即可自由应用。
除了在ChatGPT中使用,Sora影像生成也已于Sora平台上提供,并将很快开放给开发者透过API进行使用。


电信首度大规模引进!台湾大携手Perplexity推免费AI搜寻服务