Midjourney、DALL·E 2、Imagen和Stable Diffusion等四大代表性的AI作画平台都诞生于今年。
事实上,AI作画在几年前就已经出现,也有不少科技巨头参与其中;而今年爆火出圈,可能与Stable Diffusion有很大关系。
不同于其他平台,今年8月份Stable Diffusion正式发布,它对用户免费、开源,上手也几乎没有门槛,引发了AI作画的热潮。
9月份,由AI作画平台Midjourney生成AI作品《太空歌剧院》获得了比赛一等奖,又在国内外掀起了对AI的大讨论。
在资本市场,多家AI生成内容企业上个月宣布获得过亿美元融资。
比如Stable Diffusion背后公司的Stability AI宣布获得1.01亿美元融资,投后估值达10亿美元。AI内容创作平台Jasper也宣布获得1.25亿美元首轮融资,估值达15亿美元 。
那么,AI创作那么火,对于内容创作者,又能有怎样的帮助呢?
AI作画虽然火,但是这毕竟还是一个小众应用。它是如何生成的,操作难度大,效果如何,这些问题都摆在眼前。
另外对于自媒体来说,这些图片能不能用,能不能免费使用更值得关注。
为了测试更加全面,笔者选取了国内外4个平台测试,其中国内2个,国外2个,它们都是免费使用。
其中国外的平台就包括大火的stable-diffusion,以及另一个平台dreamstudio。
其实笔者也尝试过Midjourney、DALL·E 2等平台,但这些国外平台有不少限制,使用起来比较麻烦。
国内的平台选择的是百度的文心一格,和另一个名为draft的平台。
相比而言,中文平台的便利那就不用多说了。
在可玩性方面,国内平台显然更胜一筹。
笔者测试的这两个国外平台在可定制化方面只有最基础的设置,一般是图像的宽度、高度、匹配精度和生成图像的步数。
而国内的平台则提供了更多风格化的设置选项,可以进行多种风格图片的生成。
比如文心可以提供多达13种风格,包括平面类、原画类、传统类等,每种风格生产的效果差别还是比较明显的。
笔者用关键词“宇宙中扭曲的空间与黑洞”试了一组,风格分别为原画概念插画、传统中国风、趣味梵高。
结果如下:
另外百度文心还有高级自定义设置,能够对生成参数进一步做出细化设置,比如画面风格、修饰词、艺术家风格等等。
另外一家国内平台也有较为丰富的风格选择,另外还可以选择参考底图。
AI作画平台的操作逻辑一般都是用户给出文字内容,然后AI根据内容自动生成图像。所以操作上还是比较简单的。
为了有一定的样本量,笔者选取了15组词句,其中有单词,也有词组和句子,国外平台使用英文测试。
每个文字内容在4个平台各生成1张图片,4张图片为一组,共计16组。
具体的测试结果如下:
1)五彩斑斓的黑
2)佛跳墙
3)割韭菜
4)宝马奔驰
5)天使般的微笑,女孩
6)冬天的湖边,跑步,阳光
7)树叶在风中飞舞,秋天
8)橱窗里的高跟鞋
9)天上掉下苹果,牛顿
10)天堂,云,飞机
11)骑马,草原,男人
12)深海,停车场,灯光
13)圣诞老人的自画像
14)棉花糖,从天而降
15)睡醒,宝宝,哭泣
16)我想和家人一起环游世界
总体来看,4个平台输出的图片都还算正常,基本没有那种特别奇怪的,但是具体的风格却有很大不同。
能够看出国外的两个平台更追求真实感,画面风格偏写实,色彩比较丰富;而百度文心一格和draft的艺术感和创造性更强,更偏设计。
从画面和文字的相关性上看,国外那两家以及百度文心基本都能完整展现文字主要元素;而draft的相关性则相比要低很多,不过也在可接受的范围内。
国外两个平台胜在真实感上,而国内平台则有更加多变、风格的效果,可玩性较强。
如果站在自媒体的角度来看,国外的两个平台的作品可能更适合文章配图,而国内的两家的更偏艺术创作。
但写实也仅仅是更有真实感而已,本质还是拼凑而成的图像,很难复刻真实世界的图像。
另外就是:国内平台有本土化优势,对于外语水平不高的人比较友好;但实际上,一些国外平台也很容易操作。
另外需要注意的是:每个平台的图像生成都具有随机性——即使是同样的关键词,重新生成的结果也会不同。
所以如果想要具有相同特征的系列作品,可能就要看运气了。
如果对生成的图不满意,并不能实时修改,只能再次生成,但保不准下次的图就完全另一个样了。
或许是国内平台更偏重创作,需要更多计算,所以出图速度没有国外的两个平台快。
具体来说,百度文心和draft差不多在一分钟以上,具体速度还要看实际情况;而国外两个平台基本都是10S以内出图。
总体而言,几个平台使用下来,都挺简单的,初期也不收费。但是一些平台的免费额度是有限的——这点要注意。
至于效果,笔者个人认为还不错。
别管是写实风格,还是各种艺术风格,都满足最基础的要求,关键看具体的用途。
不过,还有一个问题也让人困扰,那就是AI作画的作品版权到底属于谁?属于平台还是个人?自媒体人用在了内容中,会不会被找?
别看AI作画操作起来还是比较容易,但是背后的算法其实比较复杂。
AI作画简单理解就是:机器通过对”语言描述”的理解自动生成图像。也就是计算机经过大量分类、识别已有图像,再根据关键词匹配和“缝合”,最终生成一幅随机的、世界上独一无二的AI画作。
也就是AI作画的背后是对大量真实图像的学习,需要庞大的图像库进行积累;而我们看到所谓的不同的风格,则是由于图像库的不同而产生的。
在这个基础上,我们再去看AI作画的版权问题会比较全面。
用AI生成一张不存在的画,按照人直觉去看,这张机器生成的图应该没有版权——因为大家都可以生成,并没有独创性,一切都是AI完成的。
事实上,目前主流的观点的是用户对自己生成的图片可以在合法合规的前提下自由使用,可以复制、二次创作,也可以用作商业用途。
笔者测试的4个平台,对于作品的版权问题,都有明确的声明。
百度文心一格指出,用户消耗电量(电量是一种消耗凭证,可以免费或付费获得),使用平台AI创作生成的图片,经过审核支持下载,允许个人使用和合法合规范围内商用用途。
draft是基于stable diffusion开源平台开发的,两者的版权规定一致。即用户对生成的素材也可以进行任何形式的复制、分发、引用,或者商业用途,但必须在使用或公开时进行署名并标明是否对原作品进行过修改。
另外一个国外平台dreamstudio版权协议也指出,用户创建的图像是完全开源的,默认将作品贡献至公共领域,也就是放弃所谓的版权,任何人都可以使用,甚至商用。
从各个平台的规定,我们能够看出,目前AI作画的版权归属问题并不明确。创作者在合法合规范围内可以使用,甚至商用,但是否有独一性,也就是其他人是否可用并不清晰。
而且事实上,因为平台是基于大量的图像库进行训练,其实有一定侵权的隐患。
比如图像库中涉及到有版权的图像,而用户生成的图片恰好显示了上述图像的显著部分,这可能涉及到侵权。
比如有报道指出,Stable Diffusion生成的一些图像似乎带有水印,这表明它的原始训练数据集中可能有一部分图像是受版权保护的。
为了避免版权问题,Getty Images、Shutterstock等知名付费图库纷纷封禁AI生成图片,停止接收所有由Stable Diffusion、DALL·E 2、Midjourney等AI模型生成的画作。
付费图库封禁AI生成图片,一是因为AI生成图片的版权唯一性很难确定;二是AI作画可以模仿艺术家风格,这极可能涉嫌侵权,也可能产生造假或抄袭行为。
别人用数十年形成的独特风格,被AI轻松模仿,这其实很可能涉嫌侵权。
另外,也可能滋生造假行为。
还有种比较特殊的情况,比如艺术家正在创作一幅作品,已经完成了其中的一半,而有人利用这一半生成完整的AI作品,这又算不算剽窃呢?
可以说,AI作画目前的版权问题还比较模糊,更多只能停留在科学研究或自娱自乐的范畴,如果商用就很可能有版权风险。
而随着AI作画商业化平台的不断发展,相信版权问题逐渐会有比较清晰的答案。
AI作画是一种AI创作,但从广泛意义上讲,AI创作早已遍布我们生活工作的方方面面。
比如一些媒体的自动写稿机器人,一些资讯平台的自动视频生成,还有虚拟主播和数字人,以及各种大型活动的在线实时机器翻译。
AI创作就是AI+内容,这个内容可以是图像、文本、视频,也可以是音频,甚至是交互。
几乎所有的内容平台都少不了AI创作的身影,这背后反映了内容生产智能化的大趋势。
从PC互联网的PGC(专业内容生产),到移动互联网的UGC(用户生产内容),内容生产方式正在向新的AIGC(AI内容生产)发展。
对于AIGC发展阶段,李彦宏判断AIGC将迎来三个发展阶段:
随着Web3.0时代和元宇宙的火热,对内容产生方式和效率都有了新的要求,未来AIGC将在元宇宙内容生成中起到重要作用。
目前来说,AIGC更多是在前两个阶段。
以AI作画为例,现在除了一部分画师利用AI协同创作作品,更多还是作为内容创作者的一种灵感补充,或者为文字工作者快速提供配图需求。
而随着AI内容创作的不断进化,未来创作者和AI又该是怎样一种关系?
其实关于AI的讨论中,人是否能被AI替代一直是一个重要议题。
目前来看,AI在很多领域都只是人的辅助工具,在内容创作上AI还像个刚刚学会走路的孩子。
AI创作如何更好的服务于创作,这是很长一段时间需要探索的方向。
首先,内容创作者面临的棘手问题便是AI创作的版权归属问题。
其次,AI工具存在被滥用的风险,如何规范创作者使用,哪些领域可以用,哪些场合不能用,都还需要慢慢探索。
而站在更长远的视角看,AI与人又该是怎样的关系?
百度李彦宏曾提出AI伦理四原则:
原文:https://mp.weixin.qq.com/s/toFnlc8pKF0CDwRgFZAmQw
既然来了,说些什么?