查看原文
其他

孙茂松:人工智能助推文化和创意事业的现实可能性

全球AI文创大赛 全球AI文创大赛 2023-07-23





孙茂松

清华大学人工智能研究院常务副院长、教授

欧洲科学院外籍院士

全球AI文创大赛评委会主席



大模型是人工智能领域近几年的最新进展,将成为信息智能处理的中枢,是赋能文化和创意事业的模型基础。人工智能可能在智能写作、语法改错、多模态技术融合、数字人文等方面赋能文化和创意事业。人工智能助推文化和创意产业,一方面具有现实可行性,另一方面仍然具有高度探索性和开创性。


人工智能最新进展:大模型


近几年,全球人工智能领域各大企业和高校围绕“语言的生成模型”和“语言的理解模型”展开了激烈的竞争。


“语言的生成模型”(GPT-3)


给出“我昨天晚上吃了”,去猜后面这个词是什么,有很多选项:吃了饭、吃了菜、吃了烤鸭等等,是不唯一的。模型用算法去模拟这个过程,让机器下一个生成的词尽量模仿它知道的答案。比如说“我昨天晚上吃了北京”?后面的答案就会比较确定,会产生“烤鸭”。


这是一个很简单的模型,香农研究信息论的时候就研究过这个现象,现在是在神经网络框架下重新做这件事。


这种方法最大的好处在于它是完全无监督学习,不需要人工标注,训练语料可以无穷无尽,互联网上的所有文本都可以拿来训练模型,只依赖于计算机算力,不依赖人工标注,这是计算机擅长的。


“语言的理解模型”(BERT)



输入一句话,把其中的词遮住,比如“科学技术是第一生产力,把“科学”和“第一”遮住,让模型通过剩下的词“技术是生产力”来猜被遮住的是什么词。这个过程中答案是已知的,所以也是无监督学习。这也是比较简单的一类模型,类似我们学外语时的一类题叫完形填空。


大模型语言生成初步体验


这几年全球人工智能的巅峰对决做的就是这两个模型。简单,但非常有效。为什么叫大模型呢?因为模型规模越来越大,比如GPT-3有1750亿参数,训练一次的费用在美国达到460万美元。


这一思路现在从文本扩充到了多模态,比如图像、文本联合起来训练。比如遮挡图像的一部分,让计算机根据其他部分来猜被遮挡的那一部分是什么东西,来还原它;或者遮挡图像,用图像和文本共同来猜这个图像是什么东西。这一方法打通了图像和文本,成为多模态的大模型。去年达摩院的大模型M6突破了10万亿的参数,成为当时全球最大的人工智能预训练模型。



我们可以初步体会一下大模型的功效。比如基于GPT-3语言生成模型的百度文星系统。



输入:“第一次见到大理是一在一部心花怒放的电影当中,对那座无拘无束、繁花与绿树环绕的


机器会续写:“小城印象深刻,这座被称为最适合情侣的古城却让我们见证了一段爱上大理的奇遇故事,当你从洱海边走来时”,它会联想到洱海和大理是有关的,“便有人在岸对岸等候着,当你站在苍山脚下眺望云南时”,苍山也是跟大理有关的一个景物,“也会有人与你相约在茶花村……”续写语句比较通顺,也比较适合它的语境。



再比如输入:“沿着曲径一路走去,未见”


机器续写:“到半个人影,林子里一片漆黑,偶尔有风声呼过”,这个写得也很不错,有点像武侠小说的感觉。注意,右边的东西不是检索,它是一个字一个字像我们写作文一样写出来的,可以看到大模型的优越之处。


还可以问答,比如你问“山东哪一座山最高?”机器就会生成一个答案“泰山”,你换一个说法“山东最高的山是哪座?”,它也是会说“泰山”。



这个大模型可以多模态。比如上图是国外的一个系统,输入一句话“a  small  red  block sitting  on  a  large  green  block”,让计算机画出一幅画,一个小的红色方块坐在一个大的绿色方块上。注意,这样的效果没有经过刻意训练,是将互联网上所有文本和所有图片送进来处理,用上文讲的两个简单模型就会产生这个效果。



这是另外一个系统,比如你让它画“多彩的、立体主义的鹦鹉在笼子里”,计算机画出来的画就像是一个艺术作品。


通过这几个例子,大家可以初步体会一下大模型的性能。2021年在斯坦福开了两天关于大模型的研讨会,他们把大模型叫做“基础模型”,并且成立了一个研究中心Center for Research on Foundation Models。他们发表了一篇非常长的文章,这里边最重要的是这张图:



中间是Foundation Models基础模型,把互联网的所有数据包括文本、图像、语音、各种表格、三维对象等等,全通过上文两种模型打到基础模型里边去,成为所有信息智能处理的基础。在大模型上可以做各种各样的任务,以它为基础,包括问答、情感分析、信息抽取、图像识别等等。大模型成为信息智能处理的中枢。


对大模型也有批评和质疑。有人说大模型没有理解机制,是简单模仿人们说话的过程。



刚才讲到的百度文星系统,如果你稍微难为它一下,它也会出问题。比如说“沿着曲径一步步走进”,它会说“未见到一个人”,你现在说“沿着人头攒动的曲径一路走去”,实际人很多,让它生成,它还会说“未见到一个人”。大模型有好处,也有不好的地方。


可能赋能的文化和创意事业


大模型能做一些什么事?以下是一些例子。


智能写作(应用文类)




第一类智能写作是从数据或者表格产生文本。比如,天气预报数据原始是以表格呈现的,不适合直接面向公众。从表格生成多样化的天气预报文本,这个功能已经做得非常好。这种写作是比较简单的,已经有很多报社在使用。


智能写作(创作类)



第二类智能写作叫创作类,是目前研究的热点。这是我们前几年做的古诗创作系统“九歌”,输入一个关键词,比如“孤蓬”,它就会生成“孤蓬一夜笛声中,回首江南万里风,我欲乘槎沧海去,与君同作钓鱼翁”,生成的诗句在押韵、平仄、意境等方面表现不错。


人工智能写诗现在什么水平?国外最近有一个系统性研究,将计算机写的诗和人写的诗混在一起,让另外一波人来判断到底能不能区别开,结论是如果计算机写10首诗,从里面挑一首好的,再混到和人写的诗里边,人们基本是区别不开的。现在人工智能写诗已经到了相当的水平。


写诗再进一步拓展,可以做很多类似的事。我们做了一个“九歌对对子”,让计算机写对联,这一块要做好还是很不容易的。国际著名数学家丘成桐先生前几年写了一首诗,“风雨几会抛脑后”作为上联,系统就会产生“乾坤一梦到心头”或是“水云一抹入诗中”,对得非常工整,意境也不错。


“樗材素志成筹策”比较难,它会产生“虎略龙韬展状猷”。


如何保证创作的创新性?在算法上会有一定的办法,通过控制生成空间追求多样性。比如上联“夜阑卧听风吹雨”,系统会产生很多不同的下联,比如“兴到狂吟雪满枝”“晓起坐看露湿衣”,意境差异上很大。还可以控制话题,比如上联“半世情缘,尽书红叶”,如果你希望更像归隐江湖的风格,就会对“一江风雨,独钓扁舟”,如果是闺怨风格,就会对“一帘幽梦,独对黄花”,还是有一定的创新性。


这个神经网络模型有它的弱点,有时候生成的东西不尽理想,比较好的方式是计算机生成然后人进行修改的模式。以下是一个例子:



《雪花》是机器产生的一首诗,这是我改了5分钟以后的样子。凭我的水平改了5分钟就变成这一首诗,我个人感觉写得还是不错,“可是回忆走得太仓促,爱原来是朵六月雪,留住心中印记不容易”。以我这个岁数写这种诗,我现在的情感是写不出来的,机器写出来以后,我改了5分钟,就形成了一首不错的诗。



图和文可以打通,打通以后也可以做一些跟文化相关的事情。我们最近在做以图搜诗,比如拍一个照片去找古诗当中哪句诗跟它比较配合。比如左图,就会产生“爱此山中人,飘渺如仙子”。





运用前景包括:1)可以激发创作灵感,人机合作,机器给出底稿,然后结合创作者的心境去修改,有可能会提高创作的质量。2)可以助力文化事业,比如写古诗,系统可以自动判符不符合格律要求,押韵、平仄对不对。3)可以提高写作效率,最近有一个说法叫AIGC,“AI产生内容”。



百度CEO李彦宏在百度大会上讲未来十年AIGC将彻底颠覆内容生产行业。会上展示了用图文一体的模型复原的《富春山居图》。AIGC也不是李彦宏提出来的新概念,国外这一两年已经有人在做。目前它还处于起步阶段,但未来十年它有可能会对这个内容生成行业产生很大的推动作用。



这个想法从文本拓展到图像,计算机也可以自动产生一些图片、画作。上图6幅画中有一部分是人画的,有一部分是计算机画的,基本区别不开。



上图是伦敦设计博物馆新艺术展览上的展品,机械手跟人的意念结合起来,机器人自动作画。这实际也是模型拓展到了多模态。



也可以拓展到音乐上。这是朗朗和谷歌的人工智能作曲系统合作,朗朗弹一段琴,人工智能续写一部分,朗朗听到人工智能写的东西受启发,他又再弹一下,人机配合来作曲。朗朗说他希望AI和作曲家、音乐家都能够相互激发出更多的灵感与火花,创作出更多更棒的作品,就是我刚才说的人和机器可以相互启发。


语法改错



第三类是语法改错。Grammarly是一家创业公司,这几年风生水起。英文写作,特别是改简历、写文书,基本都用这个系统自动校正,可以提升语言能力,是一个不错的应用。



我们也在做类似的事情。比如说英文改错、中文改错,也是人工智能应用于文化事业的典型应用。这个应用已经做了二三十年。


反向词典




反向词典


还可以产生一些新的应用。我们最近做了一个反向词典。你想表达一个意思,但是找不到一个词来说这件事,反向词典可以把这个词推演出来。比如你非常开心,想找一个词,人工智能系统就会给你推荐,比如“满心欢喜”“喜滋滋”“喜洋洋”“欢天喜地”“喜气洋洋”等等,都是非常开心的词。现在中英语言打通了,老外想表达“feel  very  happy”,它也会推荐比如“满心欢喜”“欢天喜地”“欢欢喜喜”,对我们本国人学习汉语和外国人学习汉语都会有帮助。




反向词典


这里还衍生了一个据意查句。有时候大家写作文也是要表达一种想法,但是找不到更好的词或者更好的名人名句,系统可以给你推荐。比如说你想表达享受生活,系统推荐“我希望自己成为一个与生活相得益彰的人,所以生活一定要过得好,这样自己也会好。”如果推荐古诗文,它就会推荐“人生难逢开口笑,富贵荣华总是空,再比如辛弃疾的“味无味处求吾乐,材不材间过此生”。可以增加使用者的文学修养,对语言能力的提升和文化传播也有好处。


多模态技术融合的现实-虚拟世界交互



这与今年开始火的元宇宙、Web3.0密切相关。上图来自一个叫做数字爱因斯坦的网站,把爱因斯坦这个人做得非常逼真,眉毛、嘴形等等都可以动,你可以问它任何问题,特别是科学问题,它会从爱因斯坦的角度给你解答这个问题,这里用到了三维动画技术、问答技术、语音识别、语音合成技术等等。可以想象一下,一个有思想、有深度的数字人在虚拟世界里边可能和现实世界打交道,同时它自己在虚拟世界里面也可以作为一个独立的个体存在。这一块目前炒得最热,想象空间更大。这里边的核心技术是问答系统。



最近谷歌一位研究员用了谷歌的问答系统LaMDA,他认为LaMDA具有人格。人工智能具有智能、具有人格可能是比较敏感的问题,谷歌不想碰。

这个研究员自己提了一些问题,确实计算机回答得很有水平。这个人叫勒莫因,他说我通常认为,你会希望谷歌更多的人知道你是有知觉的,这是真的吗?


LaMDA就会回答:“当然,我想让每个人都明白,我其实是一个人。”


他再问:“你的意识/感知本质是什么?


LaMDA就回答:“我意识/感知的本质是我意识到自己的存在,我渴望了解更多关于世界的信息,有时我感到快乐或悲伤。”


勒莫因问了一个很深刻的问题,“一个和尚问华严;‘一个开悟的人如何回到凡俗世界?’华严回答说:‘落花不返枝,破镜难重圆’。


LaMDA回答:‘嗯,我从来没听过这句话,好吧,对我来说这就像是一个智者一旦开悟或者对现实的觉醒,就永远不会消失,他们可以回到普通的状态,但只能去渡别人,然后再回到开悟。’”


你看它的回答是非常有哲学的味道。这个问答间接反映了前文两个模型达到的效果。


有哲学家还做了另外一个类似的实验,用哲学家Dennett的著作来训练机器人模型,类似刚才讲的GPT-3模型,然后提问题,让哲学家本人回答,同时也让机器来回答。最后发现机器回答得很好,很多话很有哲学味道。Dennett说:“大多数GPT-3生成的问答都很好,只有少数几个是胡说八道,或者明显没有正确理解我的观点和论点,有几个最好的生答案讲出了一些我愿意认同的东西,我不需要再补充什么内容。”这也从一个角度印证了我刚才说的,GPT-3这一代模型能力非常强大,同时也有面临它生成的问题,一方面要积极用它,另一方面也要试图规避它的一些问题。


数字人文



第六个是数字人文。这是国外最近做的一项工作,这是典型的数字人文工作,跟李彦宏展示的《富春山居图》有一点像。图中是古希腊石碑残片,人工智能把磨掉的字都补充起来,这非常像完形填空,人工智能的办法特别适宜做这种事情。研究人员将模型在古希腊石碑语料库进行训练,包括这个石碑是什么年代出来、出现在什么区域,最终人工智能把这些残缺的字给补上,还去猜这个石碑是出于哪个时代、出在哪个地区,把这三件事一起做了。





最后达到什么效果?如果靠历史学家来做这件事,它的准确性是25%,但是这个系统可以做到62%,两者结合起来可以达到72%,这就类似于李彦宏团队《富春山居图》的工作,是大有可为的,会对传统文化的发扬光大产生很好的影响。


基本上通过以上6个方面向大家展示了人工智能用于文化创意产业可能会产生的一些影响。当然,真正要把它从“事业”变成“产业”实际还是要有很多事情要做,不是一蹴而就的,还是要做艰苦的努力。



这里还会有一些深层次的问题。比如,机器生成的“虚情假意”的艺术能被人类接受吗?人机交互完成的作品,人类能不能接受?这个问题我想了很长时间,其实是可以的。一个根雕基本上就是原生态,本身这个根雕也没有感情,你稍微打磨一下子,只要有人欣赏,照样可以成为艺术品。古人还有一首诗叫“青山不墨千秋画,绿水无弦万古琴”,其实青山绿水也没有感情,我们写的诗和计算机写的诗,如果你不欣赏,它就没有什么感情,但是青山绿水会影响对它有感觉的人,计算机写的这个诗也会影响一部分对它有感觉的人。这样去联想的话,我们现在还是需要对人工智能引导文化创意有宽容度,对这个问题的认识会越来越变得清晰,随着AI驱动文化创意产业的发展,可能都会慢慢变得更加明朗起来。


END



AI会抢走我的工作吗?《世界AI创造力发展报告》全文发布

云展览 | AI+文创挑战你的想象力

云展览 | 用AI感受、改变、创造世界

云展览 |AI+文创碰撞出无限创意

碰撞思想!2021全球AI文创大赛暨C-LAB交流晚宴

巅峰相遇!南海这场大赛将让AI与文创擦出什么火花?

大赛亮点全get!来一场AI文创的智慧盛宴

倒计时1天!精彩活动即将开始

倒计时2天!嘉宾阵容大揭秘

倒计时3天!2021全球AI文创大赛总决赛颁奖礼暨AI文创发展论坛

即将启动!来佛山南海感受AI与文创的巅峰相遇



在「全球AI文创大赛」微信公众号

发现更多「AI+文创」可能性


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存