既有“入屏出岫势峰拔?#20445;?#21448;有“万里长征有彦宏?#20445;?#26426;器人写诗水平到底咋样?

?导读

“男儿奋发?#28304;?#23481;,万里长征有彦宏。”

  

By 熊少翀


刚刚过去的情人节,不知道广大男同胞给老婆or情人送了啥。除了红包鲜花巧克力,会不会有一首由机器人代笔的古诗吗?

 

先给大家看两首诗。


        落花                                  落花

红湿胭艳逐零蓬,          向晚黄鹂隔叶鸣,
一片春风细雨濛。          唤回残梦两三声。
燕子不知无处去,          一天春色无人管,
东流犹有杜鹃声。          红雨纷飞落纵横。

 

这是两首同题诗。你能看出哪首是人写的,哪首是机器人写的吗?

 

答案是,首是机器人写的。

 

哪怕在专业人士看来,这首机器人作品?#37096;?#22280;可点。中国社会科学院文学研?#20811;?#21161;理研究员张一南对它的点评是:


 “胭艳”不辞,首句意好,句?#36824;ぁ!?#19968;片”句宕得开。“燕子”句写落花,不失为好句,然不能下启佳句,?#30001;?#28459;,可置换。“东流”句好。

 

翻译一下就是,虽然有些地方不太工整,但也不乏好句子。

 

这可能是很多人没有想到的。曾几何时,古人七步成诗被传为奇谈,唐朝诗人卢延让还为了“吟安一个字,拈断数茎须”。而小小一台机器人,竟已不仅可以杀遍天下围棋无敌手,还能在几秒钟内作出一首甚至几百首古典诗词与人类抗衡。

 

作为进化了上千万年的人类,面对这个只有几十年历史的异物种对手,你是否感到背脊发凉?

 

趁着情人节的特别需求,百度也上线了一款自动生成诗歌的小产品。

 

打开百?#20154;?#32034;APP,摁住下方语音按钮说一句?#25300;?#20320;写诗?#20445;?#23601;能进入写诗页面。再通过语音输入(之后可手动修改)关键词,一首七言绝句就自动生成了。


注意:这可不是广告,且看诗的水准。



你可以输入自?#21495;?#31080;/男票的名字,?#37096;?#20197;输入其他?#25105;?#23383;词或短语,自动生成的诗歌中会包含这些输入信息。



老实说,输出结果有些尴尬。充其?#20811;?#26159;打油诗吧,而且语句混?#36965;?#22522;本不知所云。不知道有多少人会真把它当做情人节礼物送出手。

 

中国人工智能学会基础专业委?#34987;?#24120;务委员陈志成博士告诉刺猬君,自动生成诗歌所涉及的人工智能技术,主要攻?#35828;?#26159;自然语言理解能力。其中一?#22336;?#24335;是,系统根据人所输入的关键词,在现有数据库中寻找相关性较大的词汇,进行编排组合,再通过?#19979;傘?#24179;仄?#28982;竟?#21017;,删去不符合要求的结果,最终输出一个最优解。

 

自然语言计算是人工智能领域的关键技术之一。陈志成所介绍的只是众多“造诗机”模型中的一种,而百度也只是现有众多玩家中入场较晚的一位。



微软、IBM都在研发“造诗机”

机器人究竟是如何写诗的?


电脑辅助诗歌创作这件事,并不是刚刚出?#20540;摹?br />

 

早在1959年,?#40575;?#23601;出现了全世界首由机器人创作的诗歌。彼时已有学者在论文中提出了完整的造诗机模型和系?#22330;?#30446;之所及,中国也至少在10年前就出现了“造诗机”。一款名为“稻香老农”的古诗自动生成软件,也一度被学界频繁引为例证和?#21592;?#21442;照物。

 

知乎专栏作者萧瑟在《当AI邂逅艺术:机器写诗综述》一文中,梳理了五?#21482;?#20110;传统方法的诗歌生成模式。

 

?#36136;荳ord Salada(词语沙拉)。这是最早期的诗歌生成模型,被称作只是简单将词语进?#20852;?#26426;组合和堆砌,而不考虑语义语法要求。

 

第二?#36136;?#22522;于模板和模式的方法。基于模板的方法类似于完形填空,将一首现有诗歌挖去一些词,再用一些其他词进行替换,产生新的诗歌。这?#22336;?#27861;生成的诗歌在语法上有所提升,但是灵活性太差。因此后来出现了基于模式的方法,通过对每个位置词的词性、?#19979;?#24179;?#24179;?#34892;限制,来进行诗歌生成。

 

第三?#36136;?#22522;于遗传算法的方法。这里将诗歌生成看成?#21050;?#31354;间搜索问题。先从随机诗句开始,然后借助人工定义的诗句评估函数,不断进行评估和进化迭代,最终得到诗歌。这?#22336;?#27861;在单句上有较好的结果,但是句?#21448;?#38388;缺乏语义连贯性。

 

第四?#36136;?#22522;于摘要生成的方法。将诗歌生成看成给定写作意图的摘要生成问题,同时加入了诗歌相关的一些优化约束。

 

还有最后一种,也是当前最有代表性的,即微软所采用的基于统计机器翻译的方法。

 

微软亚洲研究院自然语言计算组成员、清华大学理论计算机研究?#34892;?#21338;士何晶?#28909;?#20154;,在一篇名为《基于统计的汉语格律诗生成研究》的论文中介绍,他们将诗歌生成看成一个机器翻译问题,将格律诗中的上下句关?#21040;?#27169;为机器翻译中的源语言句子和目标语言句子的关系。即根据上句生成下句。

 

具体来说,统计机器翻译把翻译过程看作是一个搜索过程,也就是对一个给定的源文句子,生成多种可能的译文,然后搜索一个在统计意义下最优的翻译结果。



微软以短语作为翻译的基本单位。系统会首先将上句按照各种可能划分为多个短语,然后将每一个短语利用翻译模型翻译为下一句中的短语,最后结?#23244;镅阅?#22411;组合得到最优的若干候选下句。同时,微软?#28304;?#32479;机器翻译解码器进行了修改,使之生成符合?#19979;?#35201;求的下句。

 

很明显,这个“通过上句生成下句”的方法有一个缺陷是:无法生成诗的句。微软的办法是,从古籍《诗学含英?#20998;?#33719;取一个诗歌词汇库,并设?#23631;?#19968;个结合节奏模板和语?#38405;?#22411;的首句生成模型。

 

研发组选择这本古籍的理由是,对于500首格律诗的调查显示,95%的诗歌的句中出?#20540;?#23383;词都可以在《诗学含英?#20998;?#25214;到,因此用这本书作为诗歌词汇的来源是“切实?#23578;小?#30340;。

 

去年4月,IBM中国研究院也推出了一款“造诗机?#20445;?#21517;唤“偶得?#20445;?#21462;自陆游诗?#25300;?#31456;本天成,妙手偶得之”。



“偶得”生成的是七言绝句“藏头诗”。这款产品是基于深度学习技术和认知技术的自动写作系?#24120;?#20174;大量唐诗宋?#25163;?#23398;习了古诗词的?#19979;桑?#28982;后将语音学的特征引入到诗词生成的算法?#23567;?/p>

 

?#27809;?#38656;要先输入四个关键字,分别作为绝句“藏头”的四个首字。“偶得?#34987;?#22312;这四个给定?#20540;?#22522;础上,分别组词,并在已有数据库中,根据相关性匹配其他词语,其所谓?#21543;?#24230;学习”和“认知”即在于此。

 

一位自称“偶得”系?#36710;?#20316;者之一的网友BetterRain,在水木社区中发帖说,“偶得”大体上采用的是一个神经网络模型,根据前面已出?#20540;?#25991;字来预测下一个字,这样逐字预测,直到生成一首完整的诗。

 

训?#39134;?#32463;网络用的是《全唐诗》和《全宋诗?#20998;?#30340;部分诗作。节奏、对仗和平仄是模型自己学习到的,但模型对音韵处理得不太好,这部分加了一些特殊规则来处理,但由于训练数据不足,依然存在很多问题。



既有“入屏出岫势峰拔”

又有“主?#25105;?#21220;开口笑”

机器人写的诗究竟是什么水平?


 就像人与人一样,不同公司研发上线的“造诗机”也有水平高下之分。

 

本文开头列出的机器人作品,是由清华大学语?#38498;?#35821;音?#34892;模–SLT)自然语?#28304;?#29702;研究组研发的智能机器人“薇薇”所作。去年3月,该研究组宣布,经过社科院等专家评测,“薇薇”通过了图灵测试。

 

所谓“图灵测试?#20445;?#26159;人工智能领域的一项专门测试,?#32654;?#21028;断机器人是否具备了与人一样的智识。

 

?#28909;紓?#25226;人和机器人分别?#21350;?#19968;个小黑屋里,由一位不知情(不知道哪个屋子里关的是人)的专家分别向这两个小黑屋里问十个相同的问题,如果根据回答结果,仍然不能判断哪个小黑屋里关的是人,?#36864;?#26159;通过了图灵测试。

 

大家可再欣赏两首“薇薇”的作品。


     早梅                                云峰

春信香深雪,             入屏出岫势峰拔,

冰肌瘦骨绝。             万里云霄一寸崖。

梅花不可知,             千古?#21050;?#26080;处觅,

何处东风约。             空留松鹤伴寒鸦。

 

?#36824;?#23613;管“薇薇”表现不俗,却依然败给了人类。在去年3月的一场人机?#28909;?#20013;,“薇薇”平均得分2.72分(满分5分),略低于人类诗人的3.20分。

 

研发组称,“薇薇?#31508;?#22522;于Attention RNN(一种深度学习和自然语?#28304;?#29702;模型)实现?#38498;?#23383;组合规律的学习,通过设定不同的规范样式,用同一模型实现不同格?#19978;?#21046;的古诗生成。

 

尽管能作多种类型的古诗,包括五言、七言诗,乃?#20102;?#35789;、藏头诗等,但“薇薇”目前?#28304;?#22312;?#20013;?#30740;发阶段,提升空间还很大。

 

与其他“造诗机”只需要给定关键字词就能直接得到结果不同,?#25300;?#36719;绝句”通过增强与?#27809;?#30340;?#25442;?#24615;,即获得更多人类智慧的协助,输出让人更满意的作品。

 

首先,?#27809;?#38656;要在若干主题中选择一个关键词,主题包括天文、时令、游眺、花草等40个类别。系统根据?#27809;?#30830;定的关键词生成句,?#27809;?#21487;以手动选择句,?#37096;?#20197;手动修改。

 

接下来,?#27809;?#28857;击第二句的输入框,系统根据句自动生成第二句。此时,?#27809;?#38656;要再次在众多候选项中选择自己满意的句子,或手动输入;同理生成第三句和第四句。



相比之下,IBM的“偶得”就更加?#20339;?#26426;器人的深度学习和自然语言理解能力了。因为?#27809;?#21482;输入四个字,而且作为每句的居首(藏头),这无疑给诗歌创作形成了更多束缚。结果可想而知,在当前技术?#36824;?#30828;的情况下,其生成的诗歌尽管可以不断刷新生成不同结果,却大多词句混乱无章,意旨表达效果远不如人意。


  

前述网友BetterRain也总结说,“偶得”存在的问题主要是内容前后不一致、意境前后不一致、生成的句子意思不通、不理解一些常识以及不知道典?#23454;?#31561;。

 

萧瑟认为,目前诗歌生成技术,学习到的仍然只是知识的?#24597;?#20998;布,即诗句内、诗句间的搭配规律。而没有学到诗歌应当如何蕴含思想感情。

 

所以,即便如“薇薇?#34987;頡拔?#36719;绝句”等选手有时能有惊艳表现,很大程度上也是“偶得”。

 

陈志成对刺猬公社说,当前的人工智能主要学习结构化确定性知识,譬如围棋规则、诗歌的?#19979;?#24179;仄,乃至新闻简讯的编排等等,而对于诗歌的意?#22330;?#24773;感等难以捉摸的非结构化主观性知识的?#26082;?#29702;解和自主运用,尽管已经取得了一定进展,总体上还是很困?#36873;?/p>

 

但如果不能真切地抒发情感,无法打动人?#27169;?#21363;便完全符合?#19979;?#24179;仄要求,这样的空洞词句组合还能?#23567;?#35799;”吗?这样的智识水平还能称之为“人工智能”吗?

 

特别有意思的是,在百度的?#25300;?#20320;写诗”中输入“人工智能?#20445;?#24471;出这么两句:

 

造化人工难写诗,智能高咏有谁知。



人工智能依然道阻且长。

 


既然“造化人工难写诗”

百度为何还要做“造诗机?#20445;?/strong>


哪怕在全世界范围内,人工智能?#23478;?#26159;最热门的投资领域,俗称“风口”。陈志成告诉刺猬公社,2016年以来国内主要的大型投资基金几乎都布局了人工智能,但多数项目仅处于孵化阶段。

 

在人工智能技术平台方面,清华系新三板?#40092;?#20844;司捷通华声(NEEQ:837791)等少数企业成为头部,在语音识别、人脸识别、图像识别、机器翻译、语义理解、声纹识别等技术上有所进展。

 

市场中更多的参与者还是中小型企业?#32479;?#21019;企业,研发多局限在某个或少数几个领域的算法或应用。但由于人工智能行业的整体走强,以及风投?#24335;鴣中?#36319;进,陈志成预计,人工智能技术会在2019年进入普遍应?#23186;?#27573;。

 

百度此次推出的?#25300;?#20320;写诗?#20445;?#19968;大特色是语音识别+自动搜索。这也是百度在人工智能领域深耕多年后为数不多的实质性成果之一。

 

尽管巨头扎堆研发诗歌自动生成系?#24120;?#20854;本意却并不在此。陈志成认为,“造诗机”本身并无太大的市场应用价值,企业只是想通过这?#22336;?#24335;验证其人工智能研发水平,同时向外界展示,还能通过这种趣味性产品增强?#27809;?#21442;与和分享行为,提升品牌。

 

?#28304;印?#23567;度机器人”被卷入造假风波,百?#20154;?#20046;更迫切地想对外展示其在人工智能领域的建树。

 

放眼望去,中国恐?#26053;?#26377;哪家公司像百度这样,对人工智能抱有如此深的执念。

 

从2014年到2016年,百度在人工智能领域的研发投入逐年加码。研发成本占总营收比分别为12.9%、14.2%和15.3%。

 

今年初,?#25300;?#36719;集团全球执行副总裁陆奇在万众瞩目下空降百度。这位全球人工智能资深专家,被赋予了仅次于李彦宏的权力,正在以集团总裁兼运营官的身份,重新改造这家明显掉队的BAT巨头成员。

 

在百度的战略版图中,人工智能直接被提升到了“核心中的核心”地位。李彦宏早已在多个公开场合提及了百度的这一战略转型。

 

前不久百度召开的总监会上,各业务部负责人纷纷提出将辖内业务进?#23567;?#20154;工智能+?#20445;热?#37329;融+人工智能、O2O+人工智能、国际化+人工智能,以及内容生态+人工智能,似乎这就是百度能否冲出重围的?#35753;?#31291;草。

 

所以,无论百度的写诗机器人是不是一款无关紧要的产品,它以及后续相关产品的水平如何,想必是李彦宏始终要惦记着的。

 

文章最后,附赠两首百度机器人自动生成的小诗:


   

最后的最后,再传送文中提及的几款“造诗机”链接,你要不要也试一试?

 

微软绝句:http://duilian.msra.cn/jueju/</p><p>IBM&#20598;&#24471;(&#31227;&#21160;&#31471;):</p><p>http://www.mobile-show.cn/ibm/Ibm_old/old-phone/index.html

稻香老农:http://www.poeming.com/web/index.htm

 

作者,熊少翀,关注内容产业、创业投资。?#38431;?#24494;信交流(ID:masonhsiung),添加时烦请注明姓名、公司、?#25300;瘛?/strong>

 


参考资料


 1、萧瑟.《当AI邂逅艺术:机器写诗综述》[OL]. https://zhuanlan.zhihu.com/p/25084737,2017-02-04.

2、何晶,周明,蒋龙.《基于统计的汉语格律诗生成研究》[J]. 中文信息学报,2010.24(2):96-98.





内容产业报道媒体

微博 @刺猬公社

合作、转载?#20081;?#35831;联系微信号yunlugong

投稿邮箱[email protected]

网站www.ciweigongshe.net


微信扫一扫 分享到朋友圈
微口订阅号

关注订阅号

社交媒体运营经验交流
流量电商行业动态讨论

热点?#24405;?/div>
微口订阅号

关注订阅号

社交媒体运营经验交流
流量电商行业动态讨论

阅读下一篇
微口订阅号

自媒体运营攻略
行业经验交流

关闭

创建藏点

藏点名称
藏点说明
藏点封面
转藏至我的藏点 +新建藏点
    关闭
    确定 取消
    北京pk10绝密方法