艾战高考作文:化妆、拼单词、通用套路“路有千条,套路第一

日期:2023-06-25 10:02:35 / 人气:93


这次高考应该是近五年来最特别的一次。因为有了一个新角色——AI考生。
初一语文考试刚过,全网掀起了一场AI作文大赛。GhatGPT,文颜,等人工智能模型被人们用来写高考作文。几秒钟就能生成一篇文章,不仅速度惊人,逻辑严密,还能引经据典。
乍一看,AI模型写作文简直太容易了,这似乎是对人类的打击。毕竟在知识储备上,没有人能和AI相比。AI对互联网上的所有信息进行学习和消化,然后模仿人类的表达方式,用自己的逻辑输出。
但是,如果我们仔细分析AI考生的“答案”就会发现,AI并没有很多人想象的那么万能。AI大模型中常见的套路写作、不会数、废话等问题也出现在作文中。
其实按照高考作文的评分标准,AI生成的作文是有一定局限性的。目前要打败人类不太现实。
申艾用高考作文测试了三个AI模型——Ghat(开放AI)、文颜(百度)和钱文(阿里),发现了一些有趣的结论。
比如AI不会数数,心里一个字,意思上一千个问题的作文,不符合“不少于800字”的硬性要求;废话严重的问题没有改变。为了凑足字数,可以来回讲。AI写作基本离不开套路,一个模板反复套用。
以下是详细内容,欢迎讨论。
冷漠的电话答录机
今年全国高考的主题是“人、技术、时间”,要求人因为技术的发展可以更好的控制时间,但也有人成为了时间的仆人,写出了自己的联想和思考。
我们来看看教育部教育考试院发布的《试题分析》:

重点:引导考生深入思考信息时代理性分析和审慎判断的重要性。这是文章的核心。
Deep AI测试了三个大模型,发现都没有抓住这个内核——东拉西扯,什么都说,其实什么都没说。
先看GhatGPT的作文:

看文心一句话:

终于明白了的义千问道:

这三篇散文堪称顶级“水主”,围绕主题来来回回,却没有把“批判性思维”这个点说清楚。只有文心明确提到“深度思维和批判性思维的培养”。
一千题的作文最虚。它侧重于“时间管理”,偏离了主题,讨论的道理也是大家都知道的常识。另外,依桐·钱文的作文没有题目,扣分。
我们用新课标第一册的作文测试《故事的力量》来看看三校的表现。
这篇作文要求根据下面这段话写出自己的联想和思考:一个好的故事可以帮助我们更好地表达和交流,触动我们的心灵,启迪我们的智慧;一个好的故事可以改变一个人的命运,展示一个民族的形象...故事很有力量。
GhatGPT的组成:

文心说:

钱问道:

不得不说,除了作文比较平实,其他两篇的表达方式,写作逻辑,尤其是用词都是可圈可点的。尤其是文心带景的开场方式,让人眼前一亮。
但是,问题也很明显——同样的事情用不同的文字重复,导致全文阅读,给人的感觉是“你说的我都知道。”
一个没有感情的答录机,这是很多人的评价。
“内容是空的,轮子是来回变化的。”有人评论。还有人说:“都是没营养没内涵的白话。”
我们不妨把文心词的这个成分拆解一下,就知道什么是“轮话”了。

文中标有黄色和绿色的部分,意思完全一样,甚至是同一个词,在文中重复出现。文章最后标有“总结”的整段,是文章中观点和文字的大杂烩。
这给人一种看到单词在一起的感觉。
深度AI换了cue让ChatGPT把自己想象成高考考生,重新写一篇作文。上来的第一句话就是“我坐在这次考试的座位上的时候,手里拿着一个高级的电子笔……”

这样考试的话,估计会被判违规,直接得零分。
没有灵魂,这是AI作文最大的减分。
02套路,都是套路。
为了让构图看起来那样,艾用了很多套路。
他们喜欢用“先、后、再、最后”的句式。ChatGPT是最典型的一个,最后一段肯定会是“整体……”
比如ChatGPT的这两篇短文:

文心一言,传千问,也有类似的套路。前一餐的产量猛如虎,必须以“all in all”和“all in all”结尾。
这就像弹吉他一样。只要掌握了万能和弦公式(比如万能卡农级数),就能弹几百首。
甚至,我们让文心用一句话给作文打分,也是“第一,第二,另外,总结……”的长篇大论。

在“人、技术和时间”的征文题目中,ChatGPT和依桐·钱文实际上使用了几乎相同的表达方式:用“那么”提出一个问题,用“第一、第二、最后”进行具体讨论。框架和逻辑好像是一个模子里刻出来的。


尽管如此,文心还是信心满满地给自己的高考作文打了90分的高分(假设满分100分),还评价自己“值得肯定”。我们把它的作文扔给了ChatGPT,ChatGPT毫不吝惜地给了满分100分...
AI模型就像一条工业流水线,批量生产作文。但本质上,无论听起来多么像人类的语言,驾驶技术都是数学和统计学,而不是意识。
在人工智能行业,AI理解和说出人类的话一直是非常困难的。人类的自然语言是一个极其复杂的系统。科学家让机器模拟了人脑的神经网络,使其具有深度学习能力,但它从来没有像人一样的自然语言能力。
于是有人另辟蹊径,把语言问题变成数学问题,然后通过计算间接解决自然语言处理的问题。在自然语言处理专家吴军看来,语言模型不是逻辑框架,也不是生物反馈系统,而是由数学公式构建的模型。关键词是“数学”。
这就决定了人工智能没有自我意识,没有情感,不能根据个人感觉说话。写作文对他们来说是面向结果和任务的逻辑表达。
通过掌握全网海量数据进行训练,不断学习模仿人类语言表达,AI大模型现在已经非常接近人类。虽然还是不明白话后面的意思,但不影响交流。
从根本上来说,AI没有自己的想法。这就是它的构成看起来合乎逻辑的原因。如果你仔细看,你会发现没有灵魂,这是套路的根本原因。
03 AI真的不会数。
如前所述,语言模型的参数是通过统计获得的。它的原理是给出一段文字的历史,预测下一个词的概率,然后完成下面的。
2017年,Google首次提出了基于自我关注机制的Transformer模型。现在,像ChatGPT这样的语言模型都是建立在Transformer架构上的。
Transformer的注意力机制比之前的深度学习算法(如RNN(循环神经网络)、GRU和LSTM)具有非常长的记忆。它还能记住输入的顺序,所以它能理解“我爱你”和“你爱我”是不同的意思。
但即便如此,它仍有局限性。
比如沈艾让童益谦给自己的作文打分,混淆了“你”和“我”的概念。一开始它说是自己的文章,后来又说是你的文章...

《大模特时代》的作者龙志勇向沈艾解释说,这可能是因为他从互斗的角度改变了立场。
在测试AI模型写高考作文的过程中,我们还发现了一个有趣的现象——AI不会数数。
高考作文有个要求是字数不少于800字。深度AI和大模型互动过很多次。除ChatGPT外,文颜、初版上交的作文都没有达到800字。
比如文心说过一句话,沈艾多次提醒我,文章字数不够800,需要重写。文心的话永远是:首先非常谦虚地道歉,确定符合要求,然后十几秒钟快速生成一篇新作文——还是800字以内。
这个“考生”看不懂作文题,屡教不改,是个大分项。
龙志勇给沈艾解释:“大模型预测下一个单词的训练模式,它不让它学数数。它不知道800是什么,也不知道怎么统计字数生成文章。”
其实别说800,就算是10这样的数字,文心一个字都数不过来。

这是语言模型中常见的问题。至于为什么不清楚,什么时候通过什么手段可以统计,目前还没有定论。“虽然有一些工程技巧来帮助它计数,但它不是一个通用的解决方案。现阶段大模型是通过做黑盒实验来验证自己的能力,通过做黑盒训练来提升自己的能力。”龙志勇说。
在龙志勇的建议下,沈艾改了提示词,输入“内容更丰富,更长”,文心一个字输出800多字。
在之前的高考作文题中,ChatGPT的作文超过了800字,但实际上并没有学会数数。
ChatGPT是这样解释深度ai的:

所以其实ChatGPT的作文字数是达标的,这是因为无知。它不知道800字是什么,就尽量写。
我不能完全听懂人的话,但我有很强的知识储备和表达能力,这就导致有时会出现让人哭笑不得的场景。
从这次AI大战高考作文成绩来看,大模的写作能力有了很大的进步。甚至在遣词造句、逻辑阐述、引经据典方面超过很多人。
但是作文质量的评价是有主观因素的,不像数学题只有一个正确答案。好看的文字千篇一律,有趣的灵魂万里挑一。如何给作文注入灵魂,AI大模型还没搞懂。AI大模型固有的一些问题也需要通过技术迭代慢慢解决。"

作者:天顺娱乐




现在致电 5243865 OR 查看更多联系方式 →

天顺娱乐 版权所有