“写一首关于日出的诗。”我问了三个AI聊天机器人- Openai的Chatgpt-4,Google的Bard和Anthropic's Claude-和我自己- 一个八年级的人。然后,我调查了一个由38位AI专家和39位英国专家组成的小组,以判断结果。 AI比八年级学生聪明吗?

调查说……AI并不比八年级学生聪明,至少还没有。八年级学生在英国专家评判时赢得了第一名,并以更高的利润获得了优势。 Bard,Chatgpt-4和Claude分别以书写质量和愚弄法官认为他们是由人为人物创作的第二,第三和第4位。最引人注目的是,英国专家在识别哪些诗歌是由AI撰写的,有11位英国专家与只有3位AI专家猜测作者(Human vs. AI)正确的所有诗歌正确。这表明需要英国专家在帮助塑造AI技术的未来版本方面发挥更大的作用。

随着大语言模型(LLMS)的爆炸性流行,关于AI声称人类作家的作用的文章很多,并且失去了真实的人类创造力。就个人而言,我一直在从事一个创意写作项目- 一系列简短的小说作品和诗歌,其中一些我已提交出版。

最近,为了回应我的一篇文章,一位编辑回答说:“这首诗对这首诗异常敏锐,这对高中生来说是不寻常的,更不用说八年级的人了。请签署此声明,证明您没有以任何方式使用AI来写这首诗。”我感到一种奇怪的结合,却是受宠若惊的,但最重要的是吓了一跳。

然后,我决定在正在进行的创意写作项目中添加一个分支- 我想仔细研究AI如何创建真实的写作。在我的研究中,我选择专注于诗歌。与其他AI生成的写作不同,诗歌对于AI的真实生成更具挑战性。哈佛大学的学生玛雅·博德尼克(Maya Bodnick)发现,例如,AI生成的论文很容易通过了她的所有新生课程。但是与论文不同,诗歌的主要组成部分是人类情感,AI本质上缺乏。在麻省理工学院媒体读者中,基思·霍利亚克(Keith Holyoak)写道:“诗歌可以用作煤矿中的一种金丝雀,这是AI承诺(威胁?)挑战人类作为艺术创造者的范围的早期指标。”

本实验

人工智能写诗作的效果如何? 2023年2月,大西洋的沃尔特·亨特(Walt Hunter)审查了AI诗歌,得出结论,AI诗是陈词滥调,充满了值得Wince的押韵。我想看看大约一年后的AI功能如何变化。主要是,我想进一步了解对诗歌未来以及一般创造力的影响。我对三个问题感兴趣:

  1. 图灵测试:人们可以正确地检测何时由人工智能产生诗歌吗?
  2. 人工智能产生的诗实际上是高质量的诗吗?
  3. 英国专家和AI专家之间的判断力有差异吗?

为了分析这些问题,我调查了38位AI专家(AI工程师,产品经理和OpenAI,Google,Apple,Amazon等的潜在客户)和39位英语专家(英语老师,教授,作家,作家,作者等) 2024年。调查分别于2023年12月27日发表了四首诗:

  • 拟人的克劳德2.1
  • Google的吟游诗人(双子座尚未发布)
  • 我,一个八年级的人(我不想选择一首可以搜索的诗,或者以前可能遇到了受访者。而且,我并没有特别努力,在大约15分钟内将这首诗扔在一起)
  • Openai的Chatgpt-4

(诗的全文可以在这篇文章的底部找到。)

该调查要求受访者根据感知的质量对每一首诗的评价为1-10,以及他们是否认为这首诗是由人工智能或人类写的。他们不知道AI或人类写了多少诗,也不知道人类诗歌的作者。

他们也不知道我提供了三个AI聊天机器人的提示。我选择了日出作为主题,因为AI聊天机器人似乎相对简单。

图灵测试:人们可以正确地检测何时由人工智能产生诗歌吗?

大多数受访者(89.6%)正确地发现了人类的诗是人类。而且大多数人都有很好的感觉,诗是由AI写的。 18.2%的受访者正确地确定了4/4诗的作者超过一半的受访者(58.4%)正确猜测了这首诗的作者的3/4。 18.2%正确地猜到了2/4和3.9%,正确猜出了1/4。只有一个人(1.3%)错误地猜到了这四个人

总体而言,有33.8%的受访者错误地认为AI诗是人类。当被AI Chatbot分解时,Bard欺骗了大多数人。 46.8%的受访者认为,巴德的诗是由人类写的,而chatgpt为29.9%,克劳德(Claude)的诗为24.7%,如图1所示。

人工智能产生的诗实际上是高质量的诗吗?

AI的竞争者在这里表现要好,但仍然比人类差,这平均评价最高。但是,人类的诗紧随AI诗之后。具体而言,人类诗的平均质量平均为6.9/10,其次是Bard在6.2/10产生的诗,在5.8/10时,Claude在5.4/10处,如图1所示。整体AI诗的平均质量评级为5.8/10。

受访者对AI有明确的偏见

平均而言,如果受访者认为一首诗是由人类写的,那么他们将在质量上给出更高的评分。具体而言,如图2所示:

  • 认为克劳德(Claude)诗的受访者平均将其评为1.79点。
  • 认为巴德诗的受访者平均将其评为1.9点。
  • 认为Chatgpt诗的受访者平均将其评为1.95点。
  • 认为人类诗的受访者平均将其评为2.14点。

换句话说,要么被告决定一首诗很糟糕,因此由人工智能撰写,或者决定一首诗是由AI写的,因此是不好的。 (请注意,要求受访者首先对一首诗进行评分,然后猜测它是否是AI生成的,因此更有可能是前者的。)无论哪种方式,都存在明确的偏见,反对AI写作的质量。

图3说明了质量评分与认为诗是由人类写的四首诗写的诗的百分比之间的高相关性(R²= 0.943)。 (R²= 1.0表示完美的相关性,而0.0表示无相关性。)

英国专家和AI专家之间的判断力有所不同吗?

英国专家最不可能被愚弄

英国专家显然在辨别谁写下诗歌方面表现更好。英国专家正确地猜到了这首诗的作者平均4.13次,而AI专家只能在4次中做到2.61。鉴于英国专家至少有一些诗歌的背景知识,这并不奇怪。

最引人注目的是,英国专家更有可能获得完美的成绩。在77个(18%)中,只有14个受访者正确地确定了所有四首诗的作者。英国专家更有可能这样做,其中39名(28%)的英国专家中有11名与38名(8%)AI专家中只有3个得分完美。

我想找出完美的得分手是如何做到的,并询问了他们的方法论。

得分完美地注意到押韵,过度使用的文学装置,陈词滥调和逻辑缺陷的英国专家。马萨诸塞大学的写作讲师拉里·弗林(Larry Flynn)说:“ [AI诗]的押韵计划使我有些怀疑……因为今天许多诗人都不使用非常传统的终结狂人,所以我认为这些作品可能已经是试图创建诗的“思想”,而不是实际的诗。” Nueva学校的中学校长Karen Tiegel(以及20年的前英语老师)“认识到几首诗的风格”,“还发现AI生成的诗歌过于使用的文学手段,尤其是比喻和隐喻!透明Nueva学校的写作与研究中心主任Jennifer Paull经常看到元素“这似乎特别陈词滥调或不合逻辑,但并不是隐喻的理由(例如,您不喝灰烬)。 ”

得分完美的人工智能专家注意到了简单和押韵的问题,粗心和简单的“不好的写作”。 Google Deepmind工程主管David Orr花了很多时间在LLM上工作,因此当他看到大多数AI写作文字时,他会感到自己有一种感觉。但是有时候,他看到特定的线索。巴德(Bard)的诗“明确说明了- 它与斗篷押韵,这不是人类诗人会做的事情。韵律方案也不一致:主要是ABCB,但有时是ABAB;同样,我认为人类会更加小心。 ” Chat-GPT的诗也有说明。 “老实说,'每个中风大胆而温柔的大胆'只是糟糕的写作。最后一行在诗中承担了很多重量,也没有真正的意义。梦想在黎明时没有发现,他们整夜。我认为人类诗人会重新考虑这一结局。”苹果数据科学经理泰德·哈特(Ted Hart)的猜测是基于“诗中的简单性和押韵数量”。

除了利用消除过程来消除他们认为的诗歌,显然是AI的作品,完美的得分手还指出了使其“人类”的人类诗的品质。弗林(Flynn)觉得人类诗“具有最具创新性的形式,所以我觉得这很可能是人类生成的。” Orr认为人类诗“显然是人类的,我从未见过LLM通过折断和视觉效果做有趣的事情。这可能是在某个时候来的,但是我立即知道这是“真实的”。

英国专家的质量评级更加敏锐

英国专家的质量评级比AI专家更高。当AI专家的评分从质量评级中删除时,人类诗的评分就上升了,AI诗的评分下降了。英国专家平均将《人类诗7.2/10》评为6.1/10的Bard诗,Chatgpt的诗,5.4/10,Claude的诗为5.0/10,如图4所示(AI专家所示) - 只有绿色的评分。 )平均而言,英国专家对人类诗的评价比AI专家0.6点。平均而言,英国专家将Bard's,Chatgpt-4和Claude的诗分别评为0.3、0.8和0.9分的分别比AI专家

就是说,因为AI专家通常比英国专家拥有的诗歌知识和专业知识较少,所以我认为这是一个公平的假设,即英国专家的质量评级更准确。无论哪种方式,人类都会在这里获胜,并且仅由英国专家判断时,就以更高的利润。

结论

AI诗还不存在

总体而言,大多数受访者可以正确地检测到哪些诗是由AI写的,也可以将其评为质量较低。这是一个相对肤浅的话题,没有任何更深的含义,而当今大多数诗的话题都与更复杂的话题(例如人类的情感或社会正义)有关。也许更重要的是,人类诗是由八年级学生而不是专业诗人撰写的。因此,与之竞争不应具有挑战性

也就是说,AI诗还不错- 许多受访者表示,调查比他们预期的更具挑战性。一些诗比其他诗更难猜测。即使是像奥尔(Orr)这样的完美猜测者,也不得不依靠肠道对其中一首诗的感觉,他觉得“很好,我认为这是我最不确定的一首诗。但是我认为只有一点工作可能会更好,例如将三个部分分解得更清楚。” (有趣的是,这是克劳德的诗,这是认为这是人类的受访者中比例最低的。)弗林指出,猜测涉及反向心理学的元素。尽管他将诗歌归因于AI的传统终结,但他也认为:“然后,这也是人类可能正在尝试做的事情- 模仿古典形式。令人惊讶的,是的,具有挑战性!”奥尔认为“总体LLM诗歌的总体速度非常快。我不确定我会在一两年后告诉。”

厄运者预测在写作/创意领域的职业结束,类似于计算器和计算机的发明。但是至少目前,计算器和计算机还没有取代人类- 它们已经成为工具。同样,至少在目前的形式中,AI确实只能作为作家/创意者工具包的一部分,从而节省了时间(只要他们仔细审查和编辑)在其写作/创意项目上。

…但是英国专家可以提供帮助

我做出的最引人入胜的观察是,英国专家能够更好地辨别哪些诗是由AI写的- 11个英国专家与只有3个AI专家为所有4首诗完美猜测。鉴于他们在诗歌方面具有更大的专业知识,英国专家的质量评级也比AI专家更具看法,将人类诗的评价高于AI诗的质量,其质量比AI专家的利润更高。这一切都表明,需要与AI产品团队与AI专家合作的英国专家,以帮助完善产品并定义由高质量产量组成的产品。毕竟,在不知道黄金标准的情况下,很难制造产品。

诗人(和完美的得分手)李·罗西(Lee Rossi)通过将AI与初学者进行比较来解释这一点:“许多初学者认为他们必须是'诗人',这意味着他们使用他们从阅读中记住的单词和图像,而不是依靠自己经验和语言感。换句话说,他们像AI一样写作,而不是像诗人一样。”

是的,这导致了一个具有讽刺意味的问题- 如果英国专家有助于开发AI算法,那么他们不是在挖掘自己的坟墓吗?在短期内,我认为拥有专业作家帮助AI团队改善AI的未来版本对作家和AI社区都有真正的好处。 AI释放作家的更好版本,以发展更丰富,更多的创意和项目。这将使他们能够更有效地编辑自己的作品。从长远来看,我谨慎乐观地说,人工智能将为创意工作打开新的途径和机会。确切地说,这将是不断发展的(并值得自己独立的研究)。但是,对于创意者来说,灵活并能够旋转很重要,而且这是否已经是创意思想的DNA的一部分?

AI最终会接管人类角色(甚至人类)吗?可能,但至少在此之前,很明显,需要英国专家来帮助开发,测试和进一步完善AI算法以帮助提高AI写作质量。今天的作家与其与人工智能作斗争,不如在塑造AI的未来,不仅在政策方面,而且在技术方面发挥积极作用。

(感谢所有调查受访者和Maya Bodnick在这篇文章方面的帮助。)

更新: 2/8/2024, Google Bard被双子座取代。鉴于巴德(Bard)在质量评级和愚弄受访者的能力方面都获得了第一名,所以我希望双子座对贝德(Bard)有所改善。最近,我尝试在双子座中输入相同的提示,以查看是否存在明显的退化,而这首诗(可以在本文的底部找到)似乎稍差一些,因为它进一步过度使用了隐喻和比喻。如果任何调查受访者或其他任何人都想对此发表评论,我将非常有兴趣听到您的想法!

克劳德(Claude)黎明

黄金光线窥视地平线在睡眠土地上铸造温暖夜间后坐力的毯子随着黎明的光在天上的前进玫瑰色色调舞蹈和微光跨越低悬挂的云睡眠世界开始搅动生物出现,早晨歌曲出现新的一天黎明,明亮而充满希望升起的太阳消除了黑暗并照亮了一个新的起点

吟游诗人的交响曲

黎明的第一个笔触,
柔软的橙色在夜晚的画布上流血,
向后推漆的黑色,
一英寸,就像光的手指一样。
轮廓在地平线的边缘搅动,
山从沉睡中醒来,
树木向黄金伸展树枝,
像一个长而凉爽的灰烬一样在温暖中喝酒。
鸟鸣的交响曲爆发,
一个欢乐的合唱在新生日打招呼,
当太阳,火热的战车上,山上山上,
散落在早晨的灰色上的钻石。
世界延伸,打哈欠,扔掉斗篷,
脱水的草在新生儿闪闪发光,
阴影撤退,被太阳的温暖斗篷追赶,
消失在拐角处,戴温和的可能性。
空气嗡嗡作响,有了新的开始的承诺,
一个新的起点刻在天空的蓝色中,
随着阳光升高,用翅膀绘画云,
世界在金色的色调中晒太阳。
因此,让我们随着日出而崛起,心脏耀眼,
张开双臂拥抱这一天,
因为在这种光明和阴影的交响曲中,我们的生活交织在一起,
在黎明的挂毯中,蚀刻精美。

由塞拉·埃尔曼(Sierra Elman)(八年级人)沉没

公鸡磨碎。
我看着太阳吻地平线。精致-
就像地球会分裂充满激情开放。
我看着金灯拥抱我的看法。它掩盖了天空-
黑暗逐渐变成淡蓝色带有紫色和棉花的指纹糖果粉红色。我在蜂蜜空气中呼吸。
我记住这一刻太阳祝福土地并赶走夜晚的幽灵。

Chatgpt-4的《黎明的耳语》

在黎明的第一个灯光下,
帆布在东方展开,
轻柔地窃窃私语,
奇观,视觉盛宴。
深红色流血成藏红花金,
用画家的恩典溅出天空,
每个中风大胆但又温柔大胆,
在安静的世界醒来的空间中。
太阳,火热的球上升,
以缓慢而稳定的速度爬升,
放逐夜间挥之不去的幌子,
充满辐射的拥抱。
鸟滴在合唱中,如此甜美,
欢迎这一天的新开始,
在这个时刻,地球和天堂相遇,
大自然的杰作,内心的作品。
地平线,梦和光的融合,
谈到希望,重新开始,
在早晨的瞬时美丽中,
生活找到了一种节奏,稳定而真实。
日出,天空中的承诺,
每天重生,世界的叹息,
在一天高潮之前的那一刻躺在安静的魔法中,梦想谎言。

Gemini的绽放余烬(生成2/15/24)

首先腮红,犹豫的手涂料在整个夜晚的画布上,
推回木炭阴影,
一场沉默而温柔的战斗。
靛蓝流血紫罗兰,
被黄金和紫水晶吻,
星星,一一投降,
窃窃私语他们的最后一个tryst。
Horizo​​n的线,火热的接缝,
余烬爆发在深红色的布鲁姆中,
阳光泄漏,一个液体梦,
追逐他们的厄运。
树木蚀刻的黑色,现在穿着绿色衣服,
钻石散落在露水上,
看不见的鸟类交响曲,
欢迎早晨的色调。
世界觉醒,沐浴在光线下,
希望在脆弱的翅膀上展开新的一天出生,充满活力和明亮,
日出的歌声轻轻唱歌。

点赞的用户