演讲稿网络(用循环神经网络,撰写一份特朗普式发言稿!)

大数据文摘

编者:小七史金田夏雅薇

特朗普新的连任竞选已经开始。

特朗普的个人语言风格让作者感兴趣。如果我们使用他的推文和演讲作为训练数据,我们可以使用递归神经网络生成具有特殊风格的演讲吗?结论是,如果数据和计算能力足够大,那么在总统竞选中可能会有编写算法的机器人。

2015年12月30日,在南卡罗来纳州,一场竞选集会正如火如荼地进行。这次竞选演讲为特朗普引用的“特朗普学说”又添了一笔妙笔。正是这些言论让特朗普受到了支持者的喜爱和支持,也成为了一些人的笑柄。

无论你个人对特朗普的看法如何,你都不能否认他有自己独特的说话方式——零星的高级词汇和非常规的句子结构。光是这些就足以让他的演讲在他的前任和同行中获得高度认可。

我对这种独特的风格非常感兴趣,并打算使用机器学习算法来学习和生成类似特朗普口语风格的文本。

数据收集和处理

首先,我们需要收集大量的例子来理解特朗普的演讲风格。这里有两个主要来源——一个是啁啾,一个是总统的演讲和演讲。

啁啾

非常规句式的一个例子

特朗普的推特是最容易听到他的话的地方。特朗普是唯一一位使用社交网络平台与美国人民直接沟通和互动的总统。此外,作为一名公众人物,他的评论自然会被收集和整理,供后代参考,这为我省去了很多麻烦。我不需要使用Twitter不稳定且受限的API。简而言之,我可以使用的推文不到31000条。

推文链接:

https:开发者推特。com/en。html

总统演讲和演讲

然而,除了他在网上的形象,我还想看看他作为总统更正式的讲话方式。为此,我希望从白宫简报陈述的文件中获得一些信息。在某些方面python在这个工具的帮助下,我很快收集了大约420篇演讲和总统的一些其他评论。这些材料涵盖各种活动,如与外国政要的会晤、与国会议员的圆桌会议以及颁奖典礼上的演讲。

白宫陈述档案链接:

https:www.whitehouse。comgov/简报声明/

Python工具链接:

https://www.crummy。com/software/BeautifulSoup/

推特上的每个词都是特朗普自己写的或口述的,但这些演讲是不同的,涉及其他政客和一些优秀记者。我们需要将特朗普的话与其他人的话区分开来,这是一项艰巨的任务。

在我的陈述中正则表达式太棒了

输入正则表达式——虽然正则表达式很无聊,但它是一个强大且绝对不无聊的工具。

正则表达式允许您指定一个搜索模式,该模式可以包含任意数量的特定约束、通配符或其他限制,这样您就可以只准确地返回所需内容,而不返回任何其他内容。

通过一些实验和错误,我生成了一个复杂的正则表达式,它只返回总统的讲话,分离并丢弃其他单词或评论。

数据需要清理吗?

通常,处理文本的第一步是将其标准化。这样的规范化语言的程度和复杂性可以根据人们的需要而变化,可以简单地删除标点符号或大写字母,也可以将单词的所有变形减少到一个词根。

工作流示例:

https://Towarddatasciencecom/into-a-Text-heart-of-Darkess-39b3895ce21e

根链接:

https://NLP斯坦福大学。Edu/IRbook/HTML/htmledition/stemmingand-AndyLau-1HTML

然而,在标准化过程中,可能丢失的特定功能和模式正是我需要并想要保留的。因此,为了使生成的文本更加可信和真实,我选择绕过大多数标准化过程。

文本生成

马尔可夫链

在进一步研究深度学习模型之前,我想探索另一种常用的文本生成方法——马尔可夫链。长期以来,马尔可夫链一直是笑话文本生成的最佳选择——有许多故事可以根据关键词快速搜索,如《星际迷航》、《历任总统》和《辛普森家族》。

马尔可夫链链接:

https:维基百科。org/wiki/Markov_uu链

故事链接:

https://hackernooncom/automated-text-generator-using-markov-chain-de999a41e047

由于马尔可夫链只能根据当前单词来确定下一个单词,因此速度很快,但效果并不理想。该算法一次只关注一个特定的单词,然后生成下一个单词。下一个单词是根据概率随机选择的,概率与频率成正比。以下是一个简单的例子:

在简化马尔可夫链的例子中,在“taxes”之后只有三个词:“bigly”、“soon”和句末。

在现实生活中,如果特朗普在70%的情况下说“taxes”一词后接“bigly”,那么在马尔可夫链生成的文本中选择下一个词“bigly”的可能性将达到70%。

但有时,他不是以“大”结尾,而是直接结束,或用其他词结束。此时,马尔可夫链可能会选择“bigly”,但它也可能选择其他可能的词,因此我们生成的文本是多样的。然后重复这个过程直到句子结束。

这对于快速和垃圾应用程序来说非常好,但很容易看出哪里出了问题。因为马尔可夫链只关心当前单词,所以很容易被误解。以谈论国内经济开始的句子很容易以“学徒”结尾。

根据有限的文本数据集,大多数马尔可夫链的输出都是荒谬的。然而,偶尔也会有一些精彩而幽默的金句:

从“FBI”开始的马尔可夫链训练结果

循环神经网络

然而,如果我需要想出一些更合理的句型,我需要更复杂的东西。回归神经网络(RNN)它已成为许多文本或序列化应用程序的首选体系结构。RNN的具体工作原理超出了本文的范围,但这里有一些资料相对适合初学者

数据链路:

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

这些神经单元的显著特征是它们有秩序的“记忆”。词汇和语法的选择在很大程度上取决于周围的环境。因此,这种“记忆”可以通过追踪时态、主语和宾语来创造连贯的思维。

这类网络的缺点是计算量非常大——在笔记本电脑上,一次用这个模型运行全文需要一个多小时,考虑到我需要做大约200次,这是不合适的。

但这也是云计算的发展方向。许多成熟的技术公司提供云服务,其中最大的是亚马逊谷歌微软。以强烈的GPU在计算示例中,一小时的循环时间减少到90秒,并且时间减少了40多倍!

GPU计算示例:

https:亚马逊。com/ec2/实例类型/p3/

结果评估

你能判断这个陈述是不是真的吗?

加州终于应该有一个伟大的政府,让美国再次伟大起来特朗普2016

加利福尼亚最后,有一个伟大的政府让美国再次辉煌是值得的

这段文字摘自特朗普支持共和党州长候选人的演讲,但它可能会成为特朗普在2016年大选前夕发布的推文。

链接至特朗普支持共和党州长候选人的演讲:

https://twittercom/realDonaldTrump/status/997597940444221440

我实现的更复杂的神经网络是,在递归层的前后都有一个隐藏的完全连接层,它可以根据40个或更少的字符作为种子生成内部一致的文本。

我希望他们能聚在一起,我希望人们能看看农场。

我希望他们都能团结起来。我希望人们能看到农民

中国已同意大量购买世界各地的商品 — 停止美国的大规模交易。

(中国已同意在世界上购买大量产品,并停止了与美国的大规模交易。)

不太复杂的网络在句子连贯方面有点不稳定,但它仍然可以捕捉特朗普演讲的语气和感觉:

演讲稿网

奥巴马。我们会有很多这样的人 — 可以我会告诉你,他们是其中的一部分。

(奥巴马,我们会有很多人——好吗?我告诉你,他们只是其中的一小部分。)

总结与反思

虽然不太可能通过递归神经网络生成可以欺骗所有人的文本,但这一尝试向我们展示了RNN的力量。在很短的时间内,这些网络学习了拼写和一些语法知识。在某些情况下,如果神经网络设计得更好,拥有更大的数据集和更多的训练时间,它甚至可以学习如何使用主题标签和超链接。

如果您对这些模型的代码感兴趣,可以在这里找到存储库:

https://GitHub-com/tetrahydrofuran/presidential-rnn

欢迎提出任何问题或反馈!

相关报道:

https://TowarddatascienceCOM/the-best-words-cf6fc2333c31

您可以还会对下面的文章感兴趣

最新评论

  1. 逾期不侯
    逾期不侯
    发布于:2022-04-27 18:59:12 回复TA
    个单词,因此速度很快,但效果并不理想。该算法一次只关注一个特定的单词,然后生成下一个单词。下一个单词是根据概率随机选择的,概率与频率成正比。以下是一个简单的例子:在简化马尔可夫链的例子中,在“taxes”之后只有三个词:“bigly”、
  1. 我本闲凉
    我本闲凉
    发布于:2022-04-27 18:18:05 回复TA
    -using-markov-chain-de999a41e047由于马尔可夫链只能根据当前单词来确定下一个单词,因此速度很快,但效果并不理想。该算法一次只关注一个特定的单词,然后生成下一个单词。下一个
  1. 下雨了你想我了吗
    下雨了你想我了吗
    发布于:2022-04-27 23:50:18 回复TA
    个是啁啾,一个是总统的演讲和演讲。啁啾非常规句式的一个例子特朗普的推特是最容易听到他的话的地方。特朗普是唯一一位使用社交网络平台与美国人民直接沟通和互动的总统。此外,作为一名公众人物,他的评论自然会被收集和整理,供后代参考,这为我省去了很多麻烦。我不需要使用Twi
  1. 钟宏光波
    钟宏光波
    发布于:2022-04-27 18:00:55 回复TA
    哪怕再被人遗忘的角落里,也要仰望那所谓的幸福。
  1. 平苇朗航
    平苇朗航
    发布于:2022-04-27 18:00:55 回复TA
    最近很闲吗

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

使用微信扫描二维码后

点击右上角发送给好友