用深度学习模型写小说
小编 2024年10月28日 09:30:24 小说大全 158
内容纲要
: 直接用大语言模型…. 大语言模型的这种涌现能力, 直接用合适的让他写就可以了, GPT-3可以有大几千的上下文, GPT-4甚至支持几万字的上下文, 直接都能写一本书了.
背景
我们最近开发了,在线上举办小说的接龙.这个形式比较新颖, 一方面是科幻小说, AI或者深度学习本身就比较有科幻因素; 另一方面, 生成模型, 特别是后的GPT系列适合用来做语言生成, 能够取得以假乱真的效果, 最擅长的就是接龙(给一段话, 续写后面的内容).
目标
找到并训练出合适的模型, 产生出能够以假乱真的科幻小说,并参加比赛. 如果大家不知道我是AI提供小说思路, 那我就赢了(图灵测试?)
大致思路
这是一个文本生成的问题
找到现在比较好的模型, 模型慢一点没关系, 但是训练和预测不能太贵(需要太多GPU或者太多电), 毕竟创业公司,能省则省.找到比较好的科幻预料进行微调或者训练, 能够让模型很适合写科幻小说能够写出比较好的小说, 最好不用手动调整或者轻微手动修改(我也不擅长写小说)模型 with code and bench mark
首先看, 看看最前沿的学术界在用什么模型:
粗略一看, 有几个点感觉有意思
前两名是: 第一名的数据集是看图说话, 对图片进行文字描述, 跟GAN的CV出身还是有关系.第三名用的数据集是 Poems, 还是个中文的. 而且SARG()这个模型也出现了两次, 后面是Daily , 是一个会话的.上面提到的原始的经典模型, BART也在, 但是GPT不在, BART虽然不知道,但是名字很像BERT,大概率也是基于的?
另外他们这个挺好的还提供了简单的背景知识:
方法评估指标
贴心的提供了两个阅读材料, 读一下
The : Text in deep for Text : Text in deep
这个投稿是2019.9, 2020年被接收, 在日新月异的发展中, 这个日期只能算一般般.
thms used in deep deep used for text l Auto-(VAEs): 基于-架构,可以做无监督的训练. 还是有道理的. 最主要要是KL坍塌问题, 而且也有难生成比较长的句子的问题.
光看这些指标很难讲哪个更好,或者都不太好~
(GANs)
就是说是这个组的优胜者.
: 在文本生成领域的评估方法还是个待解决的问题,现有的评估方法都不是特别合适.
作者说结论还是VAE是文本生成的主流, GANs是图片生成的主流.
The paper with this that the area of data () is by GANs while as the data (text) is by Auto-.
of Text
2020年8月的,也不是很新.
开头说他就是要比较基于的GPT-2和BERT两个模型. 但是BERT跟GPT-2比较生成文本不公平吧.
基础知识
word s
from (BERT)
: Model and Next .Fine-
2 (GPT-2)
在文本生成领域GPT-2会比BERT更合适.
BART
使用比较原始的, 使用了不同的训练方法来做预训练,可以有比较好的性能. 另外适用的任务也更广泛一点.
主要卖点是: 能够取得BERT这种对于输入的双向的理解提供小说思路, 有能够有GPT这样的生成模型.
BART is when fine tuned for text but also works well for tasks.
BART vs GPT-x vs T5试试BART
看起来BART在生成领域看起来是用的很多的.
找到中文的预训练模型, 然后使用科幻小说语料来微调. 自己预训练费时费钱.
但是使用BART大概率只能是一个基线模型, 现在生成类的模型都不那么智能, 所以模型的大小也很重要, 可能得比较大的模型才能有稍微理想一点的结果.
CPT:
我以为CPT没有修改BART只是做中文预训练. 现在看起来还是有修改BART的结构.
他有两个不同的, 分类问题使用在上加一个输出层, 就是BERT, 生成任务和BART一样使用标准的的, 这样的部分是公用的, 所以就把做深. 所以换个角度, 这也就是BERT加上一个生成的.
因为有1个+2个,居然有好几种不同的微调组合
T5中文GPT-2
中文GPT-2
数据集
找到我能使用的合法的中文科幻小说类数据集.