第111章黎明_重生2008：从助教逆袭为院士

等他回房间换好睡衣出来，閔欣柔已经乖乖的坐在桌边等著他了。

除了打开的论文外，还有一碗砂锅粥。

浓浓的粥厚重而醇香。

虽然头等舱的飞机餐不错，吴辰吃的也很饱，但还是被打开了食慾。

於是他端起碗，呼啦啦的吃完了，胃里暖暖的。

將碗放到一边，吴辰没看閔欣柔弯弯的眉眼，只是道：“你讲讲你写的论文吧。

“

“好的老师”

“我看了您留给我的几篇论文，尤其是关於子词正则化（subword

regurization）的那几篇读完后很受启发，所以重新思考了我们的bpe算法的目標。

您说过科大讯飞和搜狗他们会给我们大量的网络语料，但噪声很多，所以我实现了您提到的基於抽样的多种分词结果生成，在合併词表时，不再只选取绝对最高频的字节对，而是引入一个概率分布，让一些次优的合併也有机会被选中。

这样，同一个句子在每次处理时都可能得到略微不同的、但都合理的分词序列，相当於做了数据增强。”

吴辰一边听，一边暗自点头。

她確实理解了自己想要的东西。

让分词本身成为模型的一种正则化手段，而不仅仅是一个预处理步骤。

不过当她讲到如何將这种多可能性分词结果整合进后续步骤的时候，吴辰皱了皱眉。

“停，往上翻。”

閔欣柔连忙照他说的做。

吴辰仔细看了一下。

她的实现是在训练前，为每个句子预先採样生成n种分词结果，然后一起餵给模型。

思路是对的，但方法太粗暴了。

如果为每个句子都预生成多个版本，训练数据体积会爆炸，10也会成为瓶颈，严重拖慢训练速度。

靠他手搓的八张显卡，根本完成不了这样的任务。

必须要在动態和效率之间取得平衡。

吴辰拿起笔，在草稿纸上画了一个简化的流程图。

不能数据预处理阶段做，而是在训练时，在数据加载器內部做。

也就是每次向模型送出一批数据时，现场为其中的每个句子按概率採样一种分词结果。

这样做的话，同一个句子在不同训练周期见到模型时，可能就是不同的面貌，既实现了正则化，又避免了存储开销，计算代价也可控。

吴辰一边画，一边给閔欣柔讲起了修改方法。

閔欣柔则手指飞快的將吴辰说的每个字都记了下来。

只是在吴辰说话的停顿间，她突然有些恍惚，觉得好像回到了三天前的那个晚上。

等讲解完成后，吴辰又通篇看了一遍，发现其他地方都没什么问题。

於是他道：“你先按这个思路改，儘量三天內做完给我看看。”

“嗯！

”

閔欣柔重重的点头。

大三上学期的课程不多，每周只有10节课不到，所以她有足够的时间。

在她开始修改后，吴辰也整理起了自己要做的工作。

按照目前的进度，理论方面他已经完成了word2vec，位置编码和多头注意力机制的推导。

加上閔欣柔完成的bpe分词。

那么剩下的，就只有一件事。

他打开了word，打算完成最终的一块拼图。

transforr架构。

所有未来人工智慧大语言模型的起点。

它就在那篇经典、著名的论文中。

《attentionlsallyouneed》。

当吴辰敲下第一个字母的时候，明明是秋老虎最囂张的时候，但他依然感觉到一丝凉意在脑海中蔓延开来。

这和系统无关。

只是他自己太过激动罢了。

对这篇论文的內容，他上辈子早已背的滚瓜烂熟。

所以手放在键盘上时，根本就不需要思考。

“the doant sequeransdu odels are based on（主流的序列转换模型基於复杂的循环或卷积神经网络）————”

第111章 黎明（2 / 2）

第111章黎明（2 / 2）