等他回房间换好睡衣出来,閔欣柔已经乖乖的坐在桌边等著他了。
除了打开的论文外,还有一碗砂锅粥。
浓浓的粥厚重而醇香。
虽然头等舱的飞机餐不错,吴辰吃的也很饱,但还是被打开了食慾。
於是他端起碗,呼啦啦的吃完了,胃里暖暖的。
將碗放到一边,吴辰没看閔欣柔弯弯的眉眼,只是道:“你讲讲你写的论文吧。
“
“好的老师”
“我看了您留给我的几篇论文,尤其是关於子词正则化(subword
regurization)的那几篇读完后很受启发,所以重新思考了我们的bpe算法的目標。
您说过科大讯飞和搜狗他们会给我们大量的网络语料,但噪声很多,所以我实现了您提到的基於抽样的多种分词结果生成,在合併词表时,不再只选取绝对最高频的字节对,而是引入一个概率分布,让一些次优的合併也有机会被选中。
这样,同一个句子在每次处理时都可能得到略微不同的、但都合理的分词序列,相当於做了数据增强。”
吴辰一边听,一边暗自点头。
她確实理解了自己想要的东西。
让分词本身成为模型的一种正则化手段,而不仅仅是一个预处理步骤。
不过当她讲到如何將这种多可能性分词结果整合进后续步骤的时候,吴辰皱了皱眉。
“停,往上翻。”
閔欣柔连忙照他说的做。
吴辰仔细看了一下。
她的实现是在训练前,为每个句子预先採样生成n种分词结果,然后一起餵给模型。
思路是对的,但方法太粗暴了。
如果为每个句子都预生成多个版本,训练数据体积会爆炸,10也会成为瓶颈,严重拖慢训练速度。
靠他手搓的八张显卡,根本完成不了这样的任务。
必须要在动態和效率之间取得平衡。
吴辰拿起笔,在草稿纸上画了一个简化的流程图。
不能数据预处理阶段做,而是在训练时,在数据加载器內部做。
也就是每次向模型送出一批数据时,现场为其中的每个句子按概率採样一种分词结果。
这样做的话,同一个句子在不同训练周期见到模型时,可能就是不同的面貌,既实现了正则化,又避免了存储开销,计算代价也可控。
吴辰一边画,一边给閔欣柔讲起了修改方法。
閔欣柔则手指飞快的將吴辰说的每个字都记了下来。
只是在吴辰说话的停顿间,她突然有些恍惚,觉得好像回到了三天前的那个晚上。
等讲解完成后,吴辰又通篇看了一遍,发现其他地方都没什么问题。
於是他道:“你先按这个思路改,儘量三天內做完给我看看。”
“嗯!
”
閔欣柔重重的点头。
大三上学期的课程不多,每周只有10节课不到,所以她有足够的时间。
在她开始修改后,吴辰也整理起了自己要做的工作。
按照目前的进度,理论方面他已经完成了word2vec,位置编码和多头注意力机制的推导。
加上閔欣柔完成的bpe分词。
那么剩下的,就只有一件事。
他打开了word,打算完成最终的一块拼图。
transforr架构。
所有未来人工智慧大语言模型的起点。
它就在那篇经典、著名的论文中。
《attentionlsallyouneed》。
当吴辰敲下第一个字母的时候,明明是秋老虎最囂张的时候,但他依然感觉到一丝凉意在脑海中蔓延开来。
这和系统无关。
只是他自己太过激动罢了。
对这篇论文的內容,他上辈子早已背的滚瓜烂熟。
所以手放在键盘上时,根本就不需要思考。
“the doant sequeransdu odels are based on(主流的序列转换模型基於复杂的循环或卷积神经网络)————”