JP0423
发表于 2024-2-16 19:10:11
原神启动原神启动原神启动原神启动
wuw111
发表于 2024-2-17 16:27:45
我是纳西妲的狗
当然是萧萧啦
发表于 2024-2-17 20:27:38
第一次接触,感觉很厉害,谢谢
紫金藤
发表于 2024-2-17 21:10:45
谢谢分享
XiongElena
发表于 2024-2-17 21:57:41
我是纳西妲的.....
hqt
发表于 2024-2-18 01:10:27
大佬:lol
ykn
发表于 2024-2-18 10:32:24
大佬训练的时候开了dpo没?我看教程说的GPT模型最好不要超过20轮,但好像看分享的模型基本都跑到五六十轮了,我自己怎么好像跑个25轮就已经有明显劣化的趋势了?
Allen
发表于 2024-2-18 10:38:18
路过:lol
March7th123
发表于 2024-2-18 16:55:17
哇 好棒 试试{:3_41:}
回忆
发表于 2024-2-18 16:56:03
ykn 发表于 2024-2-18 10:32
大佬训练的时候开了dpo没?我看教程说的GPT模型最好不要超过20轮,但好像看分享的模型基本都跑到五六十轮了 ...
没开,效果感觉和数据集质量的关系很大,发现效果变差的话减小轮次就好了,模型没什么一定要多少轮或者高轮次一定好之类的说法,还是要看实际效果