大语言模型项目

Langchain喂全数据本地知识库（实测英语文档与英语对话比Langchain-ChatGLM的项目好用）

数据集与微调

首先 Clone ChatGLM2-6B 官方仓库下来

通过 python cli_demo.py 完成一次模型运行

具体配置方法自行查看 ChatGLM2-6B 官方页面指导

随后，补充安装以下Python库：

python -m pip install rouge_chinese nltk jieba datasets

进入 ptuning 文件夹 cd ptuning

创建 dataset 文件夹 mkdir dataset

替换所有脚本的文件夹指向 dataset sed -i "s/AdvertiseGen/dataset/g" *.sh

在 dataset 文件夹中添加训练数据集 train.json （其实是 jsonl 格式文件，相当于每行各一个独立的 json ，不允许单个 json 存在换行，换行应使用 \n 代替），具体内容参考如下：

{"content": "介绍你自己", "summary": "我是清华大学研发的 ChatGLM-6B 的第二代模型"}
{"content": "介绍北京", "summary": "北京是一个历史悠久的古城"}

在 dataset 文件夹中添加验证数据集 dev.json ，格式同 train.json ，这里数据建议不需要过多，否则会拖慢验证速度。这里的数据集不应该与 train.json 存在雷同，否则可能无法发现过拟合的现象。

修改 train.sh 文件，具体关注以下几个参数：

    --per_device_train_batch_size 1
    --per_device_eval_batch_size 1
    --gradient_accumulation_steps 16

如果你是显存情况良好的显卡，建议把这里的两个 batch_size 参数改为 16 ， steps 改为 1 。

如此修改可以通过增加显存占用的方式提升训练速度（实测快接近一倍），此时显存占用大约在 13G 上下。

如果你的显存状况不乐观，请不要修改这个值，此时显存占用大约在 7G 以下。

小技巧： batch_size 和 steps 都为整数，乘积应保持为 16 。在保持此前提的情况下，可以根据你的实际显存情况灵活调整这两个值，以尽可能占用更多的显存达到最快的训练速度。

修改完成后，可以执行 bash train.sh 来启动训练，随后就是漫长的等待。

训练完成后，请遵循官方页面的指导来部署执行。

文章版权归作者所有，未经允许请勿转载。

THE END