1.1. 预训练

预训练学知识，指令微调学格式，强化学习对齐偏好，增量预训练让大模型有领域知识（靠指令微调记住知识不靠谱，几十万条数据做不到。）

训练过程与原始预训练类似，增量预训练常用于领域适应，学习领域知识、风格和术语等。

选取底座模型：根据自己的需求和硬件条件来选择合适的底座模型及模型参数量的大小；
收集数据：收集大量的文本数据，一般预训练数据的大小都是 TB 级别的；
数据清洗：所有的信息都能够在互联网信息中被找到，只是信息密度相比 人工精选数据集 要更低。例如「明星信息」、「如何写代码」这些信息都能在新闻网站、或是问答网站中找到，只不过维基百科或是 Github 则是将这些信息给「高密度」且「结构化」地进行了存储。这使得我们在使用维基百科作为训练语料的时候，模型能够更快的学习到这些高密度信息（人物的经历、年龄、性别、职业等等），而这些内容在互联网信息（如新闻）中的信息密度则较低，即很少会有一条新闻完整的介绍一个艺人的过往经历。只要我们对互联网信息进行严格的处理（去除冗余信息，提高有用信息的密度），就能够加快模型的学习速度。

垂直领域预训练有三种思路：

Refs:

预训练