1. 评测

1.1. 大模型怎么评测

自动评测和人工评测，这两种方法在评测语言模型和机器翻译等任务时起着重要作用。

大模型需要遵循的helpful，honest，harmless的原则。

可以有意构造如下的训练样本，以提升模型遵守 honest 原则的能力：微调时构造知识问答类训练集，给出不知道的不回答，加强 honest 原则；阅读理解题，读过的要回答，没读过的不回答，不要胡说八道。

在评测 LLMs 性能时，选择合适的和领域对于展示大型语言模型的表现、优势和劣势至关重要。为了更清晰地展示 LLMs 的能力水平，文章将现有的任务划分为以下 7 个不同的类别：

直接评估指标：准确率和 F1 得分这类传统指标。通常情况下，这种方法涉及从模型中获取单一的输出，并将其与参考值进行比较，可以通过约束条件或提取所需信息的方式来实现评估。
间接或分解的启发式方法：这类方法中，利用较小的模型来评估主模型生成的答案，这些较小的模型可以是微调过的模型或原始的分解模型。
基于模型的评估：这种方法中，模型本身提供最终的评估分数或评估结果。这种方法也引入了额外的可变因素。即使模型可以获取到ground truth信息，评估指标本身也可能在评分过程中产生随机因素或不确定因素。

References: