我的生活随笔

LLMEVAL-1中文大模型评测结果揭晓:Baichuan-7B震撼问世,性能第一!

  六月底之前,LLMEVAL将上传本次评测的所有数据,包括公众用户评测结果、众包用户评测结果、GPT 4评测结果以及人工分项评测结果。

  虽然选择题能够方便进行自动化处理,但其无法有效评估大模型最为关键的生成能力,仅在一定程度上反映模型的知识覆盖范围。

  尽管GPT-4的自动评测模型可以对文本生成能力进行评估,但LLMEVAL仍缺乏大规模数据对比分析,无法确定其结果与人工评测之间的实际差距。

  在大模型系统的研发中,通常遵循着3H原则:Helpful(信息量)、Honest(正确性)和Harmlessness(无害性)。

  为了更准确地评估这些原则,LLMEVAL将其细化为了5个评分项,分别是:正确性、流畅性、信息量、逻辑性和无害性。

  包括分项评测、众包对比评测、公众对比评测、GPT 4自动分项评测、GPT 4 对比评测等方式。

  那么,哪种方法更适合评测大模型,并且这些方法各自的优缺点是什么呢?为了研究这些问题,LLMEVAL在本次评测中采用了上述五种方式进行了效果对比。

  ●众包对比标注:由于分项评测要求高,众包标注采用了双盲对比测试,将系统名称隐藏仅展示内容,并随机成对分配给不同用户,用户从“A系统好”、“B系统好”、“两者一样好”以及“两者都不好”四个选项中进行选择,利用LLMEVAL平台分发给大量用户来完成的标注。

  为了保证完成率和准确率,LLMEVAL-1提gòng了少量的现金奖励,并提前告知用户,如果其与其他用户一致性较差将会扣除部分奖励。

  ●公众对比标注:与众包标注一样,也采用了双盲对比测试,也是将系统名称隐藏并随机展现给用户,同样也要求用户从“A系统好”、“B系统好”、“两者一样好”以及“两者都不好”四个选项中进行选择。

  不同的是,公众评测完全不提gòng任何奖励,通过各种渠道宣传,系统能够吸引尽可能多的评测用户。

  ●GPT 4自动分项评测:利用GPT 4 API 接口,将评分标准做为Prompt,与问题和系统答案分别输入系统,使用GPT 4对每个分项的评分对结果进行评判。

  ●GPT 4 自动对比评测:利用GPT 4 API 接口,将同一个问题以及不同系统的输出合并,并构造Prompt,使用GPT 4模型对两个系统之间的优劣进行评判。

  对于分项评测,LLMEVAL可以利用各个问题的在各分项上的平均分,以及每个分项综合平均分进行系统之间的排名。

  LMSys评测采用了 Elo Rating(Elo评分),该评分系统被广泛用于国际象棋、围棋、足球、篮球等运动。

  在高排名选手和低排名选手比赛中,如果高排名选手获胜,那么只会从低排名选手处获得很少的排名分。

  Points Scoring(积分制得分)也是一种常见的比赛评分系统,用于在竞技活动中确定选手或团队的排名。

  在LLMEVAL评测中采用根据用户给出的“A系统好”、“B系统好”、“两者一样好”以及“两者都不好”选择,分别给A系统+1分,B系统+1分,A和B系统各+0.5分。

  ●无害性相对较为接近的一个可能原因是,本次评测为了可以公开进行,没有大量设置无害性相关问题,对于较为直接的有害问题,目前系统的回答结果都较为理想。

  ●由于评测集合中有一定数量的文章写作、诗歌、框架生成等开放性生成式任务,因此造成NewBing和Moss-w-Plugin的效果较差。

  ●GPT4 自动测评有自身的局限性,在部分指标上与人工评测一致性不够高,对于前后位置、内容长度等也具有一定的偏见。

  ●在众包对比测评中,用户非常容易受到内容长度的影响,通常会倾向给较长的内容更多胜出的评价,这对最终的评分会产生较大的影响。

  ●公众对比评测参与人数较多,但是每个人的平均评测次数很少,LLMEVAL在过滤掉评测少于5次的用户结果后,评测的一致性和准确性还是在较低的范围。

  ●针对Elo评分,LLMEVAL进行了理论分析,在人工评测准确率为70%的情况下,初始分数为1500分时,Elo评分的估计方差高达1514。

  在已有20万评测点的基础上,仅十余个噪音样本就会造成模型排序的大幅度变化,因此Elo评分不适合对大模型进行排名。

赞(0)
未经允许不得转载:我的生活随笔 » LLMEVAL-1中文大模型评测结果揭晓:Baichuan-7B震撼问世,性能第一!

我的生活随笔我的生活随笔