随着大模型的蓬勃发展,如何全面系统地评估大模型的各项能力成为了亟待解决的问题。
让我们开始学习如何评测LLM.
开始动手!
OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能结果。
耗时30分钟左右,Done.
后续继续学习中。。。