尽管人工智能的兴起带来了变革性和颠覆性的力量,但生成性人工智能的致命弱点仍然是它的虚构倾向。
大型语言模型“产生幻觉”的趋势伴随着各种陷阱,播下了错误信息的种子。自然语言处理领域可能是危险的,尤其是当人们无法区分什么是人类的,什么是人工智能生成的时候。
为了应对这种情况,自称是世界上最大的开源人工智能社区的Huggingface引入了幻觉排行榜,这是一个新的排名,专门评估开源LLM及其生成幻觉内容的趋势,方法是通过一组专为上下文学习而设的不同基准来运行它们。
排行榜开发人员解释道:“这一举措旨在帮助研究人员和工程师确定最可靠的模型,并有可能推动LLM的发展,使其更准确、更忠实地生成语言。”。
LLMs中的幻觉分为两类:真实性和忠实性。事实幻觉是指内容与可验证的现实世界事实相矛盾。这种差异的一个例子可能是一个模型错误地宣称比特币有1亿个代币,而不是2300万个。另一方面,当生成的内容偏离用户的明确指示或既定上下文时,就会出现忠实的幻觉,导致新闻摘要或历史分析等关键领域的潜在不准确。在这方面,模型会生成虚假信息,因为根据提示,这似乎是最符合逻辑的路径。
排行榜使用EleutherAI的语言模型评估工具对各种任务进行全面的零样本和少热点语言模型评估。这些任务旨在测试模型的性能。一般来说,每个测试都会根据LLM的性能给出一个分数,然后对这些结果进行平均,以便每个模型根据其在所有测试中的总体性能进行竞争。
那么,哪种LLM架构是最不疯狂的呢?
根据幻觉排行榜的初步结果,表现出较少幻觉的模型包括Meow(基于太阳能)、Stability AI的Stable Beluga和Meta的LlaMA-2。然而,一些来自共同基础的模型(如基于Mistral LLM的模型)往往在特定测试中优于竞争对手——这必须根据每个用户可能想到的口味的性质来考虑。
在幻觉排行榜上,一个模型的平均得分越高,表明该模型产生幻觉的倾向越低。这意味着该模型在生成与事实信息一致、符合用户输入或给定上下文的内容方面更准确、更可靠。
然而,需要注意的是,在某些任务中表现出色的模型在其他任务中可能表现不佳,因此排名是基于所有基准之间的平均值,这些基准测试了总结、事实核查、阅读理解和自我一致性等不同领域。
幻觉排行榜背后的建筑师Pasquale Minervini博士没有立即回应Decrypt的置评请求。
值得注意的是,尽管幻觉排行榜提供了对开源模型的全面评估,但闭源模型尚未经过如此严格的测试。然而,考虑到测试协议和商业模型的专有限制,幻觉排行榜得分似乎不太可能。
由Ryan Ozawa编辑。