【MIBD-640】むりやり射精させられた僕 4時間 OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模子代码生成默契

栏目分类

热点资讯

18+动漫月朔生物学习心多礼会感念（精选5篇）

裸舞 twitter 朱厚任

果肉系列 “水墨香江－城市风情与传统意料”陈雪仪个展在广州举

你的位置：呦女朱朱 > 台湾佬中文网 > 【MIBD-640】むりやり射精させられた僕 4時間 OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模子代码生成默契

【MIBD-640】むりやり射精させられた僕 4時間 OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模子代码生成默契

发布日期：2024-08-15 16:17 点击次数：170

【MIBD-640】むりやり射精させられた僕 4時間 OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模子代码生成默契

　　 8 月 15 日音书，OpenAI 公司于 8 月 13 日发布新闻稿，晓喻推出 SWE-bench Verified 代码生成评估基准，处分了此前的局限性问题，大约更准确地评估东说念主工智能模子在软件工程任务中的默契。

　　SWE-bench 注：SWE-Bench 是一个用于评估 LLM 处分 GitHub 上真实软件问题智商的基准测试数据集。

　　它蚁合了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 样式，然青年景一个补丁来处分 issue 样式的问题。

　　该基准使用两种类型的测试：

　　FAIL_TO_PASS 测试用于查验问题是否已获取处分【MIBD-640】むりやり射精させられた僕 4時間

　　PASS_TO_PASS 测试用于确保代码改动不会禁闭现存功能。

　　SWE-bench 的问题

　　OpenAI 指出了 SWE-bench 的三个主要问题：

　　单位测试过于严格：用于评估处分决议正确性的单位测试相通过于具体，就怕甚而与问题无关，这可能导致拒却正确的处分决议。

　　问题样式不解确：许各种本的问题样式不够具体，导致问题是什么以及应何如处分隐约不清。

　　开荒环境难以缔造：就怕很难可靠地为代理缔造 SWE-bench 开荒环境，从而意外中导致单位测试失败。

　　SWE-bench Verified SWE-bench Verified 的主要创新之一是使用容器化 Docker 环境开荒了新的评估器用包。

　　这一创新旨在使评估经过愈加一致和可靠，镌汰与开荒环境缔造有关的问题发生的可能性。

　　举例，GPT-4o 处分了 33.2% 的样本，而默契最好的开源代理框架 Agentless 的得分翻了一番，达到 16%。

　　性能的擢升标明【MIBD-640】むりやり射精させられた僕 4時間，SWE-bench Verified 更好地捕捉到了东说念主工智能模子在软件工程任务中果然切智商。