热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Santiago
这就是你如何用更少的努力写出更好的代码。
定制的专业代理在每一步都在审查你的代码。
我以前见过自动化代码审查,但从未见过能够定义你自定义审查代理的能力。@baz_scm 是第一个做到这一点的,真的很酷。
有三种类型的审查代理:
1. 开箱即用的代理。
这些代理覆盖了每个人想要检查的最常见模式:重复代码、损坏的代码、复杂的代码等。
2. Baz 自动为你创建的推荐审查代理。
Baz 分析你的审查历史和过去的评论,以识别你关心的模式,然后自动创建专门检查这些模式的代理。
例如,如果你总是要求开发人员将文件保持在 100 行代码以内,Baz 会检测到这一点并创建一个检查该规则的自定义代理。
3. 你定义的自定义审查代理。
这些是我最喜欢的:写一个提示,解释你的规则,你的代理将开始检查你的代码,以标记任何符合规则的内容。
我在附带的视频中创建了一个简单的审查代理。
老实说,在这一点上,你没有理由发布糟糕的代码。
这是一个链接,供你尝试这些自定义审查代理:
感谢 @baz_scm 团队与我合作撰写此帖子。
31.44K
老实说,大多数AI开发者仍然停留在上个世纪。
让我震惊的是,知道错误分析的人少之又少。
这*确实*是评估AI应用程序最快、最有效的方法,而大多数团队仍然在追逐幽灵。
请停止追踪通用指标,遵循以下步骤:
1. 收集失败样本
开始审查您的应用程序生成的响应。对每个响应做笔记,特别是那些错误的响应。您不需要以任何特定方式格式化您的笔记。专注于描述响应中出了什么问题。
2. 对您的笔记进行分类
在您审查了一组良好的响应后,使用一个LLM,要求它在您的笔记中找到常见模式。要求它根据这些模式对每个笔记进行分类。
您将最终得到涵盖应用程序所犯每种错误类型的类别。
3. 诊断最常见的错误
首先关注最常见的错误类型。您不想浪费时间处理罕见的错误。
深入分析导致这些错误样本的对话、输入和日志。尝试理解可能导致问题的原因。
4. 设计有针对性的修复
在这一点上,您想确定如何尽快、以最低成本消除您在上一步中诊断出的错误。
例如,您可以调整提示,添加额外的验证规则,寻找更多的训练数据,或修改模型。
5. 自动化评估过程
您需要实施一个简单的过程,通过您的应用程序重新运行评估集,并评估您的修复是否有效。
我的建议是使用LLM作为评判者,通过应用程序运行样本,给它们打上通过/不通过的标签,并计算结果。
6. 关注您的指标
您在错误分析中识别的每个类别都是您希望随着时间推移而跟踪的指标。
沉迷于"相关性"、"正确性"、"完整性"、"连贯性"以及任何其他现成指标是没有意义的。忘掉这些,专注于您发现的真正问题。

49.3K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可