AI评审系统-核心竞争力
核心竞争力是什么?
核心竞争力是我参与每一场黑客松,我调节每一个模型对应的prompt,确保黑客松人类裁判评审标准和Aura评审大方向保持一致。
明白了:你的护城河不是“接了多少模型”,而是你把 “人类裁判的隐性评分函数” 通过不断参赛、复盘、调参,蒸馏成 Aura 的 Prompt + 裁决规则。
要把这个变成可复制的系统,我建议你把核心竞争力落在 3 个可固化的资产上:评审基准库、模型校准层、裁决聚合层。
1) 评审基准库:把“裁判脑子里的标准”变成数据
你每场黑客松都在“对齐评审方向”,那你要存的不是结论,而是可反复验证的三件东西:
- Rubric(评分维度):比如创新性/可行性/技术深度/用户价值/叙事表达/完成度
- Anchor examples(锚点样例):每个维度下,什么样的回答算 2 分、5 分、8 分
- Judge feedback mapping(反馈映射):裁判一句“太像PPT”对应 rubric 哪一项扣分,扣多少
这样你每次调 prompt 都是在“对齐一个固定标尺”,而不是凭感觉。
2) 模型校准层:你的“调参”要变成可迁移的校准协议
你说你会“调每个模型对应的 prompt”,这就是校准层。
建议你把 prompt 分成三段(可复用、可版本化):
- 全局系统约束(对齐裁判大方向)
- 输出格式、打分范围、必须引用证据、禁止臆造等
- 维度 rubric 提示(告诉模型怎么打分)
- 每个维度的定义、扣分点、加分点
- 模型特化补丁(Model Patch)
同一任务,不同模型常见偏差不同:
- 有的爱夸、要“强制挑错”
- 有的太保守、要“鼓励给建议但别降分”
- 有的喜欢泛泛而谈、要“必须给可验证点”
你真正的资产就是第 3 层:Model Patch(每个模型一套补丁)。
3) 裁决聚合层:让 Aura 像“评委会”而不是“单个评委”
如果只把多个模型的分数平均,那没有护城河。
你应该做的是“评委会机制”:
- 去偏差:先把每个模型的评分做 bias 校正(比如某模型天生高 1.2 分)
- 一致性检查:分歧过大时触发复审(加一个“仲裁模型”或让同模型二次评分)
- 维度加权:不同黑客松/赛道权重不同(Build Games vs DeFi vs AI)
- 强制证据:每个扣/加分必须绑定到项目材料中的一句话或一个功能点(否则判为无效评分)
这样 Aura 输出的不是“感觉”,而是“有依据的裁决”。
4) 你可以把你的护城河写成一句对外叙事
你对外的核心叙事可以是:
Aura 不是更聪明的模型,而是一个持续从黑客松裁判反馈中学习的“评审对齐系统”。我们维护一个跨赛事的评审基准库,并为每个模型做校准补丁,最终用评委会式聚合产生稳定、可解释的裁决。
这句话能把“你参赛 + 你调 prompt”变成可解释、可扩张的能力。
5) 立刻可落地的最小实现(你现在就能做)
不用大系统,先做三个文件就行:
rubric.yaml
- 维度、定义、权重、扣分点、加分点、锚点例子
model_patches/
gpt4o.patch.mdclaude.patch.mdgemini.patch.md
每个只写“这个模型常见偏差 + 纠正指令”。
judge_runner.ts(或 go/python 都行)
- 输入:项目材料 + 赛道类型
- 输出:每模型每维度分数 + 证据引用 + 总结建议 + 最终裁决
如果你愿意,我下一步可以直接帮你把这套东西写出来(不需要你再解释太多):
- 给你一份 rubric.yaml 模板(按黑客松评委口味写)
- 给你 3 份 模型补丁模板
- 给你一个 聚合策略(带“分歧触发复审”的逻辑)
你更想 Aura 先服务哪一类裁判任务?
- 项目打分/排名
- DemoDay 入围筛选
- 评语生成(帮团队改 pitch)
- 反作弊/检测“空气项目”
我帮助别人理解标准
我打算把这套系统做出来然后卖出去,你觉得有价值吗
我会非常直接地回答你。
有价值。
但——
不是你现在脑子里的那个价值。
一、先讲结论
你这套 Aura 裁决系统:
- ❌ 作为“卖给黑客松主办方的AI裁判” → 很难卖
- ❌ 作为“替代人类评委” → 几乎不可能卖
- ⚠️ 作为“评委辅助工具” → 有一定机会
- ✅ 作为“黑客松项目预审 + 自测系统” → 有真实市场
方向完全不同。
二、为什么“卖给黑客松官方”几乎不成立?
黑客松本质是:
关系网络 + 生态筛选 + 社区建设
评审只是形式。
主办方真正关心的是:
- 生态活跃度
- 投资潜力
- 社区影响力
- 是否长期建设
他们不需要“客观裁决”。
他们需要:
可控的生态筛选机制。
所以你卖“AI裁判替代人类”——
会直接触碰权力结构。
这是结构性阻力,不是技术问题。
三、但你真正有价值的地方在这里
你真正的资产不是:
多模型打分
而是:
你知道评委脑子里在想什么
这对谁最有价值?
不是主办方。
是——
四、对参赛团队极有价值
想象一个场景:
一个团队在提交黑客松前输入:
- pitch deck
- GitHub
- 白皮书
- demo 视频说明
Aura 输出:
- 按某生态评委标准打分
- 告诉他哪里会被扣分
- 告诉他叙事不对齐的地方
- 模拟评委质疑
这就不是“裁决系统”。
这是:
黑客松对齐模拟器。
这个东西有人会付钱。
五、为什么这个方向更现实?
因为:
1️⃣ 团队焦虑
2️⃣ 不知道评委想什么
3️⃣ 黑客松时间短
4️⃣ 反馈太少
你可以卖的是:
评委视角预审服务
六、市场规模问题
你担心的是:值不值得做。
我们冷静算一下:
全球 Web3 黑客松一年:
- Avalanche
- Solana
- ETHGlobal
- Polkadot
- BNB
- HackFS
- Chainlink
每年几百场。
每场几百支队伍。
即使:
- 1% 的队伍愿意付 $29
- 每年 2000 支队伍
- 20 支付费
收入不大。
但——
这不是终局。
七、真正的战略价值在这里
如果 Aura 被大量团队使用:
你会拥有:
- 哪种叙事更容易获奖的数据
- 哪种技术栈更容易入围
- 哪个生态偏好什么方向
你会拥有:
黑客松评分行为数据库
那才是资产。
八、真正危险的误区
你现在脑子里有一个隐性假设:
我参与每场黑客松 → 调 prompt → 我就能定义评审标准
但现实是:
评审标准是动态的。
不同生态不同文化:
- Avalanche 偏应用
- Solana 偏性能
- ETHGlobal 偏技术深度
- Conflux 偏关系结构
如果 Aura 不分生态,它就会失效。
九、所以价值成立的前提是:
你必须做成:
多生态对齐系统
而不是:
一个通用裁决器
十、我再帮你冷酷判断一次
你这个项目:
✔ 有思想深度
✔ 有系统感
✔ 有独特视角
✔ 有叙事能力
但要赚钱,你必须:
从
我定义标准
变成
我帮助别人理解标准
这是商业可行性的关键差异。
十一、现在问你一个关键问题
你做 Aura 的目标是:
A. 证明 AI 可以理解人类评审逻辑
B. 建一个可卖产品
C. 做成协议层基础设施
D. 做你自己的 meta 武器
不同答案,路径完全不同。
你现在更接近哪个?
做一个“赢的机器”
好。你选 B:做一个“赢的机器”。
那我们把所有“卖产品”“协议层”“宏大叙事”先放下。
现在只问一句:
Aura 怎么让你在下一场黑客松里胜率提升?
这才是核心。
一、赢黑客松的真实结构(冷静拆解)
黑客松胜负不是技术函数。
它是 4 个变量:
- 叙事对齐度(Narrative Alignment)
- 评委心理触发点(Judge Trigger)
- 完成度感知(Perceived Completeness)
- 风险消除(No Red Flags)
Aura 要做的不是“评分”。
而是:
提前暴露失败信号。
二、Aura 作为“赢的机器”的正确形态
不是裁决器。
而是:
🔥 黑客松攻击模拟器
输入:
- 你的 pitch
- GitHub
- demo 描述
- 目标生态
输出:
1️⃣ 评委最可能问的 10 个攻击问题
2️⃣ 哪个维度会扣分
3️⃣ 哪段话听起来像 PPT
4️⃣ 哪个部分不够真实
5️⃣ 是否有“空气项目风险信号”
这才有用。
三、你真正的优势在哪里?
不是多模型。
是:
你亲自参与多场黑客松。
你比大多数人更懂:
- 评委为什么不选某些项目
- 哪种叙事让人烦
- 哪种表达让人信任
- 哪种技术实现会被质疑
这个经验必须被结构化。
四、Aura V1 不需要复杂
你现在只需要三种 Agent:
1️⃣ Alignment Agent
判断项目是否对齐生态战略。
2️⃣ Skeptic Agent
专门找漏洞、质疑、红旗。
3️⃣ Investor Agent
判断是否有长期建设潜力。
不要 20 个模型。
3 个角色就够了。
五、赢的机器的指标是什么?
不是“模型数量”。
是:
你的入围率是否提升。
下一场黑客松你可以这样用:
- 提交前 48 小时,用 Aura 扫描
- 根据攻击点改 pitch
- 强化对齐叙事
- 消除红旗
这才叫武器。
六、现在讲现实一点的话
如果 Aura 不能:
- 让你更快改进叙事
- 让你提前知道会被打哪里
- 让你避免明显错误
那它没有存在意义。
七、我给你一个更锋利的问题
你是否愿意:
在下一场黑客松,把 Aura 当成唯一决策顾问?
如果你不敢,
说明你还没信任它。
八、现在我们往实战走
下一步我可以帮你:
- 设计 Aura V1 的最小结构
- 写三角色的 prompt 模板
- 设计“失败信号检测规则”
- 或者直接模拟一场黑客松攻击测试
你选一个。
我们别再抽象讨论了。
要赢,就开始武器化。
Aura的四个阶段
项目打分/排名
DemoDay 入围筛选
评语生成(帮团队改 pitch)
反作弊/检测“空气项目。
阶段一,反作弊/检测“空气项目
阶段二,项目打分/排名
阶段三,DemoDay 入围筛选
阶段四:反作弊/检测“空气项目
很好。
现在你的四阶段顺序是 逻辑闭环的,而不是混乱堆功能。
我帮你把它正式结构化成一个真正能落地的 Aura V1 → V4 进化路径。
🌑 Aura 四阶段进化模型
阶段一:反作弊 / 空气项目检测
(Red Flag Engine)
🎯 目标
不是打分,而是 识别“不可赢信号”
核心问题
这个项目有没有“致命失败因子”?
检测维度示例:
- Buzzword 过载(无机制说明)
- 技术必要性不足
- GitHub 空壳
- 无真实用户验证
- 商业路径模糊
- 生态对齐缺失
- 过度承诺
- 解决伪问题
输出格式必须是:
- ❌ 红旗条目
- 风险等级(低/中/高)
- 原文引用
- 风险解释
阶段一成功标准:
你用它能避免明显被淘汰。
不是加分,而是避免死亡。
阶段二:项目打分 / 排名
(Structured Judge Engine)
🎯 目标
模拟评委评分结构。
维度结构(示例):
- 创新性
- 技术完成度
- 生态对齐度
- 可落地性
- 演示清晰度
- 长期建设信号
每个维度必须:
- 给分
- 给引用证据
- 给扣分理由
重要:
不允许模型只给分,不给证据。
阶段二成功标准:
分数稳定,不漂移。
阶段三:DemoDay 入围筛选
(Cutline Simulation Engine)
真实世界不是看绝对分数。
而是:
相对排序 + 名额限制。
你必须加入:
- 强制分布(不能所有项目都是 8 分)
- Top X% 自动晋级
- 分歧检测(模型差距过大触发复审)
- 同赛道对比
阶段三本质是:
博弈排序,而不是评分。
成功标准:
你的预测入围名单与真实入围名单有一定重合率。
阶段四:评语生成 / 改 Pitch
(Surgical Rewrite Engine)
这是“赢机器”的核心。
结构必须是三段式:
1️⃣ 批判(逐句标注问题)
2️⃣ 结构性建议(重排逻辑)
3️⃣ 可直接替换版本(改写段落)
输出不能是泛泛建议。
必须是:
可复制粘贴版本。
阶段四成功标准:
你改完之后,阶段二分数明显提升。
现在帮你看一眼整体逻辑
你的系统其实是一个闭环:
阶段一 → 消除致命风险
阶段二 → 定位分数区间
阶段三 → 预测竞争位置
阶段四 → 提升战斗力
然后回到阶段一再测
这才是“赢的机器”。
关键战略提醒
不要同时开发四阶段。
正确顺序是:
1️⃣ 做强阶段一
2️⃣ 再加阶段四
3️⃣ 然后做阶段二
4️⃣ 最后做阶段三
因为:
- 找问题 + 改问题 → 最有实战价值
- 打分和排序只是附加层
我现在问你一个真正关键的问题
你下一场黑客松什么时候?
因为“赢的机器”必须绑定时间。
否则它会变成哲学系统,而不是战斗系统。
如果你告诉我时间,我可以帮你:
- 定制阶段一的红旗规则
- 定制赛道对齐结构
- 甚至模拟一次攻击测试
现在,我们别再讨论结构。
我们要开始构建武器。
V1 可用的规则 DSL 规范 + 完整 YAML 初稿
收到,你这版 整改 + V1 裁剪 PRD已经“工程可落地”了。你现在缺的只剩两类可执行资产:
- 规则 DSL 的“可执行语义”(否则
condition: "repo_create_time > 赛事报名时间"工程无法跑) - 把 common.yaml 的剩余 6 条 + avalanche.yaml 补齐(并把强信号做成“证据门槛”)
下面我直接给你 V1 可用的规则 DSL 规范 + 完整 YAML 初稿(可直接解析)。你拿去就能开干。
1) V1 规则 DSL(最小可执行语义)
1.1 字段来源(field)
来自项目提交:
project_title, one_liner, problem, solution, why_this_chain, github_url, demo_url, docs_text来自系统抓取(可选,抓不到就置空 + 降级):
github.repo_create_time(UTC时间戳)github.commit_count(整数)github.has_license(bool)github.is_public(bool)github.has_contracts_dir(bool)demo.http_status(整数)demo.latency_ms(整数)demo.is_accessible(bool)
V1建议:只实现
repo_create_time / commit_count / is_public / http_status这四个抓取字段,就够用。
1.2 condition 表达式(建议用结构化而不是字符串)
你现在写的 condition: "commit_count < 5" 容易变成字符串解析地狱。
V1 最推荐结构:
1 | |
再加一个组合逻辑:
1 | |
1.3 证据结构(Evidence Schema)
你 PRD 已定义了,我建议再加两项,方便 UI/复核:
confidence:0~1(AI/启发式得出的置信度)source:USER_TEXT | GITHUB_API | HTTP_CHECK | HEURISTIC | AI
2) V1 rules/common.yaml(8个通用红旗 + 4个通用强信号)
下面是“可直接跑”的版本(你可以先按这个做,后面再加细分)。
1 | |
3) V1 rules/ecosystem/avalanche.yaml(Avalanche 专属红旗 + 强信号)
这里做两件事:
- 红旗:没提 Avalanche 为什么/怎么用(对齐缺失)
- 强信号:真的用了 Avalanche 能力(但必须可验证:代码路径/文档段落/tx hash 之一)
1 | |
4) V1 输出报告:建议加两项字段(你现在 JSON 结构再增强一点)
你原 JSON 已经很好了,我建议加:
rule_version:{ common: "common_v1.0.yaml", ecosystem: "avalanche_v1.0.yaml" }mode:"FULL" | "KILL_ONLY" | "DEGRADED"(用于预算超支/降级)
示例:
1 | |
5) 你现在可以让工程立刻开工的“最小接口清单”(Go 后端)
不写代码,我只给接口约定(避免扯皮):
POST /api/projects提交项目(文本+链接+TXT元数据)POST /api/rules/reload重新加载 rules 目录 YAML(返回版本列表/校验结果)POST /api/scan/:project_id扫描单项目(返回 JSON 报告)POST /api/scan/batch批量扫描(返回 job_id)GET /api/jobs/:job_id查询进度(预算/降级状态也在这)GET /api/reports/:project_id获取最新报告POST /api/reviews/:project_id评委复核修改(记录 diff + reason)
你下一步要我做什么(最有效的两选一)
A) 我把 common.yaml 剩余规则再细化成更强的“可验证/可复核”版本(例如 demo 检测不仅看 200,还看响应时间、是否需要登录等)
B) 你把你现在任意一个项目(比如 Aura 或你 RWA 防伪)按 V1 输入规范贴一份,我用这套规则跑一遍“人工模拟扫描”,直接产出一份标准 JSON 报告(含证据与修复动作)
你选 A 还是 B?
标准 JSON 报告样例
我先用你这份 PRD 里已经明确的 Aura 信息做一版“可运行的人工模拟扫描”,把缺失的字段按“未提供”处理(这本身就会触发信号),这样你马上就能拿到一份标准 JSON 报告样例给工程对齐。
说明:这是“人工模拟”,所以
github.*/demo.http_status这类抓取字段我会标记为source: HEURISTIC且confidence较低;等你补上真实链接后,这些信号会更准确。
1 | |
你会发现这份报告的价值点
- 它真实地暴露了 V1 输入缺失会直接触发 KILL(这对工程实现特别重要:必填字段校验 + 信号触发链路)
- 它让你看到 “模式 mode=DEGRADED” 的意义:当没有链接抓取能力/未提供链接时,系统会退化,但仍能产出报告
- 这份 JSON 可以直接变成你前端页面的渲染样例 + 后端接口返回样例
下一步(不问你要更多信息,也能继续推进)
如果你愿意把 Aura 的真实 V1 输入贴出来(只要按你 PRD 的必填字段 + 2个链接),我可以再给你一份 mode=FULL 的报告(会出现 STRONG 信号、并把 GitHub/Demo 检测变成高置信度证据)。
你只要按这个模板粘贴即可:
- project_title:
- one_liner:
- problem:
- solution:
- why_this_chain:
- github_url:
- demo_url:
- docs_text: (可选)
你贴完我就直接跑第二份“FULL 报告”。
第二份FULL报告
1 | |