江南体育(JNsports) AI写代码效能低? 不是模子问题, 是你没给它配好“缰绳”!


本年年头从公司去职之后,我运行我方作念方法。一个体育AI平台、一个黑胶唱片保藏小法式,都是从零运行。莫得研发团队了,就我一个东说念主,瞎想、确立、测试全包。
我不是法式员诞生。作念了三年AI居品司理,PRD写了一堆,代码着实我方动手写的很少。去职之后决定试试用AI辅助确立,毕竟天天给别东说念主瞎想AI居品,也该我方吃一下狗粮了。
刚运行那段时辰挺灾难的。翻开Cursor,跟Claude说”帮我写一个唱片保藏页面”,它刷刷刷生成一大坨代码,看着像那么回事。一跑,页面出来了但数据没存进去。补一句”数据要存到数据库”,它又生成一版,此次数据存了但字段对不上。再补一句”字段用这个Schema”,它改了,但把之前写好的神志搞丢了。改来改去,一个下昼当年了,一个页面还没弄完。
体感上,我大致有30%的代码是AI写的,剩下70%要么是我方写的,要么是AI写了之后我改得盖头换面的。跟那些”AI帮我一天作念了一个App”的说法差距太大了。我一度怀疑是不是我方太菜。
飘动发生在三月底。我在社区里看到有东说念主聊一个倡导:Harness Engineering。
这个词最早是Mitchell Hashimoto在2026年2月提议来的,然后OpenAI发了阿谁百万行代码实验发扬也用了这个词,一下子就火了。社区里有东说念主基于Claude Code的源码写了本书叫《控制工程》,把这套理念拆得很细。Claude Code的官方说法是:Claude Code serves as the agentic harness around Claude——它提供器具、坎坷文管制和实行环境,把一个讲话模子形成一个颖悟活的编码Agent。
harness这个词额外形象。套在马身上的那整套装备——缰绳、嚼子、胸带——就叫harness。不是让马跑得更快,是让马往你想让它去的标的跑,同期确保你不会摔下来。
滚球app中国官网下载入口我看了一晚上关联的东西,有点坐不住了。霎时领略到我方之前的问题不是AI不够灵敏,是我从来没给AI搭过一套像样的harness。说白了等于:我一直在换马,没想过换缰绳。
然后我拿黑胶唱片小法式这个方法作念了个实验。花了一周时辰,用Harness Engineering的念念路从头来过。
先说我之前的责任方式。翻开Claude Code或者Cursor,径直跟它说”帮我作念保藏管制功能”。它运行写,写完我看一眼,发现分歧——它把唱片字段瞎想成了五六个通用字段,但我的Schema有二十多个专科字段:厂牌、版次、母带编号、压片国度这些。AI不知说念这些,它只可猜。补一句鼎新,它改了这里又漏了那边。一来一趟,半小时当年了,生成了三四个版块,临了可能照旧得我我方上手改一半。
问题出在哪?AI根柢不知说念它在干什么。它不知说念这个方法是给黑胶唱片怜爱者作念的、不知说念字段结构长什么样、不知说念标签体系有作风/厂牌/年代/版块四个维度、不知说念前端用的什么框架。它每一轮只可看到你当下给它的那一小块坎坷文,十分于蒙着眼在一个目生的屋子里摸索。你说”往左走”,滚球app中国官网下载入口它走了,但它不知说念左边是墙照旧门。
Harness Engineering解决的等于这个问题:你毋庸每次都告诉AI该何如作念,你把”该何如作念”写进环境里,让它随时能我方查到。
我作念的第一件事是写CLAUDE.md。
这个文献是Claude Code的一个机制——放在方法根目次下,AI每次启动都会自动读取。十分于你给它一份”责任手册”。我在内部写了:这是一个微信小法式,给黑胶唱片怜爱者作念保藏管制的;技艺栈是什么;目次结构长什么样;唱片数据的无缺Schema(20多个字段每个是什么兴趣兴趣);标签体系何如分层;四个中枢功能模块之间何如联动;UI作风参考;以及最遑急的——哪些东西不可动,比如数据库的Schema结构一朝定了就不许AI自作东张改。
写这个文献花了我泰半天。很烦。这些东西平常都在我脑子里——调研了8个黑胶怜爱者得来的需求、竞品分析的论断、我我方算作保藏者的使用风尚——逼我方把它们全部结构化地写出来比想象中难。
但写完之后成果立竿见影。AI运行生成代码的时候,不再瞎猜了。它知说念这是微信小法式不是H5网页,知说念唱片有”首版””重版””限量版”的辞别,知说念标签筛选要扶植多维交叉,知说念破耗统计要按币种分。这些事情以前每次对话都得说一遍或者等它写错了再鼎新,当今它径直就知说念了。
第二件事是拆任务的方式变了。
以前我会径直说”帮我作念保藏管制功能”,这是一个大任务。AI接到这种大任务,会试图接续受制,然后在中间某个所在翻车。Harness Engineering的作念法是:写spec。等于运行干活之前先写一份简便的任务规格——野心是什么、领域是什么、验收模范是什么、依赖什么、不可改什么。
我自后养成了一个风尚:每个稍稍复杂少许的功能,先花五分钟写一个spec。这五分钟饱和不是挥霍。因为spec写了了了,AI一次凯旋率极高;spec没写了了,AI生成三四版还在原地打转。
有一次我偷懒没写spec,径直让它作念标签筛选功能。它作念完之后我一看——把标签瞎想成了扁平的单层结构,扫数标签混在一都。但我的瞎想是四维分层的:作风标签、厂牌标签、年代标签、版块标签,彼此孤立,江南app体育官网下载扶植交叉筛选。AI不知说念这个瞎想意图,它按我方的清楚作念了一个”够用”的决策。要是我在spec里写一句”标签四维分层,参考CLAUDE.md中标签体系界说”,这个返工根柢不会发生。五分钟省两小时,这笔账太合算了。
第三件事是应用好器具链。
Claude Code不仅仅一个生成文本的模子,它有一堆器具——能读文献、写文献、搜代码、跑敕令。Harness Engineering里有个不雅点:Agent的才调取决于你给它配了什么器具,以及它在什么时候用什么器具。
我在CLAUDE.md里加了一条:”运行任何改变之前,先读取现存关联文献阐述面前景色。”就这一句话,AI的活动就变了。它不再上来就动手写新代码,而是先读一遍已有的代码望望近况,搞了了坎坷文再动手。这个责任流任何有警戒的确立者都知说念该这样作念,但要是你不告诉AI,它简直不会主动作念——它会径直开写,然后跟已有代码破裂。
还有一个很实用的轨则:让AI每次改完代码我方作念一轮查验。我写了一条”完成修改后查验是否引入了硬编码值或TODO”。这是我之前的痛点——AI为了让代码跑通,经常会塞一个hardcoded的建树进去,比如径直把我的测试用唱片数据写死在代码里。你不仔细看根柢发现不了。
第四件事,亦然我以为影响最大的:分了了哪些事让AI我方跑,哪些事我方盯。
Claude Code有一个瞎想叫权限系统——哪些操作AI不错我方作念,哪些需要东说念主阐述。Harness Engineering的理念是:不是扫数任务都需要同等过程的监督。写一个展示组件和瞎想数据库Schema,风险完全不相通。
我把责任分红了三档。低风险的——列表页面、确定页面、简便的UI组件——让AI径直跑,我不一个个看。中等风险的——数据存取逻辑、标签筛选算法、统经营计——AI写完我review一遍。高风险的——Schema瞎想、数据挪动、中枢交互逻辑——我我方主导,AI辅助。
以前我的瓶颈不是AI写得慢,是我看得慢——AI每生成一段代码我都逐行对,因为不确定它会不会在某个不起眼的所在埋雷。分级之后,低风险的跳过,元气心灵相聚在高风险的部分。一天能鼓吹的责任量翻了不啻一倍。
一周下来体感是这样的:前两天险些莫得代码产出,全在搭harness——写CLAUDE.md、定spec模板、配轨则。第三天运行干活,效能坐窝就不相通了。到第五天一经进入一种节律:我把功能拆成一个个明确的包,扔给AI,它去作念,我来验收。大部分一次过,偶尔要调整,但很少需要推翻重来。
后头两天在作念一些边边角角的体验优化,我霎时有一种挺奇妙的嗅觉——我好像不是在”写代码”了,是在”管制一个写代码的Agent”。我的责任从”已毕”形成了”瞎想”和”验收”。对一个居品司理诞生的东说念主来说,这个景色其实反而更当然。
这个体验让我猜度一件事。
我之前在公司作念企业AI居品的时候,花了许多时辰想何如让AI输出更好——调提醒词、优化学问库、升级模子。但Harness Engineering给了我一个完全不同的视角:与其让模子更灵敏,不如让模子”知说念我方在干什么”。一个知说念方法结构、知说念数据Schema、知说念任务领域的”粗犷”模子,比一个什么都不知说念的”强”模子有效得多。
这不等于我之前作念企业AI居品时一直在解决的解除个问题嘛?只不外换了个场景。
在AI Coding里,harness是CLAUDE.md、spec和器具链轨则。在企业AI居品里,harness是限制学问库、责任流引擎和东说念主机相助界面。作念左券审核居品的时候,我给AI搭的那套——分章节生成、溯源标注、东说念主工复核节点——试验上等于一套产等第的harness。那时不知说念这个词,但干的事是相通的。
是以我当今越来越以为,Harness Engineering不仅仅一个确立者的话题。它对居品司理也有试验兴趣兴趣。
你瞎想任何一个AI居品,都要修起几个问题:AI知不知说念用户的业务坎坷文?AI知不知说念什么叫”作念对了”?AI有莫得技能考据我方的输出?哪些次第AI不错自主决策、哪些必须东说念主来阐述?这些问题的谜底加起来,等于你这个居品的harness。
当今我作念新方法的第一件事,不是翻开剪辑器运行写代码,是先花半天把CLAUDE.md写好。这个文献写得越了了,后头AI的”自主率”就越高。前两天看起来没在”干活”的准备责任,恰正是通盘方法里杠杆率最高的干预。
固然了,90%这个数字有点讨巧。UI组件、列表页面这种可能95%以上是AI写的,中枢的筛选逻辑和数据结构瞎想可能只消50%。平均下来是个圣洁的嗅觉,不是精准统计。况兼我这个方法功能比拟明确——之前作念了无缺的用户调研和居品瞎想,AI只需要”已毕”不需要”想”,这会让AI Coding率偏高一些。
但无论何如说,从30%到90%,中间的差距不是模子升级带来的——用的是解除个Claude。差距全在harness上。
要是你当今也在用AI写代码但嗅觉效能卡在一个瓶颈上,先别急着换模子或者学更高档的提醒词技巧。先望望你的harness——你的CLAUDE.md写了莫得?任务拆分流露吗?你有莫得在让AI”蒙着眼睛干活”?
我之前作念居品司理的时候江南体育(JNsports),给新东说念主培训恒久会说一句话:需求文档写不了了,研发写出来的东西一定不是你想要的。当今用AI写代码,兴趣兴趣兴趣兴趣完全相通。CLAUDE.md写不了了,AI写出来的代码一定不是你想要的。区别仅仅以前边对的是一个会反问你的研发,当今面临的是一个不会反问你但会我方瞎猜的Agent。是以harness反而更遑急了。