文章作者:HBR-China
文章来源:哈佛商业评论
AI正在迅速改变工作,领导者难以清晰阐述其组织将如何适应,这是可以理解的。这是因为缺乏对"优秀"标准的明确定义。顶尖的AI使用者在与AI工具协作时展现出显著的敏捷性和灵活性。他们更可能在模型间切换,利用多个AI平台,并将日益复杂的多步骤任务委派给AI,这反映出一种更成熟的、将AI视为动态协作者而非单一用途工具的心智模型。
企业正迅速将AI工具交到员工手中。然而,尽管投入巨大,许多领导者仍在努力评估其成效。AI是否切实提升了工作质量、速度与雄心?它是否增强了专业判断力?谁在用AI方面取得了成功,原因何在?成功的应用究竟是何面貌?
由于目前还没有大规模适用的工具和框架来衡量员工的定性成果,大多数组织缺乏明确的、基于行为的信号来表明人工智能是否产生了积极影响。在缺乏有效信号时,领导者往往退而求其次,选择最易量化的表层指标:使用频次、在线时长、提示词数量、消耗的token量以及员工自评的技能水平,这些便成了衡量AI应用进展的替代性指标。换句话说,他们衡量的是活动量,而非应用水平或实际影响力。
不足为奇,绩效提升参差不齐,领导者难以就员工如何利用AI提升绩效提供具体指导。没有更有效的衡量方式,领导者就无法判断哪些行为需要强化,哪些需要教导,哪些需要摒弃。
为了解常规AI使用与高级人机协作之间的区别,毕马威与德克萨斯大学奥斯汀分校的研究人员合作。我们共同分析了在八个月期间,由约2500名员工生成的超过140万条AI提示词与回复。通过这项分析,我们建立了一个基于提示词工程的高级使用定义——强调清晰的提示词加上有意识应用的策略——并发掘了一组低成本、可观察的指标,例如模型切换和结构化的初始提示词,这些指标可预测高水平使用。这些洞察正被系统性地融入毕马威的人才发展、学习体系与绩效管理框架中,形成一套可供任何组织借鉴的完整方法论——用于系统性培养并科学评估员工高阶AI应用能力。
项目开始时,毕马威的AI应用已达到相对成熟的阶段:近90%的员工定期使用AI,且可用的工具集不断增长。公司可以衡量使用频率,但缺乏对有效或高级应用的具体定义及其衡量方法。这是个问题。没有这种清晰度,就难以推动组织超越基础应用的阶段。我们相信,如果能定义和衡量"优秀"的标准,就能更有意识地鼓励全公司范围内的、高影响力的高级AI使用。
我们的研究分析了涵盖不同职能、角色和经验水平的多元化专业人士的习惯。回想一下,在八个月的时间里,我们创建了一个包含2500名员工所有生成提示词与答案的档案——总计140万条。数据集的规模和持续时间使我们能够超越一时之快,不仅看到员工在某一天如何使用AI,还能观察到他们在界定问题、引导推理、评估输出以及将AI应用于不同类型工作的模式,如何随着时间演变和分化。
为了分析这些数据,我们请OpenAI的"思维模型"之一——ChatGPT模型o1——来评估每次对话(包括提示词和回复),并判断某些特征是否存在,包括用例类型、提示词工程策略以及AI使用的其他行为指标。这项分析消耗了大量计算时间,产生了超过50个变量,随后我们对其进行了提炼。
掌握了这些信号后,我们提出疑问:这些信号如何提供一个简化的指南,帮助人们实现更有效的使用?它们能否在不使用我们研究中那样昂贵计算资源的情况下,帮助我们识别"超级用户"?以下是我们发现的。
当我们识别出公司里最高级的用户时,发现他们在角色和资历上差异很大,但也出现了明显的共同点。我们发现高级用户似乎都具备四种不同的行为模式:
他们在使用AI时抱有雄心。高级的AI应用源于长期积累的复合行为,而不仅仅是使用量。顶级用户往往与大型语言模型有更长的互动和更多来回对话;撰写更长、更复杂的初始提示词;根据任务有意识地在模型或工具间切换;并且使用AI的频率相对较高。
他们将AI视为推理伙伴。他们并非全盘接受初始输出,而是主动塑造模型的思考。他们使用诸如角色定义、为LLM提供期望输出的示例、迭代优化、自我验证和结构化推理提示等技术。其价值来自长期引导模型,而非提出"更好"的一次性问题。他们让模型帮助思考问题、检验假设、探索替代方案。这种行为体现在坚持解决问题、使用结构化提示词和采用迭代改进上。
他们以清晰的目标委派复杂任务。高级用户也更可能将复杂的、多步骤的任务委派给AI。他们会指定约束条件和成功标准,定义期望的回应结构,并阐明清晰的目标。他们的雄心不仅体现在提示词的长度上,还体现在所委派任务的复杂性上。
他们将AI视为通用认知工具,而非狭隘的"生产力捷径"。高级应用体现在创意构思、分析、技术指导、知识工作和问题解决等多个方面。高级用户在广泛的用例中运用AI,并根据用例在模型间有意识地切换。非正式语言、拼写错误和对话式语气常伴随高级使用——这些都是微小但能说明问题的迹象,体现了用户的自如和流畅。
一幅图景由此浮现:高级用户在与AI工具协作时展现出显著的敏捷性和灵活性。他们更可能在模型间切换,利用多个AI平台,并将日益复杂的多步骤任务委派给AI,这反映出一种更成熟的、将AI视为动态协作者而非单一用途工具的心智模型。
研究还揭示了一个令人惊讶的趋势:最佳使用者往往是经理级及以上的员工。这令我们感到意外,因为传统观点认为初级员工往往对这些工具感到更自在,使用起来也更自然。但研究结果表明,"自在"与"精通" 之间可能存在重要区别。
我们还注意到其他几个重要趋势:
尽管公司内AI应用广泛(再次强调,约90%),但我们发现仅有约5%的用户符合我们定义的"高度精通"。这种早期高级使用的集中度表明,大型组织中的AI应用并非自然而然或均匀发生。相反,它强调,推动有意义、创造价值的应用,需要比仅仅向员工提供工具更刻意的干预。
尽管各级员工都使用LLM辅助写作,但经理及以上级别的员工更可能将LLM用于更多样化的任务,如技术指导和创意构思。这表明,经验和角色背景不仅影响AI使用的频率,也影响其如何融入核心工作。
初级员工比高级员工更可能将公司的LLM用于个人任务。因此,使用频率可能不是衡量生产力的可靠信号。
经理以下职位的员工在与LLM互动时,更少采用有意识的策略,而经理及以上员工则更可能这样做。他们也更可能提出清晰的请求。
研究结果表明,企业需要将AI工作的重点从推动应用转向塑造习惯。当人们学会如何清晰界定问题、引导模型推理、批判性评估输出,并在工作中灵活应用AI时,高级的AI应用便会出现。简而言之,这更多关乎专业人士如何思考并借助AI做出决策,而更少关乎工具本身。那些产生影响的、可积累的少数行为是可观察、可教授且可扩展的。
以下是领导者应关注的重点。
制定"AI优先"的最佳实践
如果你想通过AI获得不同的结果,就必须让不同的行为变得可见、可讨论、可期待。研究揭示了毕马威希望鼓励的具体行为,因此领导者将其转化为实用的手册、简短的说明以及同行主导的"先锋"网络,强调高级应用在日常工作中的样子。其目标是创建一个关于"优秀标准"的共识,并在全公司范围内强化。
重新思考技能提升
这些发现重塑了毕马威的发展方式,重点在于帮助员工在完成本职工作的流程中,建立有效使用AI的信心。毕马威投资于由跨职能团队开发的、注重实践的、基于应用的培训。在各地办公室和虚拟教室中,基于情景的培训让专业人员沉浸在真实的客户和内部工作中,并高度强调高级协作行为,例如将复杂任务委派给AI、引导模型推理、验证输出以及随时间推移优化方法。
为成长与发展设定清晰期望
这项工作并非要改变人才管理系统或流程,而是要明确在AI赋能的世界中,优秀的工作应是什么样子。利用这项研究,毕马威将有效的AI赋能工作的样貌,转化为实用的、针对角色和任务级别的期望,认识到高质量的判断力在不同职能、级别和交付情境中表现各异。例如,审计、税务、咨询和业务处理部门在截然不同的环境中运作,面临不同的风险、法规和交付模式,AI需要支持这些现实。因此,"AI优先"的期望按部门量身定制,无论是审计中的AI辅助风险评估、咨询中更快的研究和情景规划,还是税务中更自动化、更高质量的工作成果。
其意图是为员工和领导者提供更清晰的信号,表明AI应如何支持日常决策、工作质量和客户成果。
AI正在迅速改变工作,领导者难以清晰阐述其组织将如何适应,这是可以理解的。通常,这是因为缺乏对"优秀"标准的明确定义。理解为什么一些员工能成功运用AI——以及它如何让他们做得更好——是帮助所有人学会使用这些工具的第一步。
尼克·霍尔曼(Nick Hallman)、扎克·科瓦莱斯基(Zach Kowaleski)、阿努·普瓦亚(Anu Puvvada)、杰米·J·施密特(Jaime J. Schmidt)|文
尼克·霍尔曼是德克萨斯大学奥斯汀分校舒尔金会计系副教授。扎克·科瓦莱斯基是德克萨斯大学奥斯汀分校舒尔金会计系助理教授。阿努·普瓦亚领导毕马威工作室,她将前瞻性研究与风险投资构建相结合,以识别新兴机遇并推出可扩展的服务和科技赋能业务。杰米·J·施密特是德克萨斯大学奥斯汀分校麦库姆斯商学院舒尔金会计系教授。


