重新思考工作：专业人士如何使用大模型

来源：ACM 通讯

编译：活水智能

自2022年11月OpenAI发布ChatGPT以来，人们对生成式人工智能（GenAI，以下简称“生成式AI”）的兴趣激增，同时也对其安全性表示担忧。

（译者注：生成式人工智能，即用AI生成文本、图像、音乐、音频、视频等，大模型通常是指训练这些生成式AI的庞大且复杂的神经网络模型）

鉴于这一转折点，我们必须重新关注生成式AI对专业人士工作的影响。这是因为与早期的AI相比，生成式AI更接近专业人士的核心工作内容，即为客户提供诊断和治疗。

然而，专业人士的工作将如何以及多快改变，尚不清楚。与其让这个问题成为“意外后果”的一部分，我们可以影响生成式AI如何融入专业人士的工作。

各个领域的专业人士，例如医学、审计、会计、法律和数据科学等从业者，工作内容本质上都是进行诊断和治疗，并通过推理将连接两者。

简单来说，专业人士对问题进行分类（诊断）、进行推理（推理）并采取行动（治疗）。

目前为止，大模型已经影响了专业人士的所有工作，但主要是诊断环节。例如，如在放射学中分析医学数据；在尽职调查中，分析财务和法律数据。

生成式AI正在向影响专业人士所有工作环节迈进。这既令人兴奋，也对专业人士的工作构成威胁。

本文首先解释专业人士的工作内容。然后，我将重点放在生成式AI及其在专业工作中的使用案例。最终提出解决大模型比专业人士做得更好的关键问题，以及如何使用大模型。大部分人机交互方式由专业人士自己掌握。

专业人士的工作内容

专业人士（也称知识工作者）以思考谋生。他们利用专业知识和批判性思维创造价值。其中一部分人，即专业人士的工作内容，因时间地点、行业领域不同，有所不同。

但不同领域的专业工作都有三个环节：诊断、推理和治疗。以医生为例，在诊断环节，医生询问病人的问题并进行检查，以诊断患者的症状。在推理环节，医生利用医学知识得出解决方案。在治疗环节，医生开药和/或进行手术。

其他领域的专业人士的工作，基本也包括这三个环节。

诉讼律师可能首先进行诊断（诊断案件中的相关事实），运用法律知识推导出最好的辩论方式（推理），并在法庭上代表客户辩解（治疗）。

投资银行家帮助他们的客户在尽职调查中收集相关财务信息（诊断），然后使用他们的财务知识（推理）推荐并购的最佳财务结构（治疗）。数据科学家清理和探索数据（诊断），构建模型进行分析和解释（推理），然后为特定受众呈现数据分析结果（治疗）。

在所有这些专业背景下，连接诊断和治疗的推理，基于具有理论和实践成分的专家知识。一位医生之所以优秀，不仅因为她在一流的医学院学习，还因为在多年的实践中，她从病人案例中改进她的诊断和治疗。

专业工作中的熟练表现，不仅取决于正式培训期间获得的理论知识，还取决于难以或无法完全表达的隐性知识和直觉。

正如多面手迈克尔·波兰尼所说：“我们知道的比我们能说的要多。”就像骑自行车、在水中保持浮力和拉小提琴一样，隐性知识在许多专业判断方面都是必不可少的。

生成式AI的使用案例

《通信》的读者不需要提醒，就知道生成式AI激增背后的技术进步。特别是发现了一种基于纯粹注意力机制的网络架构Transformer，完全摒弃了递归和卷积。借助巨大的计算能力和大数据，大模型可用于生成基于文本的数据。

运用生成式AI的案例不断增多，包括知识检索、临床决策支持以及在医学中总结关键发现；法律研究以及生成合同和其他文件，如生成法律陈述摘要；以及在数据科学中共同编写代码。

许多使用案例，需要专业人士同时使用多种工作技能才能完成。例如，在审计和会计中，大模型可能会标记异常和税法不合规的实例。这只是诊断到治疗的一小步，不合规实例可能会被提前阻止。

提示词工程也让得诊断和治疗同时发生更有可能，例如在健康管理中自我诊断和自我护理。

我们所了解的

尽管大模型仍处于初级阶段，但一些模式正在浮现——如何在有或没有人类参与的情况下，提高生成式AI的性能，超越人类。

首先，在比较大模型和人类的能力时，随着模型版本的更新，差距正在缩小。具体来说，GPT-3.5已经通过了医学、法律和商学院的考试，尽管表现平平。GPT-4在通过律师资格考试方面做得更好，并且有机会通过金融专业人士的CFA考试。

虽然GPT-4在完成各种考试的定量分析部分还有不少挑战，但这可以通过使其具备执行Python代码的能力来解决。通过考试，就像检测非常小的癌症肿瘤一样，是提高准确性的问题，AI可以做得很好。

其次，由专业人士参与人类反馈强化学习（RLHF）训练的领域，特定大模型的性能优于仅在通用文本语料库（如维基百科）上训练的大模型。

例如，在法律领域，汤森路透的WestLaw Precision和LexisNexis的Lexis+由领域专家——这些案例中的律师提供支持。RLHF也可以用于进一步训练通用大模型。例如，Allen & Overy律师事务所用公司内部律师的数据集训练了GPT-3.5模型，律师的和大模型的对话被保留在事务所内。

我们尚未了解的

尽管如此，我们还没有足够的证据证明生成式AI对工作质量的影响。一方面，专业人士还刚开始尝试使用生成式AI，另一方面专业培训、行业规范和不同级别员工工作分配问题，还未得到妥善解决。

这引发了更多问题。

首先，考虑生成式AI对专业培训的影响。 有证据表明，经验较少的专业人士比经验丰富的专业人士更能从GPT-4的建议中受益。例如，使用协助编程工具生成代码，就像拥有一个私人教练助你成为数据科学家。

但这是否会促进初级专业人士使用生成式AI加速专业技能培训，形成一个良性循环？或者，在职业生涯早期，使用生成式AI会导致跳过重要的探索，包括从中学习错误？

其次，专业人士非常关心工作质量。 然而，有令人担忧的证据表明，专业人士倾向于将生成式AI当成工作质量降低的来源。难道生成式AI不应该使专业人士能够以较少的时间，达到相同的工作质量吗？

这个问题的难点是，如何评估专业工作质量，特别是当质量不仅仅体现为准确性时。例如，要求文档摘要应该完整和有细节。此外，在创造性活动中，ChatGPT能够生成大量新颖的想法，尽管质量参差不齐。

但有证据表明，在创造性思维任务中，最优秀的人类仍然超过ChatGPT。

第三，人机交互仍然复杂，并且随着机器性能的提高而变化。 有证据表明，当经验丰富的专业人士判断输出的准确性不够高时，他们倾向于忽略机器的建议。与此同时，获得高质量AI的帮助，会使工作者减少思考，这是一种“在方向盘后睡着”或“在键盘前睡着”的状态。

因此，令人惊讶的是，要想从人机互动中受益，可能需要的人工智能质量比技术上可实现的要低。

这就引出了一个问题：在验证和解释大型模型的输出时，我们应该如何找到对人工智能依赖度的最佳平衡，既不过度依赖也不过分减少依赖？我们怎样确保专业人士在使用“自动完成”辅助工具时，仍然保持必要的警觉性？

专业人士的未来

在全球经济中，生成式AI被预测每年能增加2.6万亿至4.4万亿美元的价值。

这篇文章将专业人士的工作分为三个部分：诊断、推理和治疗，并指出生成式AI不仅改变了这些工作模式，还使得这些模式能够同时进行，从而彻底改变了咨询行业的运作方式。

例如，监管建议和合规性检查可以一体化进行，就像医疗领域的自我诊断和治疗一样。

专业人士正在积极塑造人类与人工智能之间的互动方式。例如，好莱坞的剧本作者成功地对抗了人工智能生成内容的滥用；而针对Github的Copilot和OpenAI的Codex AI程序，正在审理一些涉及版权侵权的法律案件。

然而，我们需要超越对知识产权的担忧，关注影响所有专业人士的实际问题：在当前技术环境下，如何验证机器输出，以避免过度依赖或忽视算法的风险？

在评估人工智能输出时，除了数据科学的准确性度量外，我们还能开发出哪些质量度量标准？

随着人工智能性能的提升，是否存在一个“不完美”的性能水平，比如在道路运输中设定速度限制，能让人类专业人士感到最满意并激励他们保持良好表现？

专业人士应该在解决这些问题上发挥领导作用，以造福社会和自身。

专业人士的工作内容

生成式AI的使用案例

我们所了解的

我们尚未了解的

专业人士的未来

推荐阅读