当前位置：首页 > 篮球资讯 > 正文内容

中国需要更懂中国人的ChatGPT，国内产学研三方必须“组队对抗”

杏彩体育2年前 (2023-02-21)篮球资讯50

作为 AIGC 的典型应用之一，ChatGPT 正以势不可挡的态势席卷全球。国内外科技互联网巨头纷纷入局。ChatGPT 爆火后，许多科技公司纷纷跟进，或将其整合进自家产品，或尝试开发类似的语言模型。

（来源：资料图）

从短期（目前的技术水平）和长期（技术成熟之后）的角度来看，ChatGPT 类的模型和产品到底有哪些典型应用场景？美国伊利诺伊大学香槟分校计算机系教授李博表示，目前搜索是一个比较热门的应用场景。

从短期来看，她觉得 ChatGPT 作为文章写作 Coding 生成的辅助查错工具还不错，但是还不能完全依赖 ChatGPT 来做回答和搜索，因为它的回答不能保证正确性。从长期角度来看，她认为 ChatGPT 可以和不同的 AI 模型工具结合，做更友好的自动问答系统、学习工具等辅助性工具。

有人认为 ChatGPT 的影响力不亚于互联网的诞生，它将带来下一次技术革命。据介绍，ChatGPT 是依赖大量语料训练出来的，所以它从某些 Task 和场景下来看有很优秀的表现，比如 Summarization、Dialogue 之类的，所以她对这项技术非常看好。不过她觉得，如果要长久发展并用于重要领域中，ChatGPT 的可信赖性保证、纠错能力等非常重要。

比如，ChatGPT 之类的模型目前仍存在一些根本问题，它会言之凿凿地给出看似准确的错误答案，或者在用户的刻意引导下输出本不应该输出的内容。

原因在于，ChatGPT 的训练数据本身就是大量现有语料，所以它生成数据的 Distribution 和现有的其实非常接近，所以在统计角度上很难判断。

不过，也可以使用一些水印的方式，但是目前水印的方式很容易被破解。所以区别 ChatGPT 生成文本还需要做更多功课，比如使用更有效的 Cryptography Based 的水印方式等。

解决这些问题是任重而道远的，毕竟 ChatGPT 是个纯 Data-driven 的大模型，之前模型存在的 Vulnerabilities 等问题它也都会有，所以从长远看来，我们还需要做很多事情。

比如：1）引入 Knowledge、Symbolic reasoning 等去强化他的逻辑性和正确性；2）设计更多好的 Supervision 使得模型可以有效学习正确的星系；3）设计更好的奖励机制；4）提出更好的数据清理整合方法；5）设计有效的解释机制，以便人们更容易 Debug 模型的输出。

还有一些研究指出，以 ChatGPT、Stable Diffusion 为代表的 AIGC 技术可能涉及到隐私和道德问题。由于 ChatGPT、Stable Diffusion 需要用大量数据来训练，所以会有泄漏训练数据隐私的问题等。

针对此，我们可以：1）用 Privacy-preserving 的方法来训练模型，但是一般会影响模型的准确性，而且大模型很难用 Differentially private 的方法来训练；2）可以生成 Synthetic Data 来训练模型，但这同样会损失一些模型准确性；3）可以用一些其他方法比如加上一些扰动，使得生成的数据离元数据比较远，目前已经有人用该方法来保护艺术家的 IP。

更多关于 Privacy Protection 的方法也值得研究，预计这会是一个非常有意思的领域。目前，李博团队在 Privacy-preserving model training and data generation 方面也有一些工作，其主要专注于研究 ChatGPT 在内的大模型的可信赖问题，包括安全问题、公平问题、以及优化大语言模型不要输出 Toxic Languages 等。

同时，该团队还和英伟达合作了 Retrieval-Augmented Visual-Language 大模型，以让模型可以利用 Vision 和 Language 的信息做有效的信息整合，以及 Retrieval-Augmented 9.5B 语言模型。

当然，中国做 ChatGPT 之类的模型也有自己的优势。澜舟科技创始人兼 CEO、AI 科学家周明博士认为，在追赶 ChatGPT 上，中国需要更懂中文、更懂中国、更懂中国人的 ChatGPT，在基于中文的认知智能赛道中，中国有换道超车的优势，国内产学研必须“组队对抗”，“新技术、新研究一定要落到产业中，再通过产业反馈带动新技术、新研究的新一轮飞跃。

另据悉，澜舟科技将与中文在线共建 AIGC 技术在文学创作领域的辅助技术，探索在漫画、动画、视频等 IP 衍生业务领域的新型内容生产方式。

支持：Ren