我于今年暑假开始参加了由我们学校冯老师带领的课题组开发的法律大模型项目,目前已经取得了重大进展,现在和华为昇腾处理器适配得很好,也上了燕大的新闻【我校成功研发法律大模型项目】。该模型名为“明镜”法律大模型,是课题组在开源可商用基座大模型的基础上,通过百万级精标法律数据集进行二次微调训练,构建的专注于法律领域的大模型。在河北人工智能计算中心的大力支持下,我们已经实现了模型对华为昇腾国产化生态的适配工作,并实现完全部署。模型一期提供罪名预测、适用法条推荐、要素抽取和类案检索等功能,后期会进一步完善模型,提供更多的智慧司法功能。实际体验下来,该模型现在已完全胜任日常使用情况,对于在【中国裁判文书网】中抽取到的刑事案件能有较高的预测成功率,虽然有一些细节方面不尽人意。
继OpenAI发布了ChatGPT后,各个大学、厂商陆续发布了自己的大模型,如百度发布了文心一言,讯飞发布了讯飞星火,天工发布了自己的天工AI搜索。他们有的负责特定领域,有的则涉猎广泛,出生的目的都是为方便我们的日常生活,替代人类做一些繁琐、困难的工作,提高人类的工作效率。似乎今年成为了国内众多AI大模型的诞生年,值得被记录在史册中。
据《中国人工智能大模型地图研究报告》,中国现在至少已发布了79个10亿级别的大模型。从全球上看,美国早在2020年就已经推出包括GPT3在内的15款大模型,到现在有反超的趋势。有很多知名人士,也开始重返电脑前,创立了属于自己的公司,训练属于自己的模型。在功能对比方面,国内的文心一言综合表现较为突出,在诗句理解、编程、知识题和翻译方面领先国内其他大模型,但其他方面,ChatGPT依然在综合数据方面排行第一。也就是说,国内的AI距ChatGPT还有一部分差距。
除了发布大模型,很多厂商也在陆续对自己的大模型进行升级。讯飞星火就是最胆大的一家:别的厂商都是制作PPT,录制好Demo,现场展示给观看者,想要体验的,还需要申请内测资格;而讯飞星火直接放出来让你体验,目前全国仅此一例。讯飞做语音AI起家,到现在已经有24年的历史,是国内AI行业“学霸”一般的存在。过去在语音转文字还未普及的情况下,讯飞就为我们在输入法里内置了这一快捷方便的功能,在如今大模型普及的环境下,讯飞不改初心。讯飞董事长曾今高调宣布在10月底整体赶超ChatGPT。
在如今AI普及的时代,似乎没有推出自己的大模型,就不敢说自己有几分实力。
当初AlphaGo出来时,大家也是非常激动,可如今这个AI出来已经六七年时间了。过了六七年,ChatGPT就会从如今花费昂贵的价格才能使用,到人人都可以体验。在以前,AI广泛用在人脸识别、学校判断等垂直场景下,但现在的AI还不能够完全掌握复杂多变的人类语言交流。以上方“明镜”大模型为例,虽然“明镜”法律大模型在法律领域取得了显著进展,但在解决涉及人类情感、价值观和道德判断的复杂问题上,仍然存在一定局限性。例如,在处理复杂的法律案件时,模型可能会缺乏对案情深层次理解的能力,无法像人类一样全面考量不同证据、情境以及司法解释。此外,AI在创造性、情感交流以及与人类情感交互等方面的能力也相对薄弱,这导致了它在某些特定领域之外的应用受限。
国内的大模型现在算力不输国外,但仅有算力还是不够的。大模型需要海量数据训练,中国有数千年的文明,但丰富的文化沉淀绝大多数并未数字化,中文在 ChatGPT 训练所用到的语料中还不到 0.1%。虽然我国互联网企业拥有大量电商、社交、搜索等网络数据,但各自的数据类型不够全面,网上知识的可信性又缺乏严格保证,中文可供训练的语料还需要做大量的挖掘工作。现在国内大模型训练所依赖的 GPU 芯片以英伟达公司的 A100 芯片为代表,但该芯片已被美国限制向中国出口,国产 GPU 的性能还有待进一步考验,目前在算力的利用效率上还有差距。但文章开头,“明镜”大模型适配华为昇腾架构,就是一个AI完全国产化的一个里程碑。
ChatGPT未来会毁灭人类吗?我们以前常常在影片中看到人工智能有了自我意识,将人类看作威胁,并尝试清除人类。AI的出现,不输于iPhone的出现,其历史意义和科技意义,绝对不亚于虚拟现实和元宇宙。曾经马斯克等千余名业界、学界人士签名的公开信称,号召加强对人工智能的监督,他们称人工智能的快速发展可能会给人类带来灾难。其实OpenAI团队自己也没搞懂ChatGPT是如何进化出推理能力的,只能通过不断问它问题、再通过回答来判断其“思路”,也就是说,ChatGPT自我进化的过程,并不透明。在问ChatGPT的许多问题后,我们的感触都是欣喜和可怕的,它非常强大,对每一个问题都能够给出一个完美的答案。尽管我们知道这背后都是模型和算法数据的功劳,但对它的理解越深,就越是感慨它的可怕,这种可怕不仅仅是超越绝大多数人的推理、智力、逻辑能力的碾压,更是各种实用性技能的增强,这会不会导致大规模的失业?