排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远

百度的“文心一言”从诞生开始,就伴随着争议。毕竟百度耕耘AI领域多年,但一直没有太多的成果拿出来,不管是商用的还是消费级的。文心一言底层的飞桨模型也是在ChatGPT大火之后,才频繁见诸报端。因此,虽然在AI领域百度是毫无疑问的先行者之一,但大模型生成式AI领域,百度和它的文心一言却是不折不扣的追赶者。

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

今天,文心一言应该是开启了更大规模的内测。许多在3月16日文心一言发布会后申请体验的用户,今天都收到了短信通知,被告知文心一言已经可用,欢迎体验。带着期待,我试用了一下4月1日发版的文心一言测试版AI,版本号是V1.0.3。

先来篇高考作文试试。目前文心一言最高的输入限制是1024字,输出也有长度限制,但没有仔细了解,下图这样基本上就是极限长度了,无法生成要求的800字文章。即使不苛求字数,文心一言生成的作文,无论记叙文还是议论文,都很难在初中作文环节拿到高分,更不用说高考了。和早期的ChatGPT有点像,文心一言的逻辑思维不错,很多知识都能给你列出个一二三四,但对于文学创作,却是连篇轱辘话,言之无物。

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度
排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

接下来试试古诗文,一首七言律诗作得反而不错,虽然诗句能够看得出来拼接的痕迹,一句诗往往出自两首或三首诗,但水平比一般网友的打油诗还是强一点的。

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

然而,文心一言并不会写四六骈文……

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度
排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

诗词歌赋不行,那就看看写写画画如何吧,很遗憾,也不太行……文心一言目前表现出来的能力,比ChatGPT还差的有点多。GPT模型和ChatGPT式的生成式AI是NLP领域的杀手级应用,但生成能力再强,首先得能听懂自然语言吧。就和之前许多媒体和网友晒出的一样,文心一言对于输入指令的处理方式,很像搜索引擎:分词,再整理,再生成。所以当我用杜鹃花海的时候,文心一言显然没有搞清楚重点是花海而非几朵杜鹃花。而用“杜鹃花的海洋”语句,文心一言却画出了海洋,没有结合文意,画出花海。

这说明百度的飞桨模型目前训练数据还是不太够,或者说AI的能力差点意思,对于汉语的理解能力似乎还不如ChatGPT在GPT-3.5模型下的水平。当然,作为追赶者,这也没什么,只要训练量上去了,这种小问题都是能够解决的。

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度
排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

如果说文学创作和绘画能力仅仅是让我觉得训练量不够,那么下面的一些场景,确实让我感觉到了文心一言和ChatGPT的能力差距,同时也让我倍感失望。百度毕竟是做搜索引擎的,在中国所有互联网公司当中,百度是最容易获取到用户数据、内容数据的,更是最有能力对中文互联网内容进行分级、整理的,但文心一言现阶段的能力,只会让怀疑自己长期以来的观点。百度除了向商业妥协的搜索排序算法,真的没有一套按照内容质量、匹配度高低排序的算法吗?

李彦宏早在1997年就申请了搜索排序的专利,那时候还没有Google,也没有百度。后来Google的PageRank,百度的百度指数,一度被SEO工作者们奉为圭臬,视为评判一个网站可访问性、内容质量高低的标准。但如今似乎已经没有人提到百度指数了,甚至百度千方百计地把你从浏览器往他们的App里面赶。中文互联网的巨擘们,都在打造自己的封闭生态圈,不再开放,不再互通。可怕到,一个一个圈子的内容,不再公开可见,只有进入那个圈子才能够浏览其内容。这,还是互联网?

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

所以,当我看到文心一言用十几年前的内容,回答“你怎么看独立博客的未来”这一问题时,我有点理解百度和国内AI公司们如今的无奈了。但这与我们无关,中文互联网今日之状况,都是BAT们,字节美团们造成的,与我一个好好写内容的独立博客站长、公共创作平台写手并无关系。当他们试图把用户信息和内容数据占为私有的那一天开始,他们就应该想到今天,想到一旦做封闭生态,未来就没有一家公司能够有足够的数据去训练AI。

情绪释放完,继续说说文心一言目前的短板,下方是我试图让它去采集IDC(著名市场研究机构)的一篇市场报告,并翻译为中文。但文心一言显然对于采集实时的网页没有做好准备,并试图骗傻子一样骗过我,仅仅生成了一个10行代码的HTML文件。在下方第二张图中,文心一言倒是成功采集到了《Science》杂志官网的论文,但翻译时,却用C#编程语言的格式进行了输出。它似乎将论文当成了代码注释或者代码本身。

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度
排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

在用我的网站名“钓鱼”时,文心一言也开启了一本正经的胡说八道模式,回答看着似乎没一点问题,但其实除了“玩亦可及”这个名字之外,其他都是它瞎编的。和ChatGPT一样,文心一言也没有什么机器伦理的约束,撒谎张口就来。这也是目前马斯克等人呼吁暂时停止研发比GPT-4更强AI的原因,因为没有机器伦理的束缚,生成式AI们正在放飞自我,用人类最好的处理器和最先进的AI技术,来向人类撒谎。当你花费巨资研发出一套强大聪明的AI系统,但它不懂时不努力学习,却瞎编几千字骗你,你觉得这样的AI能够算智能或准确吗?

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

不过,令人惊喜的是,文心一言对于写代码似乎还是挺擅长的。让它生成一些简单的Python、Javascript或PHP脚本、插件,都能够很从容地写出来。但我没有冒险去测试,能不能用好不好用就不知道了。

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度


微信扫描下方的二维码阅读本文

排在百度搜索前列的垃圾信息,正让文心一言与ChatGPT越来越远 - AI, ChatGPT, 人工智能, 文心一言, 百度

一叶
一叶

一个好奇的玩家,热爱生活,更热爱探索

文章: 1178

留下评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注