生成式东谈主工智能界限的领军者OpenAI,曾吹嘘其东谈主工智能转录器具Whisper具有接近 “东谈主类水平的镇静性和准确性”。
干系词,跟着该转录器具在百行万企被越来越多地擢升使用,其问题似乎也正驱动突显——凭据业内媒体对十多位软件工程师、设立东谈主员和学术盘考东谈主员的采访,如今Whisper所存在的一个要紧劣势已愈发摧毁暴虐:它很容易会杜撰大段笔墨,以至是整段句子。
这些业内大众暗示,一些杜撰出的笔墨——在行业内被称为“幻觉”,可能包括种族言论、暴力措辞,乃至十足杜撰出的医疗提议。
大众们越来越挂牵这种“胡编乱造”可能形成严重效果,因为Whisper现时正被全球多个行业用于翻译和转录采访本体、生成文本以及为视频制作字幕。诚然OpenAI曾劝诫不应在“高风险界限”使用该器具,但当今一些好意思国医疗中心齐正驱动使用基于Whisper的器具,来记载患者与大夫间的对话。
据凡俗使用Whisper的盘考东谈主员和工程师暗示,他们在责任中凡俗会遭遇该器具出现“幻觉”。举例,密歇根大学的别称盘考东谈主员在盘考大众会议的转录准确率时发现,他所审核的每十份音频转录中,便有八份存在“幻觉”。
一位机器学习工程师则称,在他分析的100多个小时的Whisper转录中,他当先发现有时有一半存在“幻觉”。第三位设立东谈主员指出,在他用Whisper创建的26000份记载中,险些每一份齐发现了胡编乱造的样貌。
即使是在那些录制精深的约略音频样本里,问题也照旧存在。在最近的一项盘登第,计划机科学家们在审查的卓绝13000个明晰音频片断中发现存187个存在“幻觉”问题。
盘考东谈主员暗示,这种趋势将导致在数百万段灌音中出现数以万计的伪善转录。
效果严重
曾在拜登政府带领白宫科技策略办公室责任的Alondra Nelson暗示,这种伪善可能会形成“相当严重的效果”,尤其是在病院里。
当今,包括明尼苏达州的曼卡托诊所和洛杉矶儿童病院在内的卓绝30000名临床大夫和40个卫生系统,已驱动使用法国AI休养公司Nabla基于Whisper打造的器具。
Nabla公司的首席时刻官Martin Raison暗示,该器具凭据医学语言进行了微调,以转录和追忆大夫与病东谈主间的互动。该器具转录的就诊记载当今已多达约700万次。该公司官员还指出,他们知谈Whisper会产生幻觉,并正在发愤管束这个问题。
当今担任普林斯顿高级盘考院阐发的Nelson暗示,“莫得东谈主但愿出现误诊。(该界限)应该有更高的规范。”
当今,Whisper还被用于为聋东谈主和听力左右者制作字幕——这是一个特殊容易因出现伪善转录而堕入逆境的东谈主群,因为聋东谈主和听力左右者十足无法识别“笼罩在系数文本中”的杜撰本体。
这种幻觉在Whisper中的无边存在,已促使繁密大众、成见者和OpenAI前职工命令好意思国政府洽商制定东谈主工智能律例。他们指出,OpenAI至少需要管束这一劣势。本年2月因挂牵公司的发展主见而从OpenAI离职的工程师William Saunders就暗示,若是OpenAI爽朗优先管束这个问题,这个问题似乎是不错管束的。而若是你遥远把它放在那处,而东谈主们对它的功能过于自信,并把它集成到系数这些其他系统中,那就有勤勉了。
诚然大大量设立东谈主员齐觉得转录器具不行幸免会拼错单词或出现其他伪善,但不少工程师和盘考东谈主员暗示,他们从未见过其他东谈主工智能转录器具像Whisper相似容易产生幻觉。
当今,该器具已被集成到OpenAI旗舰聊天机器东谈主ChatGPT的某些版块中,同期亦然甲骨文和微软云计划平台的内置家具,为全球数千家公司提供劳动。它还可用于将文本转录和翻译成多种语言。
仅在上个月,开源东谈主工智能平台HuggingFace上的一个Whisper最新版块就被下载了420多万次。该平台的机器学习工程师Sanchit Gandhi暗示,Whisper是最流行的开源语音识别模子,从招呼中心到语音助手,齐内置了Whisper。
康奈尔大学阐发Allison Koenecke和弗吉尼亚大学阐发Mona Sloane,当今已盘考了他们从卡内基梅隆大学的盘考贵寓库TalkBank中得到的数千个约略音频片断。他们发现,近40%的幻听是无益的或令东谈主担忧的,因为话语者的痛快可能被曲解或污蔑。
盘考东谈主员并不细则Whisper和近似器具产生幻觉的原因,但软件设立东谈主员暗示,这些胡编乱造频频发生在出现停顿、配景声息或音乐播放时。OpenAI此前在网上暴露的信息中曾提议,不要在有瞎想情境中使用Whisper,因为准确性上的劣势会导致抛弃上的彰着劣势。
而针对最新爆料,有OpenAI发言东谈主回答称,OpenAI会在接下来的模子更新中加入相应的响应机制。