AI 和维基百科让濒危语言陷入恶性循环

AI_和维基百科让濒危语言陷入恶性循环 图1
AI 和维基百科让濒危语言陷入恶性循环

一名德国青年 Kenneth Wehr 在接管格陵兰语维基百科后发现,该版本几乎所有文章都由不会该语言的人撰写,大量内容是机器翻译的错误结果。这一现象在全球 340 多种语言的维基百科版本中普遍存在,非洲四种语言版本中 40%-60% 的文章都是未经校正的机器翻译。

由于维基百科是许多小语种最大的在线语言数据源,AI 系统从中学习时会吸收这些错误,导致翻译质量进一步恶化,形成”垃圾进,垃圾出”的恶性循环。研究显示,2020 年维基百科占某些非洲语言 AI 训练数据的一半以上。尽管一些社区如芬兰的伊纳里萨米语通过严格质量控制取得成功,但大多数濒危语言缺乏足够的母语使用者来纠正错误。格陵兰语维基百科最终因 AI 工具产生的”无意义内容”被关闭。

附件内容
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容