谷歌发布Magika 1.0

谷歌发布Magika_1.0 图1
谷歌发布Magika 1.0

谷歌发布了Magika 1.0,这是其基于人工智能的文件类型检测工具的稳定版本,并采用 Rust 语言重写了整个引擎,以提升速度和内存安全性。该系统现在可以识别超过 200 种文件类型(此前约为 100 种),并且能够更好地区分 JSON 与 JSONL、TSV 与 CSV、C 与 C++ 以及 JavaScript 与 TypeScript 等外观相似的格式。

谷歌团队使用了一个 3TB 的训练数据集,甚至借助 Gemini 为罕见文件类型生成合成样本,从而使 Magika 能够处理那些没有大型公开语料库的文件格式。该工具支持 Python 和 TypeScript 集成,并提供原生 Rust 命令行客户端。

附件内容
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容