【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结合潜力,开始尝试将它们应用于影视字幕的翻译工作中。

在这个创新的翻译流程中,Whisper扮演着至关重要的角色。它能够将音频或视频文件中的语音内容精准地转录成字幕文本,为后续的翻译工作奠定了坚实的基础。而一旦字幕文本生成完毕,字幕组便会调用ChatGPT、Google Translate等翻译软件,将字幕文本翻译成观众所需的语言。

这种结合Whisper与ChatGPT的翻译方式,不仅提高了字幕翻译的准确性,还极大地提升了工作效率。它让字幕制作团队能够更加轻松、高效地完成影视字幕的翻译工作,为观众带来更加优质的观影体验。

目录

实现流程

SubtitleEdit Online​​​​​​​

Buzz

N46Whisper

Subs AI

PyAutoSRT

caption2text


实现流程

  1. 调用Whsiper转录音频/视频文件,得到带时间轴的文本字幕 。
  2. 人工校对审核相应的文本字幕
  3. 使用ChatGPT、Google Translate、DeepL等将文本字幕翻译为指定语言

SubtitleEdit Online​​​​​​​

Nikse.dkicon-default.png?t=O83Ahttps://www.nikse.dk/subtitleedit/onlineSubtitleEdit Online是一个功能全面的在线字幕编辑工具,专为视频制作者、翻译者和字幕爱好者设计。SubtitleEdit Online支持包括SubRip (SRT)、MicroDVD、Advanced Sub Station Alpha (ASS)、Sub Station Alpha (SSA)、D-Cinema等在内的多种字幕格式,几乎涵盖了市面上所有常见的字幕格式。用户可以轻松创建新的字幕行,并对现有字幕行的内容和时间进行调整,以满足不同的字幕编辑需求。

SubtitleEdit Online集成了DirectShow、VLC媒体播放器或MPlayer,方便用户在编辑字幕时预览视频,实现字幕与视频的完美匹配。通过提供波形和/或频谱图显示,用户可以更准确地同步字幕与音频内容,确保字幕的准确性和流畅性。编辑完成后,用户可以将字幕导出为所需的格式,以便在其他平台或设备上使用。

 

Buzz

https://github.com/chidiwilliams/buzzicon-default.png?t=O83Ahttps://github.com/chidiwilliams/buzz

  • ​​​​​​​导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT
  • 从计算机的麦克风转录和翻译为文本(资源密集型,可能不是实时的,演示)
  • 支持 Whisper、Whisper.cpp、Faster Whisper、Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
  • 命令行界面
  • 适用于 Mac、Windows 和 Linux

Buzz 在 App Store 上表现更好。获取 Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。

​​​​​​​

N46Whisper

https://github.com/Ayanaminn/N46Whispericon-default.png?t=O83Ahttps://github.com/Ayanaminn/N46Whisper

N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46字幕组的工作效率,适于许多日语视频的字幕制作。此应用基于AI语音识别模型 Whisper的优化部署 faster-whisper.

在输出方面,N46Whisper生成的字幕文件采用了ass格式,并内置了特定字幕组的字幕格式规范,用户只需将生成的字幕文件直接导入Aegisub软件,即可轻松进行后续的翻译及时间轴校正工作,极大地简化了字幕制作的流程。

应用现在可以使用AI翻译工具对转录的文本进行逐行翻译。用户也可以单独上传srt或ass文件来使用翻译模块。目前支持chatGPT 的翻译。

翻译后的文本将于原文合并在一行,以 /N分割,生成双语对照字幕。

例如:

QQ截图20230312155700

双语字幕效果为:

QQ截图20230312160015​​​​​​​

Subs AI

​​​​​​​https://github.com/abdeladim-s/subsaiicon-default.png?t=O83Ahttps://github.com/abdeladim-s/subsai

Subs AI是一个强大的开源工具,它结合了OpenAI的Whisper模型及其变体,提供了网页界面(Web-UI)、命令行接口(CLI)以及Python包,致力于自动化字幕生成。Subs AI由abdeladim-s发起和维护,是一个基于GitHub的开源项目。

​​​​​​​Subs AI集成了whisper.cpp和faster-whisper等高效率的推理引擎,实现了更快更节省资源的模型运行。除了基础的字幕生成外,Subs AI还具备字幕修改、翻译、同步调整等多种辅助功能,一站式解决字幕处理问题。

PyAutoSRT

GitHub - botbahlul/PyAutoSRT: PySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio filePySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio file - botbahlul/PyAutoSRTicon-default.png?t=O83Ahttps://github.com/botbahlul/PyAutoSRT

PyAutoSRT是一个基于PySimpleGUI的桌面应用程序,它利用免费的Google Speech Recognition API自动生成字幕文件,并可使用非官方的在线Google Translate API将字幕文件翻译成其他语言。

​​​​​​​

caption2text

https://github.com/F-loat/caption2texticon-default.png?t=O83Ahttps://github.com/F-loat/caption2text​​​​​​​PWA 版字幕转换为文本工具,支持 ass 及 srt 格式,可批量导出为 word 及 text 文件​​​​​​​

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/890436.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android中的Activity(案例+代码+效果图)

目录 1.Activity的生命周期 核心生命周期回调 1)onCreate() 2)onStart() 3)onResume() 4)onPause() 5)onStop() 6)onRestart() 7)onDestroy() 8)生命周期图示 10)注意事项…

Golang | Leetcode Golang题解之第468题验证IP地址

题目: 题解: func validIPAddress(queryIP string) string {if sp : strings.Split(queryIP, "."); len(sp) 4 {for _, s : range sp {if len(s) > 1 && s[0] 0 {return "Neither"}if v, err : strconv.Atoi(s); err …

教你把产品图册转为翻页电子书

​在科技飞速发展的今天,产品的宣传方式也在不断创新。为了让产品图册更加吸引眼球,我推出了一款结合动画和音乐的效果惊艳的产品图册。这款产品图册不仅展示了产品的精美外观和独特功能,更通过动态效果和美妙音乐,为观众带来一场…

LabVIEW提高开发效率技巧----点阵图(XY Graph)

在LabVIEW开发中,点阵图(XY Graph) 是一种强大的工具,尤其适用于需要实时展示大量数据的场景。通过使用点阵图,开发人员能够将实时数据可视化,帮助用户更直观地分析数据变化。 1. 点阵图的优势 点阵图&…

【puppeteer】wvp-puppeteer制作 过程

目录 最后的结论 制作windows&ubuntu的docker 重启桌面上的docker 命令重启 通过 Docker Desktop 图形界面重启 制作centos docker 测试 参考文档 最后的结论 ubuntu && windows 使用 dualvenregistry:5000/wvp-puppeteer:1.0 centos7 使用:…

Word 中脚注和尾注的区别有哪些?如何正确使用它们?

在撰写学术论文、报告或其他需要引用资料的文章时,脚注和尾注是两种常用的标注方法。它们不仅可以为读者提供额外的背景信息,还能帮助整理文章中的引用来源。下面我们就来详细的了解一下什么是脚注和尾注。 脚注 脚注(Footnote)…

回溯法与迭代法详解:如何从手机数字键盘生成字母组合

在这篇文章中,我们将详细介绍如何基于手机数字键盘的映射,给定一个仅包含数字 2-9 的字符串,输出它能够表示的所有字母组合。这是一个经典的回溯算法问题,适合初学者理解和掌握。 问题描述 给定一个数字字符串,比如 …

2024 第一次周赛

A: 题目大意 骑士每连续 i 天每天会得到 i 个金币,(i 1, 2, 3 , …),那么展开看每一天可以得到的金币数:1 2 2 3 3 3 4 4 4 5 5 5 5 5 … 可以发现就是1个1 ,2个2, 3个3…,那么我…

关于md5强比较和弱比较绕过的实验

在ctf比赛题中我们的md5强弱比较的绕过题型很多,大部分都是结合了PHP来进行一个考核。这一篇文章我将讲解一下最基础的绕过知识。 MD5弱比较 比较的步骤 在进行弱比较时,PHP会按照以下步骤执行: 确定数据类型:检查参与比较的两…

Django的请求与响应

Django的请求与响应 1、常见的请求2、常见的响应3、案例 1、常见的请求 函数的参数request是一个对象,封装了用户发送过来的所有请求相关数据。 get请求一般用来请求获取数据,get请求也可以传参到后台,但是传递的参数显示在地址栏。 post请求…

vue3 高德地图标注(飞线,呼吸点)效果

装下这两个 npm 忘了具体命令了&#xff0c;百度一下就行 “loca”: “^1.0.1”, “amap/amap-jsapi-loader”: “^1.0.1”, <template><div id"map" style"width: 100%;height: 100%;"></div> </template><script setup> …

论文笔记:RelationPrompt :Zero-Shot Relation Triplet Extraction

论文来源: ACL Findings 2022 论文链接:https://arxiv.org/pdf/2203.09101.pdf 论文代码:http://github.com/declare-lab/RelationPrompt 本篇论文是由阿里达摩院自然语言智能实验室于2022年发表的关于零样本关系抽取的顶会论文,本篇博客将记录我在阅读过程中的一些笔记…

​ceph掉电后无法启动osd,pgs unknown

处理办法&#xff1a; 进一步osd.0的日志检查发现提示unable to read osd superblock&#xff1a; 尝试fsck操作&#xff1a; ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0/ --type bluestore --op fsck 如果成功&#xff0c;则到此为止。 如果失败&#xf…

K8s简介及环境搭建

一、Kubernetes简介 kubernetes 的本质是一组服务器集群&#xff0c;它可以在集群的每个节点上运行特定的程序&#xff0c;来对节点中的容器进行管理。目的是实现资源管理的自动化&#xff0c;主要提供了如下的主要功能&#xff1a; 自我修复&#xff1a;一旦某一个容器崩溃&a…

游戏加速器最新口令兑换码,最低50小时免费领取

不是月卡买不起&#xff0c;而是薅羊毛更有性价比&#xff01;游戏党福音&#xff0c;今天为玩家们分享最新一批雷雷口令兑换码&#xff0c;为您的游戏之旅全面保驾护航&#xff01; 兑换码&#xff1a;8521 兑换码&#xff1a;9989 兑换码&#xff1a;211314 兑换码&#…

springmvc的处理流程

用户把请求发到前端控制器&#xff0c;前端控制器通过handlerMapping找到controller&#xff0c;controller调用service&#xff0c;service调用dao&#xff0c;从数据库拿到要获取的数据&#xff0c;然后modelandview给前端控制器&#xff0c;前端控制器通过viewresolver解析视…

仿IOS桌面悬浮球(支持拖拽、自动吸附、自动改变透明度与点击、兼容PC端与移动端)

使用 pointerdown/pointermove/pointerup 实现仿IOS桌面悬浮球效果&#xff0c;支持拖拽、指定拖拽选对容器&#xff0c;指定拖拽安全区、自动吸附、自动改变透明度与点击&#xff0c;兼容PC端与移动端。 效果展示 https://code.juejin.cn/pen/7423757568268304421 代码实现 …

计算机网络:数据链路层 —— PPP 点对点协议

文章目录 PPP 帧PPP帧的格式PPP帧的透明传输面向字节的异步链路面向比特的同步链路 PPP帧的差错检测 PPP 的工作状态 点对点协议&#xff08;Point-to-Point Protocol&#xff0c;PPP&#xff09;是目前使用最广泛的点对点数据链路层协议&#xff0c;用于在两个节点之间进行数据…

双目视觉搭配YOLO实现3D测量

一、简介 双目&#xff08;Stereo Vision&#xff09;技术是一种利用两个相机来模拟人眼视觉的技术。通过对两个相机获取到的图像进行分析和匹配&#xff0c;可以计算出物体的深度信息。双目技术可以实现物体的三维重建、距离测量、运动分析等应用。 双目技术的原理是通过两…

【最新华为OD机试E卷-支持在线评测】英文输入法(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 💻 ACM金牌🏅️团队 | 大厂实习经历 | 多年算法竞赛经历 ✨ 本系列打算持续跟新华为OD-E/D卷的多语言AC题解 🧩 大部分包含 Python / C / Javascript / Java / Cpp 多语言代码 👏 感谢大家的订阅➕ 和 喜欢�…