Локальная пакетная расшифровка аудио/видео в текст (Whisper / faster-whisper) — всё хранится внутри проекта
LocalWhisper Batch Transcriber — консольная утилита для быстрого распознавания речи из аудио и видеофайлов в TXT (и при желании SRT-субтитры) с использованием faster-whisper. Проект изначально устроен так, чтобы ничего “не разъезжалось” по системе: модели, кеш HuggingFace и результаты сохраняются локально в папках проекта.
src/input/ (можно выбрать все или отдельные номера/диапазон)auto / ru / en / …)src/output/<имя>.txtsrc/output/<имя>.srtsrc/recycle/ffprobe) — без них видео/многие форматы аудио могут не открыться.src/input/ и показывается список файлов.Выбираются файлы:
Enter → обработать всё
1 2 5, 1-3, 1,4Запрашиваются параметры:
язык (auto по умолчанию)
large-v3 по умолчанию)src/output/, исходники перемещаются в src/recycle/.Проект полностью “самодостаточный” — всё внутри папки проекта:
models/ — скачанные модели Whisperhf_cache/ — HuggingFace cache, чтобы не кешировать модели в профиле пользователяsrc/input/ — входные файлы (аудио/видео)src/output/ — выходные файлы (.txt и .srt)src/recycle/ — обработанные исходники (архив очереди)Дополнительно: задаются переменные окружения HF_HOME и HUGGINGFACE_HUB_CACHE, чтобы HuggingFace работал строго в пределах hf_cache/.
Нужен для чтения большинства форматов и определения длительности.
winget install Gyan.FFmpeg
Устанавливаются из requirements.txt (см. ниже).
Если на машине есть NVIDIA-видеокарта, утилита пытается работать через CUDA + float16. Если CUDA недоступна/не поднялась — скрипт не ломается, а автоматически переключается на CPU int8 и продолжает работу.
В папке проекта выполните:
pip install -r requirements.txt
src/input/
python main.py
src/output/
src/input/ — это “входная очередь”src/output/ — результатsrc/recycle/ — архив обработанных файлов
Это удобно для регулярной работы: просто закидываются новые файлы в input, запускается скрипт, и всё раскладывается по папкам автоматически.