본문 바로가기
반응형

Whisper4

Unity에서 OpenAI API로 STT 붙이기 Unity에서 OpenAI API로 STT 붙이기마이크 입력을 텍스트로 바꾸는 흐름 정리앞선 글에서는 Unity에서 OpenAI API를 이용해 텍스트를 음성으로 바꾸고, 그 결과를 AudioSource로 재생하는 과정까지 정리했다. 이번에는 그 반대 방향으로 가본다. 즉, 사용자가 말한 음성을 받아서 텍스트로 바꾸는 STT(Speech To Text) 기능이다. 문서 기록에서도 이 파트는 OpenAI API STT Generator로 별도 정리되어 있고, 내용상으로도 이미지나 TTS와는 결이 조금 다르다. 여기부터는 단순 API 호출을 넘어서 마이크 입력, 오디오 저장, STT 요청, 결과 확인까지 하나의 흐름으로 봐야 하기 때문이다. 이번 글은 음성 입력을 받아 텍스트로 바꾸는 단계까지만 다룬다. 아.. 2026. 3. 26.
whisper.cpp Wrapper DLL을 만들고 Unity에서 로컬 STT로 동작 가능하도록 whisper.cpp Wrapper DLL을 만들고 Unity에서 로컬 STT로 동작 가능하도록앞선 단계에서 whisper.cpp를 Windows 환경에서 빌드했고, CPU 기준 동작도 확인했고, CUDA를 붙였을 때 GPU 성능이 크게 올라가는 것도 확인했다. 그런데 여기까지는 어디까지나 whisper-cli를 직접 실행하는 단계였다. 실제 프로젝트, 특히 Unity 같은 엔진 환경에서 쓰려면 커맨드라인 실행만으로는 부족했다. 결국 필요한 건 외부에서 단순한 함수 호출만으로 STT를 실행할 수 있는 구조였고, 그래서 이번에는 whisper.cpp를 감싼 Wrapper DLL을 만들어 Unity에서 붙이는 방향으로 진행했다. 이번 글은 “Whisper가 돌아간다”보다 한 단계 더 나간 기록이다. 모델 로.. 2026. 3. 26.
whisper.cpp에 CUDA를 적용하고 CPU/GPU 성능을 비교 whisper.cpp에 CUDA를 적용하고 CPU/GPU 성능을 비교앞선 글에서는 whisper.cpp를 Windows 환경에서 빌드하고, CPU 기준으로 샘플 음성 파일이 정상적으로 전사되는지 먼저 확인했다. 거기까지는 “일단 돌아간다”를 보는 단계였다면, 이번에는 그 다음 단계로 넘어가서 CUDA를 붙였을 때 실제로 얼마나 빨라지는지를 확인해봤다. 결론부터 말하면 체감 차이는 꽤 컸고, 특히 인코더 구간에서 큰 변화가 있었다. 기록 기준으로 CPU에서 8초 넘게 걸리던 작업이 GPU에서는 0.4초 수준으로 줄었다.이번 글의 목적은 CUDA 설치 방법 자체를 길게 설명하는 것이 아니라, whisper.cpp가 GPU 경로로 정상 실행되도록 설정하고, CPU와 비교했을 때 어디가 얼마나 개선되는지를 확인.. 2026. 3. 26.
Windows에서 whisper.cpp를 빌드하고 CPU로 STT를 실행해본 기록 Windows에서 whisper.cpp를 빌드하고 CPU로 STT를 실행해본 기록이번에 정리한 내용은 whisper.cpp를 Windows 환경에서 직접 빌드하고, CPU 기준으로 샘플 음성 파일을 전사해보면서 기본 동작을 확인한 기록이다. 목표는 거창하지 않았다. 우선 로컬 환경에서 Whisper 기반 STT가 정상적으로 돌아가는지 확인하고, 로그를 보면서 어떤 식으로 동작하는지 감을 잡는 것이 1차 목적이었다. 이후 CUDA 적용이나 Unity 연동도 진행했지만, 그건 다음 글에서 따로 다루고 이번 글은 기본 빌드와 CPU 첫 실행에만 집중하려고 한다. 처음부터 GPU나 엔진 연동까지 한 번에 들어가면 확인해야 할 변수가 너무 많아진다. 그래서 이번에는 가장 단순한 경로로 갔다. 저장소를 받고, Vi.. 2026. 3. 26.
반응형