반응형 Programming/AI21 Qwen3-TTS 최종 선택은 무엇이었나 Qwen3-TTS 최종 선택은 무엇이었나faster-qwen3-tts까지 비교한 뒤, 결국 1.7B를 남겼다여기까지 테스트를 진행하면서 흐름은 꽤 분명해졌다.처음에는 Qwen3-TTS 1.7B CustomVoice를 Windows 로컬에 설치하고, Web UI를 띄우고, 한국어 음성을 생성하는 것까지 확인했다. 그 과정만 놓고 보면 “실행은 된다”는 결론은 이미 나와 있었다. 문제는 그 다음이었다. 품질은 나쁘지 않았지만 속도가 걸렸다. Web UI 기준으로는 약 15초 정도가 걸렸고, Python 직접 호출 기준으로 다시 재도 1.7B가 약 10초, 0.6B는 오히려 약 13초 수준이었다. 즉 병목은 Web UI가 아니라 원본 qwen3 경로 자체였다. 그래서 마지막 질문은 결국 하나로 좁혀졌다. 이 .. 2026. 4. 2. Qwen3-TTS는 실시간으로 붙일 수 있을까 Qwen3-TTS는 실시간으로 붙일 수 있을까1.7B와 0.6B를 직접 돌려보고 속도를 다시 봤다3편까지 오면 Qwen3-TTS가 최소한 Windows 로컬에서 실행되고, 한국어 음성도 실제로 생성된다는 건 확인된다.문제는 그다음이다. 설치가 되고, UI가 뜨고, 소리가 나온다고 해서 바로 실사용 가능한 건 아니다. 특히 내가 이걸 본 이유가 단순 데모 감상이 아니라 연동 가능성, 그중에서도 Unity 같은 쪽과의 연결 가능성을 보려는 데 있었다면, 결국 제일 먼저 걸리는 건 속도다. 실제로 문서 흐름도 여기서 완전히 바뀐다. 3편까지는 “된다”를 확인하는 과정이었다면, 4편부터는 “이 속도로는 괜찮은가”를 따져보기 시작한다. 처음 Web UI에서 한국어를 생성했을 때 체감 시간은 약 15초였다.그 정도.. 2026. 4. 2. Qwen3-TTS 한국어 음성은 실제로 어땠나 Qwen3-TTS 한국어 음성은 실제로 어땠나Web UI에서 직접 돌려본 첫 테스트 기록2편에서 flash_attention_2 문제를 우회하고 나서야 Qwen3-TTS Web UI를 정상적으로 띄울 수 있었다.거기까지 갔으면 다음은 당연히 하나다. 그래서 실제로 소리가 어떻게 나오느냐. 설치가 되는 것과 실행이 되는 것은 다르고, 실행이 되는 것과 “쓸 만하다”는 또 다르다. 그래서 이번에는 브라우저에 뜬 Web UI에서 직접 한국어 문장을 넣고, 화자를 바꿔 보고, 실제 생성 결과를 확인해봤다. 문서 흐름상 이 단계부터 비로소 “설치 성공”이 아니라 로컬 테스트 성공이라고 말할 수 있는 구간으로 들어간다. 이번 글은 그 첫 테스트 기록이다.Web UI가 어떻게 보였는지, 어떤 문장으로 시험했는지, 한.. 2026. 4. 2. Qwen3-TTS Web UI가 바로 안 뜬 이유 Qwen3-TTS Web UI가 바로 안 뜬 이유 Windows에서 flash_attention_2 문제를 직접 잡아본 기록1편에서 설치 자체는 생각보다 깔끔하게 끝났다.conda 환경을 만들고, PyTorch CUDA를 잡고, qwen-tts도 설치했고, Hugging Face 로그인 준비까지 끝냈다. 여기까지만 보면 이제 qwen-tts-demo만 실행하면 바로 브라우저가 뜰 것 같았다. 실제로 나도 그렇게 생각했다. 그런데 문제는 그 다음부터였다. 설치는 끝났는데 실행이 안 됐다. 정확히 말하면, Web UI를 띄우는 단계에서 로그는 나오는데 정상적으로 이어지지 않았고, 처음 봤을 때는 원인이 딱 보이지 않았다. 이번 글은 그 과정을 정리한 기록이다.어떤 명령으로 실행했고, 어떤 경고가 떴고, 왜 .. 2026. 4. 2. Windows에서 Qwen3-TTS 로컬 설치 시작 Windows에서 Qwen3-TTS 로컬 설치 시작RTX 4080 환경에서 Qwen3-TTS를 직접 올려봤다이번에 Qwen3-TTS를 로컬에서 직접 올려본 이유는 단순했다.이제는 모델 소개만 보는 단계가 아니라, 실제로 내 환경에서 돌아가는지, 설치부터 실행까지 어느 정도 손이 가는지, 나중에 Unity 같은 쪽에 붙일 수 있을 정도로 관리 가능한지를 봐야 했다. 그래서 제일 먼저 한 일은 성능 비교가 아니라, 아주 기본적인 것부터 밟는 거였다. Windows에서 설치가 되느냐, CUDA가 제대로 잡히느냐, 모델 다운로드까지 무리 없이 이어지느냐. 이걸 먼저 확인하고 싶었다.이번 테스트 환경은 아래와 같다.OS: Windows셸: Anaconda PromptGPU: NVIDIA GeForce RTX 40.. 2026. 4. 2. Coqui XTTS-v2 오류 해결 후기 - speaker_wav 적용부터 Python API 최종 성공까지 Coqui XTTS-v2 오류 해결 후기 - speaker_wav 적용부터 Python API 최종 성공까지1편에서는 Windows 로컬 환경에서 Coqui TTS를 설치하고, XTTS-v2를 실행하는 단계까지 정리했습니다.이번 2편에서는 실제로 막혔던 문제들을 어떻게 해결했는지, 그리고 최종적으로 어떤 코드로 한국어 음성 합성에 성공했는지 정리해보겠습니다.두 번째 문제PyTorch 2.6 계열에서 XTTS 체크포인트 로딩이 깨지는 문제transformers 버전을 맞춘 뒤 다시 XTTS-v2를 실행했더니, 이번에는 다른 오류가 발생했습니다.로그를 보면 핵심은 아래 메시지였습니다.pickle.UnpicklingError: Weights only load failed... 이 문제는 PyTorch 2.6에.. 2026. 3. 31. Coqui XTTS-v2 설치 후기 - Windows 로컬 환경에서 한국어 TTS 테스트 시작하기 Coqui XTTS-v2 설치 후기 - Windows 로컬 환경에서 한국어 TTS 테스트 시작하기MeloTTS로 한국어 음성 합성과 재학습을 계속 시도했지만, 실제 결과물 품질이 기대에 못 미쳤습니다.학습 시간은 길었고, 데이터셋과 하이퍼파라미터를 계속 손봐야 했으며, 그렇게 시간을 들여도 결과가 안정적으로 좋아진다는 보장이 없었습니다.그래서 방향을 바꿨습니다.직접 재학습하는 방식 대신, 이미 공개된 멀티링구얼 모델을 가져와서 설치 → 실행 → 오류 확인 → 한국어 테스트까지 빠르게 검증하는 쪽으로 접근했습니다.이번에 테스트한 모델은 Coqui TTS의 XTTS-v2 입니다.[이미지: Hugging Face의 XTTS-v2 모델 페이지 화면][이미지: Coqui TTS 공식 문서 메인 화면]XTTS-v2.. 2026. 3. 31. Unity에서 OpenAI API로 AI 도슨트 만들기 Unity에서 OpenAI API로 AI 도슨트 만들기STT → LLM → TTS 흐름을 하나로 연결한 기록앞선 글들에서는 Unity에서 OpenAI API를 이용해 텍스트를 생성하고, 이미지를 만들고, TTS와 STT를 각각 붙여보는 과정을 정리했다. 여기까지는 기능을 하나씩 검증하는 단계였다면, 이번에는 그 기능들을 연결해서 실제로 대화하는 구조를 만들어본 기록을 정리해보려고 한다. 문서 기준 마지막 파트도 바로 이 지점을 다룬다. 즉, 사용자가 마이크에 질문하고, 시스템이 그 말을 이해한 뒤, 적절한 답을 생성해서 다시 음성으로 들려주는 전체 흐름이다. 이번 글의 핵심은 “OpenAI API 기능이 많다”가 아니라, 그 기능들을 어떻게 순서대로 이어서 하나의 사용자 경험으로 만들었는가에 있다. 실제.. 2026. 3. 26. Unity에서 OpenAI API로 STT 붙이기 Unity에서 OpenAI API로 STT 붙이기마이크 입력을 텍스트로 바꾸는 흐름 정리앞선 글에서는 Unity에서 OpenAI API를 이용해 텍스트를 음성으로 바꾸고, 그 결과를 AudioSource로 재생하는 과정까지 정리했다. 이번에는 그 반대 방향으로 가본다. 즉, 사용자가 말한 음성을 받아서 텍스트로 바꾸는 STT(Speech To Text) 기능이다. 문서 기록에서도 이 파트는 OpenAI API STT Generator로 별도 정리되어 있고, 내용상으로도 이미지나 TTS와는 결이 조금 다르다. 여기부터는 단순 API 호출을 넘어서 마이크 입력, 오디오 저장, STT 요청, 결과 확인까지 하나의 흐름으로 봐야 하기 때문이다. 이번 글은 음성 입력을 받아 텍스트로 바꾸는 단계까지만 다룬다. 아.. 2026. 3. 26. Unity에서 OpenAI API로 TTS 붙이기 Unity에서 OpenAI API로 TTS 붙이기텍스트를 음성으로 바꾸고 AudioSource로 재생해본 기록앞선 글들에서는 Unity에서 OpenAI API를 이용해 텍스트를 만들고, 이미지를 생성하고, 기존 이미지를 편집하는 과정까지 정리했다. 이번에는 그 흐름을 오디오 쪽으로 확장해봤다. 목표는 단순했다. 텍스트를 입력으로 주고, 그 결과를 실제 음성으로 만들어 Unity 안에서 재생하는 것이었다. 문서 기록 기준으로 이 파트는 OpenAI API TTS Generator로 정리되어 있고, 내용도 비교적 명확하다. 오디오 기능 개요를 먼저 짚고, 그 다음 TTS를 어떻게 Unity 씬 안에 붙였는지 설명하는 구조다. 이번 글은 음성 입력을 받아 다시 텍스트로 바꾸는 STT 파트는 아직 다루지 않는다.. 2026. 3. 26. Unity에서 OpenAI API로 이미지 편집과 마스킹 해보기 Unity에서 OpenAI API로 이미지 편집과 마스킹 해보기Image Edit부터 부분 편집 테스트까지지난 글에서는 Unity에서 OpenAI API를 이용해 이미지를 생성하고, RawImage에 결과를 표시하는 흐름까지 정리했다. 거기까지가 “없는 이미지를 새로 만든다”는 단계였다면, 이번에는 한 단계 더 가서 기존 이미지를 편집하는 흐름을 정리해보려고 한다. 이미지 편집은 생성보다 실무적인 활용도가 더 높다. 이미 가지고 있는 원본 이미지를 바꾸거나, 특정 부분만 선택해서 수정할 수 있기 때문이다. 문서 기록도 이 구간부터는 “한 장 편집”, “여러 장 참고 편집”, “마스킹을 이용한 특정 부분 편집”처럼 옵션을 나눠 설명하고 있다. 이번 파트에서 가장 중요한 건 두 가지다. 첫째, 기존 Unit.. 2026. 3. 26. Unity에서 OpenAI API 이미지 생성 붙이기 Unity에서 OpenAI API 이미지 생성 붙이기Organization Verification부터 실제 생성 테스트까지지난 글에서는 Unity에서 OpenAI API를 호출하기 위한 기본 세팅을 잡고, 가장 단순한 텍스트 생성 테스트까지 진행했다. 여기까지가 “API 연결이 된다”를 확인하는 단계였다면, 이번에는 한 단계 더 가서 이미지 생성 기능을 Unity 안에 붙이는 과정을 정리해보려고 한다. 다만 이미지 쪽은 텍스트 생성과 다르게 그냥 바로 코드부터 들어가면 안 됐다. 문서에도 적혀 있듯, OpenAI API로 이미지 생성 기능을 쓰기 위해서는 먼저 사용자 인증, 정확히는 Organization Verification이 선행되어야 했다. platform.openai.com → Settings .. 2026. 3. 26. 이전 1 2 다음 반응형