미드저니 활용법 (이미지 프롬프트, 스타일 레퍼런스, 실전 꿀팁)
솔직히 저는 미드저니를 처음 접했을 때 기능이 너무 많아서 어디서부터 시작해야 할지 막막했습니다. 프롬프트를 길게 써야 할지, 짧게 써야 할지도 몰랐고, 원하는 스타일이 나오지 않아 몇 시간씩 헤맨 적도 많았습니다. 하지만 1년 넘게 실무에서 직접 사용하면서 깨달은 건, 미드저니는 '복잡하게' 쓸수록 오히려 원하는 결과가 안 나온다는 점이었습니다. .
이미지 프롬프트, 제대로 활용하는 법
미드저니에서 프롬프트 창 왼쪽 아이콘을 클릭하면 이미지 프롬프트, 스타일 레퍼런스, 옴니 레퍼런스 등의 옵션이 나타납니다. 저는 초반에 이 기능들의 차이를 제대로 이해하지 못해서 스타일 레퍼런스를 써야 할 곳에 이미지 프롬프트를 넣는 실수를 자주 했습니다. 이미지 프롬프트(Image Prompt)란 특정 이미지의 구도, 색감, 객체 배치 등 세부 요소를 AI가 분석해서 새로운 이미지 생성에 반영하는 기능입니다. 예를 들어 제 얼굴 사진을 이미지 프롬프트로 넣고 "eating hamburger"라고 입력하면, AI가 사진 속 한국인 얼굴, 셔츠, 넥타이, 표정 같은 디테일을 뽑아서 햄버거를 들고 있는 장면으로 재구성해줍니다.
이미지 프롬프트를 쓸 때 주의할 점은, 너무 복잡한 이미지를 넣으면 AI가 어떤 요소를 우선해야 할지 헷갈려 한다는 겁니다. 저는 보통 배경이 단순하고 주요 객체가 명확한 이미지를 선택합니다. 또한 프롬프트 텍스트는 간결하게 써야 합니다. "a person wearing gray hoodie, holding book, Ghibli style, detailed background..." 이런 식으로 길게 쓰면 특정 내용이 누락되거나 엉뚱한 결과가 나올 확률이 높습니다. 제 경험상 핵심 키워드 3~5개 정도로 짧게 쓰고, 이후 수정 기능(Vary, Upscale 등)으로 디테일을 보완하는 게 훨씬 효율적이었습니다.
- 이미지 프롬프트: 구도, 색감, 객체 배치 등 세부 요소 반영
- 스타일 레퍼런스: 특정 이미지의 전반적인 스타일(화풍, 질감)만 적용
- 옴니 레퍼런스: 캐릭터 일관성 유지용, 스토리 콘텐츠 제작 시 유용
스타일 레퍼런스로 화풍 통일하기
스타일 레퍼런스(Style Reference)는 특정 이미지의 화풍이나 질감만 가져와서 적용하는 기능입니다. 이미지 프롬프트와 달리 객체나 구도는 무시하고, 오직 '스타일'만 참조한다고 보시면 됩니다. 지브리, 픽사, 일본 애니메이션 같은 유명한 스타일은 프롬프트에 텍스트로만 입력해도 잘 나오지만, 한국 민속화풍이나 특정 일러스트레이터의 화풍처럼 학습량이 적은 스타일은 스타일 레퍼런스를 써야 제대로 구현됩니다.
제가 최근에 한국 전통 느낌의 캐릭터를 만드는걸 보고있었는데, 프롬프트에 "Korean traditional painting style"만 입력했더니 결과물이 중구난방이었습니다. 그래서 구글에서 조선시대 민화 이미지를 찾아 스타일 레퍼런스로 넣었더니, 색감, 붓터치, 여백 처리까지 레퍼런스와 거의 일치하는 이미지가 생성됐습니다. 이때 중요한 건 레퍼런스 이미지의 해상도가 어느 정도 확보되어야 한다는 점입니다. 너무 흐릿하거나 작은 이미지를 넣으면 AI가 스타일 특징을 제대로 파악하지 못합니다. 미드저니 공식 사이트의 가이드 문서에서도 최소 512x512 이상의 이미지를 권장하고 있습니다.
스타일 레퍼런스와 함께 조절할 수 있는 값이 'Style Weight'입니다. 이 값이 높을수록 레퍼런스 스타일을 충실하게 따르고, 낮을수록 프롬프트의 자유도가 높아집니다. 기본값은 100인데, 제가 여러 번 실험해본 결과 50~150 사이에서 조절하는 게 가장 안정적이었습니다. 200 이상으로 올리면 레퍼런스를 너무 따라해서 오히려 창의성이 떨어지는 느낌이 들었습니다.
실전 꿀팁: 프롬프트는 짧게, 수정은 여러 번
제가 미드저니를 1년 넘게 쓰면서 가장 크게 깨달은 점은, 처음부터 완벽한 프롬프트를 쓰려고 하지 말라는 겁니다. ChatGPT나 제미나이로 긴 프롬프트를 생성해서 붙여 넣는 분들이 많은데, 실제로 그렇게 하면 원하는 결과가 안 나올 확률이 훨씬 높습니다. 미드저니는 긴 프롬프트일수록 특정 내용을 누락하거나 잘못 해석하는 경향이 있기 때문입니다. 저는 보통 핵심 키워드 3~4개로 시작해서, 생성된 이미지를 보고 "Use Text" 기능으로 프롬프트를 복사한 뒤 조금씩 추가하는 방식을 씁니다.
예를 들어 "Korean mid 20s woman"으로 시작해서 결과를 보고, "wearing gray hoodie"를 추가하고, 다시 "holding book"을 추가하는 식입니다. 이렇게 단계적으로 쌓아가면 어느 시점에서 이미지가 틀어졌는지 파악하기 쉽고, 수정도 간편합니다. 또한 미드저니는 '지우는' 기능(Edit 기능의 Eraser)보다 '생성하는' 기능이 훨씬 강력합니다. 특정 부분을 수정하고 싶을 때 Edit 모드에서 계속 지우려고 하지 말고, 프롬프트를 살짝 바꿔서 여러 번 Re-run하는 게 더 빠릅니다.
나이대를 표현할 때도 "young" 같은 애매한 단어보다 "mid 20s", "early 30s" 같은 구체적인 나이대를 입력하면 훨씬 정확한 결과가 나옵니다. 저는 "extremely beautiful"(극도로 아름다운), "cinematic lighting"(영화적 조명), "dynamic scene"(역동적 장면) 같은 키워드를 자주 씁니다. 이런 키워드들은 미드저니가 학습한 데이터에 많이 포함되어 있어서, 넣기만 해도 퀄리티가 확 올라갑니다. 반대로 못생긴 캐릭터를 만들고 싶을 땐 스타일 레퍼런스에 기존 캐릭터를 넣고, Mode를 'Raw'로, Stylization을 50 정도로 낮춘 뒤 "ugly, plain" 같은 형용사를 추가하면 됩니다.
미드저니를 실무에서 쓰면서 가장 큰 변화는, 셔터스톡이나 이미지투데이 같은 스톡 사이트에서 이미지를 찾는 시간이 절반 이상 줄었다는 점입니다. 예전엔 디자인을 위해 리소스 찾기에 집중했다면, 지금은 "이 아이디어를 미드저니로 구현할 수 있을까?"를 먼저 생각하게 됩니다. 물론 아직 완벽하진 않습니다. 미드저니 최신 버전인 6.1까지 써봤지만, 특정 손동작이나 복잡한 포즈는 여전히 여러 번 뽑아야 원하는 결과가 나올 때가 많습니다. 그래도 초기에 운에 맡겼던 것에 비하면, 지금은 최소한의 시행착오로 제가 원하는 이미지를 만들어낼 수 있게 됐습니다. 꾸준히 공부하고 이해도를 높인 시간에 대한 보상을 확실히 받고 있다는 느낌입니다.
--- 참고: https://www.youtube.com/watch?v=kcMsz-cDkJ8