A100 VS H100, 내 모델 학습에 최적인 GPU는?
1. “H100 쓰면 다 해결되는 거 아닌가요?”
AI 모델의 규모와 복잡도가 빠르게 커지고 있습니다. 불과 2~3년 전만 해도 수십억 파라미터 모델은 극소수 빅테크 기업의 전유물이었지만, 이제는 스타트업과 연구실에서도 70B급 LLM 파인튜닝을 시도합니다. 이런 상황에서 GPU 선택은 단순한 하드웨어 스펙 비교가 아니라, 프로젝트의 일정과 예산을 모두 좌우하는 전략적인 의사결정이 되었습니다.
문제는 선택지가 많아졌다는 것입니다. NVIDIA A100은 여전히 널리 쓰이는 학습용 GPU이고, H100은 차세대 성능을 내세우며 빠르게 보급되고 있습니다. ‘A100이면 충분한지, H100으로 가야 하는지’에 관한 답은 내 모델의 규모, 학습 시간, 그리고 총 비용에 따라 완전히 달라집니다.
이번 글에서는 두 GPU의 핵심 스펙을 비교하고, 딥러닝 모델 유형별 권장 사양을 정리한 뒤 실질적인 비용 효율성까지 확인해 보겠습니다.
2. A100 vs H100 핵심 스펙 비교
H100이 A100보다 빠르다는 건 누구나 압니다. 중요한 건 ‘어디에서 얼마나 빠른가, 그리고 그 차이가 내 워크로드에서도 과연 유효한가’입니다.
① 연산 성능 : 3배 vs 6배, 무조건 6배가 좋다?
A100은(Ampere, 2020)은 3세대 텐서 코어를 탑재해 FP32 기준 19.5 TFLOPS를 제공합니다. H100(Hopper, 2022)은 4세대 텐서 코어에 트랜스포머 엔진까지 더해 FP32 약 60 TFLOPS — 원시 연산 성능만 약 3배입니다.
하지만 진짜 차이는 FP8에서 벌어집니다. H100은 FP8 연산을 네이티브로 지원하는 최초의 데이터센터 GPU입니다. 트랜스포머 모델에 한정하면, A100 대비 최대 6배 빠른 연산이 가능합니다. 반면, CNN 기반 비전 모델이나 전통적인 HPC 워크로드에서는 성능 격차가 20~30% 수준으로 급격히 줄어듭니다.
즉, ‘H100이 6배 빠르다’는 말은 트랜스포머 + FP8 조합에서만 성립합니다. 내 모델이 그 조합에 해당하는지가 첫 번째 판단 기준입니다.
항목 | A100 80GB SXM | H100 80GB SXM |
|---|---|---|
아키텍처 | Ampere (7nm) | Hopper (4nm) |
CUDA 코어 | 6,912개 | 16,896개 |
텐서 코어 | 432개 (3세대) | 528개 (4세대) |
FP32 성능 | 19.5 TFLOPS | ~60 TFLOPS |
FP8 지원 | 미지원 | 네이티브 지원 |
TDP | 400W | 700W |
② 메모리 : 같은 80GB인데 왜 체감은 다른가
VRAM 용량은 둘 다 80GB로 동일합니다. 그런데 실제로 써보면 체감 속도가 다릅니다. 이유는 메모리 대역폭 때문입니다.
A100의 HBM2e는 약 2TB/s, H100의 HBM3는 약 3.35TB/s — 67% 차이입니다. 이 부분이 중요한 이유는, 대규모 배치로 학습할 때 GPU가 데이터를 읽고 쓰는 속도가 곧 학습 속도의 병목이 되기 때문입니다. 배치 사이즈를 키울수록 이 차이는 더 벌어집니다.
멀티 GPU 분산 학습을 하는 팀이라면 NVLink 대역폭도 반드시 확인해야 합니다. A100의 NVLink 3.0(600GB/s) 대비 H100의 NVLink 4.0(900GB/s)은 50% 향상, 텐서 병렬화나 FSDP를 적극 쓰는 환경이라면 이 차이가 전체 학습 시간에 직접적으로 반영됩니다.
③ 트랜스포머 엔진 : H100만의 차별점
H100의 가장 큰 차별점은 트랜스포머 엔진입니다. 이 엔진은 FP8과 FP16 정밀도를 학습 중에 동적으로 전환하며, 별도의 코드 수정 없이 트랜스포머 모델의 학습과 추론 속도를 크게 높여줍니다.
실제 벤치마크 결과를 보면, 8×H100 클러스터가 GPT-3(175B)을 학습하는 데 약 7분이 걸린 반면, 동일 구성의 8×A100 클러스터는 약 28분이 필요했습니다. 약 4배 차이입니다. 추론에서는 격차가 더 벌어져, H100이 13B~70B 모델 기준 초당 약 250~300 토큰을 처리하는 반면, A100은 약 130 토큰에 머뭅니다.
다만, 이 수치를 내 프로젝트에 그대로 대입해서는 안 됩니다. 대규모 트랜스포머에 최적화된 환경의 결과이고, 실제 워크로드에서는 독립 벤치마크 기준 2~3배 향상이 현실적인 기대치입니다.
3. “그래서 내 모델엔 뭘 써야 하는데?” — 모델별 GPU 선택 체크 리스트
스펙은 충분히 봤습니다.
이제 아래 체크 리스트로 30초 만에 나에게 필요한 GPU를 판단해 보세요.
✅ 학습하려는 모델의 파라미터 수는?
① 1B ~ 13B 이하 : A100
② 13B ~ 70B : 워크로드에 따라 A100 또는 H100
③ 70B 이상 : H100 (강력 권장)
✅ 학습 방식은?
① LoRA/QLoRA 파인튜닝 : A100
② 풀 파인튜닝 또는 프리트레이닝 : H100
✅ 모델 아키텍처는?
① 트랜스포머 기반 (GPT, LLaMA, BERT 등) : H100 (FP8 이점 극대화)
② CNN, Diffusion, GAN 등 : A100 (비용 우선 판단)
✅ 현재 프로젝트 단계는?
① 초기 실험·PoC : A100 (빠르게 돌려보기)
② 본학습·프로덕션 준비 : 워크로드에 맞는 GPU로 전환
✅ 추론 서빙 여부는?
① 높은 동시 접속·실시간 응답 필요 : H100 (토큰 처리량 2배)
② 내부 테스트·소규모 서빙 : A100으로 비용 절감
4. 해외 벤치마크가 증명하는 진짜 가성비, H100
GPU 비교에서 가장 흔한 실수는 시간당 단가만 비교하는 것입니다. 실제로 중요한 것은 ‘이 학습을 완료하는 데 총 얼마가 드는가’입니다.
2026년 현재, 시장에서 A100은 시간당 약 $1.3~2.5, H100은 시간당 약 $2.0~3.0 수준에서 거래되고 있습니다. 단순 비교하면 A100이 저렴해 보입니다. 하지만 학습 시간을 곱해보면 이야기가 달라집니다.
① 토큰당 비용으로 H100이 7배 저렴한 경우 : 대규모 모델에서의 비용 역전
해외 클라우드 인프라 벤치마크에 따르면, 처리 속도와 시간 당 비용을 종합했을 때 1,000만 토큰을 학습시키는 데 드는 비용은 다음과 같이 역전됩니다.
항목 | A100 | H100 |
|---|---|---|
1,000만 토큰 학습 비용 | 약 $6.32 | 약 $0.88 |
비용 차이 | — | 약 86% 절감 |
시간당 렌탈 비용은 H100이 더 비싸지만, H100의 처리 속도가 압도적으로 빠르기 때문에 동일한 작업을 완료하는 데 필요한 토큰당 비용(Cost per Token)은 오히려 H100이 훨씬 저렴해지는 것입니다. 무거운 워크로드일수록 H100의 가성비가 압도적으로 높아집니다.
② LLM 파인튜닝 소요 시간
항목 | A100 | H100 |
|---|---|---|
시간당 단가 (예시) | $2.0 | $3.0 |
대규모 모델 파인튜닝 소요 시간 | 24시간 | ~ 8시간 |
총 비용 | $48 | $24 |
절감 효과 | — | 50% 절감 |
A100 클러스터에서 24시간 걸리던 학습 작업이, H100(FP8 최적화 적용)에서는 약 8시간 만에 완료됩니다. 학습 시간이 1/3로 단축된다는 건, 일주일에 실험을 3번 하던 팀이 9번을 돌릴 수 있게 되는 것입니다. GPU 비용을 절감하는 것을 넘어, 연구 생산성 자체를 끌어올릴 수 있습니다.
③ 추론(Inference) 처리량 비교 : Llama 3 (70B) 기준
항목 | A100 80GB | H100 80GB |
|---|---|---|
초당 토큰 처리량 | 약 130 토큰 | 약 250 ~ 300 토큰 |
성능 차이 | — | 약 2 ~ 2.5배 |
H100의 처리 속도가 2배 이상 빠르기 때문에, 동일한 트래픽을 감당하는 데 필요한 GPU 수가 절반으로 줄어듭니다.
결국, 대규모 트랜스포머 워크로드에서는 A100으로 예산을 아끼려다 오히려 학습 기간이 길어져 더 많은 클라우드 비용을 지불하고 있지는 않은지 반드시 점검해야 합니다.
5. 그런데 작은 모델이라면? 답은 A100
4장까지 읽으면 ‘그럼 무조건 H100 아닌가?’ 싶을 수 있습니다. 하지만 작은 모델 워크로드에서는 H100이 오히려 비효율적입니다. 그 이유를 짚어보겠습니다.
① H100의 치명적 약점 : GPU Underutilization
H100은 어마어마한 연산량과 FP8 최적화를 자랑하지만, 작은 모델을 돌리거나 실험 초기 단계에서는 이 성능을 100% 끌어다 쓰지 못합니다. 작은 모델을 H100에 올리면 GPU 가동률(Utilization)이 30~40% 밑으로 떨어지는 경우가 빈번합니다. 텅 빈 80GB 메모리와 쉬고 있는 텐서 코어에 비싼 시간당 요금을 지불하는, 이른바 ‘오버엔지니어링(Over-engineering)’이 발생하는 것입니다.
A100은 작은 모델을 꽉 채워 돌리기에 가장 이상적인 체급입니다. GPU 자원을 낭비 없이 활용할 수 있어, 실질적인 비용 대비 효율이 훨씬 높습니다.
② 가성비 역전 : 성능 향상폭 < 비용 증가폭
대규모 모델(70B 이상)에서는 H100이 A100보다 2~3배 빠르기 때문에, 비싼 시간당 요금을 상쇄하고도 남습니다. 하지만 작은 모델에서는 이야기가 완전히 다릅니다.
7B 이하의 모델 추론 시, H100의 속도는 A100 대비 약 1.3~1.5배 빠른 수준에 그치는 경우가 많습니다. 반면, 시간당 클라우드 대여 비용은 H100이 A100보다 보통 2배 이상 비쌉니다. 즉, 작은 모델에서는 H100을 쓰면 처리 속도는 조금 빨라지지만, 토큰당 처리 비용(Cost per Token)은 오히려 더 비싸지는 ‘가성비 역전’이 일어납니다.
모델 규모 | 70B 이상 | 7B 이하 |
|---|---|---|
H100 속도 향상 | 2~3배 빠름 | 1.3~1.5배 빠름 |
H100 비용 증가 | ~2배 비쌈 | ~2배 비쌈 |
결론 | H100이 총비용 절감 | A100이 토큰당 비용 유리 |
③ 초기 실험(PoC)과 병렬 튜닝 : 같은 예산, 3배의 실험
스타트업이나 연구 조직이 여러 하이퍼파라미터를 동시에 테스트(Grid Search 등)하거나, 작은 모델 여러 개를 띄워놓고 실험해야 할 때가 있습니다. 이런 상황에서는 GPU의 절대적 성능보다 동시에 돌릴 수 있는 실험의 수가 프로젝트 속도를 결정합니다.
같은 예산이라면 H100 1대를 빌리는 것보다 A100 2~4대를 빌려 병렬로 다양한 실험을 동시에 돌리는 것이 프로젝트 속도를 높이는 데 훨씬 유리합니다. 거기에 더해, H100은 클라우드에서 인스턴스를 확보하기 위한 대기 시간(Queue)이 존재하는 경우가 있지만, A100은 상대적으로 즉시 할당받을 수 있다는 것도 실무에서 큰 장점입니다.
6. 결국 중요한 것은 상황에 맞는 전략적 선택
A100과 H100은 각각의 강점이 뚜렷한 GPU입니다. 단순히 스펙만 보기 보다 현재 팀의 프로젝트 단계를 기준으로 선택해야 합니다.
가장 현명한 전략은 ‘하이브리드 전략’입니다. 초기 모델 구조 탐색과 실험은 가성비 좋은 A100으로 빠르게 진행하고, 대규모 본학습 단계에서만 H100으로 전환해 시간을 단축하는 것이죠.
런유어에이아이는 GPU 클라우드 중개 플랫폼으로, 고성능 GPU를 필요한 순간에 바로 대여하고 사용한 만큼만 과금하는 구조를 통해 단일 GPU 인스턴스에 장기 약정으로 묶이지 않고, 내 워크로드에 맞춰 A100과 H100을 자유롭게 스위칭할 수 있습니다.
실제 사용한 시간만큼만 크레딧으로 결제하여, 해외 대비 최대 60%까지 저렴한 가격으로 동일 스펙의 GPU를 이용할 수 있습니다. 실험 단계에서 A100으로 가볍게 시작하고, 본학습 단계에서 H100으로 전환하는 단계적 전략도 부담 없이 실행할 수 있습니다.
PyTorch, TensorFlow 등 주요 프레임워크의 템플릿 환경도 사전 구성되어 있어, 환경 설정에 시간을 쏟지 않고 모델 개발에 집중할 수 있습니다.
지금 바로 런유어에이아이에서 유연한 GPU 할당 환경을 경험해 보세요.
| 참고 자료