딥러닝 프레임워크 이야기를 하다 보면 결국 한 지점에서 만난다.
요즘 AI 분야를 움직이는 중심은 단연 LLM이다.
GPT, LLaMA, Claude, Gemini 같은 모델들이 모두 여기에 속한다.
그런데 이런 거대한 언어 모델을 만드는 연구들은 대부분 PyTorch 기반이다.
왜 이렇게 되었을까?
이번 편에서는 그 이유를 한 번 차근차근 살펴본다.
1. LLM은 실험이 많다
LLM을 만드는 과정은 단순한 모델 학습이 아니다.
새로운 attention 구조를 시험하거나, 토크나이저 방식을 바꾸거나, 레이어를 수백 개씩 쌓아보고 성능을 비교하는 등
끝없는 실험의 반복이다.
이럴 때 PyTorch의 동적 그래프 구조가 큰 장점이 된다.
- 코드 그대로 실행되고
- 구조를 수정하기 쉽고
- 디버깅이 빠르다
연구자 입장에서 “손으로 만지기 편한 도구”라는 특징이 LLM 시대에 더 중요해졌다.
2. 커뮤니티가 빠르게 움직였다
PyTorch는 연구자들이 먼저 사용하면서 생태계가 폭발적으로 확장됐다.
특히 자연어 처리 분야에서 속도가 빨랐다.
- Transformer 논문 구현
- BERT
- GPT 시리즈 초기 버전
- LLaMA 계열
- RoBERTa, T5 등 수많은 모델
초기 공개 구현의 대부분이 PyTorch였고,
이 코드들이 GitHub에 빠르게 퍼지면서 PyTorch 중심 생태계가 굳어졌다.
TensorFlow도 모델이 없던 건 아니지만,
“실험이 편한 쪽”에 사람들이 몰리면서 결국 PyTorch 중심 구조가 자리 잡게 됐다.
3. HuggingFace가 PyTorch 선택에 결정적 영향을 줬다
HuggingFace Transformers 라이브러리는 LLM 개발의 핵심 도구다.
논문 한 편만 나오면 곧바로 PyTorch 구현이 올라오고
전 세계 개발자들이 그 코드를 기반으로 실험을 이어간다.
Transformers 라이브러리가 처음부터 PyTorch를 기본으로 잡았기 때문에
LLM을 하고 싶으면 자연스럽게 PyTorch를 쓰는 환경이 되었다.
이건 생태계 관점에서 매우 큰 영향력이 있다.
4. 모델 구조가 커질수록 PyTorch의 유연함이 필요해졌다
LLM은 레이어가 수십 개에서 많게는 수백 개까지 쌓여 있다.
레이어마다 attention 모듈이 다양하게 붙고,
프롬프트 입력 처리나 캐싱 방식도 정교하다.
이렇게 복잡한 구조를 수정하려면
모델 구조를 “코드로 직접 만지기 쉬워야” 한다.
PyTorch는 이 부분이 강하고, TensorFlow는 상대적으로 접근 난도가 더 높다.
그래서 규모가 클수록 PyTorch가 편해진다.
5. 대규모 연구 기관이 PyTorch를 채택했다
OpenAI, Meta, Microsoft, StabilityAI 등
대부분의 주요 연구기관이 PyTorch 기반이다.
- GPT 시리즈: PyTorch
- LLaMA 계열: PyTorch
- Stable Diffusion: PyTorch
- 대부분의 논문 구현: PyTorch
대규모 모델이 PyTorch로 만들어지면
그 모델 위에서 연구하는 사람들도 자연스럽게 PyTorch를 선택하게 된다.
이렇게 생태계가 굳어지면, 프레임워크의 선택은 하나의 관성으로 자리 잡는다.
6. 그렇다면 TensorFlow는 사라진 걸까?
그건 아니다.
TensorFlow는 여전히 배포, 서버 운영, 모바일 환경에서 강력하다.
TensorFlow Lite, TensorFlow Serving, TPU 지원 등
서비스 운영 측면에서는 여전히 장점이 많다.
다만 LLM이라는 분야 자체가
“새로운 구조를 계속 실험하고 발전시키는 연구 중심 영역”이기 때문에
PyTorch가 더 자연스럽게 쓰이는 것이다.
7. 결론
LLM 시대에 PyTorch가 표준이 된 이유는 단순히 문법이 쉽기 때문이 아니다.
다음 요소들이 맞물려서 만들어진 흐름이다.
- 동적 그래프 기반의 실험 친화성
- NLP 커뮤니티의 초기 선택
- HuggingFace 지원
- 대규모 연구기관의 채택
- 복잡한 모델 구조에 대한 유연함
이 조합이 LLM 생태계를 아예 PyTorch 중심으로 굳혀버렸다.