Files
sam-docs/deploys/ops-manual/08-troubleshooting.md
권혁성 94d65b8211 docs:E-Sign TCPDF 폰트 정의 파일 오류 트러블슈팅 추가
- TCPDF font definition file 오류 원인/진단/해결 문서화
- 개발 vs 운영 환경 차이 (vendor 권한) 비교표 추가
- registerKoreanFont() 코드 수정 배경 설명
- 긴급 임시 조치 명령어 포함
2026-02-26 15:47:49 +09:00

20 KiB

8. 장애 대응 가이드

목차로 돌아가기


운영서버 장애

Nginx 502 Bad Gateway

증상: 브라우저에서 502 에러. 정적 파일은 정상, 동적 요청만 실패.

진단:

sudo tail -50 /var/log/nginx/api.sam.it.kr.error.log
# "connect() failed" 또는 "no live upstreams" 메시지 확인

# Laravel 사이트인 경우
sudo systemctl status php8.4-fpm
ls -la /run/php/php8.4-fpm-*.sock

# Next.js 사이트인 경우
pm2 status

조치:

# PHP-FPM이 죽은 경우
sudo systemctl restart php8.4-fpm

# PM2가 죽은 경우
cd /home/webservice && pm2 start ecosystem.config.js
pm2 save

# Nginx 자체 문제
sudo nginx -t && sudo systemctl restart nginx

예방: PHP-FPM과 PM2는 자동 재시작 설정됨. 반복 발생 시 메모리 부족을 의심.


Nginx 504 Gateway Timeout

증상: 요청이 오래 걸린 후 504 에러. 무거운 API 호출에서 발생.

진단:

sudo tail -50 /var/log/nginx/api.sam.it.kr.error.log
# "upstream timed out" 메시지 확인
sudo tail -50 /var/log/mysql/slow.log

조치:

# 장시간 실행 중인 MySQL 쿼리 kill
sudo mysql -e "SHOW PROCESSLIST;" | grep -v Sleep
sudo mysql -e "KILL 프로세스_ID;"

# Nginx timeout 일시적 증가 (필요시)
# /etc/nginx/sites-available/api.sam.it.kr 에서 fastcgi_read_timeout 값 조정
sudo nginx -t && sudo systemctl reload nginx

예방: 무거운 작업은 Queue로 처리. 현재 fastcgi_read_timeout은 60초.


MySQL 연결 거부 / Too Many Connections

증상: "Connection refused" 또는 "Too many connections" 에러.

진단:

sudo systemctl status mysql
sudo mysql -e "SHOW STATUS LIKE 'Threads_connected';"
sudo mysql -e "SHOW VARIABLES LIKE 'max_connections';"
sudo mysql -e "SHOW PROCESSLIST;"

조치:

# MySQL이 정지된 경우
sudo systemctl start mysql

# Sleep 연결 정리 (300초 이상 유휴)
sudo mysql -e "SELECT id FROM information_schema.processlist WHERE command='Sleep' AND time > 300;" | while read id; do
  [ "$id" != "id" ] && sudo mysql -e "KILL $id;"
done

# 임시로 max_connections 증가 (재시작 없이)
sudo mysql -e "SET GLOBAL max_connections = 150;"

예방: max_connections(100)은 현재 규모에 적합. 부족 시 sam-tuning.cnf 조정.


[개발] MySQL 8.4 인증 플러그인 오류

증상: SQLSTATE[HY000] [2054] The server requested authentication method unknown to the client

원인: MySQL 8.4에서 mysql_native_password 플러그인이 기본 비활성화됨. 레거시 PHP(5130 등)의 mysqlnd가 caching_sha2_password를 지원하지 못함.

조치:

# 1. mysqld.cnf에 플러그인 활성화 추가
sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf
# [mysqld] 섹션에 추가:
# mysql_native_password=ON

# 2. MySQL 재시작
sudo systemctl restart mysql

# 3. 레거시 PHP용 계정 인증 방식 변경
mysql -u debian-sys-maint -p'비밀번호' -e "
ALTER USER '계정'@'localhost' IDENTIFIED WITH mysql_native_password BY '비밀번호';
FLUSH PRIVILEGES;"

실제 사례 (2026-02-25):

  1. 5130 레거시 사이트 로그인 시 2054 에러 발생
  2. /etc/mysql/mysql.conf.d/mysqld.cnfmysql_native_password=ON 추가 후 MySQL 재시작
  3. codebridge, pro, chandj 계정을 mysql_native_password로 변경하여 해결

참고: debian-sys-maint 비밀번호는 /etc/mysql/debian.cnf에서 확인 가능.


Redis 메모리 부족

증상: "OOM command not allowed" 메시지.

진단:

redis-cli info memory | grep used_memory_human
redis-cli config get maxmemory
redis-cli dbsize
redis-cli --bigkeys

조치:

cd /home/webservice/api/current && php artisan cache:clear
redis-cli keys "laravel_cache:*" | xargs redis-cli del
redis-cli flushall                 # 전체 초기화 (세션도 삭제 - 주의)
redis-cli config set maxmemory 768mb   # 임시 증가

예방: allkeys-lru 정책 설정됨. 512MB 부족 시 redis.conf에서 maxmemory 조정.


PM2 프로세스 크래시 / 재시작 반복

증상: sam.it.kr 접속 불가 또는 간헐적 502. PM2 status에서 restart 횟수 급증.

진단:

pm2 status
pm2 logs sam-front --err --lines 100
pm2 describe sam-front | grep memory

조치:

pm2 reload sam-front

# 문제 지속 시 완전 재시작
pm2 stop sam-front
cd /home/webservice && pm2 start ecosystem.config.js --only sam-front
pm2 save

# 로그 파일이 너무 큰 경우
pm2 flush

예방: max_memory_restart=300M 설정됨. 반복 크래시 시 코드 문제 조사.


Queue Worker 정지 / 미처리

증상: 이메일, 알림 등 비동기 작업 미처리.

진단:

sudo supervisorctl status
sudo tail -50 /home/webservice/api/shared/storage/logs/queue-worker.log
cd /home/webservice/api/current && php artisan queue:monitor redis:default

조치:

sudo supervisorctl restart sam-queue-worker:*

cd /home/webservice/api/current
php artisan queue:failed           # 실패한 작업 확인
php artisan queue:retry all        # 실패한 작업 재시도
php artisan queue:flush            # 실패한 작업 전체 삭제

예방: max-time=3600 설정 (1시간마다 자동 재시작). Supervisor가 프로세스 자동 복구.


SSL 인증서 만료

증상: 브라우저에서 "연결이 비공개가 아닙니다" 경고.

진단:

sudo certbot certificates
sudo systemctl status certbot.timer
echo | openssl s_client -servername api.sam.it.kr -connect 211.117.60.189:443 2>/dev/null | openssl x509 -noout -dates

조치:

sudo certbot renew
sudo certbot certonly --nginx -d api.sam.it.kr    # 특정 도메인만
sudo systemctl reload nginx

예방: certbot.timer 정상 작동 시 만료 30일 전 자동 갱신.


PHP-FPM Pool 소진 (max_children)

증상: 응답 지연 후 502. PHP-FPM 로그에 "server reached max_children" 경고.

진단:

sudo grep "max_children" /var/log/php8.4-fpm.log
ps aux | grep "php-fpm" | grep -v grep | wc -l

조치:

sudo systemctl restart php8.4-fpm

# max_children 조정 (예: api pool 10 -> 15)
sudo vi /etc/php/8.4/fpm/pool.d/api.conf
sudo systemctl reload php8.4-fpm

예방: 프로세스당 약 80MB. API pool: 10 x 80MB = 800MB. 메모리 여유 시만 증가.


Laravel Storage 권한 문제

증상: "Permission denied". 로그 파일 작성 불가. 파일 업로드 실패.

진단:

ls -la /home/webservice/api/shared/storage/
ls -la /home/webservice/api/shared/storage/logs/

조치:

sudo chown -R www-data:webservice /home/webservice/api/shared/storage
sudo chmod -R 775 /home/webservice/api/shared/storage
sudo chown -R www-data:webservice /home/webservice/api/current/bootstrap/cache
sudo chmod -R 775 /home/webservice/api/current/bootstrap/cache

예방: 배포 스크립트에 권한 설정 포함. shared/storage 심링크 확인.


MNG 500 에러 (storage/logs 권한 + SOAP)

증상: mng.codebridge-x.com 특정 페이지에서 500 에러. Laravel 로그에 기록 없음.

배경: 2026-02-26 이후 MNG storage/logs는 shared로 심링크됨. 이전에는 릴리즈 디렉토리에 직접 생성되어 배포마다 로그가 유실되었음.

진단 순서:

# 1. 로그 심링크 확인
ls -la /home/webservice/mng/current/storage/logs
# → shared/storage/logs 심링크인지 확인

# 2. 로그 파일 소유자 확인
ls -la /home/webservice/mng/shared/storage/logs/laravel.log

# 3. nginx 접근 로그에서 500 확인
sudo tail -20 /var/log/nginx/mng.codebridge-x.com.access.log | grep " 500 "

조치:

# 로그 심링크가 아닌 경우 (이전 배포 방식)
rm -rf /home/webservice/mng/current/storage/logs
ln -sfn /home/webservice/mng/shared/storage/logs /home/webservice/mng/current/storage/logs

# shared 로그 권한 수정
sudo chown www-data:webservice /home/webservice/mng/shared/storage/logs/
sudo chown www-data:webservice /home/webservice/mng/shared/storage/logs/laravel.log

# 로그 확인
cat /home/webservice/mng/shared/storage/logs/laravel.log

실제 사례 (2026-02-25):

  1. 최초 증상: Table 'sam.cache' doesn't existCACHE_STORE=database였으나 cache 테이블 미존재
  2. 해결: .env에서 CACHE_STORE=redis로 변경 + php artisan config:cache
  3. 여전히 500 → 로그 파일 권한 문제로 에러 미기록 → 권한 수정 후 실제 에러 확인
  4. 실제 원인: Class "SoapClient" not foundphp8.4-soap 미설치
  5. 최종 해결: sudo apt install php8.4-soap && sudo systemctl restart php8.4-fpm

교훈:

  • MNG 로그는 shared/storage/logs/에 있음 (2026-02-26~)
  • 500 에러인데 로그가 비어있으면 심링크 여부 → 파일 권한 순서로 확인
  • PHP 확장 누락은 artisan tinker로 확인 가능: php artisan tinker --execute="new SoapClient('test');"

MNG 전자계약(E-Sign) PDF 서명 합성 오류

증상: 전자계약 완료 후 다운로드한 PDF에 서명/도장/텍스트가 적용되지 않음. DB에서 signed_file_path가 null.

진단:

# 1. 완료됐지만 signed_file_path 없는 계약 확인
cd /home/webservice/mng/current && php artisan tinker --execute="
\$contracts = App\Models\ESign\EsignContract::withoutGlobalScopes()
    ->where('status', 'completed')->whereNull('signed_file_path')
    ->get(['id','tenant_id','status','completed_at']);
echo \$contracts->toJson(JSON_PRETTY_PRINT);
"

# 2. 서명 이미지 파일 존재 확인
sudo ls -la /home/webservice/mng/shared/storage/app/private/esign/*/signatures/

# 3. signed 디렉토리 존재 및 권한 확인
ls -la /home/webservice/mng/shared/storage/app/private/esign/*/signed/

# 4. 로그 확인
grep -i "서명\|esign\|pdf" /home/webservice/mng/shared/storage/logs/laravel.log | tail -20

# 5. 한글 폰트 확인
ls -la /usr/share/fonts/truetype/nanum/NanumGothic.ttf

조치 (수동 PDF 재합성):

cd /home/webservice/mng/current && sudo -u www-data php artisan tinker --execute="
try {
    \$contract = App\Models\ESign\EsignContract::withoutGlobalScopes()->find(<계약ID>);
    \$pdfService = new App\Services\ESign\PdfSignatureService;
    \$result = \$pdfService->mergeSignatures(\$contract);
    echo 'SUCCESS: ' . \$result;
} catch (\Throwable \$e) {
    echo 'ERROR: ' . \$e->getMessage();
}
"

주의: 반드시 sudo -u www-data로 실행해야 서명 이미지 파일 접근 가능.

주요 원인 및 해결:

원인 진단 방법 해결
signed/ 디렉토리 미존재 ls esign/*/signed/ sudo -u www-data mkdir -p esign/{tenant_id}/signed
signatures/ 권한 부족 stat esign/*/signatures/ sudo chmod 2775 esign/*/signatures/
로그 유실로 에러 추적 불가 ls -la current/storage/logs storage/logs → shared 심링크 확인
한글 폰트 미설치 ls /usr/share/fonts/truetype/nanum/ sudo apt install fonts-nanum
FPDI/TCPDF 미설치 composer show setasign/fpdi composer install
TCPDF 폰트 정의 파일 오류 아래 "TCPDF 폰트 정의 파일 오류" 참고 registerKoreanFont() 코드 수정

esign 디렉토리 권한 기준:

# 모든 esign 하위 디렉토리: www-data:webservice 2775
sudo chown -R www-data:webservice /home/webservice/mng/shared/storage/app/private/esign/
sudo chmod -R 2775 /home/webservice/mng/shared/storage/app/private/esign/

실제 사례 (2026-02-26):

  1. 계약 #17이 completed인데 signed_file_path가 null
  2. 원인: signatures/ 디렉토리 권한 2700 (www-data만 접근 가능), signed/ 디렉토리 미존재
  3. 추가 원인: storage/logs가 릴리즈 디렉토리에 있어 이전 배포 로그 유실
  4. 조치: 권한 2775로 수정 + sudo -u www-data로 수동 재합성 + storage/logs 심링크 적용
  5. 결과: 409KB signed PDF 생성 (원본 265KB + 서명 이미지 144KB)

TCPDF 폰트 정의 파일 오류 (font definition file)

증상: 전자계약 서명 페이지에서 TCPDF ERROR: Could not include font definition file: pretendard (또는 nanumgothic) 오류.

근본 원인:

운영 환경에서 vendor/tecnickcom/tcpdf/fonts/ 디렉토리가 배포 사용자(hskwon) 소유이므로 PHP-FPM(www-data)이 쓰기 불가. TCPDF_FONTS::addTTFfont()는 폰트 캐시 파일(.php, .z, .ctg.z)을 생성만 하고, $pdf->SetFont('폰트명')K_PATH_FONTS(vendor 경로)에서 찾기만 해서 경로 불일치 발생.

개발서버는 vendor/ 권한이 2775 pro:develop이라 PHP가 직접 쓸 수 있어 문제없음.

진단:

# 폰트 캐시 존재 확인 (storage에 있으나 vendor에 없는 상태)
ls -la /home/webservice/mng/shared/storage/app/private/fonts/
ls /home/webservice/mng/current/vendor/tecnickcom/tcpdf/fonts/pretendard* 2>/dev/null

# vendor fonts 소유자 확인
stat -c "%U:%G %a" /home/webservice/mng/current/vendor/tecnickcom/tcpdf/fonts/

# 에러 로그 확인
grep -i "font definition\|Could not include" /home/webservice/mng/shared/storage/logs/laravel.log

영구 해결 (코드 수정 - 2026-02-26 적용):

PdfSignatureService.php에서 registerKoreanFont(Fpdi $pdf) 메서드로 분리하여:

  1. 폰트 캐시를 storage/app/private/fonts/에 생성 (vendor 의존 제거)
  2. $pdf->AddFont('pretendard', '', $fontDefFile) — PDF 인스턴스에 전체 경로로 등록
  3. 이후 SetFont('pretendard')가 이미 등록된 폰트를 사용하므로 K_PATH_FONTS 미참조

긴급 임시 조치 (코드 수정 전):

# vendor 폰트 디렉토리 권한 변경 (배포 시마다 초기화됨)
sudo chown -R www-data:webservice /home/webservice/mng/current/vendor/tecnickcom/tcpdf/fonts/
sudo chmod -R 775 /home/webservice/mng/current/vendor/tecnickcom/tcpdf/fonts/

# 기존 캐시 삭제 (코드 수정 후 새 경로로 재생성)
sudo rm -f /home/webservice/mng/shared/storage/app/private/fonts/pretendard.*
sudo rm -f /home/webservice/mng/shared/storage/app/private/fonts/nanumgothic.*

개발 vs 운영 환경 차이:

항목 개발 서버 운영 서버
vendor/ 소유자 pro:develop (2775) hskwon:hskwon (배포 사용자)
www-data vendor 쓰기 가능 불가
폰트 캐시 위치 vendor 내부 (기본) storage/app/private/fonts/
addTTFfont() 결과 vendor에 캐시 생성 → SetFont 성공 storage에 캐시 생성 → SetFont 실패 (경로 불일치)

공통 장애

디스크 공간 부족

증상: 서비스 오류. 로그 기록 실패. MySQL 쓰기 실패.

진단:

df -h
sudo du -sh /var/log/*

[운영] 정리:

cd /home/webservice/api/releases && ls -1dt */ | tail -n +4 | xargs rm -rf
cd /home/webservice/react/releases && ls -1dt */ | tail -n +4 | xargs rm -rf
sudo find /var/log -name "*.gz" -mtime +30 -delete
sudo truncate -s 0 /home/webservice/api/shared/storage/logs/laravel.log
pm2 flush
sudo mysql -e "PURGE BINARY LOGS BEFORE DATE_SUB(NOW(), INTERVAL 7 DAY);"
sudo apt clean

[CI/CD] 정리:

sudo rm -rf /var/lib/jenkins/workspace/*
sudo find /var/lib/jenkins/jobs/*/builds -maxdepth 1 -type d -mtime +30 -exec rm -rf {} +
sudo journalctl --vacuum-size=500M
find /home/hskwon/backups -name "*.sql.gz" -mtime +14 -delete
sudo apt clean && sudo apt autoremove -y

메모리 부족 (OOM)

증상: 프로세스 갑자기 종료. dmesg에 "Out of memory" 메시지.

진단:

free -h
sudo dmesg | grep -i "out of memory"
sudo dmesg | grep -i "killed process"
ps aux --sort=-%mem | head -15

[운영] 조치:

cd /home/webservice/api/current && php artisan cache:clear
redis-cli flushall

[운영] 메모리 배분: MySQL 2GB, Redis 512MB, PHP-FPM ~1.5GB, PM2 ~0.75GB, OS ~3GB

[CI/CD] 조치:

# Jenkins JVM 메모리 축소 (긴급)
# override.conf: -Xmx2048m -> -Xmx1536m
sudo systemctl daemon-reload
sudo systemctl restart jenkins

서버 접속 불가 (SSH 타임아웃)

진단 (로컬에서):

ping 서버_IP
nc -zv 서버_IP 22
nc -zv 서버_IP 80

조치:

  • ping 응답 없음: IDC 업체에 서버 상태 확인 요청
  • ping 응답, SSH 불가: fail2ban IP 차단 의심. IDC 콘솔 또는 다른 IP에서 접속하여 sudo fail2ban-client set sshd unbanip 본인_IP
  • 웹은 되나 SSH만 불가: sudo systemctl restart sshd (IDC 콘솔)

예방: 관리자 IP를 fail2ban whitelist에 추가.


fail2ban 정상 IP 차단

진단:

sudo fail2ban-client status sshd
sudo fail2ban-client get sshd banned | grep 차단의심_IP

조치:

sudo fail2ban-client set sshd unbanip 차단된_IP주소
sudo systemctl restart fail2ban       # 전체 차단 초기화

예방:

# /etc/fail2ban/jail.local
[DEFAULT]
ignoreip = 127.0.0.1/8 관리자_IP_1 관리자_IP_2

CI/CD 서버 장애

Jenkins 시작 실패

진단:

sudo journalctl -u jenkins --since "10 minutes ago" --no-pager
ps aux | grep java
df -h
free -h

(a) Java Heap 메모리 부족 (로그: java.lang.OutOfMemoryError: Java heap space)

cat /etc/systemd/system/jenkins.service.d/override.conf
# -Xmx 값 조정
sudo systemctl daemon-reload
sudo systemctl restart jenkins

(b) 디스크 공간 부족 (로그: No space left on device)

sudo rm -rf /var/lib/jenkins/workspace/*
sudo find /var/lib/jenkins/jobs/*/builds -maxdepth 1 -type d -mtime +30 -exec rm -rf {} +
sudo journalctl --vacuum-size=500M
sudo systemctl restart jenkins

(c) 플러그인 충돌 (업데이트 후 시작 실패, ClassNotFoundException)

ls -lt /var/lib/jenkins/plugins/*.jpi | head -10
sudo rm /var/lib/jenkins/plugins/문제플러그인.jpi
sudo systemctl restart jenkins

Jenkins 빌드 실패

(a) npm/composer 오류:

sudo -u jenkins npm cache clean --force
sudo rm -rf /var/lib/jenkins/workspace/<JOB>/node_modules

(b) SSH 키 문제: (Permission denied, Host key verification failed)

sudo -u jenkins ssh -i /var/lib/jenkins/.ssh/id_ed25519 hskwon@211.117.60.189 "echo OK"
sudo -u jenkins ssh-keyscan -H 211.117.60.189 >> /var/lib/jenkins/.ssh/known_hosts
sudo -u jenkins ssh-keyscan -H 114.203.209.83 >> /var/lib/jenkins/.ssh/known_hosts

(c) rsync 실패: (connection unexpectedly closed)

ssh sam-prod "df -h"
ssh sam-prod "ls -la /home/webservice/react/"

Gitea 접속 불가

진단:

sudo systemctl status gitea
curl -I http://localhost:3000
sudo ss -tlnp | grep 3000

(a) 포트 충돌:

sudo fuser 3000/tcp
sudo systemctl restart gitea

(b) DB 연결 실패:

sudo systemctl status mysql
mysql -u gitea -p gitea -e "SELECT 1;"
sudo systemctl restart mysql && sudo systemctl restart gitea

(c) 설정 파일 오류:

sudo chown git:git /etc/gitea/app.ini
sudo systemctl restart gitea

Gitea push/pull 느림

sudo tail -50 /var/lib/gitea/log/gitea.log
sudo du -sh /var/lib/gitea/data/repositories/SamProject/*

# Git GC (저장소 최적화)
sudo -u git git -C /var/lib/gitea/data/repositories/SamProject/sam-react-prod.git gc --aggressive
sudo systemctl restart gitea

Prometheus 스크래핑 실패

증상: Grafana에서 데이터 없음.

sudo systemctl status prometheus
curl -s http://localhost:9090/api/v1/targets | python3 -m json.tool | grep -A5 "health"
promtool check config /etc/prometheus/prometheus.yml

# 대상 서버 연결 확인
curl -s --connect-timeout 5 http://211.117.60.189:9100/metrics | head -5
ssh sam-prod "sudo ufw status | grep 9100"

Grafana 대시보드 로딩 실패

sudo systemctl status grafana-server
curl -I http://localhost:3100
sudo systemctl restart grafana-server

긴급 연락처

역할 연락처 비고
서버 관리 hskwon SSH 접속 가능
IDC 업체 (확인 후 기입 필요) 서버 물리적 장애, 네트워크