diff --git a/resources/views/claude-code/history/index.blade.php b/resources/views/claude-code/history/index.blade.php index 14f3d01d..19898b99 100644 --- a/resources/views/claude-code/history/index.blade.php +++ b/resources/views/claude-code/history/index.blade.php @@ -72,6 +72,12 @@ /* 강점 태그 */ .strength-tag { display: inline-flex; align-items: center; gap: 3px; padding: 4px 10px; border-radius: 6px; font-size: 0.65rem; font-weight: 600; background: #f8fafc; border: 1px solid #e2e8f0; color: #475569; } + /* 벤치마크 툴팁 */ + .bench-tip { position: relative; cursor: help; border-bottom: 1px dashed #94a3b8; } + .bench-tip-box { visibility: hidden; opacity: 0; position: absolute; bottom: calc(100% + 8px); left: 0; width: 280px; padding: 10px 12px; background: #1e293b; color: #f1f5f9; font-size: 0.7rem; line-height: 1.6; border-radius: 8px; box-shadow: 0 8px 24px rgba(0,0,0,0.25); z-index: 50; pointer-events: none; transition: opacity 0.15s, visibility 0.15s; font-weight: 400; } + .bench-tip-box::after { content: ''; position: absolute; top: 100%; left: 20px; border: 6px solid transparent; border-top-color: #1e293b; } + .bench-tip:hover .bench-tip-box { visibility: visible; opacity: 1; } + /* 모델 티어 */ .tier-flagship { border-left: 4px solid #7c3aed; } .tier-balanced { border-left: 4px solid #2563eb; } @@ -1177,5 +1183,32 @@ function switchCcTab(index) { section.classList.toggle('active', i === index); }); } + +// 벤치마크 툴팁 자동 생성 +(function() { + const benchInfo = { + 'SWE-bench Verified': 'SWE-bench Verified는 실제 GitHub 이슈를 AI가 자동으로 해결하는 능력을 측정합니다. 12개 오픈소스 프로젝트(Django, Flask, scikit-learn 등)의 실제 버그 리포트를 주고, 코드를 수정하여 테스트를 통과시키는 벤치마크입니다.', + 'SWE-bench': 'SWE-bench는 실제 GitHub 이슈를 AI가 자동으로 해결하는 능력을 측정합니다. 12개 오픈소스 프로젝트의 실제 버그를 코드 수정으로 해결하는 벤치마크입니다.', + 'GPQA Diamond': 'GPQA(Graduate-Level Google-Proof Q&A) Diamond는 박사급 전문가가 작성한 과학 문제(물리, 화학, 생물학)로 구성됩니다. 구글 검색으로도 답을 찾기 어려운 난이도로, AI의 심층 추론 능력을 평가합니다.', + 'GPQA (Extended)': 'GPQA(Graduate-Level Google-Proof Q&A)는 박사급 과학 문제로 AI의 심층 추론 능력을 평가합니다. Extended는 확장 사고(Extended Thinking) 모드에서 측정한 점수입니다.', + 'ARC-AGI 2': 'ARC-AGI 2(Abstraction and Reasoning Corpus)는 AI의 추상적 추론 능력을 측정합니다. 패턴 인식, 공간 추론 등 인간의 직관적 사고에 가까운 문제들로 구성되며, 범용 지능(AGI) 수준을 가늠하는 지표입니다.', + 'OSWorld': 'OSWorld는 AI가 실제 컴퓨터를 조작하는 능력을 측정합니다. GUI 탐색, 마우스/키보드 조작, 폼 입력, 멀티스텝 워크플로우 등 사람처럼 데스크톱을 사용하는 능력을 평가합니다.', + 'MRCR 256K (Long Context)': 'MRCR(Multi-Round Coreference Resolution)은 긴 컨텍스트에서 정보를 정확히 검색하고 참조하는 능력을 측정합니다. 256K 토큰 문맥 속에서 특정 정보를 찾아내는 "바늘 찾기" 테스트입니다.' + }; + + document.querySelectorAll('.bench-label').forEach(function(label) { + var nameSpan = label.querySelector('span:first-child'); + if (!nameSpan) return; + var name = nameSpan.textContent.trim(); + var desc = benchInfo[name]; + if (!desc) return; + + nameSpan.classList.add('bench-tip'); + var tipBox = document.createElement('span'); + tipBox.className = 'bench-tip-box'; + tipBox.textContent = desc; + nameSpan.appendChild(tipBox); + }); +})(); @endpush