feat: [claude-code] 벤치마크 이름 hover 시 설명 툴팁 추가 (SWE-bench, GPQA, ARC-AGI 등)

This commit is contained in:
김보곤
2026-03-07 18:25:04 +09:00
parent a7287638c4
commit d2620ddd22

View File

@@ -72,6 +72,12 @@
/* 강점 태그 */
.strength-tag { display: inline-flex; align-items: center; gap: 3px; padding: 4px 10px; border-radius: 6px; font-size: 0.65rem; font-weight: 600; background: #f8fafc; border: 1px solid #e2e8f0; color: #475569; }
/* 벤치마크 툴팁 */
.bench-tip { position: relative; cursor: help; border-bottom: 1px dashed #94a3b8; }
.bench-tip-box { visibility: hidden; opacity: 0; position: absolute; bottom: calc(100% + 8px); left: 0; width: 280px; padding: 10px 12px; background: #1e293b; color: #f1f5f9; font-size: 0.7rem; line-height: 1.6; border-radius: 8px; box-shadow: 0 8px 24px rgba(0,0,0,0.25); z-index: 50; pointer-events: none; transition: opacity 0.15s, visibility 0.15s; font-weight: 400; }
.bench-tip-box::after { content: ''; position: absolute; top: 100%; left: 20px; border: 6px solid transparent; border-top-color: #1e293b; }
.bench-tip:hover .bench-tip-box { visibility: visible; opacity: 1; }
/* 모델 티어 */
.tier-flagship { border-left: 4px solid #7c3aed; }
.tier-balanced { border-left: 4px solid #2563eb; }
@@ -1177,5 +1183,32 @@ function switchCcTab(index) {
section.classList.toggle('active', i === index);
});
}
// 벤치마크 툴팁 자동 생성
(function() {
const benchInfo = {
'SWE-bench Verified': 'SWE-bench Verified는 실제 GitHub 이슈를 AI가 자동으로 해결하는 능력을 측정합니다. 12개 오픈소스 프로젝트(Django, Flask, scikit-learn 등)의 실제 버그 리포트를 주고, 코드를 수정하여 테스트를 통과시키는 벤치마크입니다.',
'SWE-bench': 'SWE-bench는 실제 GitHub 이슈를 AI가 자동으로 해결하는 능력을 측정합니다. 12개 오픈소스 프로젝트의 실제 버그를 코드 수정으로 해결하는 벤치마크입니다.',
'GPQA Diamond': 'GPQA(Graduate-Level Google-Proof Q&A) Diamond는 박사급 전문가가 작성한 과학 문제(물리, 화학, 생물학)로 구성됩니다. 구글 검색으로도 답을 찾기 어려운 난이도로, AI의 심층 추론 능력을 평가합니다.',
'GPQA (Extended)': 'GPQA(Graduate-Level Google-Proof Q&A)는 박사급 과학 문제로 AI의 심층 추론 능력을 평가합니다. Extended는 확장 사고(Extended Thinking) 모드에서 측정한 점수입니다.',
'ARC-AGI 2': 'ARC-AGI 2(Abstraction and Reasoning Corpus)는 AI의 추상적 추론 능력을 측정합니다. 패턴 인식, 공간 추론 등 인간의 직관적 사고에 가까운 문제들로 구성되며, 범용 지능(AGI) 수준을 가늠하는 지표입니다.',
'OSWorld': 'OSWorld는 AI가 실제 컴퓨터를 조작하는 능력을 측정합니다. GUI 탐색, 마우스/키보드 조작, 폼 입력, 멀티스텝 워크플로우 등 사람처럼 데스크톱을 사용하는 능력을 평가합니다.',
'MRCR 256K (Long Context)': 'MRCR(Multi-Round Coreference Resolution)은 긴 컨텍스트에서 정보를 정확히 검색하고 참조하는 능력을 측정합니다. 256K 토큰 문맥 속에서 특정 정보를 찾아내는 "바늘 찾기" 테스트입니다.'
};
document.querySelectorAll('.bench-label').forEach(function(label) {
var nameSpan = label.querySelector('span:first-child');
if (!nameSpan) return;
var name = nameSpan.textContent.trim();
var desc = benchInfo[name];
if (!desc) return;
nameSpan.classList.add('bench-tip');
var tipBox = document.createElement('span');
tipBox.className = 'bench-tip-box';
tipBox.textContent = desc;
nameSpan.appendChild(tipBox);
});
})();
</script>
@endpush