Pular para o conteúdo
🆕 New skill: Security Specialist v2.0! 6-phase pipeline, 9 attack classes and adversarial validation.View skill →

Skill Evaluation

Avalia qualquer skill de agente contra 12 critérios de boas práticas definidos pela Anthropic e agentskills.io. Produz um scorecard markdown estruturado com notas por critério (0–100), classificação por categoria, bonus patterns e ações priorizadas.

  • Avaliar qualidade de uma skill antes de publicar
  • Auditar skills existentes para identificar melhorias
  • Comparar duas skills lado a lado
  • Verificar compliance com best practices da indústria
Terminal window
npx skills add https://github.com/fabricioctelles/skills -s skill-evaluation
# Critério Peso
1 Não diga o óbvio 2x
2 Seção de Gotchas 2x
3 Progressive disclosure 2x
4 Evita railroading 1x
5 Setup flow 1x
6 Descrição para trigger 2x
7 Mecanismo de memória 1x
8 Scripts & libraries 1x
9 On-demand hooks 1x
10 Concisão 2x
11 Escopo coerente 1x
12 Baseado em expertise real 2x
  • Validation loops
  • Output templates
  • Procedures over declarations
  • Defaults over menus
Skill Evaluation agentskills.io evals
Avalia Qualidade da estrutura Qualidade do output em uso
Método Inspeção estática Test cases + benchmark
Quando A skill está bem escrita? A skill funciona na prática?
Saída Scorecard 0-100 + grade pass_rate + tokens + time

Use esta skill primeiro para estrutura sólida, depois rode evals para validar performance.

# Skill Evaluation — skill-evaluation
> Evaluated: 2026-06-27
> Evaluator: skill-evaluation v1.0.0
## Summary
| Metric | Value |
|--------|-------|
| Overall Score | 62/100 |
| Grade | B |
| Category | code-quality-and-review |
| Files | 2 |
| Has references/ | yes |
| Has scripts/ | no |
## Scorecard
| # | Criterion | Score | Notes |
|---|-----------|-------|-------|
| 1 | Don't state the obvious | 85 | Framework é específico, não genérico |
| 2 | Gotchas section | 0 | Ausente — sem aviso de pitfalls |
| 3 | Progressive disclosure | 55 | 1 reference file, template inline |
| 6 | Description for trigger | 90 | Múltiplos triggers concretos |
| 10 | Conciseness | 70 | 223 linhas, output template poderia ser ref |
| 11 | Coherent scope | 95 | Faz UMA coisa bem |
| 12 | Grounded in expertise | 80 | 3 fontes autoritativas |
## Top 3 Improvements
1. Gotchas (0) — Adicionar pitfalls de avaliação multi-client
2. Scripts (0) — Criar quick-check.sh para critérios mensuráveis
3. Memory (0) — Manter evaluations.log para tracking de progresso

📄 Documentação completa no GitHub