Experimental Process Roadmap
As seções e diagramas abaixo ilustram as fases e etapas necessárias para o desenvolvimento desse projeto. Elas foram organizadas em alto nível, sem inserir detalhes técnicos, focando apenas em como os processos e dados se relacionam.
Esses diagramas servem como um mapa para direcionar a pesquisa, tanto na parte de teórica quanto na implementação, mas podem ser alterados conforme for necessário. Alguns nós possuem links para outras páginas com diagramas detalhados ou para a documentação da implementação relacionada ao processo indicado.
No decorrer do desenvolvimento desse documento foi notado que para desenvolver o modelo alvo provavelmente precisa desenvolver outros modelos antes. De modo geral, as fases descrevem apenas o desenvolvimento do modelo alvo, sendo necessário reavaliar como esse planejamento vai seguir. Talvez seja necessário repensar toda essa estrutura, migrando o pensamento de "cascada" para algo que não espera lineariadde.
Phase 1: Data Acquisition and Preparation
Com base nos estudos de [citações], ficou claro que a qualidade dos dados usados em modelos de linguagem é extremamente importante para garantir a acurácia dos resultados, principalmente quando se trata do uso modelos de linguagem pequenos [citações]. Como esses modelos possuem uma quantidade extremamente reduzida de parâmetros, pesos e janela de contexto, ele tende a não ser um bom modelo generalista[citações], além de ter mais chances e alucinar em longas conversas ou não conseguir relacionar corretamente os contexto [citações]. Portanto, pode-se dizer que essa etapa é a mais importante pra todo o projeto, estabelecendo um forte fundamento empírico.
flowchart LR
classDef phase fill:#f5f5f5,stroke:#333,stroke-width:2px,color:#000,rx:5,ry:5
PhaseA(A. Data Sources<br/>& Ingestion)
PhaseB(B. Segmentation<br/>& Extraction)
PhaseC(C. Normalization<br/>& Structuring)
PhaseD(D. Curation<br/>& Consolidation)
PhaseE(E. Generation<br/>& Validation)
PhaseA ==> PhaseB --> PhaseC --> PhaseD --> PhaseE
class PhaseA,PhaseB,PhaseC,PhaseD,PhaseE phase
click PhaseA "phase1/#a-data-sources-ingestion" "Go to Phase A details"
click PhaseB "phase1/#b-segmentation-extraction" "Go to Phase B details"
click PhaseC "phase1/#c-normalization-structuring" "Go to Phase C details"
click PhaseD "phase1/#d-curation-consolidation" "Go to Phase D details"
click PhaseE "phase1/#e-generation-validation" "Go to Phase E details"
Ela foi dividida em 5 etapas, que englobam o processo de adquirir os dados brutos e retornar dados prontos para serem usados nas demais fases. Resumidamente, A. Data Ingestion realiza a navegação do site da anvisa e o download das bulas, que são segmentadas e extraídas por B. Segmentation & Extraction. Em seguida a etapa C. Normalization & Structuring limpa e insere os textos em arquivos JSON, baseado nas seções das bulas, para que D. Curation & Consolidation possa rotular cada palavra, agrupar os documentos semelhantes e fundir tudo isso de forma que as informações seja agregadas sem duplicar as informações das mesmas substâncias. Por fim, uma das etapas mais importante de todo o projeto, E. Generation & Validation tem como objetivo gerar milhares de sentenças factuais usando como base os dados extraídos da bula. Como é uma etapa cheio de nuances, será melhor discutido sobre na seção correspondente.
Phase 2: System Design and Modeling
Essa fase estabelece como os experimentos vão ocorrer, delimitando o escopo deles e definindo como serão avaliados. Esse planejamento envolve desde questões conceituais relacionadas aos modelos de linguagem à questões de engenharia de software, no que diz a respeito da criação de todo um ecossistema responsável por todas as fases descritas. Essa documentação é um ponto de convergência dessa etapa.
Phase 3: Training and Optimization
During training, model parameters are optimized to approximate the target function. For LLMs, this encompasses pre-training, supervised fine-tuning (SFT), and iterative post-training methods such as RLHF or RLAIF. Optimization involves careful selection of learning rates, batch sizes, loss functions, and regularization strategies. Stability, convergence, and computational efficiency are central concerns at this stage.
Phase 4: Evaluation and Validation
The model must be evaluated rigorously across quantitative and qualitative dimensions. In traditional ML, this involves metrics such as accuracy, F1 score, or perplexity. For LLMs, the evaluation expands to include reasoning benchmarks, domain-specific test suites, human preference assessments, and safety analyses. Robust validation ensures the model not only performs well on held-out data but also behaves consistently and safely in real-world scenarios.
Phase 5: Qualitative Assessment
The final phase closes the research cycle through qualitative validation and the consolidation of experimental results. Instead of large-scale production monitoring, the focus shifts to expert assessment and collecting qualified feedback to verify the thesis hypotheses. This stage involves the statistical synthesis of collected metrics, comparative analysis between the different tested architectures, and documentation of observed limitations. The data generated here directly informs the writing of the conclusion, transforming interaction logs and benchmark results into scientific evidence that supports the feasibility of using SLMs in the pharmaceutical domain.