A:MinerU-HTML是上海人工智能实验室开发的一个智能网页内容提取工具,它使用一个0.6亿参数的语言模型来准确识别网页中的主要内容,能够完美保持数学公式、代码块和表格等结构化内容的格式,比传统的Trafilatura等工具效果提升显著。