html-content-extraction


正则表达式从HTML中提取文本

我想从一般HTML页面中提取所有文本 显示与否 。 我想删除 任何HTML标签 任何javascript 任何CSS样式 是否有正则表达式 一个或多个 将实现这一目标

html regex html-content-extraction text-extraction
使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本。 如果要从浏览器复制文本并将其粘贴到记事本中,我希望得到的输出基本上相同。 我想要比使用正则表达式更强大的功能,而正则表达式可能在格式不正确的HTML上失败。 我见过很多人推荐 美丽汤 ,但使用它时遇到了一些问题。 例如,它拾取了不需要的文本,例如Ja

python html text html-content-extraction
你如何解析格式不佳的HTML文件?

我必须解析一系列网页才能将数据导入应用程序。 每种类型的网页都提供相同类型的数据。 问题是每个页面的HTML不同,因此数据的位置会有所不同。 另一个问题是HTML代码格式不正确,因此无法使用类似XML的解析器。 到目前为止,我能想到的最好的策略是为每种页面定义一个模板,例如: 模板A: 模板B:

html parsing text html-content-extraction
使用BeautifulSoup查找包含特定文本的HTML标记

我正在尝试获取包含以下文本模式的HTML文档中的元素: S 所以,之前的匹配将使用: 结果将是这样的: 我能够得到匹配的所有文本 见上面的行 。 但我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点。 在这种情况下,我希望返回所有h 元素,而不是文本匹配。 想法

python regex beautifulsoup html-content-extraction
从HTML正文中提取文本片段(在.NET中)

我有一个HTML内容,它是由用户通过RTF编辑器输入的,因此它几乎可以是任何内容 减少那些不应位于body标记之外的内容,不必担心 head 或doctype等 。 此内容的一个示例: 诀窍是,我只需要提取文本的前 个字符 去除HTML标记 。 我还需要保留换行符,并且不中断任何单词。 因此,以上

asp.net html regex string html-content-extraction
如何使用Perl有效地提取HTML内容?

我正在Perl中编写一个搜寻器,它必须提取驻留在同一服务器上的网页的内容。 我目前正在使用HTML :: Extract模块来完成这项工作,但是我发现该模块有点慢,因此我查看了其源代码,发现它没有对LWP :: UserAgent使用任何连接缓存。 我的最后一招是获取HTML::Extract的源

html perl html-content-extraction
可以解析HTML文档并构建DOM树(java)

是否可能以及可以使用哪些工具将html文档解析为字符串或文件,然后构造DOM树,以便开发人员可以通过一些API遍历该树。 例如: 注意:这是HTML文档,而不是XHtml。

java html dom parsing html-content-extraction
提取给定区域中的html元素?

给定一个由矩形和URL定义的区域,是否有任何方法可以确定哪些元素位于页面上给定URL的给定矩形内 编辑:屏幕分辨率,字体大小等。都可以设置为合理的默认值。

html url screen-scraping html-content-extraction layout-extraction
BeautifulSoup抓取可见网页文本

基本上,我想使用BeautifulSoup来严格抓取网页上的可见文本 。 例如, 此网页是我的测试用例。 我主要想获取正文文本 文章 ,甚至在这里和那里获得一些标签名称。 我尝试了这个SO问题中的建议,该建议返回很多我不想要的 lt script gt 标记和html注释。 我无法弄清楚函数fin

python text beautifulsoup html-content-extraction
如何使用其他网站内容自动更新网站?

如何用经常刷新的其他网站内容更新网站 可能在一分钟内两次

html-content-extraction