screen-scraping


用于HTML解析的Python正则表达式(BeautifulSoup)

我想在HTML中获取隐藏输入字段的值。 我想在Python中编写一个正则表达式,它将返回fooId的值,因为我知道HTML中的行遵循格式 有人可以在Python中提供一个示例来解析HTML的值吗

python regex screen-scraping
将HTML表保存到数据库

我试图刮一个html表并将其数据保存在数据库中。 您发现哪些策略 解决方案有助于您实施此计划。 我对Java和PHP最熟悉,但实际上任何语言的解决方案都会有所帮助。 编辑:有关更多详细信息,UTA 盐湖城巴士系统 在其网站上提供巴士时刻表。 每个计划都显示在一个表格中,该表格中包含标题中的工作站和

html screen-scraping
在Ruby中解析网页的最佳方法是什么?

我一直在寻找rubyforge上的XML和HTML库,这是一种从网页中提取数据的简单方法。 例如,如果我想在stackoverflow上解析用户页面,我该如何将数据转换为可用的格式 假设我想解析自己的用户页面以获取我当前的信誉评分和徽章列表。 我试图将从我的用户页面检索到的源转换为xml,但由于缺

html xml ruby screen-scraping
什么是阻止屏幕抓取工具从我的网站上抓取特定内容的好方法?

很确定这个问题对于大多数Web . 支持者来说都是亵渎神灵,但我确实认为有时候你可能不希望你的网站碎片很容易被扯到别人的网络聚合器中。 至少足够他们如果他们真的想要的话,他们需要被手工制作。 我的想法是创建一个脚本,按照它们在各自段落中正常出现的顺序,按绝对坐标定位文本节点,然后在DOM中以随机,

screen-scraping
PHP CSS选择器库? [关闭]

是否有PHP类 库允许我使用CSS选择器查询XHTML文档 如果我能以某种方式使用CSS选择器 jQuery已经破坏了我 ,我需要抓取一些页面以获取非常容易访问的数据。 有任何想法吗

php screen-scraping css-selectors
防止屏幕刮擦[关闭]

关于屏幕抓取的合法性的问题,即使是非法的人仍然会尝试,所以: 可以采用哪些技术机制来防止或至少抑制屏幕抓取 哦,只是为了咧嘴笑,让生活变得困难,保留搜索引擎的访问权限可能会很好。 我很可能在这里扮演魔鬼的拥护者,但有一个严重的基础点。

screen-scraping
使用PHP和XPath进行屏幕刮擦

有没有人知道如何在使用XPath提取数据时保持文本格式 我目前正在提取所有块 lt div class info gt lt h gt title lt h gt text lt a href somelink gt anchor lt a gt lt div gt 从一页。 问题是当我访问nod

php xpath screen-scraping
如何从HTML文件中提取所需数据?

这是我的HTML: 这是我的Python代码,使用Beautiful Soup: 我从HTML中获取了正确的head list ,但detail list不起作用。 我想要这样的东西 任何帮助都会很明显。 提前致谢。

python screen-scraping beautifulsoup
抓取网页内容

我正在开发一个项目,为此,我想在后台抓取网站的内容并从抓取的网站中获取一些有限的内容。 例如,在我的页面中,我具有 用户名 和 密码 字段,通过使用这些字段,我将访问我的邮件并抓取我的收件箱内容,并将其显示在我的页面中。 我通过单独使用javascript完成了上述操作。 但是,当我单击登录按钮时

php curl web-scraping httprequest screen-scraping
如何阻止Web抓取而不阻止行为良好的机器人?

我正在建立一个包含大型产品数据库的电子商务网站。 当然,当Goggle将网站的所有产品编入索引时,这很好。 但是,如果某些竞争对手希望Web Scrap网站,并获取所有图像和产品说明怎么办 我观察到一些网站上有相似的产品列表,并且它们放置了一个验证码,因此 只有人类 才能阅读产品列表。 缺点是..

security seo screen-scraping bots