Perl帮MM轻松搞定Excel数据

唐伯虎 发表于 2021-6-24 13:28:54

　　某日，与公司海外推广部MM聊天。MM在与我一边聊天的同时，还一边处理着手头上的工作。于是，我好奇的问了一下MM的工作情况。她告诉我她现在正在处理一个excel文件，此文件中密密麻麻的记录着一些信息。有一列中完全是公司某一网站的的url,类似于这样

　　她说，她要逐个点击其中的url地址，并在IE中查看该url中下面项的值

　　当Wholesale price （如上图）所在行的us$后面值大于20时，就将该url记录下来（MM的本意是只要Wholesale price 后面的us$后面的值大于20时,即将该行标注成红色，这里稍微修改一下）。起初，MM是click one by one,该文件中此类的url不下100个，MM手都点酸了，眼也看花了，终于把工作做完了。之后，我说，你就是这样天天工作的呀，不烦才怪呢，效率不高不说，而且容易出错。好了吧，GG我帮你写个程序，这样的工作怎么能由MM的纤纤玉手亲自来做呢，一切交给电脑来处理吧。
　　要用perl来处理这个问题，需要用到两个module,一个是LWP::Simple，另一个则是Spreadsheet::ParseExcel，初次不知道怎么用的，请perldoc modulename.
　　这里附上perl 代码
#!/usr/bin/perl -wuse strict; use LWP::Simple; use Spreadsheet::ParseExcel;my @array;my $parser = Spreadsheet::ParseExcel->new(); my $workbook = $parser->parse('第二期统计.xls');if ( !defined $workbook ) { die $parser->error(),".\n"; }for my $worksheet ( $workbook->worksheets() ) { my ( $row_min,$row_max ) = $worksheet->row_range(); #本来下面一句应该是这样写的#for my $row ( $row_min..$row_max ),之所以换成2，是因为想过滤掉第一行中的那几个中文字符，哈哈 for my $row ( 2..$row_max ) { #下面一句换成1的目的是为了与第二列数据相匹配 my $cell = $worksheet->get_cell( $row,1 ); next unless $cell; my $tmp_url = $cell->value(); push @array,$tmp_url; }}for my $url ( @array ) { my $content = get $url or die "can't get $url\n"; print $url,"\n"; if ( $content =~ /wholesale_price/ ) { $content =~ m{<\S+\s+\w+="\S+"\s+\w+="\S+">US\$\s+(\d+.\d+)</\w+>}; open RES,'>>','results.txt' or die "$!\n"; if ( $1 > 20 ) { print "$url\n"; print RES "$url\n"; } close RES; }}
结果在results.txt中# cat results.txthttp://www.wholesale-dress.net/lapel-long-sleeve-single-button-front-suit-light-grey-g1158909.html http://www.wholesale-dress.net/korea-style-zipped-stand-collar-jacket-khaki-g1228884.html

页: [1]

CodeAE代码之家-专为程序员打造的技术家园！-网站地图

Perl帮MM轻松搞定Excel数据